이제 4단계인 데이터 융합을 머신러닝,,을 어떻게 할까를 알아보자
또 정의부터 알아봐야겠다
++
A data source is the location where data that is being used originates from.
여러가지 정보들과 사실들의 충돌을 해결하는 것이란다.
미시시피 강의 길이가 얼마나 되냐고 물으면 각 페이지마다 정보가 다른 것처럼 충돌이 일어날 것이다.
그니까 그림으로 설명하자면
팩트는 하나고 정보의 출처나 종류는 다양하다.
충돌이 생길 수 밖에 없다.
목표는 잠재된 진짜 사실을 찾아내는 것이다.
사실 판별을 위해서 redundancy를 이용한다고 한다.
중복이라고 생각하면 되겠다. 겹치는 정보일수록 사실이라고 판단한다는 얘기다.
++
Data redundancy is a condition created within a database or data storage technology in which the same piece of data is held in two separate places.
만약 대부분의 경우를 맞다고 생각할 수 있지만
모두가 틀린 소스에서 데이터를 가져왔으면 어쩌지???
그래서 가정이 필요하다.
1.원천은 독립적으로 값을 제공한다( 독자적으로 판단한 값을 제공한다는 것이겠죠. 이 정보 출처가 다른 원천이지 않게)
2.원천에서 뽑아낸 값이 그래도 믿을만하다.
그렇다면 무엇이 방해하는가?
데이터 융합 모델을 만드는데에 얼마나 많은 자료들이 필요한가?
(엄청난 정답 데이터가 필요하다는 것이다)
모델에 들어가는 매개변수에는 자료원천의 에러율이 가중치로 들어갈 수 있겠다.
** 자료원천은 엄청나게 많을 것이고, 학습 자료는 제한되어있다는 한계에 도달...
그래서 비지도 학습과 레버리지 중복으로 해결하고자 한다.
또 방해하는게 뭐가 있을까??
1.비구조적인 자료에 대해서는 그렇게 솔루션이 그렇게 많지는 않다. 사실 검증이 필요하다.
최신의 딥러닝 기술이 적용가능할까?
2. 학습자료를 사용하는 것이 중요하고 반지도 학습이 상당히 데이터 융합의 질을 향상시킬 수 있다.
어떻게 하면 manual anntation 없이 트레이닝 데이터를 효율적으로 모을 수 있을까?
3. representation learning에 관한 글입니다.
https://ratsgo.github.io/deep%20learning/2017/04/25/representationlearning/
딥뉴럴네트워크가 높은 성능을 내는 배경에는 복잡한 데이터 공간을 선형 분류가 가능할 정도로 단순화해 표현하기 때문이라는 이론이란다.
그렇다면 또 해결법이 있다.
원천에 대해서 검증해보는 방법이 있다.
반지도 학습이 BIG potential 을 보여준단다
Representation learning이 데이터 융합 모델을 구성하는데 도움이 된단다.
지금까지 4가지 단계에 대해서 살짝 보았다.
다음엔 겉으로 훑어보기보단 더 자세히 한 번 더 복습 ㄱㄱ
'데이터 사이언스(Data Science) > 머신러닝,Machine Learning, 기계학습' 카테고리의 다른 글
[머신러닝] 패턴인식( pattern recognition) - 1 (0) | 2020.08.18 |
---|---|
[ML & DI] 머신러닝을 위한 데이터융합-5 (0) | 2020.08.12 |
[ML & DI] 데이터 융합을 위한 머신러닝-3 (0) | 2020.08.11 |
[ML & DI] 데이터 융합을 위한 머신러닝-2 (0) | 2020.08.11 |
[ML & DI] 데이터 융합을 위한 머신러닝-1 (0) | 2020.08.11 |