이 글을 읽고 오자
이 글도
이전의 글에서 이어서 설명하는 것이다.
데이터 융합은 4단계가 있다고 했다.
● Entity linkage: linking records to entities; indispensable when different sources exist
● Data extraction: extracting structured data; important when non-relational data exist
● Data fusion: resolving conflicts; necessary in presence of erroneous data
● Schema alignment: aligning types and attributes; helpful when different relational schemas exist
1. 엔티티 연결: 자료 원천이 다르면 해야만 하는 것
2. 자료 추출: 비-관계형 데이터가 있을 땐, 구조화된 데이터를 뽑아내는 것이 중요하다
3. 데이터 융합: 잘못된 데이터로 인한 데이터 충돌 시 해결하는 것
4. 스키마 정렬: 타입이나 속성들을 다른 관계형 스키마끼리 있을 때 정렬하는 것
으로 해석할 수 있겠다. 태클은 환영 ㅎ
Which ML Model Works Best?
어떤 머신러닝 모델이 데이터 융합에 적합할까?
그건 때에 따라 다르겠지?
Does Supervised Learning Apply to DI?
데이터 융합에 지도방식을 적용하면 ??
● Supervised learning has made a big splash recently in many fields
지도 방식이 많이 쓰이고 있다.
● However, it is hard to bluntly apply supervised learning to DI tasks
하지만 바로 지도방식을 데이터 융합에 쓰기엔 무리가 있다.
○ Our goal is to integrate data from many different data sources in different domains
○ The different sources present different data features and distributions
○ Collecting training labels for each source is a huge cost
3가지 정도를 이유로 들을 수 있다.
1. 다른 도메인의 다른 자료 원천에서 데이터를 융합해야한다.
2. 자료원천이 다르다는 것은data feature도 다르고 distribution도 다름을 의미한다.
3. 정답 데이터를 구성하는 것조차 자료 원천마다 막대한 비용이 든다.
*label을 정답이라고 언급했다.
What is Entity Linkage?
이 또한 앞서 글에서 설명했지만 짧게만 설명했기에 한 번 더 설명해보자
정의는 너무 재미없다.
같을까????
같겠지 real-world와 correspond하니까?
좀 더 자세히 설명해보자면
Blocking을 통해 비슷한 레코드끼리 그룹(블록)을 만든다.
이제 짝(pair)을 짓는거다.
++블럭은 같지만 C1, C2는 짝으로 존재하지만 D는 짝이 없다.
짝을 지었으면 그대로 군집(cluster)이 생성이 되는 것이다.
요약하자면... 아 못하겠다.
아무튼 그건 그렇다 치고
Enable linking different types of entities
서로 타입이 다른 엔티티일 경우 어떻게 연결을 시킬 것이냐...??
EL : Entity Linking
머신러닝으로 EL을 하려면 어떻게 해야할까??
위의 문제를 요약하자면,
즉 머신러닝으로 Entity Linkage를 하고 싶다면
3가지 답이 있겠다.
1번 답은 조금 더 알아봐야할 것 같고
2번은 딥러닝으로 텍스트와 노이즈(불필요한 것들)을 걸러낸다는 것이고
3번은 나도 잘 모르겠다.
"End-to-end suppliers generally handle all of a system's hardware and software, including installation, implementation, and maintenance. An end-to-end solution might cover everything from the client interface to data storage."
가장 가까울 것 같은 뜻을 가져와봤다.
'데이터 사이언스(Data Science) > 머신러닝,Machine Learning, 기계학습' 카테고리의 다른 글
[ML & DI] 데이터 융합을 위한 머신러닝-3 (0) | 2020.08.11 |
---|---|
[ML & DI] 데이터 융합을 위한 머신러닝-2 (0) | 2020.08.11 |
[Machine Learning] 머신러닝에서 키포인트 (0) | 2020.08.10 |
[Machine Learning] 머신러닝이란? , ML (0) | 2020.08.10 |
[Dialogflow] 메뉴 주문 챗봇 , 간단하게 챗봇 만들기 (0) | 2020.08.04 |