데이터 사이언스(Data Science)/머신러닝,Machine Learning, 기계학습

[ML & DI] 데이터 융합을 위한 머신러닝-1

게임이 더 좋아 2020. 8. 11. 12:48
반응형
728x170

이 글을 읽고 오자

이 글도 

 

 


 

이전의 글에서 이어서 설명하는 것이다.

 

데이터 융합은 4단계가 있다고 했다.

● Entity linkage: linking records to entities; indispensable when different sources exist
● Data extraction: extracting structured data; important when non-relational data exist
● Data fusion: resolving conflicts; necessary in presence of erroneous data
● Schema alignment: aligning types and attributes; helpful when different relational schemas exist

 

 

1. 엔티티 연결: 자료 원천이 다르면 해야만 하는 것

2. 자료 추출: 비-관계형 데이터가 있을 땐, 구조화된 데이터를 뽑아내는 것이 중요하다

3. 데이터 융합: 잘못된 데이터로 인한 데이터 충돌 시 해결하는 것

4. 스키마 정렬: 타입이나 속성들을 다른 관계형 스키마끼리 있을 때 정렬하는 것

 

으로 해석할 수 있겠다. 태클은 환영 ㅎ

 

 


Which ML Model Works Best?

어떤 머신러닝 모델이 데이터 융합에 적합할까?

 

 

그건 때에 따라 다르겠지?

 

 


Does Supervised Learning Apply to DI?

데이터 융합에 지도방식을 적용하면 ??

 

 

● Supervised learning has made a big splash recently in many fields

지도 방식이 많이 쓰이고 있다.
● However, it is hard to bluntly apply supervised learning to DI tasks

하지만 바로 지도방식을 데이터 융합에 쓰기엔 무리가 있다.


    ○ Our goal is to integrate data from many different data sources in different domains 
    ○ The different sources present different data features and distributions
    ○ Collecting training labels for each source is a huge cost

 

3가지 정도를 이유로 들을 수 있다.

 

1. 다른 도메인의 다른 자료 원천에서 데이터를 융합해야한다.

2. 자료원천이 다르다는 것은data feature도 다르고 distribution도 다름을 의미한다.

3. 정답 데이터를 구성하는 것조차 자료 원천마다 막대한 비용이 든다.

*label을 정답이라고 언급했다.

 

 


What is Entity Linkage?

 

 

이 또한 앞서 글에서 설명했지만 짧게만 설명했기에 한 번 더 설명해보자

 

 

정의는 너무 재미없다.

 

 

같을까????

 

같겠지 real-world와 correspond하니까?

 

좀 더 자세히 설명해보자면

 

Blocking을 통해 비슷한 레코드끼리 그룹(블록)을 만든다.

 

이제 짝(pair)을 짓는거다.

++블럭은 같지만 C1, C2는 짝으로 존재하지만 D는 짝이 없다.

 

짝을 지었으면 그대로 군집(cluster)이 생성이 되는 것이다.

 

 

요약하자면...  아 못하겠다.

 

아무튼 그건 그렇다 치고

 

Enable linking different types of entities

서로 타입이 다른 엔티티일 경우 어떻게 연결을 시킬 것이냐...??


EL : Entity Linking

 


 

 

머신러닝으로 EL을 하려면 어떻게 해야할까??

 

 

 

위의 문제를 요약하자면,

즉 머신러닝으로 Entity Linkage를 하고 싶다면

 

 

 

3가지 답이 있겠다.

 

1번 답은 조금 더 알아봐야할 것 같고

2번은 딥러닝으로 텍스트와 노이즈(불필요한 것들)을 걸러낸다는 것이고

3번은 나도 잘 모르겠다.

 

 "End-to-end suppliers generally handle all of a system's hardware and software, including installation, implementation, and maintenance. An end-to-end solution might cover everything from the client interface to data storage."

 

가장 가까울 것 같은 뜻을 가져와봤다.

728x90
반응형
그리드형