데이터 사이언스(Data Science)/머신러닝,Machine Learning, 기계학습

[ML & DI] 데이터 융합을 위한 머신러닝-2

게임이 더 좋아 2020. 8. 11. 13:35
반응형
728x170

저번 글에서는 Entitiy Linkage를 봤으니 이번엔

 

Data Extraction을 볼 차례이다.

 


또 정의부터 살펴보자

 

반구조화된 정보, Raw한 정보로부터 구조화된 정보(엔티티, 속성, 값)을 추출해내는 것이다.

 

 

데이터 추출방법에는 3가지 정도가 있다.

 


● Closed-world extraction

align to existing entities and attributes;

 

e.g.,

(ID_Obama, place_of_birth, ID_USA)


● ClosedIE

align to existing attributes, but extract new entities

 

e.g., 
(“Xin Luna Dong”, place_of_birth, “China”)


● OpenIE

not limited by existing entities or attributes

 

e.g., 
(“Xin Luna Dong”, “was born in”, “China”),
(“Luna”, “is originally from”, “China”)

 

 

 

나도 아직 데이터 추출에 대해서 잘 모르겠다. 살짝 맛보자

 

텍스트가 주어진다면..?

 

 

텍스트 안에서 엔티티를 끄집어 낸다.

 

 

그러한 엔티티를 Linking한다. 

즉 텍스트 안에있는 phrase(문구)를 reference list에 있는 엔티티와 연결한다. 

(주어진 데이터와 reference list와의 연결)

엔티티 간의 관계도 추출할 수 있다.

Bill Gates는 Microsoft의 Founder 이다.

 


그렇다면 머신러닝으로 데이터 추출이 가능할까?

 

그렇다.

 

또 3가지 방법이 있다.

 

1. 레퍼

2. Distant supervision이란??

가장 가까운 뜻을 찾아보았다.

밑에 링크를 참고해도 좋다.

 

http://kiise.or.kr/e_journal/2016/6/JOK/pdf/06.pdf

3. LR(Likelihood ratio) 우도비라고 한단다. 아직 잘 모르겠다. ㅎㅎ

 

 

자세한 머신러닝 방법은 나중에 보충

728x90
반응형
그리드형