저번 글에서는 Entitiy Linkage를 봤으니 이번엔
Data Extraction을 볼 차례이다.
또 정의부터 살펴보자
반구조화된 정보, Raw한 정보로부터 구조화된 정보(엔티티, 속성, 값)을 추출해내는 것이다.
데이터 추출방법에는 3가지 정도가 있다.
● Closed-world extraction
align to existing entities and attributes;
e.g.,
(ID_Obama, place_of_birth, ID_USA)
● ClosedIE
align to existing attributes, but extract new entities
e.g.,
(“Xin Luna Dong”, place_of_birth, “China”)
● OpenIE
not limited by existing entities or attributes
e.g.,
(“Xin Luna Dong”, “was born in”, “China”),
(“Luna”, “is originally from”, “China”)
나도 아직 데이터 추출에 대해서 잘 모르겠다. 살짝 맛보자
텍스트가 주어진다면..?
텍스트 안에서 엔티티를 끄집어 낸다.
그러한 엔티티를 Linking한다.
즉 텍스트 안에있는 phrase(문구)를 reference list에 있는 엔티티와 연결한다.
(주어진 데이터와 reference list와의 연결)
엔티티 간의 관계도 추출할 수 있다.
Bill Gates는 Microsoft의 Founder 이다.
그렇다면 머신러닝으로 데이터 추출이 가능할까?
그렇다.
또 3가지 방법이 있다.
1. 레퍼
2. Distant supervision이란??
가장 가까운 뜻을 찾아보았다.
밑에 링크를 참고해도 좋다.
http://kiise.or.kr/e_journal/2016/6/JOK/pdf/06.pdf
3. LR(Likelihood ratio) 우도비라고 한단다. 아직 잘 모르겠다. ㅎㅎ
자세한 머신러닝 방법은 나중에 보충
'데이터 사이언스(Data Science) > 머신러닝,Machine Learning, 기계학습' 카테고리의 다른 글
[ML & DI] 데이터 융합을 위한 머신러닝-4 (0) | 2020.08.12 |
---|---|
[ML & DI] 데이터 융합을 위한 머신러닝-3 (0) | 2020.08.11 |
[ML & DI] 데이터 융합을 위한 머신러닝-1 (0) | 2020.08.11 |
[Machine Learning] 머신러닝에서 키포인트 (0) | 2020.08.10 |
[Machine Learning] 머신러닝이란? , ML (0) | 2020.08.10 |