데이터 사이언스(Data Science)/데이터 분석, 자료분석(Data)

[Data Integration] 데이터 융합이란?(Data Integration)

게임이 더 좋아 2020. 8. 10. 13:43
반응형
728x170

파일을 바탕으로 데이터 융합 튜토리얼 진행을 해보겠다.

 

 


 

데이터 융합이 무엇이냐??

 

 

 

 

우선 데이터 융합이라고도 하는 Data Integration 이다.

 

다양하고 자율적인 자료뭉치 속에서 통합적인 데이터 접근을 제공하는 것이라고 한다.

 

우리가 궁극적으로 목표하는 바는

다른 영역의 자료들로 가치있는 데이터를 생성하는 데 목적이 있다고 보면 되겠다.

 

글에는 2가지 예시가 나온다.

 

1. Data Warehouse

2. Virtual Intergration

 

 

1. 데이터 웨어하우스란 아마존의 설명 을 보자면 

"정보에 입각한 의사 결정을 내릴 수 있도록 분석 가능한 정보의 중앙 리포지토리" 라고 하는데

 

나는 이 말을

//정보 자체는 (RAW)한 파일은 분석에 당장 쓸 수 없다. 즉 쓰려면 전처리를 해야하는데

데이터 웨어하우스에 들어있는 정보들은 바로바로 분석 가능한 정보들이 저장되어있는 저장소라고 해석했다.//

 

또한 이러한 역할도 한다.

"데이터를 효율적으로 저장하여 보고서, 대시보드 및 분석 도구를 강화함으로써 데이터의 입출력(I/O)을 최소화하고 수백 수천 명의 사용자에게 동시에 신속하게 쿼리 결과를 제공"

 

즉 여기서도 다양한 정보들이 저장되어 있어서  다른 영역들의 정보 간의 융합이 용이하게 할 수 있다.

 

 

2. 버츄얼 통합이란 ..내가 잘 찾을 수 없었다.

댓글로 알려주면 감사하겠습니당.

 

 

RDF에서는?? 

 

1. Knowledge graph

2. Linked data

 

**우선 RDF란 

Resource Description Framework 의 약자로 

임의의 데이터에 대하여 메타 정보를 표시하는 방법을 정의한 기술이라고 한다. 

+메타 정보란 데이터에 대한 설명이라고 볼 수 있겠다.

(문서에 대학 Knowledge, 또는 Semantic이라고 표현되기도 한다.)

 

1,2에 대해서는 

문서에 간략히 설명이 되어있다.

 


왜 데이터 융합이 어렵냐???

 

4가지 어려움이 있다.

 

 

역시나 동일 소스에서 데이터를 뽑은 것이 아니기 때문에

데이터를 서로 융합하기 어려운 포맷을 가지고 있다.

 

웹테이블, 텍스트, 다이어그램 등등

 

** 하지만 이종의 데이터이기 때문에 의미있는 일이라고 볼 수 있다.

 

 

다음 어려움으로는 

 

 

같은 의미지만, 다른 표현

 

date of birth == Born 

 

"True" 지만  컴퓨터는 알아먹게끔 해놔야 알아듣는다는 거 ㅎㅎ

 

 

다음 어려움

 

똑같은 정보를 다르게 reference(참조)해놓음..

 

홍 길동 이나 길동이나 우린 같다고 생각하지만

각자의 소스가 다르고 포맷도 달라서 표기하는 방식 또한 달라짐.

 

 

 

마지막 어려움

 

 

충돌이다.

 

같은 값을 가지고 있어야 하지만 다르다.

그렇다면 어떤 값을 채택할 것인가..? 

 

내가 잠깐 생각해보자면

 

1. 데이터 소스의 신뢰도 순위

2. 데이터 빈도 순위

 

정도로 정보의 충돌을 해결할 수 있을 것 같다.

 

 

 

// 데이터 융합은 저 4단계를 해줘야 함에 있어서 어려움을 가지고 있다.//

 

1. 데이터 추출

2. 스키마 정렬

3. 엔티티 연결

4. 데이터 융합

 

 

** 엔티티 연결이란 살짝 말하자면

자연어 처리 과정에서  named-entity linking (NEL), named-entity disambiguation (NED), named-entity recognition and disambiguation (NERD) or named-entity normalization (NEN) 로도 불린다.

엔티티에다 개별성을 부여하는 것이라고 보면 된다.

예를 들어서 

"Paris is the capital of France", the idea is to determine that "Paris" refers to the city of Paris and not to Paris Hilton or any other entity that could be referred to as "Paris".

 

여기서 Paris는 패리스 힐튼의 Paris가 아닌 프랑스 파리를 의미하게 되는 것이다. 

 


실무자 관점에서 본 중요성을 보자면

 

1. 엔티티 연결은 필수적으로 수행되어야 한다.

2. 여러 소스에서 이종의 데이터를 추출하는 것이 중요하다.

3. 잘못된 자료가 있는 곳에 데이터 융합이 필요하다.(?????)

4. 스키마 정렬은 관계형 데이터를 통합할 땐 유용하지만 여러 소스를 통합할 경우 적합하지 않다.

 

3번은 나도 모르겠다..? 

// 데이터 융합을 하면서 여러 소스의 자료들을 통합하는 과정에서 ML 같은 것으로 교정할 수 있다는 것 같다.//

 

 


 

반응형
그리드형