데이터 사이언스(Data Science)/자연어 처리 ,NLP

[문서 유사도] 코사인 유사도 판단

게임이 더 좋아 2020. 8. 20. 14:51
반응형
728x170

https://euriion.com/?p=548

 

Cosine Similarity - 코사인 유사도 - TOTAL DATA SCIENCE

삼각함수와 선형대수학에 대한 기본적인 배경지식이 있다면 코사인 유사도는 매우 쉽습니다.  아닌 경우에는 개념을 잡는 것이 어려울 수 있습니다. 이 글에 대해서 이 글은 조금 쉽게 풀어서 �

euriion.com

위를 참고했다.

 


우선 나는 엑셀로 파일을 받아서 각 문서의 유사도를 알아보려고 했다.

 

1. 문서는 row마다 다르다. 

2. 문서의 사이즈는 195개이다.

3. 문서의 column 중 유사도를 판단할 수 없는 것은 뺀다.

4. 문서는 한글로 되어있어 Konlpy를 쓴다. 

5. 코사인 유사도를 사용해서 구해본다.

 

 


대충 위의 생각을 가지고 접근해보았다.

 

 

위와 같은 라이브러리를 사용했다.

 

전처리를 위함

 

이렇게 한글을 우선 뽑아냈다.

 

 

뽑아낸 한글을 불용어 처리 및 형태소 분석 후 다시 정리했다.

 

나는 코사인 유사도를 사용한다고 해서 바꿔야했다.

 

이렇게 나온다.

 

11, 22, 33, 행렬은 1이 나오는게 당연히 자기 자신이니까... 그렇게 나오더라. 근데 보니까 거의 비슷한 것들이 거의 없다.

 

제일 높은게 0.7정도???

 

아무튼 이렇게 한 번 비교해보았다.

728x90
반응형
그리드형