[문서 유사도] 코사인 유사도 판단

데이터 사이언스(Data Science)/자연어 처리 ,NLP

게임이 더 좋아 2020. 8. 20. 14:51

728x170

Cosine Similarity - 코사인 유사도 - TOTAL DATA SCIENCE

삼각함수와 선형대수학에 대한 기본적인 배경지식이 있다면 코사인 유사도는 매우 쉽습니다. 아닌 경우에는 개념을 잡는 것이 어려울 수 있습니다. 이 글에 대해서 이 글은 조금 쉽게 풀어서 �

euriion.com

위를 참고했다.

우선 나는 엑셀로 파일을 받아서 각 문서의 유사도를 알아보려고 했다.

1. 문서는 row마다 다르다.

2. 문서의 사이즈는 195개이다.

3. 문서의 column 중 유사도를 판단할 수 없는 것은 뺀다.

4. 문서는 한글로 되어있어 Konlpy를 쓴다.

5. 코사인 유사도를 사용해서 구해본다.

대충 위의 생각을 가지고 접근해보았다.

위와 같은 라이브러리를 사용했다.

전처리를 위함

이렇게 한글을 우선 뽑아냈다.

뽑아낸 한글을 불용어 처리 및 형태소 분석 후 다시 정리했다.

나는 코사인 유사도를 사용한다고 해서 바꿔야했다.

이렇게 나온다.

11, 22, 33, 행렬은 1이 나오는게 당연히 자기 자신이니까... 그렇게 나오더라. 근데 보니까 거의 비슷한 것들이 거의 없다.

제일 높은게 0.7정도???

아무튼 이렇게 한 번 비교해보았다.

728x90

그리드형

자연어 처리에서의 용어 (0)	2021.01.07
Sequence to Sequence (S2S) 시퀀스 투 시퀀스란? (0)	2021.01.07
딥러닝 챗봇 만들기 - 2 (파이썬 IDE, 개발환경만들기) (0)	2020.12.19
딥러닝 챗봇 만들기 - 1(챗봇의 정의, 이해) (0)	2020.12.18
Word2Vec, Word to vector, 워드투벡터란? (0)	2020.12.18

노는 게 제일 좋아