반응형
728x170
Cosine Similarity - 코사인 유사도 - TOTAL DATA SCIENCE
삼각함수와 선형대수학에 대한 기본적인 배경지식이 있다면 코사인 유사도는 매우 쉽습니다. 아닌 경우에는 개념을 잡는 것이 어려울 수 있습니다. 이 글에 대해서 이 글은 조금 쉽게 풀어서 �
euriion.com
위를 참고했다.
우선 나는 엑셀로 파일을 받아서 각 문서의 유사도를 알아보려고 했다.
1. 문서는 row마다 다르다.
2. 문서의 사이즈는 195개이다.
3. 문서의 column 중 유사도를 판단할 수 없는 것은 뺀다.
4. 문서는 한글로 되어있어 Konlpy를 쓴다.
5. 코사인 유사도를 사용해서 구해본다.
대충 위의 생각을 가지고 접근해보았다.
위와 같은 라이브러리를 사용했다.
전처리를 위함
이렇게 한글을 우선 뽑아냈다.
뽑아낸 한글을 불용어 처리 및 형태소 분석 후 다시 정리했다.
나는 코사인 유사도를 사용한다고 해서 바꿔야했다.
이렇게 나온다.
11, 22, 33, 행렬은 1이 나오는게 당연히 자기 자신이니까... 그렇게 나오더라. 근데 보니까 거의 비슷한 것들이 거의 없다.
제일 높은게 0.7정도???
아무튼 이렇게 한 번 비교해보았다.
728x90
반응형
그리드형
'데이터 사이언스(Data Science) > 자연어 처리 ,NLP' 카테고리의 다른 글
자연어 처리에서의 용어 (0) | 2021.01.07 |
---|---|
Sequence to Sequence (S2S) 시퀀스 투 시퀀스란? (0) | 2021.01.07 |
딥러닝 챗봇 만들기 - 2 (파이썬 IDE, 개발환경만들기) (0) | 2020.12.19 |
딥러닝 챗봇 만들기 - 1(챗봇의 정의, 이해) (0) | 2020.12.18 |
Word2Vec, Word to vector, 워드투벡터란? (0) | 2020.12.18 |