반응형
728x170
위를 참고했다.
우선 나는 엑셀로 파일을 받아서 각 문서의 유사도를 알아보려고 했다.
1. 문서는 row마다 다르다.
2. 문서의 사이즈는 195개이다.
3. 문서의 column 중 유사도를 판단할 수 없는 것은 뺀다.
4. 문서는 한글로 되어있어 Konlpy를 쓴다.
5. 코사인 유사도를 사용해서 구해본다.
대충 위의 생각을 가지고 접근해보았다.
위와 같은 라이브러리를 사용했다.
전처리를 위함
이렇게 한글을 우선 뽑아냈다.
뽑아낸 한글을 불용어 처리 및 형태소 분석 후 다시 정리했다.
나는 코사인 유사도를 사용한다고 해서 바꿔야했다.
이렇게 나온다.
11, 22, 33, 행렬은 1이 나오는게 당연히 자기 자신이니까... 그렇게 나오더라. 근데 보니까 거의 비슷한 것들이 거의 없다.
제일 높은게 0.7정도???
아무튼 이렇게 한 번 비교해보았다.
728x90
반응형
그리드형
'데이터 사이언스(Data Science) > 자연어 처리 ,NLP' 카테고리의 다른 글
자연어 처리에서의 용어 (0) | 2021.01.07 |
---|---|
Sequence to Sequence (S2S) 시퀀스 투 시퀀스란? (0) | 2021.01.07 |
딥러닝 챗봇 만들기 - 2 (파이썬 IDE, 개발환경만들기) (0) | 2020.12.19 |
딥러닝 챗봇 만들기 - 1(챗봇의 정의, 이해) (0) | 2020.12.18 |
Word2Vec, Word to vector, 워드투벡터란? (0) | 2020.12.18 |