728x90
반응형

자연어처리 5

자연어 처리에서의 용어

원서 논문을 읽다보니까 해석해도 제대로 되는 것이 없어서 여러 가지를 참고해서 사전을 만들기로 맘먹었다. 중요한 내용은 링크를 걸어 추가 설명을 덧붙이겠다. Ctrl+F로 영문 또는 국문으로 찾아보자 pre-process -> 전처리 supervised learning -> 지도 학습 unsupervised learning -> 비지도 학습 Semantic -> 의미적~~ Syntactic -> 문법적~~ Word Anology -> 단어 유추 Prediction -> 예측 ++예측과 유추가 비슷해보이긴 한다. binary classification -> 이진 분류 이거 아님 저거 2가지로 분류하는 방식이다. Dimension reduction -> 차원 축소 Term-Documnet Matrix -> ..

Word2Vec, Word to vector, 워드투벡터란?

엄청나게 유용하면서도 별로인 W2V에 대해서 알아보도록 합시다. 영어를 왜 중간에 많이 넣었냐면.. 실무에선 영어쓰니까..? 우리가 강대국이었으면.. 한글자료가 훨 많았을텐데 흐규흐규 출처: Efficient Estimation of Word Representations in Vector Space(Tomas Mikolov Kai Chen Greg Corrado Jeffrey Dean ) wikidocs.net/22660 이분의 글도 참고해서 봅시다. 정의 Word to Vec 이라는 설명에 걸맞게 뜻도 그렇다. 단어를 바로 벡터로 변환해준다는 이야기다. (Word to Vector) 왜?? 굳이 단어를 벡터로 바꿔야해? -> 벡터로 바꾸어야 유사도 같은 계산이 가능함(분산 표현 시 가능) 엥?? 그냥 ..

처음 배우는 딥러닝 챗봇/ 조경래

#책소개 비대면 시대를 이끄는 챗봇 기술, 한 권의 책으로 만나다! 이 책은 챗봇 엔진부터 NLP, 딥러닝, REST API, 카카오톡 연동에 이르기까지 챗봇에 필요한 기술을 한 권으로 만나볼 수 있는 챗봇 개발 입문서이다. 어려운 개념은 직관적인 그림과 도식을 활용해서 설명했으며, 책에서 담고자 하는 수준에서 벗어나는 개념은 과감하게 생략하여 기본에 더 충실했다. 또한 챗봇을 구현하는 데 필요한 개념과 코드를 개발 순서대로 학습하고 카카오톡, 네이버 챗봇을 만들어봄으로써 실무 적용의 ‘감’까지 익힐 수 있다. 비대면 시대 챗봇 엔진, API 개발을 준비하는 개발자라면 이 책으로 시작해보자 라고 알라딘 책소개가 말한다. 저기 위에 파랗게 된 문장이 우리가 책을 읽어야 하는 이유다. 솔직히 각각은 따로 배..

리뷰/비문학 2020.12.11

[문서 유사도] 코사인 유사도 판단

https://euriion.com/?p=548 Cosine Similarity - 코사인 유사도 - TOTAL DATA SCIENCE 삼각함수와 선형대수학에 대한 기본적인 배경지식이 있다면 코사인 유사도는 매우 쉽습니다. 아닌 경우에는 개념을 잡는 것이 어려울 수 있습니다. 이 글에 대해서 이 글은 조금 쉽게 풀어서 � euriion.com 위를 참고했다. 우선 나는 엑셀로 파일을 받아서 각 문서의 유사도를 알아보려고 했다. 1. 문서는 row마다 다르다. 2. 문서의 사이즈는 195개이다. 3. 문서의 column 중 유사도를 판단할 수 없는 것은 뺀다. 4. 문서는 한글로 되어있어 Konlpy를 쓴다. 5. 코사인 유사도를 사용해서 구해본다. 대충 위의 생각을 가지고 접근해보았다. 위와 같은 라이브..

[NLP]자연어 처리 word2vec 개념 쉽게 정리

youtu.be/sY4YyacSsLc 이것을 보는 것도 좋겠다. 이 글의 목적은 정확한 개념을 아는 것이고 쉽게 아는 것이다. Abstraction이랄까. 모든 것을 버리고 중요한 것만 남겨보자 물론 나도 공부 중이라 정확하지 않을 수 있다. **나오는 용어들 Encoding Embedding Similarity 자연어 처리에서 왜 word2vec이 쓰이는가??? 자연어 처리라는 것에 대해 간단히 말하고 넘어가자면 "사람들이 말하는 말"을 자연어라고 한다. 그렇다면 처리는 왜하느냐?? 흔히 컴퓨터라고 하는 기계는 사람말을 못알아먹는다. 그래서 알아들을 수 있게 처리하는 것이다. ** 여기서 그럼 자연어를 컴퓨터가 알아들을 수 있게 숫자로 표현하려고 하는 방법을 뭐라할까? Encoding이라고 한다. 그래..

728x90
반응형