데이터 사이언스(Data Science)/자연어 처리 ,NLP

자연어 처리에서의 용어

게임이 더 좋아 2021. 1. 7. 22:48
반응형
728x170

원서 논문을 읽다보니까 해석해도 제대로 되는 것이 없어서

여러 가지를 참고해서 사전을 만들기로 맘먹었다. 

 

중요한 내용은 링크를 걸어 추가 설명을 덧붙이겠다.

 

Ctrl+F로 영문 또는 국문으로 찾아보자

 

 


pre-process -> 전처리

supervised learning -> 지도 학습

unsupervised learning -> 비지도 학습

Semantic -> 의미적~~

Syntactic -> 문법적~~

Word Anology -> 단어 유추

Prediction -> 예측

++예측과 유추가 비슷해보이긴 한다.

 

binary classification -> 이진 분류

이거 아님 저거 2가지로 분류하는 방식이다. 

 

Dimension reduction -> 차원 축소

Term-Documnet Matrix -> 단어-문서 행렬

Name Entity Recognition -> 개체명 인식

Part-Of-Speech tagging -> 품사판별 ( 형태소 분류) 

Semantic Role Labeling -> 의미역분석

Vector space -> 벡터 공간

Transfer learning -> 전이 학습

Converge -> 수렴

Distribution representation -> 분산표현

Sparse matrix -> 희소 행렬

TF-IDF -> Term Frequency-Inverse Document Frequency (설명 김) - 링크

ELMo -> Embeddings from Language Models (문장 수준 임베딩)

BERT -> Bidirectional Encoder Representations from Transformer(문장 수준 임베딩)

GPT -> Geverative Pre-Training(문장 수준 임베딩)

pretrain -> 사전에 임베딩 모델을 만드는 것

fine tuning 같이 fine + ~  -> 해결하려는 문제에 맞게 (임베딩 + 모델) 조정

factorization -> 행렬 분해 임베딩 기법

LDA, Latent Dirichlet Allocation - 잠재적 디리클레 할당

corpus -> 말뭉치

token -> 임베딩을 하는 최소의 단위

stastical information(pattern) ...  -> 통계적 정보,지표,패턴,유형 **일반적으로 TDM을 이용함.

(어떤 단어가 많이 출현했는가, 어떤 순서로 단어가 쓰였는가, 어떤 단어와 동시 출현했는가...) 에 따라 임베딩 방법이 달라짐.

Bag of words -> 단어의 출현 횟수 중시 ++ 위에서 '어떤 단어가 많이 출현했는가'와 같은 의미

**가정: 주제가 비슷한 문서는 단어 빈도와 단어 등장 여부가 비슷할 것이다.

즉, 많이 쓰인 단어는 주제를 가리키는 단어일 것이다.

Language model -> 단어가 쓰인 순서 중시 ++ 위에서 ' 어떤 순서로 단어가 쓰였는가' 와 같은 의미

++시퀀스라는 개념이 나온다. 주어진 단어 다음에 나오는 단어는 무엇이 올지와 같은 것을 확률로 알아낸다.

Distribution hypothesis -> 분포(분산) 가정으로 ++ 위에서 ' 어떤 단어와 동시 출현했는가' 와 같은 의미

**context를 이용한다고 본다. 

 

Distribution -> 분포(분산)란 특정 범위(window) 내에 동시에 드앙하는 단어들 또는 문맥의 집합을 말한다.

++ 비슷한 문맥에는 비슷한 단어가 등장한다라는 가정이 깔려있다.

 

NLPM, Neural Probablistic Language Model -> 단어의 순서에 관해서 임베딩하는 것이다. (시퀀스 이용)

 

Information Retrieval -> 정보 검색 (bag of words 임베딩에서 좋은 성능을 보임) 

++ 즉, 사용자가 원하는 질의(query)에 대한 문서 임베딩 간 코사인 유사도를 구해 사용자에게 노출해줌.

 

n-gram -> n개의 단어라는 뜻으로, 말뭉치(corpus) 내의 단어들을 n 개씩 묶어서 빈도를 학습했다는 뜻이다. 

++ 밑의 가정이 참이라는 것이 전제로 진행되므로 한계가 존재한다. 바로 데이터에 한 번도 등장하지 않는 N-gram이 존재한다면 예측단계에서 문제가 발생한다. 

즉, 우리는 그 문장이 맞다는 것을 알지만 등장한 적이 없는 문장이 등장할 확률을 0으로 만든다는 것이다.

 

Markov Assumption -> 마코프 가정으로 N-gram에서 쓰이는 가정이다. " 한 상태의 확률은 그 직전 상태에만 의존한다" 라는 가정이다.

 

back-off, smoothing -> N-gram을 보완하기 위한 방법으로 n보다 작은 범위의 단어 시퀀스 빈도로 근사하는 방법

 

 

uni-directional -> 일방향(일반적으로 left to right 좌에서 우) 

++나는 처음에 uni- 라길래 전체를 뜻하는 줄 알았다. 그래서 양방향 이구나! 했는데 사실 하나라는 뜻의 uni였음.

 

bi-directional -> 양방향

 

morpheme -> 형태소 즉, 말의 뜻을 가지는 최소 단위( 분산표현에서 사용됨)

 

sentiment analysis -> 감성 분석

document classification -> 문서 분류

 

agglutinative language -> 교착어라는데 한국어의 특성상 조사와 어미가 너무나 많이 바뀌기에 생기는 특징이다.

++ Lemmatize와 비슷한 느낌이 난다.(어근)

 

CNN, Convolutional Neural Network -> NN은 모두 뉴럴 네트워크라고 보면 된다. 히든레이어를 가진 모델.

 

Cohesion -> 응집이란 뜻이다. 사실 자연어처리 뿐만 아니지만 응집도이란 것은 뭉쳐있는 정도를 말한다.

++따라서 "응집도가 높으면 수정하기 힘들다"라는 느낌을 알고 갔으면 한다. 또한 모여있으므로 그 범위 안에서는 더욱 결과가 잘 나온다라고 이해해도 좋다.

 

BPE, Byte Pair Encoding -> 말뭉치에서 가장 많이 등장한 문자열을 병합해 문자열을 압축하는 것

**문자열 기반 비지도 학습임

++ 압축할 거면 가장 많이 나온 문자열을 압축하는 것이 효율이 좋겠지?

 

Encoder&Decoder -> 링크(위키독스) 

RNN을 이용했다고 한다. Sequence, 시퀀스라고 앞에서 이미 언급했다. 이와 관련된 내용이다.   

 

RNN, Recurrent Neural Network -> 자연어 처리에 주로 쓰는 인공 신경망, 순환 신경망이라고 부른다. - 관련 링크

 

 

softmax -> 소프트맥스 함수를 말한다. 요약하자면 모든 매트릭스에 대해서 합을 1로 만들어주는 역할을 한다. 정규화 비슷한 느낌 난다.

 

Lookup -> 참조, 왜 refer랑 다른 참조의 의미다.

 

inner product -> 내적 (벡터 값을 가지기에 나오는 개념이다)

 

backpropagation -> 역전파 (수학적으로 알 필요까지는 없다.)

 

train loss -> 학습 손실, 학습된 결과와 실제 결과의 차이

 

gradient -> 3차원에서의 미분(differentiate) 즉, 미소벡터라고 하면 되겠다.

 

postive sample -> 타겟 단어와 그 주변에 실제로 등장한 문맥 단어 쌍 (window 내)

negative sample -> 타겟 단어와 그 주변에 등장하지 않은 단어(random word in corpus) 쌍

네거티브 샘플링이란 것이 학습 시간을 획기적으로 줄여줄 수 있다는 것을 알고 가자

** context word와 context word가 아닌 단어 중 ~~한 알고리즘으로 선택하여 계산하는 차원을 줄여준다.

 

   Skip-gram -> 중심 단어로 주변 단어 예측

CBOW -> 주변 단어로 중심 단어 예측

FastText -> 단어 임베딩 기법

 

robust -> 학습되지 않은 데이터가 들어와도 Accuracy가 떨어지지 않을 확률이 높다. 라고 이해해도 되겠다.

 

Transformer network -> 구글에서 만든 딥러닝 아키텍쳐

 

S2S, Sequence to Sequence -> RNN기반 시퀀스 모델, 자연어 처리 - 관련 링크

 

728x90
반응형
그리드형