데이터 사이언스(Data Science)/머신러닝,Machine Learning, 기계학습

[Machine Learning] 머신러닝이란? , ML

게임이 더 좋아 2020. 8. 10. 14:52
반응형
728x170

문서를 참조해도 좋다.

 

다음엔 이 글을 봐도 좋다.

 


머신러닝이란?, ML이란? Machine Learning 이란?

 

 

Machine learning: teach computers to learn with data, not by programming

 

프로그래머가 하나부터 열까지 프로그래밍해서 결과를 도출해내는 것이 아닌

데이터를 통해 컴퓨터를 가르치는 것이라고 볼 수 있다.

 

다시 정의해 보자면 


A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P if its performance at tasks in T, as measured by P, improves with experience E.
 -- Tom Mitchell --

 

그렇단다.

 

 

실무자의 말로는

컴퓨터가 사람이 설정한 Data feature를 통해 표본 데이터 속에 존재하는 전체를 학습해 일반화 가능한 패턴을 찾아 스스로 학습하는 과정이라고도 한다.

 

 


 

머신 러닝에는 2가지 타입의 방법이 있다.

 

지도 학습, 비지도 학습: Supervised, Unsupervised가 있다.

 

 

 

++요즘에는 Semi도 있다. 반지도학습이라고도 한다.

 

 

 

지도학습에는

 

 

 

 


 

비 지도 학습에는

 

 

 

 

 

 


 

 

 

 

그것들을 표로 만들자면 이렇게 되겠다.

 

**label이란 사용자가 원하는 값이 있음을 말한다. 다시 말해서 정답이 있다. 

 

 

1. Classification(분류)

  • label이 붙어있는 output 값으로 각각의 데이터를 분류하기 위해서, Supervised-Learning을 통해서 classifier로 분류하는 과정

  • discrete한 output이 나옴 // 주어진 데이터가 어떤 클래스인지 예측하게함

++ KNN(K- Nearest Neighbor) k-최근접이웃, 결정 트리(decision tree), 퍼셉트론(perceptron), 서포트 벡터 머신(Support Vector Machine)SVM, 신경망(Neural Network)등이 있다.

 

 

2. Clustering(군집화)

  • 각각의 데이터들에 label이 붙어있지 않아도, 이들의 특성을 판단하여 알고리즘이 스스로 그들을 군집화 시키는 과정

  • Continuous한 output을 가진다. // 주어진 데이터의 경향성을 파악해 함수를 예측한다.

++ K-means가 유명하다

 

 

 

 

3. Regression(회귀)

  • 데이터로부터 숫자를 예측하는 과정이라고 볼 수 있다.

  • 위의 그림을 보면 회귀 직선을 그어 다음 값을 예측할 수 있다. 

++ 데이터와의 오차합이 가장 작은 직선을 찾는 작업이라고도 한다.

++ 선형 회귀(Linear Regression), 로지스틱 회귀(logistic), 서포트 벡터 머신, 신경망 등이 있다.

 

 

 

4. Dimensionality reduction(차원 축소)

  • 데이터를 더 작은 차원으로 요약하는 것을 말한다.

  • 고차원의 데이터에서 관측 step이 기하급수적으로 증가해서 메모리 문제가 발생(Curse of dimensionality)

  • 가장 잘 표현하는 특징(feature)만 선택

++PCA(Priciple Component Analysis)가 유명하다.

 

 


++

 

지도학습 그림

 

 

 

 

반응형
그리드형