데이터 사이언스(Data Science)/데이터 분석, 자료분석(Data)

베이지안 추론이란, Bayesian inference? + 베이지안 분류,Bayesian classification

게임이 더 좋아 2020. 8. 18. 17:27
반응형
728x170

https://sumniya.tistory.com/29

 

베이지안 추론(1) - 이론

개인적으로는 통계의 본질은 실제 세계의 문제를 확률분포로써 수학적으로 모델링하고, 가정한 분포의 parameter를─error를 컨트롤하면서 이를 최소화하며─추정하는 학문이라고 생각합니다. 따

sumniya.tistory.com

 

위 글을 읽고 쉽게 설명해보자는 느낌으로 정리하려고 한다.

 

 


우선 데이터분석에서 왜 배워야 하느냐??

 

우리는 경험적으로 동전을 던졌을 때 앞, 뒤가 나올 확률이 50%인 것을 알 수 있다.

그렇지만 우리가 해보지 않은 것들도 확률을 알 수 있을까??

 

"모른다"라고 할 수 있지만

사실 알 수 있는 방법을 모른다가 더 정확한 표현이겠다.

 

그래서 그 알 수 있는 방법이 바로 베이즈 정리에 입각한 베이지안 추론이다.

 

 

"해보지 않고 확률을 계산하는 방법" 이라고 할 수 있겠다.

"그 확률을 믿을 수 있는 신뢰도를 아는 방법"

 

 


베이즈 정리 어렵냐??????

 

이것만 알면 된다.

 

어렵지 않다. 고등학교를 마쳤다면, 아니 그냥 살다보면 이미 알고 있다.

수학적 표현이 어색할 뿐, 다 알고 있는 것들이다.

 

**항상 가정이 중요하듯 기본적인 가정이 중요하다.

이를테면 모두 배반사건일 때 적용 가능하다던지 그런 것이다.

 

 


베이지안 추론이 뭐냐???

 

"아는 것으로 모르는 것을 추론하는 것" 

간단하다. 

 

숫자, 수식을 아는 것이 중요한 것은 아니다. 

 

 

 


베이지안 추론에서 중요한 것이 뭔데??

 

우선 우리는 추론 대상의 분포(사후 분포)를 알고 싶어한다.

 

 

 

주어진 조건이다.

 

θ 의 확률밀도함수: π(θ )

확률밀도함수 f(x)

 

 

첫 번째 식 ,두 번째 식을 보자.

 

다시 말해서

사전 분포에 대해서 알고, 데이터에 대한 적절한 가정, f(x|θ)를 알 수 있다면 사후분포를 알 수 있다는 것이다.

 

하지만 어디까지나 "가정"이다. 이미 알고 있다면 당연히 사후 분포는 이미 알고있는 것이 되겠다.

 

 

그래서 사후분포를 추정량에 따라 추론할 수 있다.

 

 

 


다시 복습해보자

 

 

독립사건 A, B가 존재할 때 A의 B에 대한 조건부 확률 P(A|B)와 B의 A에 대한 조건부 확률 P(B|A)는 보통의 경우 같지 않다.

 

이는 A와 B의 사전확률(prior probability)인 P(A)와 P(B)가 같지 않기 때문이다.

 

그러나 P(A|B)와 P(B|A) 사이에는 특정한 연관성이 존재한다.

 

 

베이지안 추론에서는 이전의 경험과 현재의 증거를 토대로 어떤 사건의 확률을 추론하고자 베이즈 정리를 사용한다.

P(A)는 사전확률로 ‘사건 A가 발생한다’라는 명제에 대한 "믿음의 정도"를 확률 값으로 할당한 값이다.

P(B)는 증거로 측정을 통해 얻어진 B가 발생할 확률이다.

P(B|A)는 가능도(likelihood)로 ‘사건 A가 발생한다’라는 명제가 성립할 때의 B가 나타날 수 있는 조건부 확률이다.

P(B|A)와 P(A), P(B)를 통해 얻어지는 P(A|B)는 사후확률로 B라는 증거가 관찰된 후의 명제에 대한 확률이며, 증거를 보고서 변화된 믿음의 정도로 보면 된다.

 

(네이버 지식백과 참고)

 

 


이를 통해서 베이지언 분류를 알아보자면 여러 특성을 가진다.

 

 

1. 일반적인 확률 분포를 사용하려 하면 차원의 저주( 계산량 급증) 이 발생한다

그렇다고 해서 정규 분포를 가정하면 실제 확률 분포와 차이가 발생한다.

 

2. 실제 확률 분포를 안다고 가정하면 오류율 측면에서는 최적의 결과를 낼 수 있다.

 

3. 베이지언 분류기는 M 개의 class 각각에 대해 그에 속할 확률을 출력한다.

베이지언 분류기에서 확률로 해석가능하다는 이야기이다.

이를 신뢰도 값으로 삼아 후처리에 이용할 수 있다.

 

 

728x90
반응형
그리드형