본문 바로가기

데이터분석 with 파이썬

확률(probability)과 가능도(likelihood) 그리고 최대우도추정(likelihood maximization)

* 우선 본 글은 유투브 채널StatQuest with Josh Starmer  님의 자료를 한글로 정리한 것 입니다. 만약 영어듣기가 되신다면 아래 링크에서 직접 보시는 것을 추천드립니다. 이렇게 깔끔하게 설명한 자료가 없어 다른 분들에게 도움이 되었으면 하는 바람으로 정리합니다. 

If it has problem with copyright, Please let me know and It will be removed immediately. 

<확률 Probability> 

간단히 '확률'이란 주어진 확률분포가 있을 때, 관측값 혹은 관측 구간이 분포 안에서 얼마의 확률로 존재하는 가를 나타내는 값이다. 여기서 중요한 것은 확률 분포(probability distribution)을 고정(fixed)하고 그 때의 관측 X 에 대한 확률을 구한다는 것! 이를 수식으로 표현하자면 아래와 같이 쓸 수 있겠다. 

 

확률 = P(관측값 X | 률분포 D

 

이를 그림으로 보아보자. 파란 확률 분포는 귀여운 쥐들의 몸무게 분포로써 평균 32 표준편다 2.5를 갖는 정규분포이다. 이때 해당 분포를 가정하고(고정하고) 쥐의 무게가 32-34 사이로 관측될 확률은 몇일까? 이는 아래 그림의 빨간 영역(red area)와 같을 것이다. 

 

Key(1) 확률은 '어떤 고정된 분포'에서 이것이 관측될 확률(Area under distribution)이다. 

 

<가능도 Likelihood>

그렇다면 가능도는 무엇일까? 눈치가 빠른 사람이라면 이번에는 고정되는 요소가 분포가 아니라 관측값들이 고정될 것이라고 예상했을 것이다. 이는 아까 전의 확률의 개념에서 시각만 반대로 한것에 지나지 않는다.  '가능도'란 어떤 값이 관측되었을 때, 이것이 어떤 확률 분포에서 왔을 지에 대한 확률이다. 간단히 하면 확률의 확률이라고 할 수 도 있겠다. 이것을 수식으로 표현하자면 아래와 같다. 

 

가능도 = L(확률분포D | 관측값X)

 

아직 이게 무슨 소린가 헷갈릴수도 있으니 Josh Starmer 선생님의 그림자료를 보자. 내가 쥐를 하나 골라서 무게를 달았는데 34g이 딱 나왔다. 이때 이 관측결과가 정규분포(m=32/sd=2.5)에서 나왔을 확률은 0.12(빨간 십자마크)이고 이것이 가능도이다. 관측값이 고정되고, 그것이 주어졌을 때 해당 확률분포에서 나왔을 확률을 구하는 것이다. 그렇다면 두번째 그림에서 평균을 34인 확률분포에서 나왔을 확률은 어떻게 될까? 그림과 같이 그 가능도는 높아진 것을 확인할 수 있다. 

<요약 Summary>

확률은 주어진 확률분포에서 해당 관측값이 나올 확률

가능도는 주어진 관측값에서 이것이 해당 확률분포에서 나왔을 확률. (=연속확률밀도함수pdf의 y값)

<최대 우도 추정 Maximun Likelihood>

그렇다면 Maximum likelihood는 무엇일까? '최대 우도 추정'인란 각 관측값에 대한 총 가능도(모든 가능도의 곱)가 최대가 되게하는 분포를 찾는 것이라고 할 수 있다. 이런 Maximum likelihood Estimation 종류의 계산은 먼저 임의의 분포를 가정하는 것이 일반적인데 우리는 일단 정규분포를 가정하고 아래 3개의 그림을 보자. 

 

첫번째 그림을 보자. 우리는 가능도를 설명하기 위해 관측값이 하나일 경우를 말했지만 아래 처럼 여러 개의 관측값을 구했다고 가정해보자. 이때 이렇게 관측 될 가능성이 가장 큰 확률분포는 무엇일까? 를 풀어내는 것이 Maximum likelihood이다. 

두번째 그림으로 보자. 우리는 먼저 이 분포가 뭔진 몰라도 정규분포하는 것을 가정했다. 그렇다면 만약 해당 왼쪽에 평균이 치우친 정규분포 일때 총 가능도는 어떻게 될까? (우리는 연속 확률 밀도 함수에서 y값이 가능도라는 것을 알고 있다.) 총 가능도는 위 검은 점 위치와 같을 것이다.

세번째 그림은 (가능도를 이렇게 잘 표현한 그림은 처음본다.)  정규분포의 평균을 조금씩 키웠을 때마다 가능도는 어떻게 변하는가를 확인할 수 있다.  즉 우리가 수집한 관측값들이 나올 수 있는 가장 가능한 확률분포는 가능도가 제일 큰, 검은 점이 제일 높이 위치한 정규분포에서 왔다고 추정하면 되겠구나! 라는 결론을 내릴 수 있는 것이 최대 우도 추정이다.