수리통계 분석 코딩 실습

[모수 추정] 최대 우도 함수와 베이지안 본문

대학원

[모수 추정] 최대 우도 함수와 베이지안

얼려먹는 요구르트 2023. 10. 18. 20:47

 

✔ 모수 추정 방식을 알아봅시다.

데이터 추출과 모수란?, mle vs 베이지안, 베이지안 예제 풀이

 

 

0. Introduction

❔ 데이터 추출과 모수는 무엇일까?

 

[1] 분포에 따른 데이터 추출

 

▶ 기존에 data($X_i$)의 추출은 고정된 모수 $\theta$에 대해 $X_i$를 뽑아내는 것을 말한다.

 

예를 들어, 교육에 대한 학습률($\theta$)에 대해 학생들이 교육을 잘 받았으면 1 아니면 0이라고 하자.

$X_i$ ~ $Ber(\theta)$
$\theta \sim \pi(\theta)$

그렇다면, 원래라면 학습률($\theta$)은 0.2(고정된 값)라고 정해져있을 때 $X_i \sim Ber(0.2)$로 학습률에 따른 교육 수행 여부로 데이터를 추출할 수 있을 것이다. 

이때,  학습률이 낮으니까  데이터($X_i$)를 추출하면 학습이 잘 안되는 경우(0)가 많이 뽑힐 것이다

 

[2] 모수 추정

 

   학습률 즉, 데이터를 추출할 때 사용되는 모수값은 우리가 알 수 없는 미지의 모수이다. 

 

다시 말해, 우린 모수(학습률)가 정해져있을 때 데이터($X_i$)를 뽑을 수 있는 것이 아니라,

 데이터($X_i$)를 기반으로 학습률이 어느정도인지, 즉 모수($\theta$)가 어떤 값을 갖는 지를 추정하는 것이 통계추론의 주된 과제 중 하나다.

 


그럼, 모수는 어떻게 추정할 수 있을까? 

- 베이지안, 최대 우도 함수 이용!

❗ 베이지안과 최대 우도 함수의 목적
모수 $\theta$를 추정하기 위함

 

1. Bayesian method vs Maximum Likelihood estimation

 

[1] Likelihood function 이란?

$X_i | \theta$ ~ $F(\theta)$

데이터 $X_i$들은 $\theta$에 따라 다른 조건부 결합확률밀도함수 $f(x|\theta)$값을 가진다.

예를 들어, $X$가 이산변수(0/1)라면 $f(x|\theta) = \theta^{x} \cdot (1-\theta)^{(1-x)}$ 는 주어진 자료 $x$가 발생할 확률이다.

 

$\theta_a$와  $\theta_b$에 대하여, 

만약 $f(x \vert \theta_{a}) > f(x \vert \theta_{b})$ 라면

$\theta = \theta_a$일 때 주어진 $x$가 발생할 확률( $\theta_{a}$)이 $\theta = \theta_{b}$ 일 때 주어진 $x$가 발생할 확률 ($\theta_{b}$) 보다 크므로, $\theta$의 추정치로 $\theta_{a}$를 선택하는 것이 바람직할 것이다. 

 

즉, $f(x|\theta)$를 이용해 다양한 $\theta$값에 대해 어떤 $\theta$가 적정한 지 가능성을 비교할 수 있으므로,

 $f(x|\theta)$를 $\theta$의 우도함수 또는 가능도함수(likelihood function)이라고 부른다. 

 

Note> 
데이터($x$)는 이미 관측된 상수이므로, $f(x|\theta)$ 가 $\theta$만의 함수임을 부각시키기 위해, 
$L(\theta|x)$ 혹은 $L(\theta)$로 표기함.

Likelihood function은 $\theta$에 대한 확률밀도함수( $ F ( \Theta \le \theta )$ )가 아니다!!

 

[1-1] Maximum likelihood estimation

우도함수 $L(\theta|x) = f(x|\theta)$ 는 $\theta$값이 클 수록 관측치 $x$로 추정할 때 $\theta$가 참값일 가능성이 더 크다는 것을 말한다. 

Def of Maximum likelihood estimation)

우도함수값을 가장 크게 만드는 $\theta$ 를 $\theta$의 추정치로 사용하는 것.

 

How to find) 

maximum likliehood estimation의 $\hat{\theta}$ 계산 방법


[2] Bayesian이란?

 

→ 위의 likelihood function과 동일선상 아래 사전 정보를 추가로 주는 것.

 

다시말해, 데이터를 이용해 $\theta$를 추정하고자 할 때, 

모수 $\theta$값에 의해 dep해 추출된 $X_i$들의 조건부결합확률분포만 살펴볼 뿐만 아니라 

추정할 모수 $\theta$에 대한 정보를 미리 주는 것이다.

 

❔ $\theta$ 를 추정할 건데, 대체 어떻게 $\theta$에 대한 정보를 주지? 그게 말이 되나?

 

예를 들어, 어느 복권판매점에서 어떤 사람이 당첨 됐는 지 아닌지를 살펴보고자 한다. 그럼, 로또 당첨 확률($\theta$)에 따라 사람이 당첨이 되거나, 안될 것이다. 

 

즉, 복권판매점의 로또 당첨 확률이 무엇인지가 우리가 구하고자 하는 모수가 된다.

 

이때, 기존에 해당 복권 판매점에서 몇 %로 로또가 당첨되어왔는 지  로또 당첨 확률($\theta$)이 존재할 것이다. 그 기존의 당첨 확률을 $\theta$에 부여하는 것이 추정할 모수 $\theta$에 대한 사전 정보를 주는 것을 뜻한다.

 

그러므로, 베이지안에서 사용하는 모수 추정 방법은 최근 당첨자 수가 증가하거나 혹은 더 감소했다면 기존의 로또 당첨 확률에 최근 관측된 데이터를 고려하여 해당 복권 판매점의 업데이트 된 로또 당첨확률을 구하는 것이다.

 

[2-1] Process of Baysian

 

Setting)

$X_i | \theta$ ~ $F(\theta)$
$\theta$ ~ $\pi(\theta)$

위의 예제를 통해 정의하면, $X_i|\theta$ : 사람의 복권 당첨 여부 , $\theta$: 복권 당첨 확률

 

Process)

그러므로, 베이지안의 모수 추정방식은 흔히 알려진 $\theta$ 를 이용해 x|$\theta$ 데이터가 추출됐다고 했을 때, 

$\theta$| x (데이터 x가 고정된 상수로 주어지므로 given으로 표현됨)를  추정하는 것을 말한다. 

그러므로, 베이지안을 이용한 모수 추정시  $\pi(\theta|x)$는 proportional of likelihood function * posterior 로 표현할 수 있을 것이다.

bayesian method를 이용한 posterior distn 계산

 

[2-2] How to Find $\hat{\theta}$ using Bayesian method ?

베이지안 모수 추정은 사후 분포에 근거한다. 그러므로, 추정된 모수 $\hat{\theta}$는 $\pi(\theta \vert \textbf{x})$ 의 기대값으로 정의해 구할 수 있다.

 

 

2. example

book: Hogg MacKean Craig, Introduction to Mathematical Statistics , Eighth Edition

6장인가.. 7장인가..

 

베이지안예제.pdf
3.68MB

 

1. posterior 분포는 앞선 f(xi|theta)와 \pi(\theta)를 이용해서 구하고,

2. Loss function에 따른 Bayes solution 구하고

3. theta_hat = E[theta|x]

4. prior 분포 정하기(Jeffrey prior ftn)

 

** -> Bayes solution에 대해선 추가 정의 기입 필요 **

 

 

 

참고자료> R과 JAGS 몬테칼로와 함께하는 베이지안 통계추론, 오만숙지음