수리통계 분석 코딩 실습

[한-캐] 연수 프로젝트: 연구 소개 본문

대학원/한-캐나다 대학원 연수

[한-캐] 연수 프로젝트: 연구 소개

얼려먹는 요구르트 2024. 12. 17. 16:01
✔️ 캐나다 연수 프로젝트

 

[process]

[introduction] - [main idea] - [Constraint]

 

1. introduction

이 연구는 패널 데이터의 다변량 분석에 대한 새로운 접근법을 제안한다. 특히 Wishart-Gamma Random Effect 모형을 도입하여 설명변수 외의 임의효과를 부여하여 모형의 flexibility를 높이는 동시에 빈도 청구와 같은 다변량 간의 종속 구조를 고려했다. 또, 이러한 새로운 모형 가정은 기존의 모형에서 명시적인 형태(예: 확률 밀도 함수 등)를 도출하기 어려웠던 한계를 극복했다는 점에서 중요한 의의를 지닌다.  

 

1-1. 다변량 임의 모형 예시 

기존의 잘 알려진 다변량 동적 임의 효과 모형 가정으로는 Poisson-lognormal(PLN) 모형이 있다. 해당 모형은 다변량간의 종속성과 관측된 사람 별 변동성을 고려할 수 있다는 점에서 흔히 사용되는 모형 가정이다. 그러나 다변량 변수의 결합확률를 계산 할 때, 몬테카를로와 같은 수치적 근사를 요한다는 점에서 계산 복잡성 측면에서 큰 비용을 야기한다. 

 

PNL모형과 비용 발생을 자세히 알아보기 위해 다음과 같은 예시를 고려하자.

2가지 변량에 대한 카운트가 관측되었다고 가정하자. 이는 두 종류의 상품에 대해 각각 N1, N2만큼 빈도수가 관측된 경우를 의미하며 타겟의 타입이 카운트이므로 모형 가정은 포아송 분포로 가정된다. 최종적으로 설명 변수 외의 임의효과가 부여된 모형은 아래와 같이 정의된다. 이때, 두 종류의 상품의 종속성은 임의 효과의 분산에서 ρ의 값으로 부여한다. 

PNL 모형

 

1-2. 다변량 임의 모형의 수치 근사 한계 

그렇다면, 각 상품별 건수에 대한 결합 확률은 P(N1,N2) 이며, 이는 laplace transform의 성질에 따라, 

P(N1=0,N2=0)=E[eλ1u1λ2u2]로 정의됨을 알 수 있다.

자세한 유도과정은 아래와 같은 수식을 이용해 쉽게 도출할 수 있다. 

 

* Note> Rel bew Joint mass function and Laplace Transform 

 

P[N1=k1,,Nd=kd]=uk11ukddk1!kd!E[Uk11Ukddexp(λ1U1λdUd)]

 

그러나, PNL 과 같은 기존 다변량 임의 모형의 경우 Laplace transform, (예: E[eλ1u1λ2u2])의 값이 explict한 값으로 존재하지 않아, MonteCarlo 와 같은 수치 근사 방법을 사용해야한다.

 

 

그렇다면 Wishart-Gammad의 경우 laplace transform의 명시적 형태값이 존재할까? 

답은 그렇다. 이다.

 

 

2. Main Idea 

본 연구는 Wishart-Gamma라는 동적 임의 모형을 도입하여 다변량 결합 확률 분포의 명시적 형태를 도출한다. 

 

* Laplace Transform of Wishart- Gamma 

E[eu1U1u2U2udUd]=1|Id+2diag(u1,,ud)Σ|d/2

where u1,ud0

 

결론적으로, 

1. Wishart-Gamma 분포에서 매개변수 최적화
    - 시뮬레이션 및 실제 데이터를 활용해 Wishart-Gamma 분포의 매개변수 최적화 방법을 연구
2. Wishart-Gamma 분포의 명시적 공식을 활용한 고차원 확률 계산
    - Wishart-Gamma 분포의 명시적 공식을 바탕으로 행렬 계산을 통해 고차원 다변량 확률 확장을 연구

 

의 주된 개선점을 갖는다. 

 

그러나, 본 연구에선 동적 임의 모형의 유일성을 보장하기 위해 한가지 제한점을 지닌다. 

 

3. Constraint

 

실제로 본 모형은 임의 모형이 Wishart-Gamma distn에서 static한 variance를 지닌다는 한계를 지닌다.

다시말해, K종류의 다변량을 고려했을 때, 각 종류별 발생 분산이 모두 같은 variance를 지닌다는 한계점이 있다. 

 

uiGamm(δ2,δ2).

they have the same variance δ2 becuase of its identifiability random effect assumption.

 

Gamma 임의 모형으로 발생하는 필연적 한계인데, Gamma(a,b)의 경우, a의 값을 2배하면 b의 값을 1/2로 줄이는 등 같은 평균과 분산의 경우에도 다양한 모수 값이 존재한다. 이는 모수가 하나로 결정되어야하는 통계의 identifiability의 조건에 맞지 않아, 이를 조율해주기 위해 평균 =1 로 고정한 값이 보장 되어야 한다. 따라서 파라미터 a,b는 각기 다른 값을 가질 수 없고, a=b의 형태의 꼴만 수용 가능하다. 

이러한 한계를 극복하기 위해 Wishart-gamma 세팅하의 코퓰라 의존성을 다루며 본 연구를 확장해 새로운 연구를 진행할 계획이다.