일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 민원데이터
- 태블로행정동
- 천안시 데이터 분석
- 맵지도시각화
- rstudio이전버전 설치
- soa시험
- 맵지도
- 태블로에러
- soa시험예약
- soa날짜
- explicit random effect model
- torch.nn.Linear
- 한국캐나다대학원연수
- dependency modeling
- 모수추정
- wishart-gamma
- soa자리선택
- iris대학원
- 행정동시각화
- 대학원연수프로그램
- 태블로맵지도시각화
- 태블로맵
- soa환불
- 행정동표시
- 한-캐대학원
- random effect model
- rstudio 이전버전
- 태블로
- rstudio 설치 오류
- 이공계 대학원 연수 프로그램
- Today
- Total
수리통계 분석 코딩 실습
[한-캐] 연수 프로젝트: 연구 소개 본문
✔️ 캐나다 연수 프로젝트
[process]
[introduction] - [main idea] - [Constraint]
1. introduction
이 연구는 패널 데이터의 다변량 분석에 대한 새로운 접근법을 제안한다. 특히 Wishart-Gamma Random Effect 모형을 도입하여 설명변수 외의 임의효과를 부여하여 모형의 flexibility를 높이는 동시에 빈도 청구와 같은 다변량 간의 종속 구조를 고려했다. 또, 이러한 새로운 모형 가정은 기존의 모형에서 명시적인 형태(예: 확률 밀도 함수 등)를 도출하기 어려웠던 한계를 극복했다는 점에서 중요한 의의를 지닌다.
1-1. 다변량 임의 모형 예시
기존의 잘 알려진 다변량 동적 임의 효과 모형 가정으로는 Poisson-lognormal(PLN) 모형이 있다. 해당 모형은 다변량간의 종속성과 관측된 사람 별 변동성을 고려할 수 있다는 점에서 흔히 사용되는 모형 가정이다. 그러나 다변량 변수의 결합확률를 계산 할 때, 몬테카를로와 같은 수치적 근사를 요한다는 점에서 계산 복잡성 측면에서 큰 비용을 야기한다.
PNL모형과 비용 발생을 자세히 알아보기 위해 다음과 같은 예시를 고려하자.
2가지 변량에 대한 카운트가 관측되었다고 가정하자. 이는 두 종류의 상품에 대해 각각 N1, N2만큼 빈도수가 관측된 경우를 의미하며 타겟의 타입이 카운트이므로 모형 가정은 포아송 분포로 가정된다. 최종적으로 설명 변수 외의 임의효과가 부여된 모형은 아래와 같이 정의된다. 이때, 두 종류의 상품의 종속성은 임의 효과의 분산에서 $\rho$의 값으로 부여한다.
1-2. 다변량 임의 모형의 수치 근사 한계
그렇다면, 각 상품별 건수에 대한 결합 확률은 $\mathbb{P}(N_1, N_2)$ 이며, 이는 laplace transform의 성질에 따라,
$\mathbb{P}(N_1 = 0 , N_2 = 0) = \mathbb{E}[e^{- \lambda_1 u_1 - \lambda_2 u_2}]$로 정의됨을 알 수 있다.
자세한 유도과정은 아래와 같은 수식을 이용해 쉽게 도출할 수 있다.
* Note> Rel bew Joint mass function and Laplace Transform
$$P[N_1 = k1, \cdots, N_d = k_d] = \frac{u_1^{k_1} \cdots u_d^{k_d}}{k_1 ! \cdots k_d !} \mathbb{E}[U_1^{k_1} \cdots U_d^{k_d} exp(-\lambda_1 U_1 \cdots - \lambda_d U_d)]$$
그러나, PNL 과 같은 기존 다변량 임의 모형의 경우 Laplace transform, (예: $\mathbb{E}[e^{- \lambda_1 u_1 - \lambda_2 u_2}]$)의 값이 explict한 값으로 존재하지 않아, $\int Monte-Carlo$ 와 같은 수치 근사 방법을 사용해야한다.
그렇다면 Wishart-Gammad의 경우 laplace transform의 명시적 형태값이 존재할까?
답은 그렇다. 이다.
2. Main Idea
본 연구는 Wishart-Gamma라는 동적 임의 모형을 도입하여 다변량 결합 확률 분포의 명시적 형태를 도출한다.
* Laplace Transform of Wishart- Gamma
$$\mathbb{E}[e^{-u_1 U_1 - u_2 U_2 - \cdots - u_d U_d}] = \frac{1}{\vert I_d + 2 diag(u_1, \cdots , u_d) \Sigma \vert ^{d/2}}$$
where $u_1, \cdots u_d \ge 0$.
결론적으로,
1. Wishart-Gamma 분포에서 매개변수 최적화
- 시뮬레이션 및 실제 데이터를 활용해 Wishart-Gamma 분포의 매개변수 최적화 방법을 연구
2. Wishart-Gamma 분포의 명시적 공식을 활용한 고차원 확률 계산
- Wishart-Gamma 분포의 명시적 공식을 바탕으로 행렬 계산을 통해 고차원 다변량 확률 확장을 연구
의 주된 개선점을 갖는다.
그러나, 본 연구에선 동적 임의 모형의 유일성을 보장하기 위해 한가지 제한점을 지닌다.
3. Constraint
실제로 본 모형은 임의 모형이 Wishart-Gamma distn에서 static한 variance를 지닌다는 한계를 지닌다.
다시말해, K종류의 다변량을 고려했을 때, 각 종류별 발생 분산이 모두 같은 variance를 지닌다는 한계점이 있다.
$$ u_i \sim Gamm(\frac{\delta}{2}, \frac{\delta}{2})$$.
they have the same variance $\frac{\delta}{2}$ becuase of its identifiability random effect assumption.
Gamma 임의 모형으로 발생하는 필연적 한계인데, Gamma(a,b)의 경우, a의 값을 2배하면 b의 값을 1/2로 줄이는 등 같은 평균과 분산의 경우에도 다양한 모수 값이 존재한다. 이는 모수가 하나로 결정되어야하는 통계의 identifiability의 조건에 맞지 않아, 이를 조율해주기 위해 평균 =1 로 고정한 값이 보장 되어야 한다. 따라서 파라미터 a,b는 각기 다른 값을 가질 수 없고, a=b의 형태의 꼴만 수용 가능하다.
이러한 한계를 극복하기 위해 Wishart-gamma 세팅하의 코퓰라 의존성을 다루며 본 연구를 확장해 새로운 연구를 진행할 계획이다.
'대학원 > 한-캐나다 대학원 연수' 카테고리의 다른 글
[한-캐] 캐나다 대학 연계 대학원 생 연수 프로그램 (0) | 2024.12.16 |
---|