수리통계 분석 코딩 실습

[LM]선형 회귀란? 본문

통계 분석/통계 실습

[LM]선형 회귀란?

얼려먹는 요구르트 2023. 11. 24. 22:01

 

✔ 데이터(X,Y)의 예측 모델인 선형회귀를 알아보자

 

▪ 데이터 분석 목적

[1] 데이터 분석 예측값 설정(E[Y|X])

 

데이터의 분석 목적은 "예측"에 있다. 

🎈 핵심 아이디어
무엇을 ? Y값을
어떻게? X를 이용해서  

 

다시말해, 예측을 하는 방법은 Y라는 변수를 잘 설명할 수 있는 X를 이용해 Y의 변동성을 설명하는 것.

 

Y에 대한 추정 근사치를 $\hat{Y}$라고 하면, X를 이용해 설명되는 Y에 대한 예측값($\hat{Y}$)은 X에 대한 함수로 표현할 수 있을 것이다. 

그럼 통계학적으로 어떻게 표현할 수 있을까?

 

X의 어떤 작용을 해서 값을 뽑아내는 관계를 표현하는 f(X)는 다른 무수히 많은 것들로 표현될 수 있지만, 

위의 표현식은 X가 주어졌을 때 기대되는 Y의 값은 기대값인 E[*]로 표현될 것이고, X가 주어졌다는 의미로 E[Y|X]로 표현할 수 있을 것이다. 

 

이때, 데이터 X값에 대해서 Y에 대해 기대되어지는 E[Y|X]는 LM, GLM, GLMM에선 Y|X의 분포가정에 따라 Y데이터에 대한 평균으로 볼 수도 있다. 

▶ 데이터(X,Y)에 대해 X가 주어졌다는 건 뭐고 예측은 뭘하고 싶은 건지 아리송하니, 예로 살펴보자.

 

우리가 A지역에 식당을 차린 사장이 되었다고 가정하자. 아직 오픈 초기라 손님이 없어, 매출액을 올릴 방법을 생각해보던 중, 인스타 광고로 식당을  홍보하면 좋겠다는 생각이 들었다. 3회정도의 홍보 횟수를 하려고 할 때, 그때 기대되는 매출액은 얼마일까? 

그럼 우리의 셋팅은 다음과 같이 생각할 수 있다. 

 

X: 인스타로 한 식당 광고 횟수

Y: 광고한 식당의 매출액

 

그렇다면 우리가 광고 횟수에 따른매출액(Y)을 예측하고자 구하고자 하는 건 무엇일까? 광고횟수(X)에 대해 기대되는 매출액(Y)의 값이므로 E[Y|X] 이다!

 

앞서, 분포 가정이 있다면,  X가 주어졌을 때 기대되는 Y값은 Y|X에 대한 평균이라고 볼 수 있다. 

그러므로, 여기선 광고 홍보 횟수가 3회(X=3)라면 식당 홍보를 3회 한 식당들의 매출액(Y)들이 있을 것이고 이 Y들의 평균이 바로,

E[Y|X = 3]의 값이 되는 것이다. 

 

▪ 선형회귀란

x를 이용해 Y의 기대되는 변동성을 설명할 때 그 변동성의 크기가 즉, 변동량이 $\beta$를 가지는 관계를 의미

🎈 핵심 아이디어
무엇을 ? Y의 평균값을
어떻게? X를 이용해서 
얼만큼 ? $\beta$만큼

 

앞서, 3회 광고한 식당들의 매출액 평균을 구하는 방법이 식당 광고를 3회한 사람들을 모두 모아 평균을 취한 값이라는 것을 알았다.

다시말해, X번 광고한 식당들의 매출액은 X번 광고한 식당들의 데이터를 모아 평균을 취한 값들임을 알 수 있다. 

 

그렇다면, 1회 광고를 더하고자 할 때, 매출은 얼마나 오를까? 이 변동량이 바로 $\beta$다!

 

x변화에 따른 Y의 변동량 크기, beta의 의미

 

 

그러므로, 우리가 X를 이용해 추정하고 싶은, 실제 알고자하는 Y의 예측값은

라고 표현할 수 있다. 

 

다시 앞선 예제로 돌아가면, 인스타 광고횟수(X)에 따른 매출액(Y)을 구하려고 할 때, 주어진 데이터를 보니, 1번 광고횟수를 늘리면 1000만원정도 오른다고 한다.

그렇다면, 이는 인스타 광고 횟수에 따른 기대되는 매출액이 1000만원의 변동량을 가진다고 볼 수 있다. 그러므로, 광고 횟수(X)로 인해 기대되는 Y값은

E[Y|X] = 1000*X라고 볼 수 있는 것이다!

 

 

▪ 데이터를 이용한 예측의 기하학적 분석

우리는 광고횟수를 정하고 그에 따른 매출액을 살펴보기 위해  몇몇의 식당(표본 개수 = n)을 뽑아 갖고 있는 상황이다. 

광고 횟수(X)가 주어졌을 때 매출액(Y)를 예측하고 싶은데, 주어진 샘플로 계산해보니 1회 광고 횟수를 늘리면 매출액의 증가량이 1000만원임을 알았다. 그러므로, 

 

그래프로 이 관계를 표현하면,  다음과 같음을 알 수 있다.

E[Y|X]는 광고횟수에 따른 평균적인 기대값을 의미하므로, 이 관계를 통해, 1회, 2회,3회,1000회에 대한 매출 기대액을 산출할 수 있게 된다. 즉, 예측이 가능해진다!! 그리고 해당 평균의 의미는, 광고 횟수에 대한 매출액값들을 다 가져와 평균을 취하는 걸 의미한다!-> 이 관점에서 선형"회귀"라고 부름회귀란: 모든 데이터는 평균으로 돌아간다...의 의미로..!

 

 

정리하면

 

X를 이용해 Y의 변동성을 알고자 할 때, 이는 X가 주어졌을 때 Y의 기대값으로,
수식적으로 E[Y|X]라고 표현되며, 우리가 Y값을 알고자 계산하는 것이 바로 E[Y|X]이다.

이때, X가 한 단위 증가할 때 기대되는 Y의 변동량이 $\beta$라면, 

E[Y|X] = $X^T\cdot\beta$로 $\beta$ 값을 주어진 샘플의 (X,Y) 데이터를 이용해 추정하여,

X를 이용한 Y들의 기대값들을 산출해내는 것이 선형회귀이다!