본문 바로가기

데이터분석/이론

[회귀분석]다중공산성 개념과 진단 방법

1. 다중공산성

-독립변수(X)들이 강한 선형관계에 있는 경우

   => (X'X)의 역행렬을 구할 수 없어 beta값이 이상해짐

-ex. 단순선형회귀분석에서 유의했던 변수가 다중선형회귀 결과 p값이 커져 유의하지 않게 나옴

-이유: 각 설명변수들이 Y를 설명하는 변동성에서 중복되는 부분이 빠지므로 다중 선형 회귀시 변동성이 낮아져 유의하지 않게 나올 수 있다.

-잘못된 변수 해석, 예측 정확도 하락을 불러온다.

-완화시킬 수 있을 뿐, 근본적으로 해결하는 방법은 아직 없다. 

 

-회귀모델에 대한 검정

    -귀무가설(H0): beta_1=beta_2=...=0(모든 회귀계수가 0이다, 설명력이 있는 변수가 없다)

    -대립가설(H1): 적어도 하나의 회귀계수가 0이 아니다(설명력이 있는 변수가 존재한다)

    -검정통계량(F검정): MSR/MSE ~F(p, N-p-1)

-총변동(SST)은 값이 변하지 않고, SSR은 제곱 형태이므로 변수가 추가되면 SSR이 증가하여 결정계수(R^2)가 커진다.

 또, 귀무가설을 기각하기 쉬워진다.

 

 

 

2. 다중공산성 진단 방법

 

1. VIF(Variance inflation factor)

 

-VIF_i=1/(1-(R_i)^2))

-VIF>=10인 경우((R_i)^2 > 0.9) 다중공산성이 있는 변수라고 판단

-설명변수(X)중 하나를 Y로 두고 나머지 변수들로 선형회귀를 적합했을 때의 결정계수((R_i)^2: 특정 X의 총변동성중 나머지 변수들로 설명 가능한 비율)로 계산

-(R_i)^2이 높으면 그 변수가 없어도 다른 변수들로 설명 가능하다고 보기 때문에 다중공산성이 있다고 볼 수 있다.

-Y에 중요한 영향을 끼치는 변수일 수도 있기때문에 VIF가 높다고 무조건 제거하지 않는다.

 

 

2.상관행렬(Correlation matrix)

 

-상관행렬 및 산점도를 보고 판단

-상관행렬의 경우 이상치에 의해 값이 높거나 낮게 나올 수 있으므로 산점도도 같이 봐야한다.