[회귀분석]다중공산성 개념과 진단 방법
1. 다중공산성
-독립변수(X)들이 강한 선형관계에 있는 경우
=> (X'X)의 역행렬을 구할 수 없어 beta값이 이상해짐
-ex. 단순선형회귀분석에서 유의했던 변수가 다중선형회귀 결과 p값이 커져 유의하지 않게 나옴
-이유: 각 설명변수들이 Y를 설명하는 변동성에서 중복되는 부분이 빠지므로 다중 선형 회귀시 변동성이 낮아져 유의하지 않게 나올 수 있다.
-잘못된 변수 해석, 예측 정확도 하락을 불러온다.
-완화시킬 수 있을 뿐, 근본적으로 해결하는 방법은 아직 없다.
-회귀모델에 대한 검정
-귀무가설(H0): beta_1=beta_2=...=0(모든 회귀계수가 0이다, 설명력이 있는 변수가 없다)
-대립가설(H1): 적어도 하나의 회귀계수가 0이 아니다(설명력이 있는 변수가 존재한다)
-검정통계량(F검정): MSR/MSE ~F(p, N-p-1)
-총변동(SST)은 값이 변하지 않고, SSR은 제곱 형태이므로 변수가 추가되면 SSR이 증가하여 결정계수(R^2)가 커진다.
또, 귀무가설을 기각하기 쉬워진다.
2. 다중공산성 진단 방법
1. VIF(Variance inflation factor)
-VIF_i=1/(1-(R_i)^2))
-VIF>=10인 경우((R_i)^2 > 0.9) 다중공산성이 있는 변수라고 판단
-설명변수(X)중 하나를 Y로 두고 나머지 변수들로 선형회귀를 적합했을 때의 결정계수((R_i)^2: 특정 X의 총변동성중 나머지 변수들로 설명 가능한 비율)로 계산
-(R_i)^2이 높으면 그 변수가 없어도 다른 변수들로 설명 가능하다고 보기 때문에 다중공산성이 있다고 볼 수 있다.
-Y에 중요한 영향을 끼치는 변수일 수도 있기때문에 VIF가 높다고 무조건 제거하지 않는다.
2.상관행렬(Correlation matrix)
-상관행렬 및 산점도를 보고 판단
-상관행렬의 경우 이상치에 의해 값이 높거나 낮게 나올 수 있으므로 산점도도 같이 봐야한다.