[회귀분석]다중공산성 개념과 진단 방법

1. 다중공산성

-독립변수(X)들이 강한 선형관계에 있는 경우

=> (X'X)의 역행렬을 구할 수 없어 beta값이 이상해짐

-ex. 단순선형회귀분석에서 유의했던 변수가 다중선형회귀 결과 p값이 커져 유의하지 않게 나옴

-이유: 각 설명변수들이 Y를 설명하는 변동성에서 중복되는 부분이 빠지므로 다중 선형 회귀시 변동성이 낮아져 유의하지 않게 나올 수 있다.

-잘못된 변수 해석, 예측 정확도 하락을 불러온다.

-완화시킬 수 있을 뿐, 근본적으로 해결하는 방법은 아직 없다.

-회귀모델에 대한 검정

-귀무가설(H0): beta_1=beta_2=...=0(모든 회귀계수가 0이다, 설명력이 있는 변수가 없다)

-대립가설(H1): 적어도 하나의 회귀계수가 0이 아니다(설명력이 있는 변수가 존재한다)

-검정통계량(F검정): MSR/MSE ~F(p, N-p-1)

-총변동(SST)은 값이 변하지 않고, SSR은 제곱 형태이므로 변수가 추가되면 SSR이 증가하여 결정계수(R^2)가 커진다.

또, 귀무가설을 기각하기 쉬워진다.

2. 다중공산성 진단 방법

1. VIF(Variance inflation factor)

-VIF_i=1/(1-(R_i)^2))

-VIF>=10인 경우((R_i)^2 > 0.9) 다중공산성이 있는 변수라고 판단

-설명변수(X)중 하나를 Y로 두고 나머지 변수들로 선형회귀를 적합했을 때의 결정계수((R_i)^2: 특정 X의 총변동성중 나머지 변수들로 설명 가능한 비율)로 계산

-(R_i)^2이 높으면 그 변수가 없어도 다른 변수들로 설명 가능하다고 보기 때문에 다중공산성이 있다고 볼 수 있다.

-Y에 중요한 영향을 끼치는 변수일 수도 있기때문에 VIF가 높다고 무조건 제거하지 않는다.

2.상관행렬(Correlation matrix)

-상관행렬 및 산점도를 보고 판단

-상관행렬의 경우 이상치에 의해 값이 높거나 낮게 나올 수 있으므로 산점도도 같이 봐야한다.

[머신러닝]변수선택법, 교호작용 (0)	2022.03.03
[회귀분석, 머신러닝]회귀모델의 성능지표, 머신러닝 모델의 성능 지표 (0)	2022.03.01
[머신러닝 개념]모형의 적합성 평가 및 실험 설계 (0)	2022.02.22
[머신러닝 개념]머신러닝(Machine Learning)의 종류와 장단점, Tree 기반 모델 쓰는 이유 (0)	2022.02.22
[데이터분석]데이터 수집, 데이터분석 과정, 데이터분석 이론 (0)	2021.08.20

맷햄