1. 다중공산성
-독립변수(X)들이 강한 선형관계에 있는 경우
=> (X'X)의 역행렬을 구할 수 없어 beta값이 이상해짐
-ex. 단순선형회귀분석에서 유의했던 변수가 다중선형회귀 결과 p값이 커져 유의하지 않게 나옴
-이유: 각 설명변수들이 Y를 설명하는 변동성에서 중복되는 부분이 빠지므로 다중 선형 회귀시 변동성이 낮아져 유의하지 않게 나올 수 있다.
-잘못된 변수 해석, 예측 정확도 하락을 불러온다.
-완화시킬 수 있을 뿐, 근본적으로 해결하는 방법은 아직 없다.
-회귀모델에 대한 검정
-귀무가설(H0): beta_1=beta_2=...=0(모든 회귀계수가 0이다, 설명력이 있는 변수가 없다)
-대립가설(H1): 적어도 하나의 회귀계수가 0이 아니다(설명력이 있는 변수가 존재한다)
-검정통계량(F검정): MSR/MSE ~F(p, N-p-1)
-총변동(SST)은 값이 변하지 않고, SSR은 제곱 형태이므로 변수가 추가되면 SSR이 증가하여 결정계수(R^2)가 커진다.
또, 귀무가설을 기각하기 쉬워진다.
2. 다중공산성 진단 방법
1. VIF(Variance inflation factor)
-VIF_i=1/(1-(R_i)^2))
-VIF>=10인 경우((R_i)^2 > 0.9) 다중공산성이 있는 변수라고 판단
-설명변수(X)중 하나를 Y로 두고 나머지 변수들로 선형회귀를 적합했을 때의 결정계수((R_i)^2: 특정 X의 총변동성중 나머지 변수들로 설명 가능한 비율)로 계산
-(R_i)^2이 높으면 그 변수가 없어도 다른 변수들로 설명 가능하다고 보기 때문에 다중공산성이 있다고 볼 수 있다.
-Y에 중요한 영향을 끼치는 변수일 수도 있기때문에 VIF가 높다고 무조건 제거하지 않는다.
2.상관행렬(Correlation matrix)
-상관행렬 및 산점도를 보고 판단
-상관행렬의 경우 이상치에 의해 값이 높거나 낮게 나올 수 있으므로 산점도도 같이 봐야한다.
'데이터분석 > 이론' 카테고리의 다른 글
[머신러닝]변수선택법, 교호작용 (0) | 2022.03.03 |
---|---|
[회귀분석, 머신러닝]회귀모델의 성능지표, 머신러닝 모델의 성능 지표 (0) | 2022.03.01 |
[머신러닝 개념]모형의 적합성 평가 및 실험 설계 (0) | 2022.02.22 |
[머신러닝 개념]머신러닝(Machine Learning)의 종류와 장단점, Tree 기반 모델 쓰는 이유 (0) | 2022.02.22 |
[데이터분석]데이터 수집, 데이터분석 과정, 데이터분석 이론 (0) | 2021.08.20 |