1. 회귀분석 진단
1. 회귀분석의 가정
2. 회귀분석의 잔차의 가정
2. 다항회귀분석(Polynomial regression)
1. 다항회귀분석이 필요한 경우
2. 다항회귀 적합
1. 회귀분석 진단
-적합한 회귀모델이 잘 만들어진 모델인지 진단이 필요함
1. 회귀분석의 가정
-1. 잔차(epsilon)가 i.i.d이고 평균이 0, 분산이 sigma^2인 정규분포를 따른다
-2. Y가 정규분포를 따른다
-3. X와 Y가 선형관계이다
2. 회귀분석의 잔차의 가정
-정규성, 독립성, 등분산성(잔차가 동일한 분산을 가짐)
-이 3가지를 만족하면 잘 만들어진 회귀모델로 판단(잔차 검정 필요)
-진단 방법:
1. Residuals 산점도
-x축: t 시점의 잔차, y축: (t+1) 시점의 잔차
-t시점과 (t+1)시점의 잔차의 correlration이 강하면(trend가 존재) 독립성을 만족하지 않음(잔차간 상관있음)
2. Normal Q-Q plot(quantile-quantile)
-data에 대한 quantile값과 이론적인 정규분포의 quantile을 비교
-x축: 정규분포의 quantile, y축: 잔차의 quantile
-기울기가 1인 직선형태(y=x)를 따르면 정규성을 만족함
3. Residual vs Fitted plot
-x축: 예측값(fitted value), y축: 잔차
-예측값에 따라 잔차가 변하면 등분산성을 만족하지 않음
-잔차가 가정에 위배된 경우:
1) Y에 대해 log 또는 root를 씌워줌(예측시 다시 exp 또는 제곱을 해야함)
=> 비선형회귀가 더 잘맞을 수도 있지만 더 간단한 모델로 선택
2) 이상치 제거(함부로 제거 x)
3) 다항회귀분석(더 복잡한 모델 사용)
2. 다항회귀분석(Polynomial regression)
-비선형 회귀모형(이차항 이상 포함)
-단점: 과적합(overfitting)
1. 다항회귀분석이 필요한 경우
1) 독립변수 X와 종속변수 Y가 비선형 관계일 때 사용
=> X와 Y의 산점도(scatter plot)를 보고 판단(데이터가 많은 경우 확인 불가)
2) 회귀의 가정이 위배된 경우
=> 잔차분석- residual plot을 보고 판단(3가지 잔차가정이 만족하는지)
2. 다항회귀 적합
-선형회귀분석과 동일하게 잔차제곱합(SSE)가 최소화되도록 회귀계수 추정
-기존 변수+2차항 모델은 과적합이 심해지고 변수간 correlation과 다중공산성이 커질 수 있음
-일반적으로 2차항만 있는 모델 사용
-항이 추가 될수록 과적합이 잘일어나기 때문에 고차항은 신중하게 추가(보통 3차 이상은 잘 안넣음)
'데이터분석 > 이론' 카테고리의 다른 글
[머신러닝]회귀계수 축소법 (0) | 2022.03.08 |
---|---|
[범주형 자료분석]로지스틱회귀분석(Logistic regression) (0) | 2022.03.08 |
[머신러닝]변수선택법, 교호작용 (0) | 2022.03.03 |
[회귀분석, 머신러닝]회귀모델의 성능지표, 머신러닝 모델의 성능 지표 (0) | 2022.03.01 |
[회귀분석]다중공산성 개념과 진단 방법 (0) | 2022.03.01 |