본문 바로가기

데이터분석/이론

[머신러닝]회귀분석 진단, 다항회귀분석

1. 회귀분석 진단

1. 회귀분석의 가정

2. 회귀분석의 잔차의 가정

 

2. 다항회귀분석(Polynomial regression)

1. 다항회귀분석이 필요한 경우

2. 다항회귀 적합

 

 


 

1. 회귀분석 진단

 

-적합한 회귀모델이 잘 만들어진 모델인지 진단이 필요함

 

 

1. 회귀분석의 가정

-1. 잔차(epsilon)가 i.i.d이고 평균이 0, 분산이 sigma^2인 정규분포를 따른다

-2. Y가 정규분포를 따른다

-3. X와 Y가 선형관계이다

 

 

2. 회귀분석의 잔차의 가정

-정규성, 독립성, 등분산성(잔차가 동일한 분산을 가짐)

-이 3가지를 만족하면 잘 만들어진 회귀모델로 판단(잔차 검정 필요)

 

-진단 방법:

  1. Residuals 산점도

    -x축: t 시점의 잔차, y축: (t+1) 시점의 잔차

    -t시점과 (t+1)시점의 잔차의 correlration이 강하면(trend가 존재) 독립성을 만족하지 않음(잔차간 상관있음)

  2. Normal Q-Q plot(quantile-quantile)

    -data에 대한 quantile값과 이론적인 정규분포의 quantile을 비교

    -x축: 정규분포의 quantile, y축: 잔차의 quantile

    -기울기가 1인 직선형태(y=x)를 따르면 정규성을 만족함

  3. Residual vs Fitted plot

    -x축: 예측값(fitted value), y축: 잔차

    -예측값에 따라 잔차가 변하면 등분산성을 만족하지 않음

 

-잔차가 가정에 위배된 경우:

  1) Y에 대해 log 또는 root를 씌워줌(예측시 다시 exp 또는 제곱을 해야함)

    => 비선형회귀가 더 잘맞을 수도 있지만 더 간단한 모델로 선택

  2) 이상치 제거(함부로 제거 x)

  3) 다항회귀분석(더 복잡한 모델 사용)

 

 

 

2. 다항회귀분석(Polynomial regression)

 

-비선형 회귀모형(이차항 이상 포함)

-단점: 과적합(overfitting)

 

1. 다항회귀분석이 필요한 경우

1) 독립변수 X와 종속변수 Y가 비선형 관계일 때 사용

  => X와 Y의 산점도(scatter plot)를 보고 판단(데이터가 많은 경우 확인 불가)

2) 회귀의 가정이 위배된 경우

  => 잔차분석- residual plot을 보고 판단(3가지 잔차가정이 만족하는지)

 

2. 다항회귀 적합

-선형회귀분석과 동일하게 잔차제곱합(SSE)가 최소화되도록 회귀계수 추정

-기존 변수+2차항 모델은 과적합이 심해지고 변수간 correlation과 다중공산성이 커질 수 있음

-일반적으로 2차항만 있는 모델 사용

-항이 추가 될수록 과적합이 잘일어나기 때문에 고차항은 신중하게 추가(보통 3차 이상은 잘 안넣음)