본문 바로가기

데이터분석/이론

[머신러닝]변수선택법, 교호작용

1. 모델 선택법(변수 선택법)

1. Feedforward Selection 방법(전진 선택법)

2. Backward Elimination 방법(후진 선택법)

3. Stepwise 방법

 

2. 교호작용(Interaction term)

 

3. 명목형 변수(Dummy variable)

 

 


 

1. 모델 선택법(변수 선택법)

 

-변수가 여러 개일 때 최적의(최선의) 변수 조합을 찾아내는 기법

-상황에 따라 다른 방법을 사용

-단점: 학습 data의 AIC를 보고 판단하기 때문에 검증용 data에선 안맞을 수도 있음

-feature가 좋으면 어떤 모델이든간에 예측 성능이 좋음!

 

 

1. Feedforward Selection 방법(전진 선택법)

-변수를 하나씩 추가해가며 성능지표(AIC, BIC, r^2, adjusted r^2 등)를 비교해가는 방법

-변수를 최소한으로 남기고 싶을 때(최대한으로 제거하고 싶을 때) 사용

-과정: 

  1) 상수항(beta0)만 있는 모델에서 하나씩 변수를 넣어본 후 AIC가 가장 작은 모델을 선택

  2) 이 과정을 반복하여 새 변수를 추가했을 때 이전 모델의 AIC보다 높아지면 중단

  3) 이전 모델(AIC가 가장 작았던 모델)을 선택

-어떤 변수가 선택되면 이미 선택된 변수 중 중요하지 않은 변수가 있을 수도 있음

 

2. Backward Elimination 방법(후진 선택법)

-변수를 하나씩 제거해가며 성능지표를 비교해가는 방법

-변수를 최대한으로 남기고 싶을 때 사용

-과정:

  1) Feed forward selection과 반대로 완전모형(full model)에서 시작하여 AIC가 가장 작도록 변수를 하나씩 제거

  2) 이 과정을 반복하여 변수를 제거했을 때 이전 모델의 AIC보다 높아지면 중단

  3) 이전 모델(AIC가 가장 작았던 모델)을 선택

 

3. Stepwise 방법

-변수를 추가하거나 제거하는 기법(Feedforward, Backward selection을 결합)

-전진 선택법의 각 단계에서 이미 선택된 변수들의 중요도를 다시 검사하여 중요하지 않은 변수는 제거

-많이 쓰임

-과정:

  1) 변수 입력, 제거를 위해 p값(p-value) 임계치 설정(ex. 0.1)

  2) 전진선택법을 통해 추가할 변수 선정

  3) 선택된 변수 중 유의미한 변수를 남기고 제거(2~3 과정을 반복)

  4) 추가할 변수나 제거할 변수가 없으면 중단

 

 

 

2. 교호작용(Interaction term)

 

-변수간의 시너지 효과

-ex. 두 변수가 각각 Y에 영향을 끼치지는 않더라도 결합됨으로써 Y에 중요한 영향을 끼칠 수 있음

-일반적으로 도메인 지식에 근거하여 추가해야함

-잘 사용하지 않음

 

3. 명목형 변수(Dummy variable)

 

-자주 쓰이는 형태

-ex. 성별, 대학, 지역 등

-전처리 필요(ex. One hot encoding(단점: 변수 많아짐) )