[머신러닝]변수선택법, 교호작용

1. 모델 선택법(변수 선택법)

1. Feedforward Selection 방법(전진 선택법)

2. Backward Elimination 방법(후진 선택법)

3. Stepwise 방법

2. 교호작용(Interaction term)

3. 명목형 변수(Dummy variable)

1. 모델 선택법(변수 선택법)

-변수가 여러 개일 때 최적의(최선의) 변수 조합을 찾아내는 기법

-상황에 따라 다른 방법을 사용

-단점: 학습 data의 AIC를 보고 판단하기 때문에 검증용 data에선 안맞을 수도 있음

-feature가 좋으면 어떤 모델이든간에 예측 성능이 좋음!

1. Feedforward Selection 방법(전진 선택법)

-변수를 하나씩 추가해가며 성능지표(AIC, BIC, r^2, adjusted r^2 등)를 비교해가는 방법

-변수를 최소한으로 남기고 싶을 때(최대한으로 제거하고 싶을 때) 사용

-과정:

1) 상수항(beta0)만 있는 모델에서 하나씩 변수를 넣어본 후 AIC가 가장 작은 모델을 선택

2) 이 과정을 반복하여 새 변수를 추가했을 때 이전 모델의 AIC보다 높아지면 중단

3) 이전 모델(AIC가 가장 작았던 모델)을 선택

-어떤 변수가 선택되면 이미 선택된 변수 중 중요하지 않은 변수가 있을 수도 있음

2. Backward Elimination 방법(후진 선택법)

-변수를 하나씩 제거해가며 성능지표를 비교해가는 방법

-변수를 최대한으로 남기고 싶을 때 사용

-과정:

1) Feed forward selection과 반대로 완전모형(full model)에서 시작하여 AIC가 가장 작도록 변수를 하나씩 제거

2) 이 과정을 반복하여 변수를 제거했을 때 이전 모델의 AIC보다 높아지면 중단

3) 이전 모델(AIC가 가장 작았던 모델)을 선택

3. Stepwise 방법

-변수를 추가하거나 제거하는 기법(Feedforward, Backward selection을 결합)

-전진 선택법의 각 단계에서 이미 선택된 변수들의 중요도를 다시 검사하여 중요하지 않은 변수는 제거

-많이 쓰임

-과정:

1) 변수 입력, 제거를 위해 p값(p-value) 임계치 설정(ex. 0.1)

2) 전진선택법을 통해 추가할 변수 선정

3) 선택된 변수 중 유의미한 변수를 남기고 제거(2~3 과정을 반복)

4) 추가할 변수나 제거할 변수가 없으면 중단

2. 교호작용(Interaction term)

-변수간의 시너지 효과

-ex. 두 변수가 각각 Y에 영향을 끼치지는 않더라도 결합됨으로써 Y에 중요한 영향을 끼칠 수 있음

-일반적으로 도메인 지식에 근거하여 추가해야함

-잘 사용하지 않음

3. 명목형 변수(Dummy variable)

-자주 쓰이는 형태

-ex. 성별, 대학, 지역 등

-전처리 필요(ex. One hot encoding(단점: 변수 많아짐) )

'데이터분석 > 이론' 카테고리의 다른 글

[범주형 자료분석]로지스틱회귀분석(Logistic regression) (0)	2022.03.08
[머신러닝]회귀분석 진단, 다항회귀분석 (0)	2022.03.06
[회귀분석, 머신러닝]회귀모델의 성능지표, 머신러닝 모델의 성능 지표 (0)	2022.03.01
[회귀분석]다중공산성 개념과 진단 방법 (0)	2022.03.01
[머신러닝 개념]모형의 적합성 평가 및 실험 설계 (0)	2022.02.22

맷햄

[머신러닝]변수선택법, 교호작용

'데이터분석 > 이론' 카테고리의 다른 글

티스토리툴바

[머신러닝]변수선택법, 교호작용

'데이터분석 > 이론' 카테고리의 다른 글

'데이터분석/이론' Related Articles

티스토리툴바