1. 모델 선택법(변수 선택법)
1. Feedforward Selection 방법(전진 선택법)
2. Backward Elimination 방법(후진 선택법)
3. Stepwise 방법
2. 교호작용(Interaction term)
3. 명목형 변수(Dummy variable)
1. 모델 선택법(변수 선택법)
-변수가 여러 개일 때 최적의(최선의) 변수 조합을 찾아내는 기법
-상황에 따라 다른 방법을 사용
-단점: 학습 data의 AIC를 보고 판단하기 때문에 검증용 data에선 안맞을 수도 있음
-feature가 좋으면 어떤 모델이든간에 예측 성능이 좋음!
1. Feedforward Selection 방법(전진 선택법)
-변수를 하나씩 추가해가며 성능지표(AIC, BIC, r^2, adjusted r^2 등)를 비교해가는 방법
-변수를 최소한으로 남기고 싶을 때(최대한으로 제거하고 싶을 때) 사용
-과정:
1) 상수항(beta0)만 있는 모델에서 하나씩 변수를 넣어본 후 AIC가 가장 작은 모델을 선택
2) 이 과정을 반복하여 새 변수를 추가했을 때 이전 모델의 AIC보다 높아지면 중단
3) 이전 모델(AIC가 가장 작았던 모델)을 선택
-어떤 변수가 선택되면 이미 선택된 변수 중 중요하지 않은 변수가 있을 수도 있음
2. Backward Elimination 방법(후진 선택법)
-변수를 하나씩 제거해가며 성능지표를 비교해가는 방법
-변수를 최대한으로 남기고 싶을 때 사용
-과정:
1) Feed forward selection과 반대로 완전모형(full model)에서 시작하여 AIC가 가장 작도록 변수를 하나씩 제거
2) 이 과정을 반복하여 변수를 제거했을 때 이전 모델의 AIC보다 높아지면 중단
3) 이전 모델(AIC가 가장 작았던 모델)을 선택
3. Stepwise 방법
-변수를 추가하거나 제거하는 기법(Feedforward, Backward selection을 결합)
-전진 선택법의 각 단계에서 이미 선택된 변수들의 중요도를 다시 검사하여 중요하지 않은 변수는 제거
-많이 쓰임
-과정:
1) 변수 입력, 제거를 위해 p값(p-value) 임계치 설정(ex. 0.1)
2) 전진선택법을 통해 추가할 변수 선정
3) 선택된 변수 중 유의미한 변수를 남기고 제거(2~3 과정을 반복)
4) 추가할 변수나 제거할 변수가 없으면 중단
2. 교호작용(Interaction term)
-변수간의 시너지 효과
-ex. 두 변수가 각각 Y에 영향을 끼치지는 않더라도 결합됨으로써 Y에 중요한 영향을 끼칠 수 있음
-일반적으로 도메인 지식에 근거하여 추가해야함
-잘 사용하지 않음
3. 명목형 변수(Dummy variable)
-자주 쓰이는 형태
-ex. 성별, 대학, 지역 등
-전처리 필요(ex. One hot encoding(단점: 변수 많아짐) )
'데이터분석 > 이론' 카테고리의 다른 글
[범주형 자료분석]로지스틱회귀분석(Logistic regression) (0) | 2022.03.08 |
---|---|
[머신러닝]회귀분석 진단, 다항회귀분석 (0) | 2022.03.06 |
[회귀분석, 머신러닝]회귀모델의 성능지표, 머신러닝 모델의 성능 지표 (0) | 2022.03.01 |
[회귀분석]다중공산성 개념과 진단 방법 (0) | 2022.03.01 |
[머신러닝 개념]모형의 적합성 평가 및 실험 설계 (0) | 2022.02.22 |