본문 바로가기

데이터분석/이론

(17)
[머신러닝]회귀계수 축소법 회귀계수 축소법 1. 회귀계수 축소법 - Ridge 회귀 2. 회귀계수 축소법 - Lasso 회귀 3. Ridge 회귀와 Lasso 회귀의 차이점 4. 회귀계수 축소법 - Elastic-Net 회귀 회귀계수 축소법 -출력변수(Y)에 영향력이 적은 입력변수(X)의 계수를 0에 가깝게 만들어 제거하는 식으로 중요한 변수만 남기는 방법 -장점: 1) 잡음(noise)을 제거해 모형의 정확도를 개선(예측력이 올라감) 2) 모형의 연산 속도가 빨라짐 3) 다중공산성 문제를 조금이나마 완화킬 수도 있음 => 모형의 해석 능력을 향상 -종류: Ridge 회귀, Lasso 회귀, Elastic-Net 회귀 -SSE와 f(beta)의 합을 최소화 시키도록 -일반적으로 다중공산성이 있다면 Ridge, Elastic-Net..
[범주형 자료분석]로지스틱회귀분석(Logistic regression) 1. 로지스틱 회귀분석(Logostic regression)이란 2. 로지스틱 회귀계수 해석 1. 로지스틱 회귀분석(Logostic regression)이란 -2개의 카테고리를 가지는 이항(binary) 형태(ex. yes/no)의 출력변수(Y)를 예측할 때 사용하는 회귀분석 방법 -k개의 입력변수(X)를 사용, 성공/실패를 예측하기 위해 성공확률 P(X)로 모델링하면 확률 P(X)의 범위는 [0,1]이지만 식의 오른쪽은 실수범위 [-inf, inf]라 범위가 맞지 않음 -식의 왼쪽도 실수범위로 맞추기 위해 로지스틱 함수(Logostic function) 사용 -위의 식을 확률 P(X)에 대해 정리하면 아래 식과 같음, 모형을 적합한 후 추정 회귀계수를 아래 식에 대입하면 추정 확률(예측 확률)을 계산 ..
[머신러닝]회귀분석 진단, 다항회귀분석 1. 회귀분석 진단 1. 회귀분석의 가정 2. 회귀분석의 잔차의 가정 2. 다항회귀분석(Polynomial regression) 1. 다항회귀분석이 필요한 경우 2. 다항회귀 적합 1. 회귀분석 진단 -적합한 회귀모델이 잘 만들어진 모델인지 진단이 필요함 1. 회귀분석의 가정 -1. 잔차(epsilon)가 i.i.d이고 평균이 0, 분산이 sigma^2인 정규분포를 따른다 -2. Y가 정규분포를 따른다 -3. X와 Y가 선형관계이다 2. 회귀분석의 잔차의 가정 -정규성, 독립성, 등분산성(잔차가 동일한 분산을 가짐) -이 3가지를 만족하면 잘 만들어진 회귀모델로 판단(잔차 검정 필요) -진단 방법: 1. Residuals 산점도 -x축: t 시점의 잔차, y축: (t+1) 시점의 잔차 -t시점과 (t+1..
[머신러닝]변수선택법, 교호작용 1. 모델 선택법(변수 선택법) 1. Feedforward Selection 방법(전진 선택법) 2. Backward Elimination 방법(후진 선택법) 3. Stepwise 방법 2. 교호작용(Interaction term) 3. 명목형 변수(Dummy variable) 1. 모델 선택법(변수 선택법) -변수가 여러 개일 때 최적의(최선의) 변수 조합을 찾아내는 기법 -상황에 따라 다른 방법을 사용 -단점: 학습 data의 AIC를 보고 판단하기 때문에 검증용 data에선 안맞을 수도 있음 -feature가 좋으면 어떤 모델이든간에 예측 성능이 좋음! 1. Feedforward Selection 방법(전진 선택법) -변수를 하나씩 추가해가며 성능지표(AIC, BIC, r^2, adjusted r^..
[회귀분석, 머신러닝]회귀모델의 성능지표, 머신러닝 모델의 성능 지표 회귀 모델의 성능지표(학습 data안에서 사용) 1. 결정계수(R^2) 2. Adjusted R^2 3. AIC(Akaike information criterion) 4. BIC(Bayes information criterion) 머신러닝에서 사용하는 모델의 성능 지표 1. MSE(Mean Squared Error) 2. MAPE(mean absolute percentage error) 3. 정확도(Accuracy) 4. G-mean, F1 measure 5. ROC(Receiver Operating Characteristics) curve, AUC 1. 결정계수(R^2) -공식: R^2 = SSR/SST = 1 - SSE/SST -Y의 총 변동중 회귀계수를 통해 설명할 수 있는 변동성의 비율 -클수록 ..
[회귀분석]다중공산성 개념과 진단 방법 1. 다중공산성 -독립변수(X)들이 강한 선형관계에 있는 경우 => (X'X)의 역행렬을 구할 수 없어 beta값이 이상해짐 -ex. 단순선형회귀분석에서 유의했던 변수가 다중선형회귀 결과 p값이 커져 유의하지 않게 나옴 -이유: 각 설명변수들이 Y를 설명하는 변동성에서 중복되는 부분이 빠지므로 다중 선형 회귀시 변동성이 낮아져 유의하지 않게 나올 수 있다. -잘못된 변수 해석, 예측 정확도 하락을 불러온다. -완화시킬 수 있을 뿐, 근본적으로 해결하는 방법은 아직 없다. -회귀모델에 대한 검정 -귀무가설(H0): beta_1=beta_2=...=0(모든 회귀계수가 0이다, 설명력이 있는 변수가 없다) -대립가설(H1): 적어도 하나의 회귀계수가 0이 아니다(설명력이 있는 변수가 존재한다) -검정통계량(F..
[머신러닝 개념]모형의 적합성 평가 및 실험 설계 -간단한 모형일수록 under fitting(학습, 실제 data 모두 잘 안 맞음), 복잡한 모형일수록 over fitting됨(학습 data는 잘 맞지만 실제 data는 안 맞음) 데이터 분할 -과적합 방지를 위해 전체 data를 training & test(보통 8:2, 7:3) 또는 trainig & validation & test(보통 5:3:2, 4:3:3)으로 랜덤하게 나눔 -학습용 데이터(training data): 모형을 추정 -검증용 데이터(validataion data): 추정한 모형이 적합한지 검증 -테스트 데이터(test data): 최종 모형의 성능을 평가 -validation data로 k값(hypher parameter)을 조정함(=> validation data에 over ..
[머신러닝 개념]머신러닝(Machine Learning)의 종류와 장단점, Tree 기반 모델 쓰는 이유 1. 지도학습(supervised learning) HTML 삽입 미리보기할 수 없는 소스 입력변수(X)와 출력변수(Y)의 관계에 대해 모델링 또는 Y에 대해 예측, 분류 -종류: 1. 회귀(regression): 연속형 Y 2. 분류(classification): 이산형 Y 2. 비지도 학습(unsupervised learning) 출력변수(Y)가 존재하지 않고, 입력변수(X)간의 관계에 대해 모델링 -종류: 1. 군집분석: 유사한 데이터끼리 그룹화 2. PCA(principal component analysis): 독립변수들의 차원을 축소화 3. 강화학습(reinforcement learning) 수많은 시뮬레이션을 통해 현재 선택이 먼 미래에 보상이 최대가 되도록 학습(Agent가 action을 취..