본문 바로가기

데이터분석

(25)
[머신러닝]나이브 베이즈(Naïve bayes classifier) 이론 1. 나이브 베이즈 모델(Naïve bayes classifier) 1. 정의 2. 특징 2. 나이브 베이즈 모델(Naïve bayes classifier) 종류 1. Gaussian Naïve bayes classifier(가우시안 나이브 베이즈) 2. Multinomial Naïve bayes classifier(다항 나이브 베이즈, 멀티노미얼 나이브 베이즈) 3. Bernoulli Naïve bayes classifier(베르누이 나이브 베이즈) 1. 나이브 베이즈 모델(Naïve bayes classifier) 1. 정의 -'어떤 속성이 주어졌을 때 반응변수가 c일 확률'은 '어떤 속성이 주어지고 반응변수가 c일 확률(교집합)'과 비례 -다시말해, 이는 '반응변수가 c일때 어떤 속성일 확률'과 '..
[머신러닝]회귀계수 축소법 회귀계수 축소법 1. 회귀계수 축소법 - Ridge 회귀 2. 회귀계수 축소법 - Lasso 회귀 3. Ridge 회귀와 Lasso 회귀의 차이점 4. 회귀계수 축소법 - Elastic-Net 회귀 회귀계수 축소법 -출력변수(Y)에 영향력이 적은 입력변수(X)의 계수를 0에 가깝게 만들어 제거하는 식으로 중요한 변수만 남기는 방법 -장점: 1) 잡음(noise)을 제거해 모형의 정확도를 개선(예측력이 올라감) 2) 모형의 연산 속도가 빨라짐 3) 다중공산성 문제를 조금이나마 완화킬 수도 있음 => 모형의 해석 능력을 향상 -종류: Ridge 회귀, Lasso 회귀, Elastic-Net 회귀 -SSE와 f(beta)의 합을 최소화 시키도록 -일반적으로 다중공산성이 있다면 Ridge, Elastic-Net..
[범주형 자료분석]다중 로지스틱 회귀분석 예제- Personal Loan data - (1) in python 참고) 로지스틱 회귀분석 개념, 예측식, 회귀계수 해석 방법 - [범주형 자료분석]로지스틱회귀분석(Logistic regression) https://topo314.tistory.com/65 [범주형 자료분석]로지스틱회귀분석(Logistic regression) 1. 로지스틱 회귀분석(Logostic regression)이란 2. 로지스틱 회귀계수 해석 1. 로지스틱 회귀분석(Logostic regression)이란 -2개의 카테고리를 가지는 이항(binary) 형태(ex. yes/no)의 출력변수(Y)를 예측할 때.. topo314.tistory.com Personal loan 데이터를 통해 개인의 대출 여부를 예측하는 다중 로지스틱 회귀분석을 진행하겠습니다. 우선, 필요한 라이브러리들을 불러오고, 분..
[범주형 자료분석]로지스틱회귀분석(Logistic regression) 1. 로지스틱 회귀분석(Logostic regression)이란 2. 로지스틱 회귀계수 해석 1. 로지스틱 회귀분석(Logostic regression)이란 -2개의 카테고리를 가지는 이항(binary) 형태(ex. yes/no)의 출력변수(Y)를 예측할 때 사용하는 회귀분석 방법 -k개의 입력변수(X)를 사용, 성공/실패를 예측하기 위해 성공확률 P(X)로 모델링하면 확률 P(X)의 범위는 [0,1]이지만 식의 오른쪽은 실수범위 [-inf, inf]라 범위가 맞지 않음 -식의 왼쪽도 실수범위로 맞추기 위해 로지스틱 함수(Logostic function) 사용 -위의 식을 확률 P(X)에 대해 정리하면 아래 식과 같음, 모형을 적합한 후 추정 회귀계수를 아래 식에 대입하면 추정 확률(예측 확률)을 계산 ..
[머신러닝]회귀분석 진단, 다항회귀분석 1. 회귀분석 진단 1. 회귀분석의 가정 2. 회귀분석의 잔차의 가정 2. 다항회귀분석(Polynomial regression) 1. 다항회귀분석이 필요한 경우 2. 다항회귀 적합 1. 회귀분석 진단 -적합한 회귀모델이 잘 만들어진 모델인지 진단이 필요함 1. 회귀분석의 가정 -1. 잔차(epsilon)가 i.i.d이고 평균이 0, 분산이 sigma^2인 정규분포를 따른다 -2. Y가 정규분포를 따른다 -3. X와 Y가 선형관계이다 2. 회귀분석의 잔차의 가정 -정규성, 독립성, 등분산성(잔차가 동일한 분산을 가짐) -이 3가지를 만족하면 잘 만들어진 회귀모델로 판단(잔차 검정 필요) -진단 방법: 1. Residuals 산점도 -x축: t 시점의 잔차, y축: (t+1) 시점의 잔차 -t시점과 (t+1..
[머신러닝]변수선택법, 교호작용 1. 모델 선택법(변수 선택법) 1. Feedforward Selection 방법(전진 선택법) 2. Backward Elimination 방법(후진 선택법) 3. Stepwise 방법 2. 교호작용(Interaction term) 3. 명목형 변수(Dummy variable) 1. 모델 선택법(변수 선택법) -변수가 여러 개일 때 최적의(최선의) 변수 조합을 찾아내는 기법 -상황에 따라 다른 방법을 사용 -단점: 학습 data의 AIC를 보고 판단하기 때문에 검증용 data에선 안맞을 수도 있음 -feature가 좋으면 어떤 모델이든간에 예측 성능이 좋음! 1. Feedforward Selection 방법(전진 선택법) -변수를 하나씩 추가해가며 성능지표(AIC, BIC, r^2, adjusted r^..
[회귀분석, 머신러닝]회귀모델의 성능지표, 머신러닝 모델의 성능 지표 회귀 모델의 성능지표(학습 data안에서 사용) 1. 결정계수(R^2) 2. Adjusted R^2 3. AIC(Akaike information criterion) 4. BIC(Bayes information criterion) 머신러닝에서 사용하는 모델의 성능 지표 1. MSE(Mean Squared Error) 2. MAPE(mean absolute percentage error) 3. 정확도(Accuracy) 4. G-mean, F1 measure 5. ROC(Receiver Operating Characteristics) curve, AUC 1. 결정계수(R^2) -공식: R^2 = SSR/SST = 1 - SSE/SST -Y의 총 변동중 회귀계수를 통해 설명할 수 있는 변동성의 비율 -클수록 ..
[회귀분석]다중공산성 개념과 진단 방법 1. 다중공산성 -독립변수(X)들이 강한 선형관계에 있는 경우 => (X'X)의 역행렬을 구할 수 없어 beta값이 이상해짐 -ex. 단순선형회귀분석에서 유의했던 변수가 다중선형회귀 결과 p값이 커져 유의하지 않게 나옴 -이유: 각 설명변수들이 Y를 설명하는 변동성에서 중복되는 부분이 빠지므로 다중 선형 회귀시 변동성이 낮아져 유의하지 않게 나올 수 있다. -잘못된 변수 해석, 예측 정확도 하락을 불러온다. -완화시킬 수 있을 뿐, 근본적으로 해결하는 방법은 아직 없다. -회귀모델에 대한 검정 -귀무가설(H0): beta_1=beta_2=...=0(모든 회귀계수가 0이다, 설명력이 있는 변수가 없다) -대립가설(H1): 적어도 하나의 회귀계수가 0이 아니다(설명력이 있는 변수가 존재한다) -검정통계량(F..