본문 바로가기

데이터분석

(25)
[머신러닝]군집분석(Clustering) - K-means clustering, Hierarchical clustering, DBSCAN 이론 1. 군집분석(Clustering)이란 1. 정의 2. 특징 3. 종류 2. K-means clustering 1. 정의 2. 점과 점 사이의 거리 측정 3. 특징 4. k를 설정하는 방법 -Elbow method -Silhouette method 5. k-medoids clustering 3. Hierarchical clustering(계층적 군집분석) 1. 정의 2. 특징 3. cluster간 거리 종류 4. DBSCAN 1. 정의 2. 특징 3. hyper parameter 설정 1. 군집분석(Clustering)이란 1. 정의 -비지도학습(unsupervised learning)의 한 종류(Y가 없음) -각 데이터의 유사성을 측정하여 유사도가 높은 집단끼리 분류하고, 군집 간 상이성을 규명하는 방..
[머신러닝]중요 변수 추출 방법 - feature importance, shap value 이론 1. feature importance 1. Xgboost의 feature importance 측정 기준 2. featrue importance의 좋고 나쁨의 기준 2. Shap value 1. 정의 2. 특징 3. 활용(해석) -모델의 성능도 중요하지만 Y를 예측하는 데 어떤 변수가 어떻게 영향을 끼치는지 해석(활용)하는 것도 중요 -모델의 성능보다 변수의 활용(인자가 뭐냐)에 초점을 맞출 땐 선형회귀를 많이 사용 => 회귀계수, p-value로 긍정적/부정적 영향, 얼마나 영향을 미치는지, 유의한지 알 수 있음 -복잡한 모델은 해석이 쉽지 않음(목적에 따라 선택) 1) Accuracy가 낮고 설명하기 쉬운 모델(Linear regression, Decision Tree) => 해석, 인자를 찾는 게 ..
[머신러닝]앙상블(Ensemble) - Bagging, RandomForest, Boosting, Stacking 이론 1. Bagging(bootstrap aggregating) 1. 정의 2. 특징 3. Tree와 Bagging 비교 4. 단점 2. RandomForest(랜덤포레스트) 1. 정의 2. 특징 3. Bagging과 RandomForest 비교 3. Boosting(부스팅) 1. AdaBoost(Adaptive Boost) 2. Gradient Boosting 3. 특징 4. Gradient Boosting의 종류와 특징 -XGBoost -LightGBM -Catboost 4. Stacking 1. 정의 2. 특징 참고) [머신러닝]앙상블(Ensemble) 이론 https://topo314.tistory.com/80 [머신러닝]앙상블(Ensemble) 이론 1. 앙상블(Ensemble) 1. 정의 2. 특..
[머신러닝]앙상블(Ensemble) 이론 1. 앙상블(Ensemble) 1. 정의 2. 특징 2. 앙상블(Ensemble) 종류 1. Bagging(배깅) 2. RandomForest(랜덤 포레스트) 3. Boosting(부스팅) 4. Stacking 1. 앙상블(Ensemble) 1. 정의 -앙상블 러닝(Ensemble learning): 여러개의 기본 모델을 활용하여 하나의 새로운 모델을 만들어내는 개념 =>기본 모델(base model): weak learner, classifier, base learner, single learner -다양한 learner를 만들면 전체 모델의 성능이 증가할 수 있음 -학습 데이터로 여러 모델에 적합하고, 검증 데이터에 대해 예측한 값을 평균or투표하여 결과값 출력 -확률이 p인 L개의 classifie..
[머신러닝]의사결정나무(Decision Tree) 이론 1. 필요한 개념 1. 엔트로피(Entropy) 2. Information gain 2. 의사결정나무(Decision Tree) 1. 용어 2. 정의 1) Classification tree(분류 트리) 정의 2) Regression tree(회귀 트리) 정의 3. 특징 3. 의사결정나무(Decision Tree) 종류 1. 분류 트리(classification tree) 2. 회귀 트리(regression tree) 1. 필요한 개념 1. 엔트로피(Entropy) -섞여있는 정도(반응변수의 값이 섞여있을수록 엔트로피가 높음) -직관적 정의: 0or1일 확률이 최소(엔트로피=0), 0.5일 확률(p=0.5)이 최대가 되게 하는 함수 -수식: -clasification tree: 엔트로피가 높은 상황에서 ..
[머신러닝] SVM(Support Vector Machine) 이론 1. 필요한 개념 1. Decision boundary 2. 라그랑주 승수(Lagrange multiplier) 2. SVM(Support Vector Machine) 1. 정의 -decision rule -cost function -support vector 2. 특징 3. 차원의 저주 3. SVM(Support Vector Machine) 종류 1. SVM(Support Vector Classifier) 2. SVR(Support Vector Regression) 3. One-Class SVM 1. 필요한 개념 1. Decision boundary -p차원에서 부등호를 사용하면 영역으로 나눌 수 있음 -x값이 decision boundary를 넘어감에 따라 Y의 예측값을 지정 -SVM뿐 아니라 다른 ..
[머신러닝]k-Nearest Neighbors Algorithm(KNN) 이론 1. k-Nearest Neighbors Algorithm(KNN) 1. 정의 2. 특징 3. 거리 구하는 법 4. k 결정 5. 차원의 저주 2. Cross-validation k-fold cross validation: 3. k-Nearest Neighbors Algorithm 종류 1. 종속변수(Y)=범주형 변수인 경우 2. 종속변수(Y)=연속형 변수인 경우 1. k-Nearest Neighbors Algorithm(KNN) 1. 정의 -주변 sample k개의 정보를 이용하여 새로운 관측치의 종속변수(Y)를 예측 -N개의 관측치(x,y)에 대하여 거리 순으로 정렬 -종속변수(Y)=범주형 변수일때: m번째 범주일 확률(: m번째 범주 개수/k)이 가장 큰 그룹이 y의 추정값 -종속변수(Y)=연속형 ..
[머신러닝]나이브 베이즈 모델(Naïve bayes clasification) in python 참고) 나이브 베이즈 모델 정의 ,종류, 수식 - [머신러닝]나이브 베이즈(Naïve bayes classifier) 모형 https://topo314.tistory.com/72 [머신러닝]나이브 베이즈(Naïve bayes classifier) 모형 1. 나이브 베이즈 모델(Naïve bayes classifier) 1. 특징 2. 정의 2. 나이브 베이즈 모델(Naïve bayes classifier) 종류 1. Gaussian Naïve bayes classifier(가우시안 나이브 베이즈) 2. Multinomial Naïv.. topo314.tistory.com 간단한 예제를 통해 가우시안 나이브 베이즈 모델과 다항 나이브 베이즈 모델을 돌려보겠습니다. 1. Gaussian Naive Bayes..