본문 바로가기

데이터분석/이론

[머신러닝]의사결정나무(Decision Tree) 이론

1. 필요한 개념

1. 엔트로피(Entropy)

2. Information gain

 

2. 의사결정나무(Decision Tree)

1. 용어

2. 정의

1) Classification tree(분류 트리) 정의

2) Regression tree(회귀 트리) 정의

3. 특징

 

3. 의사결정나무(Decision Tree) 종류

1. 분류 트리(classification tree)

2. 회귀 트리(regression tree)

 

 


 

1. 필요한 개념

 

1. 엔트로피(Entropy)

-섞여있는 정도(반응변수의 값이 섞여있을수록 엔트로피가 높음)

-직관적 정의: 0or1일 확률이 최소(엔트로피=0), 0.5일 확률(p=0.5)이 최대가 되게 하는 함수

-수식: 

-clasification tree: 엔트로피가 높은 상황에서 낮은 상황으로 변화를 시킴

 

 

2. Information gain

-information gain = Entropy_before - Entropy_after

   => 엔트로피가 얼마나 낮아졌는지(차이)

-어떤 변수를 활용했고 그를 통해 얼마나 이득을 취했는지

-information gain을 통해 각각의 변수를 평가(중요도, 어떤 변수를 root node로?)

-node를 통해 분리된 가지에서 information gain 요약: 일반적으로 가중평균(각각 관측치 개수로 weight)을 주어 사용

 

 

 

2. 의사결정나무(Decision Tree)

 

1. 용어

-node: 분류의 기준이 되는 변수, node를 기준으로 sample을 나눔

   -parent node: 상대적인 상위 노드

   -child node: 상대적인 하위 노드

   -root node: 상위 노드가 없는 가장 위의 노드

   -leaf node(tip): 하위 노드가 없는 가장 아래의 노드

   -internal node: leaf node가 아닌 노드

-edge: 가지, 샘플을 분류하는 조건

-depth: root node에서 특정 노드까지 도달하기 위해 거쳐야 하는 edge의 수

 

2. 정의

   1) Classification tree(분류 트리) 정의

  -종속변수(Y)가 범주형 변수일 때

   -tree의 조선에 따라 X가 가질 수 있는 영역을 block으로 나눔(block 한 칸=R_m)

   -R_m 결정

      -독립변수(X)가 범주형이면 각 범주에 따라, 연속형이면 임의로 나눈 여러 개의 영역에 따라

      -information gain이 최대가 되는 영역(region)을 찾기

      -엔트로피, 오분류율, 지니 인덱스(Gini index)를 가장 좋은 값으로 만드는 변수와 기준 선택

      -오분류율 식:

   -결정된 R_m에 대해

      -각각의 확률 p_mk(m번째 노드가 k범주일 확률(상대비율))가 가장 커지는 k를 Y의 추정값으로

 

   2) Regression tree(회귀 트리) 정의

   -종속변수(Y)가 연속형 변수일 때

   -영역(region)을 나누는 것은 classification tree와 같음

   -Y의 추정값: (c_m=실수값, 높이)

   -R_m 결정

      -measure(error)를 최소화하는 값으로 만드는 변수와 기준 선택

 

 

3. 특징

-입력변수=독립변수=속성

-반응변수=종속변수=결과변수

-장점: 해석력이 좋음, 직관적, 범용성(X, Y: 범주형, 연속형 다 사용 가능)

-단점: 변동성이 높음, sample 변화에 민감(sample이 조금만 바뀌어도 tree 구조가 바뀜)

   => Random forest 모델로 단점 완화

 

 

 

3. 의사결정나무(Decision Tree) 종류

 

1. 분류 트리(classification tree)

-반응변수(Y)가 범주형 변수일 때

-가장 많은 것의 범주로 반응변수의 범주를 예측

 

 

2. 회귀 트리(regression tree)

-반응변수(Y)가 연속형 변수일 때

-조건을 만족하는 sample 집단의 Y의 평균값으로 예측