Data scientist/Machine Learning

의사결정나무 + Python_Code

맨사설 2021. 8. 26. 17:06
728x90

◎ 수학적 개념

 

○ 엔트로피 (Entropy) : 분류가 되어 있지 않으면 엔트로피는 높은 값을 가지며 분류가 잘 되어있으면 엔트로피 값은 낮다.

기본 함수

 

 

 

○ Information Gain : Entropy(before) - Entropy(after)

  • Decision Tree의 특정 node 이전과 이후의 Entropy 차이

 

○ Classification Tree

 

 

 

○ Regression Tree

 

◎ 의사결정나무

 

  • 변수들로 기준을 만들고 이것을 통하여 샘플을 분류하고 분류된 집단의 성질을 통하여 추정하는 모형
  • 장점 : 해석력이 높음, 직관적, 범용성
  • 단점 : 높은 변동성, 샘플에 민감할 수 있다.

의사결정나무 구조

 

※ 의사결정나무 용어

 

 ⓐ Node - 분류의 기준이 되는 변수가 위치. 이것을 기준으로 샘플을 나눔. 

 

   - Parent node : 상위 노드 

   - Child node : 하위 노드 

   - Root node : 상위 노드가 없는 가장 위의 노드 

   - Leaf node (Tip) : 하위 노드가 없는 가장 아래의 노드

   - Internal node : Leaf node가 아닌 노드 

 

ⓑ Edge - 샘플을 분류하는 조건이 위치하는 곳

 

ⓒ Depth - Root node에서 특정 노드까지 도달하기 위해 거쳐야 하는 Edge의 수

 

트리 종류

 

12. Decision+Tree_before_real
728x90

'Data scientist > Machine Learning' 카테고리의 다른 글

신경망 모형 + Python_Code  (0) 2021.08.27
SVM + Python_Code  (0) 2021.08.26
LDA + Python_Code  (0) 2021.08.25
K-NN + Python_Code  (0) 2021.08.25
Naive Bayes + Python_Code  (0) 2021.08.25