장점
단점
예측 성능 향상을 위해선 복잡한 규칙이 필요, 복잡한 규칙은 트리의 depth를 깊게 만들고 이로 인한 과적합 발생 가능.
트리의 크기(depth), 분할 기준(min_samples_split) 등을 ‘튜닝’하여 개선 가능
앙상블의 좋은 약한 학습기(상대적으로 예측 성능이 떨어지는 학습 알고리즘)가 됨.
규칙 노드, 결정 노드(Decision Node) : 데이터를 분류하기 위한 규칙 조건
루트 노드(Root Node) : 최상위 규칙 노드
리프 노드(Leaf Node) : 규칙에 의해 최종 결정된 클래스 값, 더 이상 자식 노드가 없는 노드
서브 트리(Sub Tree) : 규칙 노드마다 서브 트리가 생성
깊이(Depth)와 레벨(Level)
ex) 아래 그림과 같은 트리 구조에서 루트 노드가 Level 0, 제일 밑의 리프 노드가 Level 3이다. 따라서 해당 트리는 3의 depth를 갖는다.
[파이썬 머신러닝 완벽 가이드 p.183]
결정 트리의 깊이가 깊을수록, 과적합으로 인한 예측 성능 저하의 가능성이 크다.
결정 노드는 정보 균일도가 높은 데이터셋을 먼저 선택할 수 있도록 규칙 조건을 만든다. >> 불순도가 낮아지는 방향도록 데이터를 분할한다.
균일도 : 데이터가 같은 정도
혼잡도, 불순도 (Impurity) : 데이터가 다른 정도
[파이썬 머신러닝 완벽 가이드 p.184]
균일도 : C > B > A 혼잡도 : A > B > C