장점
단점
예측 성능 향상을 위해선 복잡한 규칙이 필요, 복잡한 규칙은 트리의 depth를 깊게 만들고 이로 인한 과적합 발생 가능.
트리의 크기(depth), 분할 기준(min_samples_split) 등을 ‘튜닝’하여 개선 가능
앙상블의 좋은 약한 학습기(상대적으로 예측 성능이 떨어지는 학습 알고리즘)가 됨.
규칙 노드, 결정 노드(Decision Node) : 데이터를 분류하기 위한 규칙 조건
루트 노드(Root Node) : 최상위 규칙 노드
리프 노드(Leaf Node) : 규칙에 의해 최종 결정된 클래스 값, 더 이상 자식 노드가 없는 노드
서브 트리(Sub Tree) : 규칙 노드마다 서브 트리가 생성
깊이(Depth)와 레벨(Level)
ex) 아래 그림과 같은 트리 구조에서 루트 노드가 Level 0, 제일 밑의 리프 노드가 Level 3이다. 따라서 해당 트리는 3의 depth를 갖는다.
![[파이썬 머신러닝 완벽 가이드 p.183]](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/204ae005-5de5-4049-a63f-b6fa386b3dd6/%EC%8A%A4%ED%81%AC%EB%A6%B0%EC%83%B7_2023-08-24_152119.png)
[파이썬 머신러닝 완벽 가이드 p.183]
결정 트리의 깊이가 깊을수록, 과적합으로 인한 예측 성능 저하의 가능성이 크다.
결정 노드는 정보 균일도가 높은 데이터셋을 먼저 선택할 수 있도록 규칙 조건을 만든다. >> 불순도가 낮아지는 방향도록 데이터를 분할한다.
균일도 : 데이터가 같은 정도
혼잡도, 불순도 (Impurity) : 데이터가 다른 정도
![[파이썬 머신러닝 완벽 가이드 p.184]](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/4b6a2b69-8042-4a9c-a2d1-aadedf3b07ca/%EC%8A%A4%ED%81%AC%EB%A6%B0%EC%83%B7_2023-08-24_153713.png)
[파이썬 머신러닝 완벽 가이드 p.184]
균일도 : C > B > A 혼잡도 : A > B > C