1 of 21

기계학습

Decision Tree

강원대학교 컴퓨터공학과 최우혁

2 of 21

지난 시간에…

  • Support Vector Machine

    • 서로 다른 레이블 값을 가진 데이터와의 거리가 가장 먼 초평면을 찾는 기법
    • 느슨한 변수와 커널 기법을 활용해서 선형 분리 불가능한 데이터를 다룰 수 있음

2

3 of 21

강의 순서

  • Decision Tree - 이론
  • Decision Tree - 실습

3

4 of 21

Decision Tree

4

5 of 21

목적

Decision Tree

  • 서로 다른 레이블 값을 가지는 데이터들을 최대한 다른 노드Node에 배치하는 의사 결정 규칙Decision Rule (예. if-then-else)으로 구성된 트리Tree를 학습

5

6 of 21

용어

Decision Tree

6

7 of 21

학습 알고리즘

Decision Tree

  • ID3Iterative Dichotomiser 3
    • 범주형 특성값에 대한 트리 생성
  • C4.5
    • 수치형 특성값에 대한 트리 생성
  • C5.0
    • 개량된 C4.5 — 메모리 최적화, 모델 복잡도 완화 (하지만, C4.5가 조금 더 정확함)
  • CARTClassification and Regression Tree
    • 분류뿐 아니라 회귀도 가능한 트리로, Scikit-learn에서 활용

7

8 of 21

훈련: 노드의 구성

Decision Tree

  • 기준이 되는 특성값과 임계치
  • 불순도 측정치Impurity Measure
  • 샘플의 총 개수Samples
  • 클래스 별 샘플의 개수Value

8

9 of 21

훈련: 불순도Impurity

Decision Tree

  • 주어진 데이터의 집합에서 클래스 레이블 값들이 얼마나 다른 종류들로 구성되어 있는지를 측정하는 수치
  • 단 하나의 클래스 레이블 값으로 구성되어 있으면 순수Pure or Homogeneous
  • 여러 개의 클래스 레이블 값으로 구성되어 있으면 불순Impure or Heterogeneous
  • 훈련의 목적: 노드들의 불순도를 낮추는 것

9

10 of 21

훈련: 불순도Impurity

Decision Tree

  • 지니 불순도Gini Impurity

  • 엔트로피Entropy

10

11 of 21

훈련: 분할Splitting

Decision Tree

  • 불순도를 낮추기 위해 한 노드에 속한 데이터를 두 개 이상의 하위 노드에 분배하는 것

  • 한 노드의 데이터를 여러 노드로 분할했을 때의 불순도가 가장 낮게되는 기준을 선택함

11

12 of 21

훈련: 예

Decision Tree

12

13 of 21

훈련: 예

Decision Tree

13

14 of 21

훈련: 예

Decision Tree

14

15 of 21

훈련: 예

Decision Tree

15

16 of 21

훈련: 수치형 데이터

Decision Tree

16

17 of 21

대표적인 초매개변수

Decision Tree

  • 트리의 깊이max_depth
    • 트리의 깊이가 증가 = 의사 결정 규칙의 수가 증가 = 모델의 복잡도 증가 = 과대 적합
  • 잎 노드에 속하는 샘플의 최소 개수min_samples_leaf
    • 잎 노드에 속하는 샘플의 최소 개수 증가 = 의사 결정 규칙의 수가 감소 = 모델의 복잡도 감소 = 과소 적합

17

18 of 21

장점

Decision Tree

  • 이해하기 쉬움
  • 시각화가 가능
  • 데이터의 정규화 또는 표준화가 불필요함

18

19 of 21

단점

Decision Tree

  • 과대적합
  • 초매개변수 또는 데이터의 미세한 변화에 따라 완전히 다른 트리가 생성
  • 클래스 레이블 분포에 민감
    • 한 클래스가 다른 클래스보다 아주 많으면 제대로 예측이 되지 않음

19

20 of 21

Announcement

  • Individual Assignment #2: Wine Quality
    • Deadline: 2024. 04. 03 23:59

20

21 of 21

다음 시간에…

  • Ensemble Learning
    • Random Forest
    • Gradient-Boosted Tree

21