Header

  1. View current page

    tadoli님의 노트

Profile_img_60x60_01
3

3.2 의사결정나무의 분리기준

3.2 의사결정나무의 분리기준

  • 분리기준(split criterion)

    • 자식node들이 형성될 때, 입력 변수의 선택과 범주의 병합이 이루어 질 기준
    • 순수도(purity)

      • 목표변수의 특정 범주에 개체들이 포함되어 있는 정도
      • 자식노드로 갈 수록 순수도가 증가
    • 불순도(impurity)

3.2.1 분류나무: 이산형 목표변수의 경우

  • 빈도(Frequence)에 기초하여 분리
  • 분리기준

    • 카이제곱통계량의 p-값(p-value of Chi-Square statistic): p-값이 가장 작은 예측 변수와 그때의 최적분리에 의해 자식마디 형성
    • 지니 지수(Gini index): 불순도를 측정하는 하나의 지수로서 지니지수를 가장 감소시켜주는 예측변수와 그 때의 최적분리에 의해 자식마디 선택
    • 엔트로피 지수(Entropy index): 다항분포에서의 우도비 검정통계량을 사용하는 것과 같은 것으로 알려져 있음. 이 지수가 가장 작은 예측변수와 그 때의 최적분리에 의해 자식마디 형성

3.2.2 회귀나무: 연속형 목표변수의 경우

  • 목표변수의 평균(mean)표준편차(standard deviation)에 기초하여 분리
  • 분리기준

    • F 통계량의 p-값: p-값이 가장 작은 예측변수와 그 때의 최적분리에 의해서 자식 마디가 형성
    • 분산의 감소량(Variance reduction): 예측오차를 최소화하는 것과 동일한 기준으로 분산의 감소량을 최대화하는 기준의 최적분리에 의해 자식 마디 형성

 

3.2.3 정지규칙과 가지치기

  • 정지규칙 : 더 이상 분리가 일어나지 않게 하는 규칙
  • 가지치기 : 예측오차(Prediction error)가 큰 가지 제거

 

History

Last edited on 08/07/2008 18:02 by tadoli

Comments (0)

You must log in to leave a comment. Please sign in.