2.3 데이터의 분할: Data Partition 노드
2.3 데이터의 분할: Data Partition 노드
-
여러 모형의 타당성을 비교, 평가가 필요한 이유
- 대규모의 데이터
- 다양한 방법론에 의한 분석
-
교차 타당도(cross validation)에 의한 평가
- 분석용 데이터(Training Data: 연습용 데이터): 데이터를 분석(학습)하여 모형을 만드는데 직접적으로 사용되는 데이터
- 검증용 데이터(Validation Data: 평가용 데이터): 모형의 성능을 감독하고 개선하기 위하여 간접적으로 사용되는 데이터로서 Tree 노드의 가지치기, Regression 노드의 변수선택
- 테스트 데이터(Test Data): 모형의 생성에 전혀 사용되지 않으며, 일반화의 검토를 위해 남겨두는 데이터
History
Last edited on 07/30/2008 16:39 by tadoli
Comments (0)