모형 적합 - 분류 나무
Classification Tree
- 하나의 변수 값을 기준으로 두 영역으로 나누는 과정을 반복하여 최적의 분류 규칙을 찾아내는 방법
- 분류 규칙을 만들었을 때 나무처럼 생겼음
- 모형을 해석하기 용이해 많이 사용
- 나무가 복잡할수록 잘 설명하지만 복잡하여 에러가 발생할 확률이 높음
- Tuning parameter:
cp
(complexity parameter): 얼마나 풍성한 나무를 만들지 결정, Pruning(가지치기)을 얼마나 할 것인지 결정
실습
cross validation
controlObject <- trainControl(method = 'repeatedcv', # cross validation 반복 시행
repeats = 2, # 2번 시행
number = 5, # training 자료를 10조각 냄
classProbs = T)
모형 학습
rpartModel <- train(Class ~ .,
data = Train_dat,
method = 'rpart',
tuneLength = 30,
trControl = controlObject)
rpartModel