과잉적합

예측 분석의 이슈

과잉 적합(Overfitting)

자료에는 에러가 포함되어 있을 수 있음
예) 국민들의 심리학에 관한 인식을 알기 위해 조사를 실시 의뢰를 했으나 의뢰인이 대학생들에게만 실시함. 의뢰자는 이를 모르고 '한국 사람들의 심리학에 대한 인식이 좋아지고 있다'고 잘못된 판단을 내릴 수도 있음
오차가 섞인 자료의 모형을 과잉 적합시킨다면 예상치 못한 랜덤한 반응들에 대해 모형을 맞게 만들 수도 있음
과잉 적합의 예시
검은 선: Class2로 예측하는 범위
새 자료가 들어왔을 때 Class A에 속할 것인지, B에 속할 것인지 예측하는 모형을 만들 것임
- Model1은 자료를 잘 설명하는 모형
- Model2는 약 90% 정도 맞춤
새 자료가 추가될 경우
- Model1은 자료를 잘못 예측함
- Model2는 자료를 잘 예측함
예측 분석은 모형을 만들 때 지금 가진 자료를 잘 설명하도록 만들기 때문에 과잉 적합 문제가 생길 수밖에 없음
적절한 과정을 거치지 않는다면 좋지 않은 예측 결과가 발생할 수 있음
복잡한 모형일수록 학습 자료의 복잡한 패턴을 잡아내는 것이 가능
그러나 복잡한 모형일수록 새로운 자료를 예측할 때에 오류가 발생할 가능성이 높아짐
적절한 수준의 복잡도를 가진 모형을 찾는 것이 중요함
이를 위해 Cross-validation / Resampling 방법 사용
대부분 예측 분석 시 사용되는 모형은 튜닝 파라미터를 가지고 있음
모형을 세부 조정하여 과잉 적합을 막음
대부분의 튜닝 파라미터는 penalty와 관련된 것들도 있음
좋은 모형을 만들었다고 해서 예측을 잘 할 수 있을 것인가는 별개의 문제임
training set에서 좋았던 모형이 test set에서 예측을 잘 하는지 확인하지 않으면 예측력을 보장할 수 없음