예측 분석

데이터를 이용해 예측 분석을 하는 방법을 알아봅니다


수강중

4. 과잉적합

예측 분석의 이슈

과잉 적합(Overfitting)

  • 자료에는 에러가 포함되어 있을 수 있음
    • 예) 국민들의 심리학에 관한 인식을 알기 위해 조사를 실시 의뢰를 했으나 의뢰인이 대학생들에게만 실시함. 의뢰자는 이를 모르고 '한국 사람들의 심리학에 대한 인식이 좋아지고 있다'고 잘못된 판단을 내릴 수도 있음
  • 오차가 섞인 자료의 모형을 과잉 적합시킨다면 예상치 못한 랜덤한 반응들에 대해 모형을 맞게 만들 수도 있음
  • 과잉 적합의 예시
    • 검은 선: Class2로 예측하는 범위
    • 새 자료가 들어왔을 때 Class A에 속할 것인지, B에 속할 것인지 예측하는 모형을 만들 것임
      • Model1은 자료를 잘 설명하는 모형
      • Model2는 약 90% 정도 맞춤
    • 새 자료가 추가될 경우
      • Model1은 자료를 잘못 예측함
      • Model2는 자료를 잘 예측함
  • 예측 분석은 모형을 만들 때 지금 가진 자료를 잘 설명하도록 만들기 때문에 과잉 적합 문제가 생길 수밖에 없음
  • 적절한 과정을 거치지 않는다면 좋지 않은 예측 결과가 발생할 수 있음
  • 복잡한 모형일수록 학습 자료의 복잡한 패턴을 잡아내는 것이 가능
  • 그러나 복잡한 모형일수록 새로운 자료를 예측할 때에 오류가 발생할 가능성이 높아짐
  • 적절한 수준의 복잡도를 가진 모형을 찾는 것이 중요함
  • 이를 위해 Cross-validation / Resampling 방법 사용
  • 대부분 예측 분석 시 사용되는 모형은 튜닝 파라미터를 가지고 있음
    • 모형을 세부 조정하여 과잉 적합을 막음
    • 대부분의 튜닝 파라미터는 penalty와 관련된 것들도 있음
  • 좋은 모형을 만들었다고 해서 예측을 잘 할 수 있을 것인가는 별개의 문제임
  • training set에서 좋았던 모형이 test set에서 예측을 잘 하는지 확인하지 않으면 예측력을 보장할 수 없음