예측 분석

데이터를 이용해 예측 분석을 하는 방법을 알아봅니다


수강중

5. 비대칭 자료

비대칭 자료(Imbalanced data)

  • 많은 분석방법들은 각 집단의 자료 수가 비슷한 경우에 잘 작동
  • 그러나 이렇게 자료를 모으기 어려운 경우가 존재함
  • 예1) 말기 암 환자의 생존 예측: 생존자는 전체 말기 암 환자 중 극히 일부
  • 예2) 보험 사기꾼 예측: 보험 사기꾼은 전체 가입자 중 극히 일부

비대칭 자료를 해결하는 방법

cut-off point 조정

  • A가 B보다 월등히 많다고 하자.
  • P(A) > .5일 때보다 더 높은 기준을 잡으면 B를 분류할 때에 좀 더 유리함

class weight

  • 모형을 학습시킬 때 적은 자료 예측이 빗나가면 더 많은 penaly를 부여함

sampling method

  • 적은 집단의 자료를 늘리거나 많은 집단의 자료를 인위적으로 줄여 각 집단에 속한 자료의 수를 맞춤
  • 예) oversampling, undersampling, SMOTE(undersampling과 oversampling을 결합한 방법)