비대칭 자료 :: 예측 분석 - mindscale
비대칭 자료
비대칭 자료(Imbalanced data)
- 많은 분석방법들은 각 집단의 자료 수가 비슷한 경우에 잘 작동
- 그러나 이렇게 자료를 모으기 어려운 경우가 존재함
- 예1) 말기 암 환자의 생존 예측: 생존자는 전체 말기 암 환자 중 극히 일부
- 예2) 보험 사기꾼 예측: 보험 사기꾼은 전체 가입자 중 극히 일부
비대칭 자료를 해결하는 방법
cut-off point 조정
- A가 B보다 월등히 많다고 하자.
- P(A) > .5일 때보다 더 높은 기준을 잡으면 B를 분류할 때에 좀 더 유리함
class weight
- 모형을 학습시킬 때 적은 자료 예측이 빗나가면 더 많은 penaly를 부여함
sampling method
- 적은 집단의 자료를 늘리거나 많은 집단의 자료를 인위적으로 줄여 각 집단에 속한 자료의 수를 맞춤
- 예) oversampling, undersampling, SMOTE(undersampling과 oversampling을 결합한 방법)
처음으로