분류와 회귀
분류와 회귀
분류 vs. 회귀
- 우리가 다루는 예측 분석 문제들
- 연속적인 수치로 나타낼 수 있는 문제
- 오늘의 낮 최고 온도는 몇 도일까?
- 이 상품에 대한 고객의 만족도는 몇 점일까?
- 각 매장의 매출은 얼마나 될까?
- 우리나라의 지역별 전세가는 어떻게 될까?
-
예 or 아니오 / 그룹으로 나타낼 수 있는 문제
- 내가 받은 메일은 스팸 메일일까?
- 보험에 가입하려는 저 사람은 과연 보험 사기꾼일까?
- MRI 영상에 찍힌 종양이 악성일까 양성일까?
- 오늘의 날씨는 맑음일까 흐림일까?
-
예측하고자 하는 값에 따라 문제의 성질이 다름
- 예측하려는 것이 점수라면 회귀
- 예측하려는 것이 집단이라면 분류
- 문제에 따라 사용하는 방법들도 달라짐
모형 종류
연속 변수를 다루는 모형
- linear regression /partial least square
- penalized regression(LASSO, ridge, elastic net)
- Neural network
- Multivariate Adaptive regression Splines
- Support Vector Machine
- K-Nearest Neighbors
- Regression tree / Random forest
이산 / 범주 변수를 다루는 모형
- Linear Discriminant Analysis / Quadratic Discriminant Analysis
- Logistic regression
- Nearest Shrunken centroids
- Neural Network
- Flexible discriminant analysis
- Support Vector Machine
- Naive Bayes
- Classification tree / Random forest