예측 vs. 설명
예측 분석과 설명 분석
예측 분석
- 사전에 특정한 이론이나 가정 없이 현재의 혹은 미래의 값을 예측하는 것이 목표
- 주요 관심사: 예측한 값과 실제 값 사이의 차이는?
- 예측 모델의 정답률은?
- Data-driven approach
- 데이터에 내재된 패턴으로 데이터를 예측
설명 분석
- 이론에 기반한 분석
- 자료의 패턴을 사람이 이해할 수 있는 형태로 설명해야 함
- 설명을 머릿속에 가지고 있어야 함
- 주요 관심사: 나의 가설이 맞나? 혹은 근거가 부족한가?
- 가설 검정!
- 가설을 확인하는 절차
- 자료를 모아 이를 바탕으로 내가 가지고 있는 생각을 확인
- 예) 우울은 자살을 잘 예측할 수 있는가?, 비만은 그 사람의 수명을 예측할 수 있는가?
- Theory-driven approach
- 가설을 가지고 접근
예측 분석과 설명 분석에서 사용하는 방법들이 유사한 경우가 있음
- 예) 회귀분석
- 좋은 설명분석을 만들었다면 좋은 예측분석이 될 수 있을까?
- 좋은 예측분석을 만들었다면 좋은 설명분석이 될 수 있을까?
둘 중 어떤 분석이 더 좋은 분석인가?
- 그런 건 없음
- 둘의 목적은 다르기 떄문
좋은 설명 분석은 좋은 예측 분석이 될 수 있을까?
- 파란 점: 내가 관찰한 자료들
- 빨간 선: 예측한 그래프의 형태
- 초록색 선: sin 함수 그래프
- M: 함수의 차수(예:1차 함수, 9차 함수)
- sin 함수에서 약간의 노이즈가 섞인 형태
- 내재된 분포를 모르기 때문에 이를 예측
-
가장 잘 설명한 것은 우측 하단의 9차 함수 그래프
- 모든 자료를 완벽하게 잘 설명하고 있음
- x(x축)에 따른 t(y축)을 정확하게 예측
-
새롭게 예측할 값이 추가된다면?
- 단순한 모형은 비교적 잘 예측
- 9차 함수는 값을 제대로 예측하지 못함
- 복잡한 모형은 종종 설명은 잘 하지만 예측률을 떨어지는 경우가 존재
좋은 설명 분석이 항상 좋은 예측 분석이 되는 것은 아님
좋은 예측 분석이 좋은 설명 분석이 될 수 있을까?
- 딥러닝을 그림화한 것
- 딥러닝
- 인공신경망(neural network)의 일종
- hidden layer가 많고 층이 깊음
- 선들이 복잡하게 얽혀 있어 설명 변수(x)가 어떻게 독립 변수(Y)를 예측하는지 알 수 없음
- 회귀분석에서 설명하는 것처럼 'x가 1 표준편차 떨어졌을 때 Y가 0.67 표준편차 떨어진 값이 됩니다.' 설명할 수 없음
- x가 1만큼 증가했을 때 Y가 얼마큼 증가하는지 알 수는 있지만 그 과정은 알 수 없음
- 좋은 예측 분석은 복잡한 예측 분석인 경우가 많음
- 예) neural network, support vector machine 등
- 간단하게 한 마디로 예측할 수 없음
좋은 예측 분석이 항상 좋은 설명 분석이 되는 것은 아님
정리
- 예측 분석과 설명 분석은 각각 다른 목적으로 사용되어야 함
- 어떤 경우에는 상호호환이 될 수 있으나 대체적으로 잘 되지 않음
- 어떤 목표를 가지고 있느냐에 따라 분석 방법을 잘 선택해야 함