예측 분석

데이터를 이용해 예측 분석을 하는 방법을 알아봅니다

354
수강중

2. 예측 vs. 설명

예측 분석과 설명 분석

예측 분석

  • 사전에 특정한 이론이나 가정 없이 현재의 혹은 미래의 값을 예측하는 것이 목표
  • 주요 관심사: 예측한 값과 실제 값 사이의 차이는?
    • 예측 모델의 정답률은?
  • Data-driven approach
    • 데이터에 내재된 패턴으로 데이터를 예측

설명 분석

  • 이론에 기반한 분석
    • 자료의 패턴을 사람이 이해할 수 있는 형태로 설명해야 함
    • 설명을 머릿속에 가지고 있어야 함
  • 주요 관심사: 나의 가설이 맞나? 혹은 근거가 부족한가?
  • 가설 검정!
    • 가설을 확인하는 절차
    • 자료를 모아 이를 바탕으로 내가 가지고 있는 생각을 확인
  • 예) 우울은 자살을 잘 예측할 수 있는가?, 비만은 그 사람의 수명을 예측할 수 있는가?
  • Theory-driven approach
    • 가설을 가지고 접근

예측 분석과 설명 분석에서 사용하는 방법들이 유사한 경우가 있음

  • 예) 회귀분석
  • 좋은 설명분석을 만들었다면 좋은 예측분석이 될 수 있을까?
  • 좋은 예측분석을 만들었다면 좋은 설명분석이 될 수 있을까?

둘 중 어떤 분석이 더 좋은 분석인가?

  • 그런 건 없음
  • 둘의 목적은 다르기 떄문

좋은 설명 분석은 좋은 예측 분석이 될 수 있을까?

  • 파란 점: 내가 관찰한 자료들
  • 빨간 선: 예측한 그래프의 형태
  • 초록색 선: sin 함수 그래프
  • M: 함수의 차수(예:1차 함수, 9차 함수)
  • sin 함수에서 약간의 노이즈가 섞인 형태
  • 내재된 분포를 모르기 때문에 이를 예측
  • 가장 잘 설명한 것은 우측 하단의 9차 함수 그래프

    • 모든 자료를 완벽하게 잘 설명하고 있음
    • x(x축)에 따른 t(y축)을 정확하게 예측
  • 새롭게 예측할 값이 추가된다면?

    • 단순한 모형은 비교적 잘 예측
    • 9차 함수는 값을 제대로 예측하지 못함
    • 복잡한 모형은 종종 설명은 잘 하지만 예측률을 떨어지는 경우가 존재

좋은 설명 분석이 항상 좋은 예측 분석이 되는 것은 아님

좋은 예측 분석이 좋은 설명 분석이 될 수 있을까?

  • 딥러닝을 그림화한 것
  • 딥러닝
    • 인공신경망(neural network)의 일종
    • hidden layer가 많고 층이 깊음
    • 선들이 복잡하게 얽혀 있어 설명 변수(x)가 어떻게 독립 변수(Y)를 예측하는지 알 수 없음
    • 회귀분석에서 설명하는 것처럼 'x가 1 표준편차 떨어졌을 때 Y가 0.67 표준편차 떨어진 값이 됩니다.' 설명할 수 없음
    • x가 1만큼 증가했을 때 Y가 얼마큼 증가하는지 알 수는 있지만 그 과정은 알 수 없음
  • 좋은 예측 분석은 복잡한 예측 분석인 경우가 많음
    • 예) neural network, support vector machine 등
    • 간단하게 한 마디로 예측할 수 없음

좋은 예측 분석이 항상 좋은 설명 분석이 되는 것은 아님

정리

  • 예측 분석과 설명 분석은 각각 다른 목적으로 사용되어야 함
  • 어떤 경우에는 상호호환이 될 수 있으나 대체적으로 잘 되지 않음
  • 어떤 목표를 가지고 있느냐에 따라 분석 방법을 잘 선택해야 함

내용의 난이도는 적절한가요?

공부나 업무에 도움이 되는 내용인가요?