예측 분석

데이터를 이용해 예측 분석을 하는 방법을 알아봅니다


수강중

3. 분석 절차

예측 분석의 절차

  1. 자료 전처리(Data preprocessing)
  2. 자료 분할(Data splitting)
  3. 모형 적합(Fitting models)
  4. 모형 평가(Evaluating models)
  5. 최종 모형 선정 및 최종 예측

자료 전처리(Data preprocessing)

  • 많은 변수를 사용하여 모형을 만드는 경우 부적절한 자료가 추가되거나 원자료의 척도가 서로 다를 가능성이 있음
  • 위와 같은 자료들을 수정 및 제거하면 모형의 예측력을 높일 수 있음
  • 중요한 과정이며 많은 시간을 할애하는 과정
  • 특히 빅데이터 분석과 같이 다루는 변수가 많고 눈으로 파악하기 힘든 경우에 더욱 중요

  • 문제 있는 자료들의 예시

    • near zero variance
      • 예) 병원에서 '당신은 최근 한 달동안 병원을 방문한 적이 있습니까?'와 같은 설문을 진행한다면 대답이 전부 1(Yes)이기 때문에 정보가가 없음
      • 분산이 작음
    • 서로 상관이 매우 높은 변수가 존재
      • 예) 아동기에는 키, 몸무게, 월령이 상관이 높음(0.8 이상)
      • 값은 3개 이지만 주는 정보는 거의 하나라고 볼 수 있음
      • 각 변수의 설명력이 떨어질 수 있음
      • 회귀분석 시 다중공선성 문제 발생 가능
      • 추정 파라미터가 불안정할 수 있음
    • 변수 분포의 비대칭성
      • 예) 소득은 우측으로 꼬리가 긴 그래프 형태로 나타남
      • 대칭 분포를 가질 때가 분석 결과가 좋음
    • 변수 표준화
      • 각각의 측정 도구들의 척도(scale)가 다른 경우
      • 예) 설문의 점수 간격이 각각 1~5점, 1~10점이라면 1점의 의미가 서로 다를 것임
      • 예) 원, 엔, 달러 등 화폐 단위가 다른 경우
      • 표준화를 통해 각각의 scale을 동일하게 맞춰 주는 과정이 필요함

자료 분할(Data splitting)

  • 일반적으로 예측 모형 분석을 할 때는 모형이 얼마나 좋은지 알아보기 위하여 예측 정확도를 검증하는 자료가 필요함
  • 이 자료는 분석을 위한 자료와는 별도로 준비해야 함
  • 만일 모형을 검증할 자료를 단기간에 새롭게 모으는 것이 힘들다면 분석을 위해 모은 자료의 일부분을 모형을 만드는데 사용하지 않고 검증을 위해 남겨둠
  • 예측 분석에 있어서 가장 핵심적인 과정
  • 자료 분할의 예시
    • 예) 70%로 모형(training set)을 만들고 30%로 검증(test set)을 하기 위해 나눔

모형 적합(Fitting models)

  • 학습 자료에서 가장 오차를 줄일 수 있도록 모형의 파라미터 선택
  • 컴퓨터가 하는 과정

모형 평가(Evaluating models)

  • 여러 모형들을 비교하여 가장 좋은 모형을 선택
  • 모형을 선택하는 기준은 다양함
    • 연속형 변수의 경우
      • Mean Square Errors
      • Root Mean Square Errors
      • Sums of Absolute Errors
    • 이산형 변수의 경우
      • Accuracy
      • AUC

최종 모형 선정 및 최종 예측

  • 모형 선정 과정에서 가장 좋은 모형으로 판단한 모형으로 검증 자료 예측
  • 최종 모형의 예측력 평가
  • 기존에 사용되던 모형의 정확도와 비교 후 의사결정