분석 절차 :: 예측 분석 - mindscale
Skip to content

분석 절차

예측 분석의 절차

  1. 자료 전처리(Data preprocessing)
  2. 자료 분할(Data splitting)
  3. 모형 적합(Fitting models)
  4. 모형 평가(Evaluating models)
  5. 최종 모형 선정 및 최종 예측

자료 전처리(Data preprocessing)

  • 많은 변수를 사용하여 모형을 만드는 경우 부적절한 자료가 추가되거나 원자료의 척도가 서로 다를 가능성이 있음
  • 위와 같은 자료들을 수정 및 제거하면 모형의 예측력을 높일 수 있음
  • 중요한 과정이며 많은 시간을 할애하는 과정
  • 특히 빅데이터 분석과 같이 다루는 변수가 많고 눈으로 파악하기 힘든 경우에 더욱 중요

  • 문제 있는 자료들의 예시

    • near zero variance
      • 예) 병원에서 '당신은 최근 한 달동안 병원을 방문한 적이 있습니까?'와 같은 설문을 진행한다면 대답이 전부 1(Yes)이기 때문에 정보가가 없음
      • 분산이 작음
    • 서로 상관이 매우 높은 변수가 존재
      • 예) 아동기에는 키, 몸무게, 월령이 상관이 높음(0.8 이상)
      • 값은 3개 이지만 주는 정보는 거의 하나라고 볼 수 있음
      • 각 변수의 설명력이 떨어질 수 있음
      • 회귀분석 시 다중공선성 문제 발생 가능
      • 추정 파라미터가 불안정할 수 있음
    • 변수 분포의 비대칭성
      • 예) 소득은 우측으로 꼬리가 긴 그래프 형태로 나타남
      • 대칭 분포를 가질 때가 분석 결과가 좋음
    • 변수 표준화
      • 각각의 측정 도구들의 척도(scale)가 다른 경우
      • 예) 설문의 점수 간격이 각각 1~5점, 1~10점이라면 1점의 의미가 서로 다를 것임
      • 예) 원, 엔, 달러 등 화폐 단위가 다른 경우
      • 표준화를 통해 각각의 scale을 동일하게 맞춰 주는 과정이 필요함

자료 분할(Data splitting)

  • 일반적으로 예측 모형 분석을 할 때는 모형이 얼마나 좋은지 알아보기 위하여 예측 정확도를 검증하는 자료가 필요함
  • 이 자료는 분석을 위한 자료와는 별도로 준비해야 함
  • 만일 모형을 검증할 자료를 단기간에 새롭게 모으는 것이 힘들다면 분석을 위해 모은 자료의 일부분을 모형을 만드는데 사용하지 않고 검증을 위해 남겨둠
  • 예측 분석에 있어서 가장 핵심적인 과정
  • 자료 분할의 예시
    • 예) 70%로 모형(training set)을 만들고 30%로 검증(test set)을 하기 위해 나눔

모형 적합(Fitting models)

  • 학습 자료에서 가장 오차를 줄일 수 있도록 모형의 파라미터 선택
  • 컴퓨터가 하는 과정

모형 평가(Evaluating models)

  • 여러 모형들을 비교하여 가장 좋은 모형을 선택
  • 모형을 선택하는 기준은 다양함
    • 연속형 변수의 경우
      • Mean Square Errors
      • Root Mean Square Errors
      • Sums of Absolute Errors
    • 이산형 변수의 경우
      • Accuracy
      • AUC

최종 모형 선정 및 최종 예측

  • 모형 선정 과정에서 가장 좋은 모형으로 판단한 모형으로 검증 자료 예측
  • 최종 모형의 예측력 평가
  • 기존에 사용되던 모형의 정확도와 비교 후 의사결정