분석 절차

예측 분석의 절차

자료 전처리(Data preprocessing)
자료 분할(Data splitting)
모형 적합(Fitting models)
모형 평가(Evaluating models)
최종 모형 선정 및 최종 예측

자료 전처리(Data preprocessing)

많은 변수를 사용하여 모형을 만드는 경우 부적절한 자료가 추가되거나 원자료의 척도가 서로 다를 가능성이 있음
위와 같은 자료들을 수정 및 제거하면 모형의 예측력을 높일 수 있음
중요한 과정이며 많은 시간을 할애하는 과정
특히 빅데이터 분석과 같이 다루는 변수가 많고 눈으로 파악하기 힘든 경우에 더욱 중요
문제 있는 자료들의 예시
- near zero variance
  - 예) 병원에서 '당신은 최근 한 달동안 병원을 방문한 적이 있습니까?'와 같은 설문을 진행한다면 대답이 전부 1(Yes)이기 때문에 정보가가 없음
  - 분산이 작음
- 서로 상관이 매우 높은 변수가 존재
  - 예) 아동기에는 키, 몸무게, 월령이 상관이 높음(0.8 이상)
  - 값은 3개 이지만 주는 정보는 거의 하나라고 볼 수 있음
  - 각 변수의 설명력이 떨어질 수 있음
  - 회귀분석 시 다중공선성 문제 발생 가능
  - 추정 파라미터가 불안정할 수 있음
- 변수 분포의 비대칭성
  - 예) 소득은 우측으로 꼬리가 긴 그래프 형태로 나타남
  - 대칭 분포를 가질 때가 분석 결과가 좋음
- 변수 표준화
  - 각각의 측정 도구들의 척도(scale)가 다른 경우
  - 예) 설문의 점수 간격이 각각 1~5점, 1~10점이라면 1점의 의미가 서로 다를 것임
  - 예) 원, 엔, 달러 등 화폐 단위가 다른 경우
  - 표준화를 통해 각각의 scale을 동일하게 맞춰 주는 과정이 필요함

자료 분할(Data splitting)

일반적으로 예측 모형 분석을 할 때는 모형이 얼마나 좋은지 알아보기 위하여 예측 정확도를 검증하는 자료가 필요함
이 자료는 분석을 위한 자료와는 별도로 준비해야 함
만일 모형을 검증할 자료를 단기간에 새롭게 모으는 것이 힘들다면 분석을 위해 모은 자료의 일부분을 모형을 만드는데 사용하지 않고 검증을 위해 남겨둠
예측 분석에 있어서 가장 핵심적인 과정
자료 분할의 예시
- 예) 70%로 모형(training set)을 만들고 30%로 검증(test set)을 하기 위해 나눔

모형 적합(Fitting models)

학습 자료에서 가장 오차를 줄일 수 있도록 모형의 파라미터 선택
컴퓨터가 하는 과정

모형 평가(Evaluating models)

여러 모형들을 비교하여 가장 좋은 모형을 선택
모형을 선택하는 기준은 다양함
- 연속형 변수의 경우
  - Mean Square Errors
  - Root Mean Square Errors
  - Sums of Absolute Errors
- 이산형 변수의 경우
  - Accuracy
  - AUC

최종 모형 선정 및 최종 예측

모형 선정 과정에서 가장 좋은 모형으로 판단한 모형으로 검증 자료 예측
최종 모형의 예측력 평가
기존에 사용되던 모형의 정확도와 비교 후 의사결정