예측 분석

데이터를 이용해 예측 분석을 하는 방법을 알아봅니다


수강중

21. 모형 적합 - Naive Bayes

Naive Bayes

  • 베이즈 정리에 기반한 분석
  • 베이즈 정리의 계산을 간단하게 하기 위해서 모든 변수들이 서로 독립임을 가정하는 방법이라 Naive라는 이름이 붙음
  • Bayes Rule $$ Pr[Y = C {l} |X] = \frac{Pr[Y]Pr[X|Y = C {l}]}{pr[X]} $$
  • X를 보고 Y가 어떤 class에 속하는지 알고 싶을 때 이용
  • $Pr[Y]$: Y가 나타날 확률
  • $Pr[X|Y = C _{l}]$: clsss가 주어졌을 때의 특징은 어떠한가

    • 예) 프랑스 와인일 때 가격이 10만원일 확률
    • 예) 프랑스 와인일 때 메를로 품종일 확률
  • 좀 더 간단하게 $$ Pr[X|Y = C{l}] = \Pi Pr[X{j}|Y = C_{l}] $$

  • 모든 변수들이 서로 독립이라고 가정

실습

Grid 생성

nbGrid <- expand.grid(.fL = 1:5,
                      .usekernel = T,
                      .adjust = 0:5)
nbGrid <- expand.grid(.fL = seq(0,1,0.1),
                      .usekernel = T,
                      .adjust = 0:5)
  • (좋은 모델을 만드는 연습을 하기 위해 Grid를 두 개 만들었음)
  • fL: laplace correction
    • 확률이 0인 것은 작은 값으로 여기는 것
    • 값이 너무 작으면 값을 추정할 때 불안정한 경우가 발생하기 때문

모형 학습

nbModel <- train(Class ~.,
                 data = Train_dat,
                 method = 'nb',
                 tuneGrid = nbGrid,
                 trControl = controlObject)