R 기초 통계

R로 하는 기초 통계 분석법


수강중

14. 잔차분석

동영상이 없는 텍스트 강의 자료입니다.

R에서는 선형회귀분석의 잔차를 분석할 수 있는 여러 가지 그래프들을 제공

model = lm(dist ~ speed, data = cars)

모형의 선형성

  • 예측값(fitted)과 잔차(residual)의 비교
  • 모든 예측값에서 잔차가 비슷하게 있어야 함(가운데 점선)
  • 빨간 실선은 잔차의 추세를 나타냄
  • 빨간 실선이 점선에서 크게 벗어난다면 예측값에 따라 잔차가 크게 달라진다는 것
plot(model, 1)

잔차의 정규성

  • 잔차가 정규분포를 따른다는 가정
  • Q-Q 플롯으로 확인할 수 있음
  • 잔차가 정규분포를 띄면 Q-Q 플롯에서 점들이 점선을 따라 배치되어 있어야 함
plot(model, 2)

잔차의 정규성은 샤피로 검정으로 확인할 수 있음. 아래 분석 결과는 p값이 0.02이므로 유의수준 5%에서 잔차의 정규성이 위반되었다고 판단

shapiro.test(model$residuals)
	Shapiro-Wilk normality test

data:  model$residuals
W = 0.94509, p-value = 0.02152

잔차의 등분산성

  • 회귀모형을 통햬 예측된 값이 크던 작던, 모든 값들에 대하여 잔차의 분산이 동일하다는 가정
  • 아래 그래프는 예측값(가로축)에 따라 잔차가 어떻게 달라지는지 보여줌
  • 빨간색 실선이 수평선을 그리는 것이 이상적
plot(model, 3)

극단값

  • Cook's distance는 극단값을 나타내는 지표
  • 23번, 39번, 49번 자료가 특히 예측에서 많이 벗어남을 알 수 있음
plot(model, 4)

잔차의 독립성

  • 회귀분석에서 잔차는 정규성, 등분상성 그리고 독립성을 가지는 것으로 가정
  • 자료 수집 과정에서 무작위 표집(random sampling)을 하였다면, 잔차의 독립성은 만족하는 것으로 봄
  • 시계열 자료나 종단연구 자료처럼, 연구 설계 자체가 독립성을 담보할 수 없는 경우에는 더빈-왓슨 검정(Durbin-Watson test) 등을 실시

잔차 분석 결과를 바탕으로 대응

  • 잔차 분석 결과에 따라 다양한 방식의 대응이 가능
    • 극단값을 제거
    • 독립변수를 추가
    • 종속변수를 수학적으로 변환

위의 예에서는 49번 자료가 극단값으로 보이고 이 때문에 잔차의 정규성이 위배되는 것으로 추측된다. 따라서 49번 자료를 제거하고 다시 분석을 시도해볼 수 있다.