[basic-stat-r] 잔차분석 :: 마인드스케일

R에서는 선형회귀분석의 잔차를 분석할 수 있는 여러 가지 그래프들을 제공

model = lm(dist ~ speed, data = cars)

모형의 선형성

plot(model, 1)

plot(model, 2)

잔차의 정규성은 샤피로 검정으로 확인할 수 있음. 아래 분석 결과는 p값이 0.02이므로 유의수준 5%에서 잔차의 정규성이 위반되었다고 판단

shapiro.test(model$residuals)


	Shapiro-Wilk normality test

data:  model$residuals
W = 0.94509, p-value = 0.02152

plot(model, 3)

plot(model, 4)

회귀분석에서 잔차는 정규성, 등분상성 그리고 독립성을 가지는 것으로 가정
자료 수집 과정에서 무작위 표집(random sampling)을 하였다면, 잔차의 독립성은 만족하는 것으로 봄
시계열 자료나 종단연구 자료처럼, 연구 설계 자체가 독립성을 담보할 수 없는 경우에는 더빈-왓슨 검정(Durbin-Watson test) 등을 실시

위의 예에서는 49번 자료가 극단값으로 보이고 이 때문에 잔차의 정규성이 위배되는 것으로 추측된다. 따라서 49번 자료를 제거하고 다시 분석을 시도해볼 수 있다.