R 기초 통계

R로 하는 기초 통계 분석법


수강중

23. 일원분산분석의 가정 확인

동영상이 없는 텍스트 강의 자료입니다.

일원분산분석의 가정들

  • 독립성: 자료의 추출은 독립적으로 이루어졌음
    • 무선표집을 하였다면 만족하는 것으로 여김
  • 정규성: 자료의 모집단 분포는 정규분포를 따름
  • 등분산성: 모든 집단의 모분산은 동일함

정규성 확인

  • 샤피로 검증이나 Q-Q plot을 이용하여 확인
  • 수준별(집단별)로 실시하여 확인

샤피로 검증에서 p < .05이면 정규분포와 차이가 있음.

ctrl_weight = PlantGrowth$weight[PlantGrowth$group=='ctrl']
shapiro.test(ctrl_weight)
	Shapiro-Wilk normality test

data:  ctrl_weight
W = 0.95668, p-value = 0.7475

정규분포를 따르면 Q-Q plot에서 점들이 대각선 상에 있어야 함

qqnorm(ctrl_weight)
qqline(ctrl_weight)

ctrl은 샤피로 검증에서 p-value가 0.05보다 크고 Q-Q plot에서 데이터가 대각선 상에 있으므로 정규분포를 따른다고 할 수 있음.

trt1trt2도 같은 방법으로 검증.

trt1_weight = PlantGrowth$weight[PlantGrowth$group=='trt1']
shapiro.test(trt1_weight)
	Shapiro-Wilk normality test

data:  trt1_weight
W = 0.93041, p-value = 0.4519
qqnorm(trt1_weight)
qqline(trt1_weight)
trt2_weight = PlantGrowth$weight[PlantGrowth$group=='trt2']
shapiro.test(trt2_weight)
	Shapiro-Wilk normality test

data:  trt2_weight
W = 0.94101, p-value = 0.5643
qqnorm(trt2_weight)
qqline(trt2_weight)

trt1trt2도 정규분포를 크게 벗어나지 않음.

등분산성 확인

등분산성은 바틀렛 검증 또는 레빈 검증으로 확인

바틀렛 검증에서 p < .05이면 집단간 분산에 차이가 있음

bartlett.test(PlantGrowth$weight, PlantGrowth$group)
	Bartlett test of homogeneity of variances

data:  PlantGrowth$weight and PlantGrowth$group
Bartlett's K-squared = 2.8786, df = 2, p-value = 0.2371

레빈 검증에서 p < .05여도 집단간 분산에 차이가 있음.

library(car)
leveneTest(weight ~ group, data=PlantGrowth)
Loading required package: carData
      Df F value  Pr(>F)   
group  2 1.119186 0.3412266
      27       NA        NA

두 검증 모두에서 집단 간 분산에서 유의미한 차이를 발견하지 못함. 등분산성 가정이 유지.