카이제곱 검증
분할표(contingency table)은 두 개의 범주형 변수가 있을 때 하나의 변수를 표의 왼쪽에, 다른 하나의 변수를 표의 위에 정리하고, 표의 내용에는 각 사례의 빈도를 기입한 것이다.
카이제곱 검증은 "분할표의 행과 열이 독립적이다"라는 귀무가설을 검증한다.
실습을 위해 housetasks.txt를 다운로드 받아 연다.
dat <- read.delim('housetasks.txt', row.names = 1)
dat
Wife Alternating Husband Jointly Laundry 156 14 2 4 Main_meal 124 20 5 4 Dinner 77 11 7 13 Breakfeast 82 36 15 7 Tidying 53 11 1 57 Dishes 32 24 4 53 Shopping 33 23 9 55 Official 12 46 23 15 Driving 10 51 75 3 Finances 13 13 21 66 Insurance 8 1 53 77 Repairs 0 3 160 2 Holidays 0 1 6 153
위의 데이터에서 각 열은 아내(Wife
), 남편(Husband
) 등 집안일을 수행한 사람을 나타낸다. 각 행은 집안일의 종류를 나타낸다.
아내는 빨래(Laundry
)를 156번했고, 남편은 수리(Repairs
)를 160번했다.
만약 위의 분할표에서 행과 열이 독립적이라면 아내가 많이 하는 집안일은 남편도 많이 할 것이다. 독립적이지 않다면 아내가 많이 하는 일과 남편이 많이 하는 일이 다를 것이다.
이를 확인하기 위해 카이제곱 검증을 실시한다:
res = chisq.test(dat)
res
Pearson's Chi-squared test data: dat X-squared = 1944.5, df = 36, p-value < 2.2e-16
분석 결과, 집안일의 종류와 수행하는 사람이 독립이 아님을 확인할 수 있음($\chi^2$(36) = 1944.5, p < 0.05)
독립이 아니라면, 그 연합 강도가 얼마나 센지 시각화를 해볼 수 있음
library(corrplot)
corrplot(res$residuals, is.cor = FALSE)
corrplot 0.84 loaded
- 파란색은 정적(+)인 관계를 나타냄. 아내는 빨래와 식사를 주로 하고, 남편은 수리를 주로 하며, 휴가는 같이(
Jointly
) 보내는 경향성이 강한 것을 확인할 수 있음 - 붉은색은 부적(-)인 관계를 나타냄. 아내는 수리를 거의 하지 않는다는 것을 알 수 있음