R 기초 통계

R로 하는 기초 통계 분석법


수강중

32. 카이제곱 검증

동영상이 없는 텍스트 강의 자료입니다.

분할표(contingency table)은 두 개의 범주형 변수가 있을 때 하나의 변수를 표의 왼쪽에, 다른 하나의 변수를 표의 위에 정리하고, 표의 내용에는 각 사례의 빈도를 기입한 것이다.

카이제곱 검증은 "분할표의 행과 열이 독립적이다"라는 귀무가설을 검증한다.

실습을 위해 housetasks.txt를 다운로드 받아 연다.

dat <- read.delim('housetasks.txt', row.names = 1)
dat
           Wife Alternating Husband Jointly
Laundry    156  14            2       4    
Main_meal  124  20            5       4    
Dinner      77  11            7      13    
Breakfeast  82  36           15       7    
Tidying     53  11            1      57    
Dishes      32  24            4      53    
Shopping    33  23            9      55    
Official    12  46           23      15    
Driving     10  51           75       3    
Finances    13  13           21      66    
Insurance    8   1           53      77    
Repairs      0   3          160       2    
Holidays     0   1            6     153    

위의 데이터에서 각 열은 아내(Wife), 남편(Husband) 등 집안일을 수행한 사람을 나타낸다. 각 행은 집안일의 종류를 나타낸다.

아내는 빨래(Laundry)를 156번했고, 남편은 수리(Repairs)를 160번했다.

만약 위의 분할표에서 행과 열이 독립적이라면 아내가 많이 하는 집안일은 남편도 많이 할 것이다. 독립적이지 않다면 아내가 많이 하는 일과 남편이 많이 하는 일이 다를 것이다.

이를 확인하기 위해 카이제곱 검증을 실시한다:

res = chisq.test(dat)
res
	Pearson's Chi-squared test

data:  dat
X-squared = 1944.5, df = 36, p-value < 2.2e-16

분석 결과, 집안일의 종류와 수행하는 사람이 독립이 아님을 확인할 수 있음($\chi^2$(36) = 1944.5, p < 0.05)

독립이 아니라면, 그 연합 강도가 얼마나 센지 시각화를 해볼 수 있음

library(corrplot)
corrplot(res$residuals, is.cor = FALSE)
corrplot 0.84 loaded
  • 파란색은 정적(+)인 관계를 나타냄. 아내는 빨래와 식사를 주로 하고, 남편은 수리를 주로 하며, 휴가는 같이(Jointly) 보내는 경향성이 강한 것을 확인할 수 있음
  • 붉은색은 부적(-)인 관계를 나타냄. 아내는 수리를 거의 하지 않는다는 것을 알 수 있음