카이제곱 검정 :: 통계 - mindscale
Skip to content

카이제곱 검정

카이제곱 분포

카이제곱 분포: 표준정규분포를 따르는 $Z_i$가 있을 때, 이들의 제곱합 $Q = \sum_{i=1}^k Z_i^2$는 카이제곱 분포를 따름

주로 비율을 비교할 때 많이 사용

카이제곱 적합도 검정

표본에서 얻은 분포가 귀무가설에서 가정하는 모집단 분포와 잘 맞는지(goodness-of-fit)를 알아보기 위해 사용

귀무가설: 모집단에서 비율은 기대빈도의 비율과 같다

Example

예: 브랜드 선호도

50명을 대상으로 설문했을 때, A브랜드를 선호하는 고객 은 31명(62%), B브랜드를 선호하는 고객은 19명(38%) → A 브랜드에 대한 선호도가 통계적으로 유의하게 높은가?

100명을 대상으로 설문했을 때, A브랜드를 선호하는 고객 은 62명(62%), B브랜드를 선호하는 고객은 38명(38%) → A 브랜드에 대한 선호도가 통계적으로 유의하게 높은가?

관찰된 빈도(31:19)와 기대되는 빈도(25:25)를 입력하여 가설검정을 한다

from scipy.stats import chisquare
chisquare([31, 19], [25, 25])

Question

한 연구자가 n = 90명으로부터 검사 점수를 얻었다. 검사 점수를 표준점수(z점수)로 변환시켰을 때, 그 분포가 아래와 같았다. 이에 기반하여 검사 점수가 정규 분포를 따른다고 할 수 있을까?

범위 z < -1.5 -1.5 < z < -0.5 -0.5 < z < 0.5 0.5 < z < 1.5 z > 1.5
관찰빈도 8 19 31 23 9
정규분포에서 비율 6.68% 24.17% 38.30% 24.17% 6.68%

교차표

분할표, 피봇표 등 다양한 이름

hr.pivot_table(index='marriage', columns='department', aggfunc='size')

Question

안전도 데이터에서 doorsaspiration의 교차표를 만들어보세요. 가장 많은 사례는 무엇입니까?

  • four - std
  • four - turbo
  • two - std
  • two - turbo

카이제곱 독립성 검정

expected, observed, stats = pg.chi2_independence(
    x='marriage', y='department', data=hr)
stats

Question

안전도 데이터에서 doorsaspiration의 관계를 카이제곱 검정으로 분석해보세요. 어떤 결론을 내릴 수 있습니까?

  • doors와 aspiration 사이에는 통계적으로 유의한 관계가 있다
  • doors와 aspiration 사이에는 통계적으로 유의한 관계가 없다

대응표본의 비율 비교

from statsmodels.stats.contingency_tables import mcnemar
table = [[40,10],[20,30]]
m = mcnemar(table, exact=False, correction=False)