카이제곱 검정
카이제곱 분포
카이제곱 분포: 표준정규분포를 따르는 $Z_i$가 있을 때, 이들의 제곱합 $Q = \sum_{i=1}^k Z_i^2$는 카이제곱 분포를 따름
주로 비율을 비교할 때 많이 사용
카이제곱 적합도 검정
표본에서 얻은 분포가 귀무가설에서 가정하는 모집단 분포와 잘 맞는지(goodness-of-fit)를 알아보기 위해 사용
귀무가설: 모집단에서 비율은 기대빈도의 비율과 같다
Example
예: 브랜드 선호도
50명을 대상으로 설문했을 때, A브랜드를 선호하는 고객 은 31명(62%), B브랜드를 선호하는 고객은 19명(38%) → A 브랜드에 대한 선호도가 통계적으로 유의하게 높은가?
100명을 대상으로 설문했을 때, A브랜드를 선호하는 고객 은 62명(62%), B브랜드를 선호하는 고객은 38명(38%) → A 브랜드에 대한 선호도가 통계적으로 유의하게 높은가?
관찰된 빈도(31:19)와 기대되는 빈도(25:25)를 입력하여 가설검정을 한다
from scipy.stats import chisquare
chisquare([31, 19], [25, 25])
Question
한 연구자가 n = 90명으로부터 검사 점수를 얻었다. 검사 점수를 표준점수(z점수)로 변환시켰을 때, 그 분포가 아래와 같았다. 이에 기반하여 검사 점수가 정규 분포를 따른다고 할 수 있을까?
범위 | z < -1.5 | -1.5 < z < -0.5 | -0.5 < z < 0.5 | 0.5 < z < 1.5 | z > 1.5 |
---|---|---|---|---|---|
관찰빈도 | 8 | 19 | 31 | 23 | 9 |
정규분포에서 비율 | 6.68% | 24.17% | 38.30% | 24.17% | 6.68% |
교차표
분할표, 피봇표 등 다양한 이름
hr.pivot_table(index='marriage', columns='department', aggfunc='size')
Question
안전도 데이터에서 doors
와 aspiration
의 교차표를 만들어보세요. 가장 많은 사례는 무엇입니까?
- four - std
- four - turbo
- two - std
- two - turbo
카이제곱 독립성 검정
expected, observed, stats = pg.chi2_independence(
x='marriage', y='department', data=hr)
stats
Question
안전도 데이터에서 doors
와 aspiration
의 관계를 카이제곱 검정으로 분석해보세요. 어떤 결론을 내릴 수 있습니까?
- doors와 aspiration 사이에는 통계적으로 유의한 관계가 있다
- doors와 aspiration 사이에는 통계적으로 유의한 관계가 없다
대응표본의 비율 비교
from statsmodels.stats.contingency_tables import mcnemar
table = [[40,10],[20,30]]
m = mcnemar(table, exact=False, correction=False)