독립표본 t 검증
독립표본 t-test
- 두 독립표본의 평균을 통계적으로 비교하는 기법
독립표본?
- 두 표본집단을 구성(표집/수집)할 때 독립이면 독립표본
- 대응표본: 부부 100쌍을 뽑아 남편 100명과 아내 100명으로 두 집단을 비교하는 경우
- 독립표본: 무작위로 남자 100명과 여자 100명을 뽑아 두 집단을 비교하는 경우
독립표본 t-test의 논리
- 두 집단의 모평균(모집단의 평균)은 동일하다는 가설
- 두 집단의 모평균 차이는 0
- 표본평균들은 모집단 평균과 다를 수 있지만 차이가 크지 않을 것
- 따라서 두 집단의 표본평균의 차이가 0은 아닐 수 있지만, 그렇게 큰 차이를 보이지는 않을 것임
- 만약, 두 표본평균이 심각하게 차이가 난다면, 두 집단의 모평균이 동일하다는, 즉 두 집단의 모평균 차이가 0이라는 가설이 맞지 않을 가능성이 높음
- 따라서, 두 표본평균이 차이나는 정도에 대한 가능성(확률)을 계산하고 이를 바탕으로 "두 집단의 모평균(모집단의 평균)은 동일하다는 가설"에 대해서 판단함
두 집단 dat_M
와 dat_F
가 있음
dat_M = [117, 108, 105, 89, 101, 93, 96, 108, 108, 94, 93, 112, 92, 91, 100, 96, 120, 86, 96, 95]
dat_F = [121, 101, 102, 114, 103, 105, 101, 131, 96, 109, 109, 113, 115, 94, 108, 96, 110, 112, 120, 100]
dat_M
의 평균은 100
import numpy as np
np.mean(dat_M)
100.0
dat_F
의 평균은 108
np.mean(dat_F)
108.0
두 집단의 평균 차이가 통계적으로 유의미한지 t-검증
import scipy.stats
scipy.stats.ttest_ind(dat_M, dat_F, equal_var=False)
Ttest_indResult(statistic=-2.670573872669349, pvalue=0.01108318824471652)
- 검증 결과, 두 집단의 평균 차이는 통계적으로 유의미함 (p<0.05)
통계적 유의미성
- 검증 결과, 통계적으로 유의미한 결과를 얻었다면?
- 귀무가설(null hypothesis)을 전제로 했을 때, 어떤 통계량의 값을 얻을 확률이, 연구자가 정한 유의수준보다 작을 경우 "통계적으로 유의미하다"라고 표현함
유의수준
- 어떤 사건이 일어날 확률이 희박한지 판단하기 위해 연구자가 주관적으로 정하는 기준
- 어떤 사건이 일어날 확률이 유의수준보다 작으면, 그 사건은 유의미한 사건(희귀한 사건)으로 여기겠다는 것임
- 통상적으로 학계에서는 0.05나 0.01을 관례적으로 사용