[basic-stat-python] 독립표본 t 검증

독립표본 t-test

두 독립표본의 평균을 통계적으로 비교하는 기법

독립표본?

두 표본집단을 구성(표집/수집)할 때 독립이면 독립표본
대응표본: 부부 100쌍을 뽑아 남편 100명과 아내 100명으로 두 집단을 비교하는 경우
독립표본: 무작위로 남자 100명과 여자 100명을 뽑아 두 집단을 비교하는 경우

독립표본 t-test의 논리

두 집단의 모평균(모집단의 평균)은 동일하다는 가설
- 두 집단의 모평균 차이는 0
표본평균들은 모집단 평균과 다를 수 있지만 차이가 크지 않을 것
따라서 두 집단의 표본평균의 차이가 0은 아닐 수 있지만, 그렇게 큰 차이를 보이지는 않을 것임
만약, 두 표본평균이 심각하게 차이가 난다면, 두 집단의 모평균이 동일하다는, 즉 두 집단의 모평균 차이가 0이라는 가설이 맞지 않을 가능성이 높음
따라서, 두 표본평균이 차이나는 정도에 대한 가능성(확률)을 계산하고 이를 바탕으로 "두 집단의 모평균(모집단의 평균)은 동일하다는 가설"에 대해서 판단함

두 집단 dat_M와 dat_F가 있음

dat_M = [117, 108, 105, 89, 101, 93, 96, 108, 108, 94, 93, 112, 92, 91, 100, 96, 120, 86, 96, 95]
dat_F = [121, 101, 102, 114, 103, 105, 101, 131, 96, 109, 109, 113, 115, 94, 108, 96, 110, 112, 120, 100]

dat_M의 평균은 100

import numpy as np

np.mean(dat_M)

100.0

dat_F의 평균은 108

np.mean(dat_F)

108.0

두 집단의 평균 차이가 통계적으로 유의미한지 t-검증

import scipy.stats

scipy.stats.ttest_ind(dat_M, dat_F, equal_var=False)

Ttest_indResult(statistic=-2.670573872669349, pvalue=0.01108318824471652)

검증 결과, 두 집단의 평균 차이는 통계적으로 유의미함 (p<0.05)

통계적 유의미성

검증 결과, 통계적으로 유의미한 결과를 얻었다면?
귀무가설(null hypothesis)을 전제로 했을 때, 어떤 통계량의 값을 얻을 확률이, 연구자가 정한 유의수준보다 작을 경우 "통계적으로 유의미하다"라고 표현함

유의수준

어떤 사건이 일어날 확률이 희박한지 판단하기 위해 연구자가 주관적으로 정하는 기준
어떤 사건이 일어날 확률이 유의수준보다 작으면, 그 사건은 유의미한 사건(희귀한 사건)으로 여기겠다는 것임
통상적으로 학계에서는 0.05나 0.01을 관례적으로 사용