Python 기초 통계

Python으로 하는 기초 통계 분석법


수강중

16. 독립표본 t 검증

동영상이 없는 텍스트 강의 자료입니다.

독립표본 t-test

  • 두 독립표본의 평균을 통계적으로 비교하는 기법

독립표본?

  • 두 표본집단을 구성(표집/수집)할 때 독립이면 독립표본
  • 대응표본: 부부 100쌍을 뽑아 남편 100명과 아내 100명으로 두 집단을 비교하는 경우
  • 독립표본: 무작위로 남자 100명과 여자 100명을 뽑아 두 집단을 비교하는 경우

독립표본 t-test의 논리

  • 두 집단의 모평균(모집단의 평균)은 동일하다는 가설
    • 두 집단의 모평균 차이는 0
  • 표본평균들은 모집단 평균과 다를 수 있지만 차이가 크지 않을 것
  • 따라서 두 집단의 표본평균의 차이가 0은 아닐 수 있지만, 그렇게 큰 차이를 보이지는 않을 것임
  • 만약, 두 표본평균이 심각하게 차이가 난다면, 두 집단의 모평균이 동일하다는, 즉 두 집단의 모평균 차이가 0이라는 가설이 맞지 않을 가능성이 높음
  • 따라서, 두 표본평균이 차이나는 정도에 대한 가능성(확률)을 계산하고 이를 바탕으로 "두 집단의 모평균(모집단의 평균)은 동일하다는 가설"에 대해서 판단함

두 집단 dat_Mdat_F가 있음

dat_M = [117, 108, 105, 89, 101, 93, 96, 108, 108, 94, 93, 112, 92, 91, 100, 96, 120, 86, 96, 95]
dat_F = [121, 101, 102, 114, 103, 105, 101, 131, 96, 109, 109, 113, 115, 94, 108, 96, 110, 112, 120, 100]

dat_M의 평균은 100

import numpy as np

np.mean(dat_M)
100.0

dat_F의 평균은 108

np.mean(dat_F)
108.0

두 집단의 평균 차이가 통계적으로 유의미한지 t-검증

import scipy.stats

scipy.stats.ttest_ind(dat_M, dat_F, equal_var=False)
Ttest_indResult(statistic=-2.670573872669349, pvalue=0.01108318824471652)
  • 검증 결과, 두 집단의 평균 차이는 통계적으로 유의미함 (p<0.05)

통계적 유의미성

  • 검증 결과, 통계적으로 유의미한 결과를 얻었다면?
  • 귀무가설(null hypothesis)을 전제로 했을 때, 어떤 통계량의 값을 얻을 확률이, 연구자가 정한 유의수준보다 작을 경우 "통계적으로 유의미하다"라고 표현함

유의수준

  • 어떤 사건이 일어날 확률이 희박한지 판단하기 위해 연구자가 주관적으로 정하는 기준
  • 어떤 사건이 일어날 확률이 유의수준보다 작으면, 그 사건은 유의미한 사건(희귀한 사건)으로 여기겠다는 것임
  • 통상적으로 학계에서는 0.05나 0.01을 관례적으로 사용