Skip to content

통계적 가설검정

우리가 보통 말하는 가설 검정, 과학에서 가설검정은 우리가 입증하고자 하는 바를 가설로 세우고, 이를 지지하는 근거를 제시합니다. 이것을 실증주의(positivism)라고 합니다.

그런데 통계학의 초기 인물들은 좀 특이한 관점을 가지고 있었는데요, 그들은 무언가를 입증하는 것이 아니라 반대로 잘못된 주장을 반증하는 것이 중요하다는 생각을 했습니다. 이 생각에 바탕을 두고 만들어진 기법이 통계적 가설검정입니다.

통계적 가설검정의 아이디어는 이렇습니다. 일단 우리가 반박하고자 하는 가설을 세웁니다. 이 가설을 귀무가설(null hypothesis)라고 합니다. "귀무"는 "무로 돌아간다"는 뜻입니다. 없애버릴 가설이라는 것이죠. 이 귀무가설을 일단은 참이라고 가정을 합니다. 귀무가설이 참일 때, 우리가 가진 데이터가 관찰될 가능성을 계산해봅니다. 이렇게 계산한 수치를 p 값이라고 합니다.

만약 이 p 값이 유의수준(significance level)이라는 기준보다 낮다면, 귀무가설이 참일 경우 우리가 가친 데이터가 관찰될 가능성인 별로 없다는 뜻이 됩니다. 바꿔말하면 귀무가설이 거짓이라고 할 수 있겠지요. 그러면 귀무가설을 기각하고, 그에 반대되는 대립가설(alternative hypothesis)을 채택하게 됩니다. 사실은 이 대립가설이 우리가 진짜로 하고 싶었던 이야기입니다.

그러면 p 값이 높으면 어떻게 될까요? 그러면 특정한 결론을 내리지 않습니다. 왜냐하면 p 값이 높으면 귀무가설에서 우리가 가진 데이터가 나올 가능성이 높지만, 다른 가설에서 나올 가능성도 없는 게 아니거든요. 논리에서 보면 A → B일 때, not B → not A는 성립하지만 B → A는 성립하지 않는 것과 같습니다.

언뜻 들으면 말이 되는 것 같기도 하고, 굉장히 좀 이상한 논리인데요, 현재 와서는 상당히 비판도 많이 받고 있습니다. 실제로 미국통계학회에서는 2016년에 통계적 가설검정을 좀 적당히 써야된다는 성명을 내놓기도 했습니다. 하지만 워낙 오랫동안 써온 방법이기 때문에 여전히 많이 쓰는 방법이기도 합니다.

Question

커피를 마시면 수면 시간에 변화가 있다는 가설을 입증하고자 합니다. 귀무가설은 무엇이 되어야 합니까?

  • 커피를 마시면 수면시간에 변화가 없다
  • 커피를 마시면 수면시간에 변화가 있다

Question

통계적 가설 검정에서 귀무가설 기각의 방법으로 올바른 것은?

  • 귀무가설에 따라 현재 관찰된 결과가 나올 가능성을 계산한다. 그 가능성이 낮으면 귀무가설을 기각한다.
  • 귀무가설에 따라 현재 관찰된 결과가 나올 가능성을 계산한다. 그 가능성이 높으면 귀무가설을 채택한다.
  • 대립가설에 따라 현재 관찰된 결과가 나올 가능성을 계산한다. 그 가능성이 낮으면 대립가설을 기각한다.
  • 대립가설에 따라 현재 관찰된 결과가 나올 가능성을 계산한다. 그 가능성이 높으면 대립가설을 채택한다.

Question

다음 중 어떤 경우에 귀무가설을 기각합니까?

  • p < 유의수준
  • p > 유의수준

신뢰구간과 통계적 가설 검정

사실 통계적 가설검정은 앞서 소개한 신뢰구간과 계산 방법이 거의 똑같습니다. 접근하는 방식이 반대인 것인데요, 신뢰구간은 우리가 가진 통계량을 바탕으로 모수에 대해 추정합니다. 통계적 가설 검정은 반대로 모수에 대해 귀무가설을 세우고 우리가 가진 통계량이 관찰될 가능성을 계산합니다. 즉, 두 방법은 동전의 양면과도 같은 관계라고 할 수 있습니다.

그래서 두 가지 방법의 결과는 항상 짝을 이룹니다. 귀무가설에서 가정한 모수가 95% 신뢰구간을 벗어난다면, 그 경우에 p 값은 5% 밑으로 내려가게 됩니다. 따라서 유의수준 5%의 통계적 가설검정과 95% 신뢰구간의 결과는 짝을 이루게 됩니다. 유의수준 1%의 가설검정과 99% 신뢰구간의 결과도 마찬가지입니다.

Question

신뢰수준이 99%이면 유의수준 얼마인 경우와 짝을 이룹니까?

  • 1%
  • 5%
  • 95%
  • 99%

평균의 통계적 가설검정

중고차 데이터에서 price의 평균이 810만원이라는 귀무가설을 검정해봅시다.

pg.ttest(df.price, 810, confidence=0.95)
t.test(df$price, mu=810, conf.level=.95)

신뢰구간을 구할 때와 동일한 코드이지만, 귀무가설로 평균 810만원이 추가된 것을 볼 수 있습니다. p 값을 보면 0.03 정도입니다. 퍼센트로 바꾸면 3%이죠. 유의수준을 5%라고 하면, 유의수준보다 p 값이 작으므로 우리는 귀무가설을 기각할 수 있습니다. 즉, 810만원은 아니라고 할 수 있겠네요.

이때 95% 신뢰구간을 보면 814~893만원입니다. 우리의 귀무가설 810만원은 이 구간을 벗어나있죠. 이렇게 보아도 귀무가설은 기각된다는 것을 알 수 있습니다.

Question

신뢰수준을 95%에서 99%로 높히면 신뢰구간은 어떻게 됩니까?

  • 넓어진다
  • 좁아진다
  • 변하지 않는다
  • 알 수 없다

Question

유의수준을 높이면 p 값은 어떻게 됩니까?

  • 커진다
  • 작아진다
  • 변하지 않는다
  • 알 수 없다

Question

HR 데이터를 다운로드 받아 overtime의 모평균이 12시간이라는 귀무가설을 유의수준 5%에서 검정해보세요. p-value는 얼마입니까?

  • 0.05보다 작다
  • 0.05보다 크다

유의수준 5%일 때 어떤 결론을 내릴 수 있습니까?

  • 귀무가설을 기각한다. overtime ≠ 12
  • 귀무가설을 기각할 수 없다. 결론을 유보한다.

1종 오류와 2종 오류

통계적 가설검정에는 두 가지 오류가 있습니다.

  • 1종 오류(Type I error, False Alarm): 귀무가설이 참일 때, 잘못 기각하는 오류
  • 2종 오류(Type II error, Miss): 귀무가설이 거짓일 때, 기각하지 못하는 오류

유의수준은 1종 오류를 범하는 비율이 됩니다. 즉, 유의수준을 5%로 정하면, 귀무가설이 참일 때 5%를 잘못 기각하게 된다는 것입니다.

물론 우리가 거짓인 귀무가설만을 세운다면, 1종 오류는 범할 일이 없습니다. 그렇지만 우리가 세우는 가설이 참인지 거짓인지는 알 수가 없습니다. 따라서 유의수준은 최악의 경우라고 할 수 있는데, 우리가 세우는 귀무가설마다 모두 참이라면 우리는 5%의 잘못을 저지르게 됩니다.

1종 오류와 2종 오류는 서로 교환 관계에 있습니다. 즉, 1종 오류가 늘어나면 2종 오류는 줄어들고, 반대로 2종 오류가 늘어나면 1종 오류가 줄어듭니다. 유의수준을 낮추면 귀무가설을 잘 기각하지 않게 됩니다. 그러면 잘못 기각하는 경우는 줄어들겠죠. 그런데 기각을 잘 안하니까, 반대로 기각을 못해서 생기는 2종 오류는 늘어납니다. 그래서 유의수준을 무조건 낮추는 것도 좋은 것은 아닙니다.

1종 오류에 비해 2종 오류는 얼마나 저지를지 계산하기가 어려운데요, 왜냐하면 귀무가설은 보통 한 가지로 정합니다. 앞의 경우 평균 = 810만원, 이런 것이죠. 그런데 대립가설은 811만원, 812만원, 813만원 등등으로 다양하기 때문에 얼마나 될지 계산하기가 어렵습니다.

Question

다음 중 1종 오류는 어떤 오류입니까?

  • 참인 귀무가설 기각
  • 거짓인 귀무가설을 기각하지 못함

Question

다음 중 2종 오류는 어떤 오류입니까?

  • 참인 귀무가설 기각
  • 거짓인 귀무가설을 기각하지 못함

Question

실제로는 감기 예방에 도움이 되지 않는 어떤 식품이 있다고 합시다. 한 연구에서 이 식품이 감기 예방에 도움이 된다는 잘못된 결론이 나왔습니다. 귀무가설은 "도움이 되지 않는다"입니다. 어떤 오류입니까?

  • 1종 오류
  • 2종 오류

Question

유의수준 5%에서 통계적 가설 검정을 수행하였습니다. 이에 대한 설명으로 정확한 것을 고르세요.

  • 전체 가설 검정에서 5%가 오류를 범할 것이다.
  • 전체 가설 검정에서 5%가 1종 오류를 범할 것이다.
  • 참인 귀무가설에 대한 가설 검정에서 5%가 1종 오류를 범할 것이다.

Question

동일 조건에서 1종 오류가 많아지면 2종 오류는 어떻게 됩니까?

  • 많아진다
  • 적어진다
  • 변하지 않는다
  • 알 수 없다