두 집단의 평균 비교 :: 통계 - mindscale
Skip to content

두 집단의 평균 비교

우리가 이제 두 집단을 비교해야 되는 경우가 굉장히 자주인데요. 예를 들면은 우리가 이제 신제품을 만들었다고 하면은 기존 제품의 대비에서 얼마나 좋아진지 두 집단을 비교를 해야겠죠. 그래서 신제품들을 쭉 가지고 테스트를 하고 또 기존 제품을 가지고 쭉 테스트를 했을 때 예를 들면 성능의 차이가 있을 수도 있고요. 또는 소비자들의 선호도의 차이가 있을 수도 있고 여러가지 면에서 차이가 있을 수가 있습니다.

또는 사물뿐만 아니라 사람들의 경우에도 외향성인 사람들이 있고 내향성인 사람들이 있다. 그러면 두 집단 사이 어떤 차이가 있을 수 있겠죠.

우리가 이렇게 차이를 비교할 때 두 집단의 모든 개체들이 다 똑같은 차이가 나지는 않을 거거든요. 무슨 말이냐면 우리가 이제 신제품을 개발을 했는데 성능 테스트를 해보면 여러분들도 뭔가 물건 같은 걸 사보시면 아시겠지만은 똑같은 공장에서 나온 똑같은 제품이라고 하더라도 약간 이제 품질의 차이 같은 게 좀 있습니다. 거기다가 예를 들면 약 같은 경우는 똑같은 약을 먹더라도 사람마다 조금씩 효과가 다를 수가 있죠. 그래서 신제품하고 기존 제품하고 비교하면 신제품이라고 해서 다 좋은 건 아니고 기존 제품이라고 해서 다 나쁜 건 아니어서 우리가 이제 개별 사례로 놓고 보면은 어떨 때는 신제품이 좋고 어떨 때는 기존 제품이 좋고 그래요. 사람 같은 경우도 예를 들면 외향적인 사람 있고 내향적인 사람이 있으면 어떤 외향적인 사람이라고 해서 다 똑같이 외향적인 게 아니고 내향적인 사람이라고 해서 또 다 똑같이 내향적인 게 아니기 때문에 또 개별 사례로 보면은 뭔가 좀 차이가 있는 경우도 있습니다.

그래서 우리가 보통 이제 비교를 할 때 평균적으로 어떤 차이가 있냐, 전체적으로 어떤 일부 예외를 치더라도 평균적으로 어느 쪽이 더 높냐? 이런 걸 보게 되죠.

그래서 신제품하고 기존 제품을 비교를 한다고 하면 신제품의 품질의 평균이 있고 기존 제품의 품질의 평균이 있으면 우리가 이제 원하는 결과는 신제품이 평균적으로 기존 제품보다 좋다 이런 결과를 원하게 되죠.

그러면은 우리가 원하는 것은 다음과 같습니다.

$$ \text{신제품의 평균} < \text{기존제품의 평균} $$

이거를 오른쪽에 있는 걸 이렇게 왼쪽으로 넘기면은 둘의 차이가 0보다 큰 그런 상황을 원한다. 이렇게 바꿔서 말할 수 있습니다. 간단히 말하면 평균 차이가 0보다 크다, 이런 결과를 우리가 보통 원하게 되죠.

$$ \text{신제품의 평균} - \text{기존제품의 평균} < 0 $$

그러면 평균 차이가 0보다 크다라는 것을 어떻게 통계적으로 보여줄 것이냐 검증을 할 것이냐? 문제는 모집단에서 평균이 똑같은 평균 차이가 0인 경우라고 하더라도 표본에서는 0이 아닐 수 있습니다.

Example

내향적인 사람들 한 집단이 있고 외향적인 사람들 한 집단이 있습니다. 이 사람들한테 똑같은 주사위를 줘요. 똑같은 주사위를 주고 자 던져보세요 라고 하면은 10번 이 내향적인 사람 10명이 주사위를 각각 하나씩 가지고 굴립니다. 그럼 주사위가 10번씩 굴렸을 텐데 당연히 이 두 사람들이 굴린 주사위는 똑같기 때문에 평균이 같아야 되지만 실제로는 여러분도 주사위를 굴려보면 10번 정도 굴리면 어떨 때는 좀 6이 많이 나올 때도 있고 어떨 때는 1이 좀 많이 나올 때도 있고. 그렇기 때문에 똑같은 주사위를 똑같이 10번 굴린다고 해도 결과가 다를 수 있다는 거예요. 그럼 문제가 뭐냐면 사실 이 사람들은 똑같은 주사위를 굴렸습니다. 모집단에서는 아무 차이가 없어요. 그렇지만 우리가 관찰한 표본에서는 뭔가 차이가 있을 수도 있다는 거죠. 그럼 이런 차이를 우리가 표본에서 관찰되는 차이만 가지고 이런 식으로 결론을 내리면 잘못된 결론을 내릴 수가 있습니다. 아 이거 성격에 따라서 주사위 굴리면 결과가 다르다, 이렇게 하면 결론이 잘못된 거죠.

우리가 모집단에서 갔다고 하더라도 표본에서 차이가 날 수가 있기 때문에 이런 거를 고려해 가지고 분석을 해야 됩니다. 그럼 어떻게 분석을 하느냐.

우리가 앞서 신뢰 구간이라는 개념을 배웠는데요. 우리가 어떤 수치를 모집단에서 어떨 건가 예측을 할 때 평균을 가지고 신뢰 구간을 정할 수 있는데 마찬가지로 평균의 차이에 대해서도 이게 어차피 표본에서 구한단 말이에요. 평균에서 표본 차이를 얼마를 구했는데 이게 모집단에서는 어느 정도 범위일 거냐. 구간으로 예측을 할 수 있다는 거죠.

그럼 우리가 이 평균 차이에 신뢰 구간을 구했는데 만약에 둘 다 플러스다. 예를 들어서 플러스 3에서 플러스 7이다. 이런 식으로 신뢰 구간이 나왔다고 해봅시다. 우리가 신제품의 성능을 비교를 했는데 두 개의 차이를 구했더니 얘네가 모집단에서는 플러스 3에서 플러스 7 사이에 있다고 하면 적게 차이나도 플러스 3이고 많이 차이나도 플러스 7이니까 어쨌든 간에 플러스는 플러스인 거죠. 즉 신제품하고 기존 제품하고 성능 차이가 조금 날 수도 있고 많이 날 수도 있지만 어쨌든 신제품이 더 좋은 거잖아요. 플러스니까.

그래서 우리의 신뢰 구간을 구해였는데 이게 플러스 범위에 있다. 그러면 어쨌든 우리가 결론 내릴 수 있는 거는 모집단에서는 평균 차이가 플러스일 거다. 즉 신제품이 하여간 기존 제품보다 좋을 거다. 물론 좋은 정도의 차이는 좀 있을 수 있습니다. 어쨌든 좋다라는 결론을 내릴 수 있습니다.

마찬가지로 신뢰 구간이 마이너스 범위에 있다. 신제품하고 기존 제품하고 비교했는데 신제품백이 기존 제품 해보니까 범위가 예를 들면 마이너스 9에서 마이너스 6 사이에 있더라. 그러면 마이너스 9까지 차이 날 수도 있고 신제품이 기존 제품보다 뭔가 9점 나쁜 거죠. 마이너스 6 차이 날 수도 있습니다. 어쨌든 간에 결국에는 어쨌든 마이너스니까 신제품이 기존 제품보다 성능이 못 한 거죠. 평균 차이가 마이너스라는 결론을 내리게 됩니다. 이렇게 되면 어쨌든 간에 신제품이 기존 제품보다 뭔가 성능이 떨어진다, 품질이 떨어진다. 이런 결론을 내리게 되는 거죠.

통계적 유의함

그래서 우리가 평균 차이의 신뢰 구간을 구해서 모집단에 대해서 추정을 함으로써 우리가 최소한 무엇을 할 수 있냐면 어떤 부호, 크기, 대소에 대해서 얼마나 크냐는 건 어느 정도 정확하게 범위로 밖에는 예측을 못하지만 최소한 이 부호에 대해서는 우리가 어느 정도 결론을 내릴 수 있습니다. 좋다, 나쁘다 이런 거에 대해서. 그래서 이렇게 결론을 내릴 수 있는 경우를 통계적으로 유의하다(statistically significant)라고 말을 합니다.

그런데 이 표현이 뭔가 유의하다, 유의미하다라고 말을 하니까 굉장히 엄청나게 큰 의미가 있는 것처럼 받아들이가 쉽거든요. 이런 표현은 해석의 주의를 기울이셔야 되는데 이거는 현실적으로 유의하다는 뜻이 아닙니다. 통계적으로 유의하다는 건 정말 통계적으로만 그렇다는 거예요. 통계적으로 유의하다는 건 무슨 뜻이냐면 우리가 부호는 확신할 수 있다. 플러스든 마이너스든 어느 쪽이라고 얘기를 할 수 있다. 그러니까 신제품이 기존 제품보다 좋기는 하다. 또는 신제품이 기존 제품보다 못하다라는 정도의 얘기를 할 수 있다는 것이지, 이게 얼마나 좋은지, 얼마나 못한지에 대해서는 우리가 구체적인 신뢰 구간이라든가 이런 거를 봐야 됩니다.

또한 통계적으로 유의하다고 해서 이게 뭔가 현실적으로 굉장히 의미가 있고 만약에 통계적으로 유의하지 않은 경우, 마이너스에서 플러스로 걸쳐져 있다고 해서 이게 무의미하다, 이렇게 되면 안 됩니다. 왜냐하면 우리가 신뢰 구간의 크기는 표본의 크기에 영향을 받아요. 표본이 커지면 커질수록 우리가 모집단에 대해서 더 구체적으로 예측을 할 수가 있기 때문에 우리가 데이터가 10개 있을 때하고 데이터가 100개 있을 때하고 데이터가 1000개 있을 때하고 모집단에 대해서 우리가 예측하는 그 구간은 점점 더 좁아집니다. 더 좁은 범위로 예측을 할 수 있는 거죠. 아, 모집단이 한 이 쯤에 있을 것 같다. 그러니까 우리가 데이터를 많이 모는 거죠.

그럼 데이터를 많이 모을수록 이 신뢰 구간이 좁아지기 때문에 우리가 이렇게 0을 기준으로 해서 좁게 예측을 하면 표본이 많아지면 신뢰 구간이 좁아지니까 마이너스든 플러스든 어느 한쪽에 있을 가능성이 큽니다. 그런데 이제 신뢰 구간이 넓다 그러면 이렇게 마이너스에서 플러스 사이에 걸쳐있게 될 경우가 많겠죠. 그래서 평균 차이가 작더라도 표본이 커지면 통계적으로 유의할 수 있고 평균 차이가 커도 표본이 작으면 통계적으로 유의하지 않을 수가 있습니다.

보통 현실적으로 유의하다는 것은 이 둘의 차이가 크다는 거예요. 예를 들면 어떤 약이 나왔는데 신약이 나왔는데 신약을 먹으면 10년 살고 기존 약을 먹으면 1년 밖에 못 산다. 그러면 이거는 굉장히 큰 차이가 나는 거죠. 평균적으로 이 정도 수명의 차이가 나면 신약이 굉장히 좋은 겁니다. 이런 거를 우리가 현실적으로 차이가 있다고 하는 거죠.

그런데 만약 기존 약은 평균적으로 365일 사는데 신약은 평균적으로 366일을 더 산다. 그러면 이게 이제 뭐 가격이나 이런 거에 따라서 좀 다를 수 있지만 사실 큰 의미 있는 차이라고 보기는 어렵거든요. 현실적으로. 그런데 이 하루 차이가 통계적으로 유의하냐 유의하지 않냐. 이거는 우리가 실험을 얼마나 많은 환자들한테 했느냐에 따라서 이게 유의한 차이가 날 수도 있고 유의한 차이가 안 날 수도 있고 그렇습니다. 마찬가지로 아까 1년하고 10년 이렇게 차이가 많이 나도 우리가 실험을 충분히 많이 하지 않으면 환자 수가 적으면 이게 통계적으로 유의한지 아닌지 결론을 내리기가 어렵습니다.

그래서 물론 이런 경우보다 이런 경우에 필요한 표본의 크기가 작기는 한데 어쨌든 통계적으로 유의하다는 거는 현실적인 의미 이런 것보다도 우리가 최소한 이 플러스 마이너스 정도는 확신을 할 수 있느냐, 없느냐. 이런 정도의 굉장히 소극적인 의미예요. 그래서 여기에 대해서 지나치게 의미를 부여하지 않는 게 중요하고요.

결론을 유보하는 경우

그러면 이제 통계적으로 유의하지 않은 경우 신뢰 구간이 마이너스에서 플러스에 걸쳐 있는 경우가 있을 겁니다. 예를 들면 마이너스 3에서 플러스 2 이렇게 나왔다. 그러면은 이제 얘기는 뭐예요. 모집단에서는 마이너스 3일 수도 있고. 즉 신제품하고 기존 제품하고 비교하면 신제품이 기존 제품하면 성능이 오히려 마이너스로 나오는 경우도 있을 수도 있다는 거죠. 또는 신제품백이 기존 제품하면 플러스로 나오는 경우도 있을 수 있는 겁니다. 그러니까 성능이 다 떨어질 수도 있고 성능이 더 좋을 수도 있고. 마이너스 3에서 플러스 2면은 마이너스 3, 마이너스 2, 마이너스 1, 0, 플러스 1, 플러스 2 이렇게 되니까 여기서 여기까지면 0도 있는 거죠. 그러니까 마이너스도 있고 플러스 있고 0일 수도 있으니까 사실 우리가 어떤 확정적인 결론을 내리기가 어렵습니다. 그래서 어느 쪽이 좋다 이런 결론을 우리가 유보를 해야 됩니다.

그래서 여기서 주의하셔야 될 거는 이걸 가지고 차이가 없다거나 의미가 없다고 결론을 내리시면 안 됩니다. 의미가 없는 건 아니죠. 우리가 어쨌든 모집단에서는 이 정도 차이가 날 거다라는 것 자체는 알 수 있습니다. 단지 어느 쪽이 더 좋다라고 하기는 어려운 상태인 거죠. 그래서 그게 의미가 없는 건 아니에요. 그래서 이렇게 나오면 현재 크게 표본으로는 어떤 부호에 대해서 플러스인지 마이너스인지 이런 거에 대해서 결론을 내리기에 뭔가 증거가 불충분한 그런 상황이라고 할 수가 있습니다.

두 집단의 평균 차이에 대한 가설 검정

앞에서 신뢰구간과 가설 검정은 짝을 이룬다고 했지요? 지금까지는 신뢰구간으로 설명을 했는데, 가설검정으로도 할 수 있습니다. "두 집단의 평균 차이는 0이다"를 귀무가설로 두고, p 값을 계산하면 됩니다. p가 유의수준보다 낮으면 귀무가설을 기각해서 두 집단의 평균 차이는 다르다는 결론을 내리면 됩니다.

graph TD A[평균 차이 비교] A -->|평균 차이가 신뢰구간을 벗어남
OR
p < 유의수준| C["두 집단의 평균 차이가 통계적으로 유의"] A -->|"평균 차이가 신뢰구간 이내
OR
p ≥ 유의수준"| B["결론을 유보"]

Question

두 집단의 평균 비교에서, 다음 중 어떤 경우에 평균에 차이가 있다는 결론을 내릴 수 있습니까?

  • p > 유의수준
  • p = 유의수준
  • p < 유의수준

Question

두 집단의 평균 차이가 같으면, 작은 표본과 큰 표본에서 p값은 어떻게 됩니까?

  • 큰 표본에서 p값이 더 작다
  • 큰 표본에서 p값이 더 크다
  • 큰 표본과 작은 표본의 p값은 같다
  • 알 수 없다

Question

통계적 가설 검정으로 평균 비교를 할 때 의미가 다른 한 가지는?

  • 귀무가설을 기각한다
  • 통계적으로 유의한 차이가 있다
  • p < 유의수준
  • 표본에서 두 집단의 평균 차이가 오차범위 내에 있다

등분산성

그런데 집단이 두 개가 있기 때문에, 두 집단의 분산이 같은 경우와 다른 경우, 계산하는 방법이 약간 달라집니다. 그래서 먼저 등분산성(homoscedasticity)을 검정합니다. 등분산성은 "분산이 같은 성질"이라는 말입니다. 등분산성은 Levene 검정으로 할 수 있습니다. 이 검정에서는 일단 "두 집단의 분산이 같다"를 귀무가설로 두고, p 값을 계산합니다. 만약 p가 유의수준보다 작으면, 분산이 다르다는 가정아래 평균 차이를 검정합니다. p가 유의수준보다 크면, 두 집단의 분산이 같다는 가정 아래 평균 차이를 검정합니다.

graph TD A[Levene의 등분산성 검정] -->|"p ≥ 유의수준"| B["등분산(Student 방식)"] A -->|p < 유의수준| C["이분산(Welch 방식)"]

중고차 데이터에는 model이 Avante와 K3, 두 집단이 있습니다. 두 집단의 price가 분산이 같은지 다른지 검정해봅시다.

pg.homoscedasticity(dv='price', group='model', data=df)
car::leveneTest(price ~ model, df)

독립표본 t 검정

두 집단의 평균 차이를 검정할 때도 t 검정을 사용합니다. 이때 사용하는 방식을 독립표본 t 검정(independent samples t-test)이라고 합니다. 여기서 독립표본이란 두 집단의 표본이 서로 독립적이라는 것입니다.

pg.ttest(
    df.price[df.model == 'Avante'], 
    df.price[df.model == 'K3'], 
    correction=True)  # (1)!
  1. correction=True는 이분산을 교정하라는 뜻합니다. correction=False로 쓰면 등분산을 가정합니다. 이 옵션을 생략할 경우 자동으로 처리합니다.
car::leveneTest(price ~ model, df, var.equal = F)  # (1)!
  1. var.equal = F는 이분산을 뜻합니다. var.equal = T로 쓰면 등분산을 가정합니다. 이 옵션을 생략할 경우 이분산이 기본값입니다.

Question

중고차 데이터를 다운받아, 아래 질문에 답해보세요.

(01) 표본에서 Avante와 K3의 가격의 평균 차이는 얼마입니까?

(02) Avante와 K3의 가격 차이의 95% 신뢰구간은 얼마입니까?

(03) Avante와 K3의 모집단에서 가격 차이에 대해 어떤 결론을 내릴 수 있습니까? (유의수준 5%)

  • Avante가 더 싸다
  • K3가 더 싸다
  • 결론내릴 수 없다

Question

HR 데이터를 다운받아 아래 질문에 답해보세요.

(01) marriagesingle인 집단과 married인 집단의 rating을 비교해보세요. 어떤 결론을 내릴 수 있습니까? (유의수준 5%)

  • 두 집단의 rating에는 통계적으로 유의한 차이가 없다
  • 두 집단의 rating에는 통계적으로 유의한 차이가 있다

(02) marriagesingle인 집단과 married인 집단의 overtime을 비교해보세요. 어떤 결론을 내릴 수 있습니까? (유의수준 5%)

  • 두 집단의 overtime에는 통계적으로 유의한 차이가 없다
  • 두 집단의 overtime에는 통계적으로 유의한 차이가 있다

Question

수면시간 데이터를 다운받아 아래 질문에 답해보세요.

(01) sleep의 평균은 얼마입니까?

(02) sleep의 전체 평균의 95% 신뢰구간은 얼마입니까?

(03) group 1과 2의 평균 차이는 얼마입니까?

(04) 독립표본 t 검정에서 p는 얼마입니까?

(05) group 1과 2의 평균 차이는 유의수준 5%에서 어떤 결론을 내릴 수 있습니까?

  • group 1이 더 길다
  • group 2가 더 길다
  • 결론 내릴 수 없다