모집단과 표본 :: 통계 - mindscale
Skip to content

모집단과 표본

모집단과 표본

모집단(population)은 연구의 관심이 되는 집단 전체를 말합니다. 우리 회사의 고객들에 대해서 조사를 하려고 한다면, 우리 회사의 고객 전체가 모집단이 됩니다. 그런데 모집단은 너무 거대하기 때문에 이것을 직접 조사하는 것은 매우 어렵습니다. 그래서 우리가 실제로 관찰하는 대부분의 데이터는 모집단 전체가 아니고 그 모집단의 어떤 특정한 부분 집합이 됩니다. 특정 연구에서 추출된 이 부분 집합을 표본(sample)이라고 부릅니다.

방금 부분 집합(subset)이라는 표현을 쓴 것을 조금 주의하실 필요가 있습니다. 즉, 표본은 부분이기는 하지만 어쨌든 집합입니다. 즉, 하나의 사례를 말하는 것이 아니고 이런 사례의 집합이 표본입니다. 즉, 여러분이 가진 데이터 파일이 있다면, 그 파일에 있는 각각의 사례가 따로따로 표본이 되는 것이 아니고, 파일 전체가 표본 한 개가 된다고 생각하시면 됩니다.

모집단에서 표본을 뽑는 것을 표본 추출 또는 표집(sampling)이라고 합니다. 영어로 하면 sample과 sampling이어서 조금 헷갈리는데요, sample은 표본, sampling은 표본을 뽑는 행위를 말합니다. 보통 표집은 무작위로 하게 되는데요, 그래야 사례들이 골고루 뽑히기 때문입니다. 그런데 무작위로 뽑는다는 말은 어떨 때는 이 표본이 뽑히고, 다를 때는 저 표본이 뽑힌다는 뜻입니다. 즉, 같은 모집단에서 같은 방법으로 표집을 하더라도 서로 다른 표본이 나올 수 있다는 뜻이 됩니다.

여기에 통계학이라는 학문의 근본적인 질문이 담겨 있습니다. 우리가 관심있는 것은 모집단이지만, 우리는 그 부분집합인 표본만을 가지고 있습니다. 즉, 부분을 보고 전체를 추측해야 하는 문제가 있습다. 여기에 더해서 부분과 전체의 관계조차 일정하지 않고 무작위적이라는 것이죠. 이러한 상황에서 우리가 어떻게 하면 올바르게 모집단에 대해 추론을 할 수 있는가, 이것이 통계학이 풀고자하는 문제입니다.

Question

다음 중 모집단에 대한 설명으로 올바른 것은?

  • 연구의 관심이 되는 집단 전체이다
  • 데이터에 포함된 집단 전체이다

Question

다음 중 표본에 대한 설명으로 잘못된 것은?

  • 특정 연구에서 선택된 모집단의 부분 집합이다
  • 데이터에 포함된 사례 중 하나이다
  • 모집단에서 표본을 추출하는 것을 표집이라고 한다
  • 동일한 모집단에서 동일한 방법으로 표집을 하더라도 다른 표본을 얻을 수 있다

모수

통계에서 우리가 알고자 하는 것은 모집단의 특성입니다. 이러한 특성을 수치로 나타낼 수 있을텐데요, 이런 수치를 모수(population parameter)라고 합니다. 영어 파라미터(parameter)는 어떤 시스템의 특성치를 나타냅니다. para는 옆, meter는 잰다는 뜻입니다. 모집단의 특성에는 어떤 것이 있을까요? 우리가 고객 만족도를 측정한다고 해봅시다. 그러면 고객 만족도의 평균이 있겠죠? 중간값도 있을 것입니다. 분산이나 IQR도 있겠네요. 이런 모든 것들이 모수가 될 수 있습니다. 모집단의 특성치이기 때문입니다. 보통 모수라는 것을 강조할 때는, 앞에 "모-"라는 말을 붙입니다. 모평균, 모분산 이런 식입니다. 즉, 모평균은 모집단의 평균, 모분산은 모집단의 분산 이런 뜻입니다. 이런 것들을 모두 합쳐서 모수라고 합니다.

그런데 모수라는 번역어는 이런 의미가 잘 드러나지 않아서 헷갈리기 쉽습니다. 그래서인지 사람들이 "모수"라는 표현을 잘못 쓰는 경우가 흔히 있습니다. 일단 "분모"와 헷갈리는 경우가 있습니다. 둘다 모(母)자가 들어가서 그런 것 같아요. 그런데 분모는 영어로 "디노미네이터(denominator)"로 "이름(nom)을 붙이는 자"라는 뜻을 가지고 있어요. 영어에 보면 1/2는 one half, 3/5는 three fifths라고 읽습니다. 즉, 분수의 이름을 분모로 삼는다는 말입니다. 모수, 즉 파라미터와는 완전히 다른 뜻입니다.

아마 여기에 연관되는 것 같지만 모수를 "표본의 크기"나 "조사 대상자의 수"라고 오해하는 경우도 있습니다. 평균을 낼 때, 1/N으로 나누니까 N은 분모, 그러니까 N이 모수라고 생각하는 것 같습니다. 신문 기사에서 모수로 검색해보면 이렇게 잘못 이해하고 쓰는 경우가 아주 흔합니다. 대다수의 신문기사들이 이런 뜻으로 잘못 쓰고 있습니다. 그런데 이렇게 쓰면 잘못된 표현입니다. 그런데도 오해가 아주 만연하기 때문에 아주 조심할 필요가 있습니다.

Question

모수란?

  • 모집단의 크기
  • 모집단의 특성을 나타내는 값
  • 표본의 크기
  • 표본에서 얻어진 수로 계산한 값

통계량

앞에서도 말했지만 우리가 실제로 관찰하는 것은 표본입니다. 표본에서 얻어진 수로 계산한 값을 통계량 또는 통계치(statistic)라고 부릅니다. 이것도 좀 헷갈리기 쉬운데요, 모집단의 특성치가 모수면 표본의 특성치는 표본수 정도여야 할 것 같지만 엉뚱하게도 통계량이라고 합니다. 통계학도 statistics고 통계량의 복수형도 statistics이라서 더 헷갈릴 수 있습니다.

모집단에도 평균이 있고, 분산이 있듯이 표본에도 평균이 있고 분산이 있습니다. 표본에서 구한 것을 강조할 때는 앞에 "표본-"이라는 말을 붙입니다. 표본에서 구한 평균은 표본평균, 표본에서 구한 분산은 표본분산입니다. 그리고 이런 것을 모두 합쳐서 통계량이라고 합니다.

Question

통계량이란?

  • 모집단의 크기
  • 모집단의 특성을 나타내는 값
  • 표본의 크기
  • 표본에서 얻어진 수로 계산한 값