통계의 기본 개념

복잡한 수학을 빼고 통계의 기본 개념을 알아봅니다


수강중

5. 이항 분포

이항 분포

  • 확률이 각각의 경우에 어떻게 나눠져 있는지가 확률 분포
    • 구매 7명, 구경 3명, 총 10명
    • 구매율 70%, 구경확률 30%
  • 구매율이 70%일 때 매일 10명의 고객이 방문한다면 하루에 몇 명이 구매할까?
    • 매일 7명?
    • 확률이라는 것은 많은 고객을 다 합쳐서 생각했을 때 그 중 70%가 구매한다는 것이지 매일 구매하는 사람 수는 달라지는 것이 정상
    • 모집단이 아닌 샘플을 가지고 구하는 것이기 때문에 매일 달라지는 것이 정상

시뮬레이션(모의 실험)

  • 구매율이 70%일 때 매일 10명의 고객이 방문한다면 하루에 몇 명이 구매하는지 직접 실험해볼 수 있음
  • 확률에서 데이터가 나오기 때문에 컴퓨터가 확률로 데이터를 생성하여 실험해볼 수 있음

  • 7일간, 하루에 10명의 고객, 구매할 확률 70%

rbinom(7, 10, 0.7)
[1] 10  6  6  8  9  6  6
요일 구매한 사람 수
5
3
9
7
8
6
8
  • 11가지의 경우의 수가 나옴(0명~10명)
구매한 사람 수 횟수 확률 추정
0명 0 0%
1명 0 0%
2명 0 0%
3명 1 14.28%
4명 0 0%
5명 1 14.28%
6명 1 14.28%
7명 1 14.28%
8명 2 28.56%
9명 1 14.28%
10명 0 0%
  • 이 방식의 단점
    • 추정해야하는 확률이 많아짐(11가지)
    • 데이터가 적기 때문에 추정하기 어렵진 않았지만 데이터가 적으면 확률 추정이 부정확함

이항분포(Binomial distribution)

  • 추정 값들은 하나의 값(70%)에 의해 좌우되기 때문에 각각의 확률을 구할 필요가 없음
  • 10명과 70% 이 두 숫자로 모든 경우가 결정된다고 가정
  • 하루에 10개씩 동전 던지기를 할 때 앞면의 몇 번 나오는가?

  • 구매율 70%, 10명 방문

구매한 사람 수 확률 추정
0명 0%
1명 0.01%
2명 0.15%
3명 0.9%
4명 3.68%
5명 10.29%
6명 20.01%
7명 26.68%
8명 23.35%
9명 12.11%
10명 2.82%
  • 70%라는 확률로부터 계산됨

  • 동전의 앞면이 나올 확률 50%이고 한 번에 4개의 동전을 던질 때 몇 개의 동전이 앞면이 나올까?

동전 개수 확률 추정
0개 6.25%
1개 25%
2개 37.5%
3개 25%
4개 6.25%
  • 모든 경우 별로 확률을 구할 필요가 없고 이항분포를 따른다고 가정해 하나의 확률로부터 각 경우의 확률을 구할 수 있음

하루에 10명의 고객, 구매할 확률 70%일 때 7명이 구매할 확률은?

dbinom(7, 10, 0.7)
[1] 0.2668279

6명이 구매할 확률은

dbinom(6, 10, 0.7)
[1] 0.2001209

0명부터 10까지의 확률을 한 번에 구하려면

dbinom(0:10, 10, 0.7)
 [1] 0.0000059049 0.0001377810 0.0014467005 0.0090016920 0.0367569090
 [6] 0.1029193452 0.2001209490 0.2668279320 0.2334744405 0.1210608210
[11] 0.0282475249
  • 매출이 없는 날이라고 해서 확률상 구매율이 달라지는 것은 아님

14일간 10명의 고객이 올 때 구매할 확률이 70%인 데이터 생성

x = rbinom(14, 10, 0.7)
sum(x)
[1] 105

확률 추정

sum(x)/140
[1] 0.75

추정한 확률로 넣어서 계산

dbinom(0:10, 10, sum(x)/144)
 [1] 2.123348e-06 5.716706e-05 6.926009e-04 4.972519e-03 2.342822e-02
 [6] 7.569116e-02 1.698199e-01 2.612614e-01 2.637735e-01 1.578132e-01
[11] 4.248817e-02

진짜 확률을 넣어서 계산

dbinom(0:10, 10, 0.7)
 [1] 0.0000059049 0.0001377810 0.0014467005 0.0090016920 0.0367569090
 [6] 0.1029193452 0.2001209490 0.2668279320 0.2334744405 0.1210608210
[11] 0.0282475249
  • 현실에서는 진짜 확률을 알 수 있는 경우는 없음
  • 그래서 추정을 통해 확률을 구해서 계산함