이항 분포
이항 분포
- 확률이 각각의 경우에 어떻게 나눠져 있는지가 확률 분포
- 구매 7명, 구경 3명, 총 10명
- 구매율 70%, 구경확률 30%
- 구매율이 70%일 때 매일 10명의 고객이 방문한다면 하루에 몇 명이 구매할까?
- 매일 7명?
- 확률이라는 것은 많은 고객을 다 합쳐서 생각했을 때 그 중 70%가 구매한다는 것이지 매일 구매하는 사람 수는 달라지는 것이 정상
- 모집단이 아닌 샘플을 가지고 구하는 것이기 때문에 매일 달라지는 것이 정상
시뮬레이션(모의 실험)
- 구매율이 70%일 때 매일 10명의 고객이 방문한다면 하루에 몇 명이 구매하는지 직접 실험해볼 수 있음
-
확률에서 데이터가 나오기 때문에 컴퓨터가 확률로 데이터를 생성하여 실험해볼 수 있음
-
7일간, 하루에 10명의 고객, 구매할 확률 70%
rbinom(7, 10, 0.7)
[1] 10 6 6 8 9 6 6
요일 | 구매한 사람 수 |
---|---|
월 | 5 |
화 | 3 |
수 | 9 |
목 | 7 |
금 | 8 |
토 | 6 |
일 | 8 |
- 11가지의 경우의 수가 나옴(0명~10명)
구매한 사람 수 | 횟수 | 확률 추정 |
---|---|---|
0명 | 0 | 0% |
1명 | 0 | 0% |
2명 | 0 | 0% |
3명 | 1 | 14.28% |
4명 | 0 | 0% |
5명 | 1 | 14.28% |
6명 | 1 | 14.28% |
7명 | 1 | 14.28% |
8명 | 2 | 28.56% |
9명 | 1 | 14.28% |
10명 | 0 | 0% |
- 이 방식의 단점
- 추정해야하는 확률이 많아짐(11가지)
- 데이터가 적기 때문에 추정하기 어렵진 않았지만 데이터가 적으면 확률 추정이 부정확함
이항분포(Binomial distribution)
- 추정 값들은 하나의 값(70%)에 의해 좌우되기 때문에 각각의 확률을 구할 필요가 없음
- 10명과 70% 이 두 숫자로 모든 경우가 결정된다고 가정
-
하루에 10개씩 동전 던지기를 할 때 앞면의 몇 번 나오는가?
-
구매율 70%, 10명 방문
구매한 사람 수 | 확률 추정 |
---|---|
0명 | 0% |
1명 | 0.01% |
2명 | 0.15% |
3명 | 0.9% |
4명 | 3.68% |
5명 | 10.29% |
6명 | 20.01% |
7명 | 26.68% |
8명 | 23.35% |
9명 | 12.11% |
10명 | 2.82% |
-
70%라는 확률로부터 계산됨
-
동전의 앞면이 나올 확률 50%이고 한 번에 4개의 동전을 던질 때 몇 개의 동전이 앞면이 나올까?
동전 개수 | 확률 추정 |
---|---|
0개 | 6.25% |
1개 | 25% |
2개 | 37.5% |
3개 | 25% |
4개 | 6.25% |
- 모든 경우 별로 확률을 구할 필요가 없고 이항분포를 따른다고 가정해 하나의 확률로부터 각 경우의 확률을 구할 수 있음
하루에 10명의 고객, 구매할 확률 70%일 때 7명이 구매할 확률은?
dbinom(7, 10, 0.7)
[1] 0.2668279
6명이 구매할 확률은
dbinom(6, 10, 0.7)
[1] 0.2001209
0명부터 10까지의 확률을 한 번에 구하려면
dbinom(0:10, 10, 0.7)
[1] 0.0000059049 0.0001377810 0.0014467005 0.0090016920 0.0367569090 [6] 0.1029193452 0.2001209490 0.2668279320 0.2334744405 0.1210608210 [11] 0.0282475249
- 매출이 없는 날이라고 해서 확률상 구매율이 달라지는 것은 아님
14일간 10명의 고객이 올 때 구매할 확률이 70%인 데이터 생성
x = rbinom(14, 10, 0.7)
sum(x)
[1] 105
확률 추정
sum(x)/140
[1] 0.75
추정한 확률로 넣어서 계산
dbinom(0:10, 10, sum(x)/144)
[1] 2.123348e-06 5.716706e-05 6.926009e-04 4.972519e-03 2.342822e-02 [6] 7.569116e-02 1.698199e-01 2.612614e-01 2.637735e-01 1.578132e-01 [11] 4.248817e-02
진짜 확률을 넣어서 계산
dbinom(0:10, 10, 0.7)
[1] 0.0000059049 0.0001377810 0.0014467005 0.0090016920 0.0367569090 [6] 0.1029193452 0.2001209490 0.2668279320 0.2334744405 0.1210608210 [11] 0.0282475249
- 현실에서는 진짜 확률을 알 수 있는 경우는 없음
- 그래서 추정을 통해 확률을 구해서 계산함