logo

[확률] 음이항 분포

 

음이항 분포란?

 

음이항 분포의 정의

음이항 분포(Negative Binomial Distribution)는 일련의 베르누이 시행(Bernoulli trials)에서 성공이 rr번 발생하기까지 실패의 횟수를 모델링하는 데 사용되는 이산 확률 분포입니다. 각 시행은 성공 또는 실패의 결과만을 가지며, 성공 확률은 각 시행에서 동일합니다.

 

음이항 분포의 실생활 예시

음이항 분포는 생물학적 실험에서 연구 대상의 특정 조건을 만족하기 위해 필요한 실험 횟수를 예측하는 데 사용될 수 있습니다. 예를 들어, 유전자 변형 식물이 특정 유전자 표현형을 보일 때까지 재배하여 실패하는 횟수를 모델링하는 데 활용할 수 있습니다.

 

음이항 분포와 다른 확률 분포와의 비교

음이항 분포는 기하 분포와 밀접한 관련이 있습니다. 기하 분포는 첫 번째 성공이 나타나기까지의 실패 횟수를 모델링하는 반면, 음이항 분포는 지정된 성공 횟수가 나타나기까지의 실패 횟수를 모델링합니다. 따라서 기하 분포는 음이항 분포의 특수한 경우라고 볼 수 있습니다. 또한, 음이항 분포는 포아송 분포와도 관계가 있으나, 포아송 분포는 특정 시간 동안 발생하는 이벤트의 횟수를 모델링하는 데 사용됩니다.

 

음이항 분포의 확률 질량 함수(PMF)

 

확률 질량 함수의 정의

확률 질량 함수(Probability Mass Function, PMF)는 이산 확률 변수가 어떤 특정 값과 같아질 확률을 나타내는 함수입니다.

 

음이항 분포의 확률 질량 함수 수식

음이항 분포의 PMF는 다음과 같은 수식으로 표현됩니다.

P(X=k)=(r+k1k)pr(1p)k P(X = k) = \binom{r+k-1}{k}p^r(1-p)^k

여기서 rr은 성공 횟수, kk는 실패 횟수, pp는 각 시행에서의 성공 확률입니다.

 

음이항 분포의 기대값과 분산

음이항 분포의 기대값(E[X])과 분산(Var[X])은 다음과 같이 주어집니다.

E[X]=r(1p)p E[X] = \frac{r(1-p)}{p}
Var[X]=r(1p)p2 Var[X] = \frac{r(1-p)}{p^2}
 

음이항 분포의 활용

 

음이항 분포를 사용하는 적절한 상황 예시

어떤 특정한 질병을 가지고 있는 환자들이 특정 약품에 반응하기까지의 실험 횟수를 분석할 때 음이항 분포가 유용하게 사용될 수 있습니다. 이 경우, 반응하지 않는 환자들의 수가 실패 횟수가 되며, 약품에 성공적으로 반응하는 특정 수의 환자를 얻기까지 필요한 실패 횟수를 모델링하는 데 활용될 수 있습니다.

 

통계학과 데이터 과학에서의 음이항 분포 활용

통계학과 데이터 과학 분야에서는 음이항 분포를 사용하여 과잉 분산(overdispersion)을 보이는 이산형 데이터를 모델링하는 데 활용됩니다. 이는 특히 생물학적 데이터 분석이나 의료 통계에서 두드러집니다.

 

음이항 분포를 활용한 예제 해석

예를 들어, 실험실에서 새로운 치료법이 특정 질병에 대해 최소 5번 성공하도록 하는 데 필요한 실험 횟수를 추정하고자 할 때, 이때의 실패 횟수 분포를 음이항 분포로 모델링할 수 있습니다. 성공 확률 pp가 알려져 있다면, 실패 횟수 kk에 대한 확률을 PMF를 통해 계산하여 필요한 실험 횟수에 대한 기대값과 분산을 예측할 수 있습니다.

Previous
기하 분포