logo

[확률] 포아송 분포

 

포아송 분포 소개

 

포아송 분포의 정의

포아송 분포는 특정 시간 간격이나 공간 영역 내에서 발생하는 이산 사건의 수를 모델링하기 위한 확률 분포입니다. 이 사건들은 서로 독립적이며 특정 평균 발생률을 갖습니다.

 

발생 배경 및 역사적 이야기

포아송 분포는 19세기 초 프랑스의 수학자 시메옹 드니 포아송이 연구하면서 이름 붙여졌습니다. 그는 연구 과정에서 이 분포를 통해 전화 통화의 수, 특정 지역 내의 손상된 나무 수와 같은 다양한 랜덤 사건을 모델링할 수 있음을 발견했습니다.

 

포아송 분포의 사용 사례

  • 전화 교환대에서 특정 시간 동안의 전화 통화 횟수
  • 은행에서 고객 도착 횟수
  • 어떤 지역에서 일정 시간 동안 발생하는 교통 사고 수
  • 웹사이트 방문자 수 모델링
 

포아송 분포의 기본 개념

 

평균 발생률(λ\lambda)과의 관계

포아송 분포는 평균 발생률 λ\lambda (람다)를 기반으로 합니다. 이 값은 단위 시간/공간당 평균적으로 발생하는 사건의 수를 나타냅니다.

 

이산 확률 분포로서의 특징

포아송 분포는 이산 확률 분포입니다. 이는 사건 발생 횟수를 정수값으로만 취급하며, 사건이 발생하지 않는 경우도 포함합니다.

 

확률 질량 함수(PMF, Probability Mass Function)

P(X=k)=eλλkk! P(X=k) = e^{-\lambda} \frac{\lambda^k}{k!}

위 식에서 kk는 관측되는 사건의 수, ee는 자연 상수입니다. 이 함수는 λ\lambda가 주어질 때 kk 사건이 발생할 확률을 계산합니다.

 

numpy로 계산

import numpy as np

lambda_ = 4 # 평균 발생률 설정
k = 3 # 관측된 사건의 수
pmf = np.exp(-lambda_) * lambda_**k / np.math.factorial(k)
print(pmf)
 

포아송 분포의 수학적 공식

 

포아송 분포의 확률 계산 공식

앞서 설명한 확률 질량 함수를 통해 특정 조건 하에서 사건의 발생 확률을 계산할 수 있습니다.

 

예제를 이용한 계산 방법

예를 들어, 시간 단위별 평균 2건의 사고가 발생하는 곳에서 5건의 사고가 발생할 확률을 구하면 다음과 같습니다.

P(X=5)=e2255! P(X=5) = e^{-2} \frac{2^5}{5!}
 

기댓값과 분산의 도출

포아송 분포의 기댓값과 분산은 모두 λ\lambda로 동일합니다.

  • 기댓값(E[X]) = λ\lambda
  • 분산(Var(X)) = λ\lambda
 

포아송 분포의 응용

 

통계학에서의 응용

  • 사건의 발생 횟수에 대한 연구
  • 다양한 분야에서의 통계적 추정
 

과학, 엔지니어링 분야에서의 응용 사례

  • 방사성 붕괴 사건의 모델링
  • 네트워크 트래픽 분석 및 예측
 

경영 및 의료 분야에서의 응용

  • 고객 도착률 분석
  • 병원 응급실 도착률 예측
 

포아송 분포의 한계 및 주의사항

 

독립 사건에만 적용됨

사건들이 독립적이지 않거나 평균 발생률이 시간에 따라 변하는 경우 포아송 분포를 직접 적용하는 것은 부적합할 수 있습니다.

 

분포의 평균과 분산이 동일한 특성의 이해

모든 포아송 분포는 평균과 분산이 동일하다는 점을 이해하는 것이 중요합니다. 이는 데이터 해석에 있어 중요한 고려사항입니다.

 

대규모 데이터 샘플링에서의 정확도 문제

큰 수의 법칙에 따라, 대규모 데이터 샘플에서는 포아송 분포를 사용한 예측의 정확도가 달라질 수 있습니다. 데이터의 특성을 잘 이해하고 적절한 모델을 선택하는 것이 중요합니다.

Previous
이항 분포