포아송분포 (Poisson Distribution)

정의

포아송분포이항분포의 특별한 경우로 $n$이 무한대이고 $p$가 $0$에 가까울때 사용하는 분포이다.

포아송분포를 따르는 확률변수의 예)

  • 경부 고속도로상에서 하루 동안에 발생하는 교통사고에 의한 사망자수,
  • 어느 집에서 한 시간 동안에 걸려 오는 전화 통화 수,
  • 일주일 동안에 어느 보험회사에서 접수되는 사망 보험금 청구건수,
  • 하루 동안에 정전이 되는 횟수, 백과사전 한 페이지에 나타난 오자의 수

포아송분포는 보험관계에 중요한 확률모형이 되며 실제로 많이 응용되는 이산형 확률분포이다.

기원

1898년에 독일 학자 보트키비츠(L.Bortkewitch)는 프러시아(Prussia)의 기마병 중에서 말에 차여 사망한 숫자를 조사하였다. 그는 20년간 10개의 군단에서 나타난 결과로 아래와 같은 표를 얻었다. 여기서 $x$는 한 개의 군단에서 일년간 말에 차여 사망한 기마병의 숫자이다.

$x$ 도수 상대도수 사망자수
0 109 0.545 0
1 65 0.325 65
2 22 0.110 44
3 3 0.015 9
4 1 0.005 4
200 1.000 122

보트키비츠는 이 데이터를 1837년 프랑스 수학자 포아송(S. D. Poisson)에 의해 발표된 분포공식에 의해 구한 다음의 이론적인 확률과 비교하였다.

$$p(x)=\frac{\mu^{x}e^{-\mu}}{x!}$$

  • $$ x \in \{ \ 0 \ , \ 1 \ , \ 2 \ , \ \cdots \ \} $$

보트키비츠는 20년간 10개군단에서 (즉 일년에 200개의 군단을 관찰한 것과 같음)얻은 결과로부터 표본평균 =122/200=0.61 을 구하여 포아송의 이론적 분포공식에 $\mu$ 대신 대입하여 아래의 표와 같은 이론적으로 얻은 상대도수확률을 얻었다. 표에서 실제 관찰된 상대도수와 포아송 공식에 의해 구한 확률은 매우 근사한 것을 알 수 있다.

$$x$$ 실제 도수 실제 상대도수 이론적 상대도수(확률)
0 109 0.545 0
1 65 0.325 65
2 22 0.110 44
3 3 0.015 9
4 1 0.005 4

보트키비츠가 관찰한 데이터에서 우리는 희귀한 사건의 관찰이라는 것을 알 수 있다. 즉 기마병이라면 말(馬)을 다루는 것이 전문인 병사인데 말에 의해 차여 죽는다는 사건은 극히 희귀한 일이다. 이와 같이 희귀하여 일어날 확률이 아주 작은 경우에는 포아송분포가 적합하다. 여기서 포아송분포를 갖는 확률변수와 이항분포를 갖는 확률변수를 비교해 보면, 만약 1년이라는 기간내에 생기는 사망 기마병의 수 대신에 아주 짧은 기간, 가령 하루를 생각해 보면 이 기간 중에 일개 군단에서 말에 차여 죽는 기마병은 한 명이 있던지, 없던지 하는 것으로 볼 수 있다. 다시 말해 이 경우에 관찰하는 단위 시간을 줄이면 우리는 이항분포와 같이 생각할 수 있고 물론 그렇게 되면 1년간의 관측은 365일의 관찰로 된다.

그러므로 포아송분포는 보트키비츠의 데이터에서 $n=365 \times 200$이고, 성공(1일 동안 1개 군단에 사고가 하나 있음)의 확률 가 아주 작은 것으로 보아도 무리가 없다.

표기

포아송분포는 그 분포평균이자 분산인 $\lambda$를 이용해 표기한다.

  • $$ X \sim P(\lambda)$$

받침

$$ x \in \{ \ 0 \ , \ 1 \ , \ 2 \ , \ \cdots \ \} $$

확률질량함수

$$p(x)=\frac{\lambda^{x}e^{-\lambda}}{x!}$$

누적분포함수

$$ F(x) = \frac{\Gamma(x+1, \lambda)}{x!} $$

기대값

$$E(X)=\lambda$$

분산

$$Var(X)=\lambda$$

왜도

$$ \gamma_{1} = \lambda^{-1/2} $$

첨도

$$ \gamma_{1} = \lambda^{-1} $$

특성함수

$$ M(t) = \exp[[\lambda(e^{i \cdot t}-1)]] $$

적률생성함수

$$ M(t) = \exp[[\lambda(e^{t}-1)]] $$

$$ M'(t) = \lambda \cdot \exp \left[[ t+ \lambda \cdot (e^{t} - 1) \right]] $$

$$ M''(t) = \lambda \cdot (1+ \lambda \cdot e^{t}) \cdot \exp \left[[ t+(-1 + e^{t}) \cdot \lambda \right]] $$

원적률

$$ \mu'_{2} = \lambda (1 + \lambda) $$

$$ \mu'_{3} = \lambda (1 + 3 \lambda + \lambda^{2}) $$

$$ \mu'_{4} = \lambda (1 + 7 \lambda + 6 \lambda^{2} + \lambda^{3}) $$

중심적률

$$ \mu_{2} = \lambda $$

$$ \mu_{3} = \lambda $$

$$ \mu_{4} = \lambda (1 + 3 \lambda) $$

특징

  • 재생성을 가진다.
    • $ X_{i} \sim P(\lambda_{i})$이면 $\sum X_{i} \sim P(\sum \lambda_{i})$이 성립한다.

타 분포와의 관계