확률분포

確率分布, Probability distribution

1 개념

시행에서 확률변수가 어떤 값을 가질지에 대한 확률을 나타낸다. 확률변수가 취하는 값들의 집합이 자연수의 부분집합과 일대일 대응 된다면 이산확률분포, 확률변수가 취하는 값들의 집합이 실수의 구간을 이루면 연속확률분포가 된다.

2 확률분포의 종류

확률변수의 종류에 따라 크게 이산확률분포와 연속확률분포로 나뉜다.

2.1 이산확률분포

2.1.1 이항분포

binomial distribution
n번의 독립 베르누이 시행(한 번의 시행에서 결과가 성공 또는 실패로 결정되는 시행)에서 성공 확률이 p일 때의 확률 분포이다. n번의 시행 중 성공 횟수가 x회 일 때,

[math] b(x;n,p) = \begin{pmatrix}n\\x\end{pmatrix}p^x(1-p)^{n-x} [/math]로 표현한다.

n이 커지면 이항분포는 폭이 점점 좁아지며[1] 정규분포에 근접해 간다. p가 0.5에 근접해 가도 마찬가지이다. 보통 np≥10이면 정규분포라고 쳐준다. 고등학교에서는 이항분포를 이루는 각 값들의 평균,표준편차를 구하는 법을 알려주는데, 보통 평균=np이고, 표준편차=np(1-p)이다.[2]

참고로 n=1 일때의 이항분포를 베르누이 분포라고 한다.

2.1.2 푸아송분포

주어진 시간 동안 어떤 사건이 발생하는 횟수를 나타내는 확률분포이며, 사건이 발생할 기대값을 λ라 하고, 주어진 시간 동안 사건이 일어난 횟수가 x회일 때,

[math] p(x;\lambda) = [/math] [math] \frac{e^{-\lambda}\lambda^x}{x!} [/math] 로 나타낸다.

단, 다음 세가지 조건을 만족해야 한다.

  • 주어진 시간 동안 일어나는 사건의 횟수는 다른 시간에서 일어나는 사건의 횟수와 독립이어야 한다.
  • 주어진 시간을 더 짧은 단위로 나눴을 때, 그 짧은 시간 내에서 사건이 두번 이상 발생할 확률은 무시할 만큼 매우 작아야 한다.
  • 주어진 시간을 더 짧은 단위로 나눴을 때, 시간의 길이와 사건이 한번 발생할 확률은 비례한다.

2.1.3 기하분포

성공 확률이 p인 독립 베르누이 시행에서 x회에서 최초로 성공인 시행이 나오는 확률변수를 나타내는 확률분포이며,

[math] g(x:p) = (1-p)^{x-1}p [/math]로 표현한다.

2.1.4 초기하분포

모집단에서 r개를 비복원추출 하려 할 때, 모집단에서 추출한 n개 중 추출하려던 것이 x개 일 확률변수를 나타내는 확률분포이다.

2.1.5 음이항분포

성공 확률이 p인 독립 베르누이 시행에서 x회 동안 k번 성공할 때의 확률변수를 나타내는 확률분포이며,

[math] b^{-1}(x;k,p) = \begin{pmatrix}x-1\\k-1\end{pmatrix}p^k(1-p)^{x-k} [/math]로 표현한다.

2.2 연속확률분포

  • 정규분포
  • 표준정규분포
  • 지수분포[3]
  • 표본분포
  • 카이제곱분포
  • t-분포
  • F-분포

3 확률분포의 기댓값과 분산

기댓값이란 실험을 반복시행 했을 때, 평균적으로 기대할 수 있는 값이다. 확률변수 X의 기대값은 E(X)라고 표기하고 다음과 같이 계산한다.
[math]\displaystyle \text{E}\left(X\right)=\sum_{i}{x_i P\left(X=x_i\right)}[/math]

분산이란 확률변수가 취하는 값들이 기대치로부터 얼마나 흩어져 있는가를 나타낸다. 일반적으로 V(X)로 표기하며 다음과 같이 계산한다.
[math]\displaystyle \text{V}\left(X\right)=\sum_{i}{\left(x_i-m\right)^2P\left(X=x_i\right)}=\text{E}\left(X^2\right)-\left\{\text{E}\left(X\right)\right\}^2\,\,\,\left(m=\text{E}\left(X\right)\right)[/math]

표준편차는 분산에 제곱근을 하여 계산한다.
[math]\sigma \left(X\right)=\sqrt {\text{V}\left(X\right)}[/math]

분산과 표준편차 모두 확률변수값들이 기대치에서 흩어진 정도를 나타내기 때문에 산포도라고 총칭하기도 한다.
  1. Pagano, R. R. (2012). Understanding statistics in the behavioral sciences. Cengage Learning.p230
  2. Pagano, R. R. (2012). Understanding statistics in the behavioral sciences. Cengage Learning.p239
  3. 보통 자연 상수를 밑으로 하는 함수를 매클로린 급수를 적용해서 사용한다. 그런 경우에는 평균과 분산이 x로 같다.