확률변수

確率變數, random variable/stochastic variable

1 개요

일정한 확률을 갖고 발생하는 사건(event)[1]에 수치가 부여되는 변수. 일반적으로 대문자 [math]X[/math]로 나타낸다. 확률변수 [math]X[/math]의 구체적인 값에 대해서는 보통 소문자를 사용해서, 예를 들어 [math]X[/math][math]p[/math]의 확률로 [math]x[/math]의 값을 가진다는 것은 [math]P\left(X=x\right)=p[/math] 등의 확률함수로 표현할 수 있다.

보통 확률변수 [math]X[/math]가 가질 수 있는 값의 범위가 이산적인지/연속적인지(셀 수 있는지/없는지)에 따라 이산확률변수(離散確率變數, discrete random variable)와 연속확률변수(連續確率變數, continuous random variable)로 나뉜다. 다만 모든 확률변수가 이 두 가지의 형태인 것은 아니다. 예를 들어 동전을 던져서 앞면이 나오면 0부터 1 사이의 아무 숫자를, 뒷면이 나오면 숫자 1/2을 불러주는 확률변수는 어느 둘에도 속하지 않는다.

확률과 통계에서 빠질 수 없는 주요 개념으로, 기초적인 통계학의 경우 실제 계산을 하는 것보다는 확률변수, 확률분포, 기댓값 등의 개념을 이해하는 것이 중요하다.

2 이산확률변수

유한개의 값, 또는 자연수 집합과 일대일 대응 가능한 개수의 값으로 구성되어 있는 확률변수이다. 예를 들어 2013년 11월 한 달 동안 나무위키를 방문한 사람이 n명이고, 이들이 한 달 안에 재방문할 확률이 p라고 했을 때, 2013년 11월에 나무위키를 방문한 사람 중 한 달 안에 재방문할 사람의 수는 이산확률변수이다.[2] 다른 예로서 LOL 랭크 게임 승률이 52%인 사람이 랭크 게임을 다섯 판 했을 때 승리한 게임의 수, 자유투 성공률이 71%인 선수가 자유투를 세 번 던졌을 때 실패한 자유투의 수 등도 모두 이산확률변수이다.[3] 물론 가능한 갯수가 너무 많은 경우는 그냥 연속확률변수처럼 다룰 수도 있다.

보통 이런 식으로 개수를 나타내는 확률변수가 많지만, 실수값을 지니더라도 가능한 값이 유한 가지 뿐이면 그것도 역시 이산확률변수라 한다. 광주리에서 토마토를 하나 집어들었을 때 그 토마토의 무게 같은 것도 이산확률변수다.

3 연속확률변수

연속적인 범위의 값을 지니는 확률변수. 예를 들어, '핸드폰으로 나무위키를 보는 사람의 수'는 셀 수 있으므로 이산확률변수이나, '핸드폰으로 나무위키를 보는 사람이 일요일에 나무위키를 본 시간'은 셀 수 없으므로[4] 연속확률변수이다.

이산확률변수와 연속확률변수의 가장 큰 차이점은 확률을 P(X=x)로 표기할 수 있냐 없냐이다. 예를 들어 물컵에 물을 따랐을 때 99.999999999ml도 아니고 100.0000000001ml도 아니고 정확히 100ml를 따를 확률은 그냥 0이기 때문에, 분명 물컵에 물을 따라 정확히 100ml를 따르는 사건이 일어날 수 있는데도 그 확률이 아무 의미가 없는 사태가 벌어진다. 따라서 연속확률변수는 확률분포함수 f(x)를 도입하며, f(x)를 a에서 b까지 적분함으로써 확률변수의 값이 a와 b 사이에 있을 확률을 구한다. 앞의 예시를 다시 사용한다면 물컵에 물을 따랐을 때 99.5ml~100.5ml 사이로 따를 확률을 구하는 식이다.

가장 유명하면서도 대표적인 연속확률변수의 확률분포는 다름아닌 정규분포이다. 해당 문서 참고.

4 관련 항목

  1. 사상(事象)으로 번역되기도 한다.
  2. '사람의 수'는 0명, 1명, 2명 등과 같이 '셀 수 있다.'
  3. 랭크 게임 승률, 자유투 성공률을 모르더라도 위의 두 변수는 확률변수이다. 예를 들어 '원빈이 모르는 사람에게 세 번 고백해서 성공하는 횟수' 등과 같이 확률 p가 알려지지 않은 경우에도 위 '횟수'는 이산확률변수이다.
  4. 1초, 2초와 같이 셀 수 있는 것처럼 보이기도 하나, 실제로는 딱 떨어지지 않는다. 5분이라고 했을 때 300.0000001초 인지 300.0000000001초인지 정확하게는 알 수 없기 때문이다.