분산

매직 더 개더링의 카드에 대해서는 부메랑(동음이의어) 문서를 참조하십시오.

1 개요

분산(var; variance)은 짧게 말해서 편차제곱을 평균한 것이다. 고등학교 수준의 설명을 하자면 다음과 같다. 각각 100명으로 구성된 두 집단의 평균 키를 구하는데, 한 집단은 10살짜리의 100명의 어린이들로만 구성되고, 다른 집단은 5~15세 연령이 고르게 포함된 100명으로 구성된다고 생각해 보자. 전자의 집단에 비해서 후자의 집단의 키는 그 숫자가 훨씬 들쑥날쑥하게 튀게 될 것이다. 평균 자체는 표본에 따라 대략 비슷하겠지만 각각의 관찰값들은 훨씬 더 넓게 퍼져 있게 된다는 것이다. 즉 관찰값들이 얼마나 많이 퍼져 있는지 역시 평균값이 어디인지만큼이나 중요하다. 그리고 그걸 조사하는 것이 바로 분산이다.

분산을 알기 위해서는 먼저 평균을 알아야 하고, 각각의 관찰값들과 평균 사이의 거리(distance)를 재기 위해 관찰값에서 평균을 빼게 된다. 그런데 여기서 문제가 생긴다. 어떤 관찰값들은 반드시 평균 이하에 존재하고 있고, 이들의 존재로 인해 양수 값들과 음수 값들이 혼재하게 되는 것이다. 그리고 이들을 모두 합칠 경우 결과는 반드시 0이 나온다. 결국 옛날 통계학자들은 이 문제를 해결하기 위해 제곱을 취해서 마이너스 기호를 떼어내 버리자! 라는 결정을 하게 되었다.[1] 즉 각각의 편차를 제곱하자는 것이다. 이렇게 얻어진 편차제곱(squares of deviation)을 모두 합친 후[2] 전체 관찰값의 개수만큼 나눈다. 즉 편차제곱을 가지고 평균을 구하는 것이다. 이것이 분산이다.

2 심화 내용

위의 설명은 분산의 여러 의의중 관측값의 특징을 나타내는 요약통계량적인 측면에 치우친 설명이다.[3] 하지만 분산은 위의 요약통계량으로서의 의의 이외에 다른 의의를 가지고 있다. 이에 대해 설명 하기 위해 다음의 예를 들어보자. 아마 이 문서를 읽고 있는 독자라면 쉬운 고등학교 수학 정말로? 에서 정규분포에 대해서 배웠을 것이다. 정규분포에 대한 문제를 풀때 거의 대부분 문제는 어떤 대상은 평균과 분산이 몇인 정규분포를 따른다고 주어진다. [4] 그런데 이 때는 관측치가 주어지지 않았는데 어떻게 분산이란 것을 계산했을까? 위의 정의에 따르면 어떤 관측치가 주어져야만 분산이라는 것이 정의되는데 말이다.

사실 분산이란 관측값에 의존하여 정의되는 양이 아니라 분포함수에 의존하여 정의되는 양이다.[5] 이에 대해 엄밀히 이야기 하자면 확률밀도함수(pdf), 누적확률밀도함수(cdf)에 대한 개념과 적분을 도입해야 하지만 생략하고 이야기하자. 분산이란 분포의 모양을 결정하는 양이다. 가장 쉬운 정규분포의 예시를 들면, 같은 평균을 가지는 정규분포라고 하더라도, 분산이 큰 정규분포가 그 확률밀도함수의 높이가 낮고 대신 넓게 퍼져있는 것을 볼 수 있다. 이렇게 분산은 확률밀도함수가 평균으로 부터 퍼져있는 정도를 나타내는 양이다. 분산이 크면 확률밀도함수의 모양은 평균으로부터 넓게 퍼지며, 분산이 작으면 확률밀도함수의 모양은 평균에 가깝게 몰리게 된다.

2.1 표본 분산

통계학을 조금 더 공부하다보면, 관측치들의 성질을 요약하는 통계량으로서 모집단에서의 분산과는 다른 표본분산이라는 개념을 정의한다. 모분산과 표본분산은 데이터를 뽑은 집단이 모집단인지 표본인지에 따라 구분하는데 자세한 내용은 표본조사 항목 참고.

표본분산은 표본에서 구한 분산인데, 위의 분산 공식에서 n을 나누는것과 다르게 n-1을 나눈다. 이는 표본분산을 불편추정량(Unbiased Estimator)으로 만들기 위해서이다. 불편추정량이 되기 위해서는 모든 관측치가 독립이고 동일한 확률분포에서 뽑혔다(iid; independent and identically distributed)는 가정이 필요하다. 조금 더 나아가서 이야기 하면 iid 샘플링을 정규분포에서 했다고 가정했을 경우 표본일지라도 위의 분산공식을 그대로 표본분산으로 사용하기도 한다.[6] 쉽게 말해 n으로 나누고 싶으면 n으로 나누고 n-1로 나누고 싶으면 n-1로 나누어도 사는데는 지장은 없다는 소리. 다만 z-test, t-test 등의 검정을 수행할 때는 꼭 통계학 서적에 있는 대로 계산하자. 그 때는 n으로 나누거나 n-1로 나누는 것이 꽤나 중요하다.[7]

이 문서의 내용 중 전체 또는 일부는 평균문서에서 가져왔습니다.</div></div>
  1. 대신 절댓값을 취해도 되지 않느냐고 할 수 있지만, 나중에 통계분석을 할 때 쓰기가 까다로워서 잘 안 쓴다고 한다.... 지만 최근에는 robust한 관측값을 얻기위해 사용되는 분야가 꽤나 있다. 절댓값을 취하는 방법은 따로 "평균편차"(MAD) 라고 부른다.
  2. 이를 편차제곱합(SS; sum of squared deviation)이라고도 한다.
  3. 학교 시험을 보고나면 평균과 분산이 주어지는데 이는 위와 같은 과정을 통해 구해지는 것이다.
  4. N(50, 4) 와 같은 형식으로
  5. 전공자가 아니라면 관찰값을 통해 설명해도 된다. 사회과학도들 사이에서 통계입문 추천도서로 자주 거론되는 박정식 등의 저서 <현대통계학> (5/e) p.56에서도 이런 식으로 설명되는 걸 볼 수 있다.
  6. 이는 n으로 나눈 분산이 최대우도추정량(Maximum Likelihood Estimator)이기 때문이다. 조금만 더 첨언하면 n-1로 나누나 n으로 나누나 어차피 일치추정량(Consistent Estimator)이기 때문에 어느 쪽을 사용하더라도 문제는 없다.
  7. 물론 n이 꽤나 크면 그렇게 까지 중요하지는 않다. 오오 근사 오오