정규분포

(세상은 정규분포에서 넘어옴)

파일:Attachment/normal.jpg
확률과 통계 수학책과 문제집 뒤에서 많이 보던 표

正規分布, normal distribution[1]

자네는 사람이건 개이건 다른 어떤 것이건 간에, 아주 큰 것이나 아주 작은 것을 발견하는 것보다 더 드물게 일어나는 일이 있다고 생각하나? 혹은 빠른 것이건 느린 것이건, 추한 것이건 아름다운 것이건, 하얀 것이건 검은 것이건 말일세. 자네는 이 모든 것들 중에서 양 끝의 극단에 있는 것은 드물고 소수인 반면, 중간에 있는 것들은 흔하고 다수임을 알지 못하나?

- 소크라테스, 『파이돈』 중, 정암학당 역

1 개요

인간자연 세상에서 일어나는 수많은 일을 설명하는 핵심 개념이다.

통계학에서 사용하는 각종 확률분포 중에서도 가장 중요하게 다루는 분포이다. 물리학 실험용으로 무작위 표본추출을 통해 도출시킨 확률밀도곡선에 극한값을 적용시켜 만든 것을 형태로 정립한 것인데, 그 그래프를 함수식으로 풀어쓰면

[math]\displaystyle N\left(\mu,\sigma^{2}\right)\left(x\right)=\frac{1}{\sigma\sqrt{2\pi}}\exp\left(-\frac{\left(x-\mu\right)^{2}}{2\sigma^{2}}\right)[/math]

이다.([math]\sigma[/math]:표준편차, [math]\mu[/math]:평균)

[math]\displaystyle \int_{-\infty}^{+\infty}N\left(\mu,\sigma^{2}\right)\left(x\right)dx=1[/math]이다.[2] 당연하지만 확률밀도함수에서 나온 것이기 때문이다. 가장 중요한 성질. 다만 고등학교 수준의 적분으로는 도저히 저 식을 풀 방법이 없기 때문에 표준화한 뒤에 위의 표를 이용한다.

정규분포는 특정값의 출현비율을 그렸을 때, 중심(평균값)을 기준으로 좌우 대칭 형태가 나타나며, 좌우 극단으로 갈 수록 급격하게 수치가 낮아지는 특징을 지닌다. 그래서 변곡점도 2개가 있는데, 모두 [math]\mu[/math]에서 [math]\sigma[/math]만큼 떨어져 있다.하지만 표준편차의 수치가 위의 이미지처럼 꼭 기계적으로 딱딱 맞아야 하는 것은 아니고 대략 저런 '종'형태로 나타난다. 식스 시그마라는 용어도 여기에서 비롯한 것이다.[3]

1.1 표준정규분포 : z-분포

정규분포 중에서도 평균이 0이고 표준편차가 1인 것을 표준정규분포(standard normal distribution)[4]라고 하며 따로 분류한다. 모든 정규분포는 이 표준정규분포의 상수배를 평균만큼 이동시킨 형태이므로,[5] 표준정규분포의 확률만을 알면 모든 정규분포의 확률을 알기 충분하다는 것.

위의 표준정규분포의 확률분포표는 양수 z의 값에 대해서 표준정규분포가 0에서 z 사이 있을 확률을 기록한 것이다. 로그표 읽듯이 왼쪽 숫자, 오른쪽 숫자를 합친 게 z가 된다. 예를 들어 위의 표에서 음영표시가 교차하는 부분에 있는 확률이 0.475 (47.5%)인 칸을 보면, z의 값은 1.9와 0.06을 합쳐서 1.96이다. 즉 절대값이 1.96 바깥에 있는 부분의 확률은 2*0.025=0.05, 즉 5%다. 이는 표준편차 1.96배 바깥의 범위의 확률이 5%라는 것을 의미한다.

1.2 중심극한정리

정규분포는 반복적으로 발생하는 무수한 사건·사고들을 정립하여 설명할 때 중요하게 이용되는데, 이는 어떤 분포든지 무한정으로 반복하면 표본 평균의 분포가 정규분포에 가까워지기 때문이다. 수학적으로 이야기하면 독립인 확률변수들의 평균의 분포의 표준화가 표준정규분포에 수렴한다는 이야기로[6], 이를 중심극한정리(Central Limit Theorem)라 부른다.[7]

이 중심극한정리가 사실상 정규분포의 존재의의이다. 자연에 나타나는 수많은 분포들이 무수히 많은 원인에 의해 결정된다고 한다면, 정규분포가 나타나는 것은 매우 자연스럽다. 또한 이 정리 때문에 표본평균의 표본분포가 정규분포에 수렴하게 되고, 따라서 우리가 통계적 추정을 할 수 있는 것이다.

흔히 중심극한정리는 비슷한 내용을 말하는 것 같은 큰 수의 법칙과 혼동되지만, 이 둘은 다른 내용이다. 큰 수의 법칙은 평균이 확률로 수렴한다는 얘기는 했지만, 얼마나 빠르게 수렴하는지에 대한 얘기는 전혀 하지 않기 때문이다. 그 수렴하는 정확한 척도를 제시해 주는 것이 중심극한정리라고 생각하면 된다. 한 마디로 강화판.[8]

1.3 통계학의 약방의 감초

정규분포를 빼면 통계학이 존재할 수 없다고 보아도 무방하다. 통계학의 수많은 분포(카이제곱 분포, t-분포, F-분포)등은 사실상 정규분포의 수반성질들을 연구하기 위해 만들어진 분포이다.

한편으로는 통계적 분석이나 검정을 할 때 분포에 대한 가정이 필요한 경우, 설령 주어진 데이터가 정규분포와는 전혀 다른 모양들의 집합이더라도, 정규분포를 가정하고 계산할 수 있다. 모르는 분포라면 정규분포로 가정하는 것이 가장 일반적일 정도. 얼핏 보면 엉터리인 듯한 이런 방법은 실제로는 매우 잘 맞아 떨어지는데, 이는 통계학이 발전하면서 정규분포가 가장 '일반적'일 뿐만 아니라 가장 '안정적'이라는 점까지 증명되었기 때문이다. [9] 흠많무. 역시 가우스는 천재였다

2 이용 사례

정규분포는 본래 자연과학의 도구로 출발하였다. 가우스가 정규분포를 발견한 것은 소행성 세레스를 찾기 위한 문제를 풀면서였다. 그는 세레스의 위치를 측정한 오차가 정규분포를 따른다고 생각하였고, 이걸 활용해 그가 발명한 추정법이 최소제곱법(least square method)이다. [10]

지금은 정규분포는 통계학의 어디에서나 튀어나오므로, 통계를 쓰는 어느 누구도 피해갈 수 없다. 자연과학의 실험 뿐만이 아니라 사회학, 심리학의 실험 통계에서도 정규분포가 사용된다. 이는 특히 사회과학에서 대다수의 수포자 문과출신 대학생들을 좌절시키는데 일조하고 있다(...) 예로 빈부격차 수준을 설명하는 등의 거시(巨視)적인 부분을 설명할 때 특히 중요하게 다루어진다. 한편 앞에서 말했던 최소제곱법은 지금도 회귀분석(regression)이란 이름으로 통계학도들을 괴롭히고 있다. 분야를 막론하고 '시간에 따른 경향'을 생각하는 사람들은 누구나 이 골칫거리와 씨름해 봤을 것이다.

물론 학문을 하는 사람들이 아니더라도, 정규분포를 해석할 줄 알면 정규분포로 나타나는 많은 자료들을 이해하는 데 훨씬 유용하다. 보험사들이 보험료를 설정할 때 참고하는 '경험생명표'는 정규분포 형태로 나타난다.

정규분포가 아닌 자료를 비율에 맞추어 정규분포로 나타내는 것을 표준화(standardization)라고 한다. 정확히 말하자면 자료의 백분위 p만을 뽑아내서, 그 백분위에 대응되는 정규분포의 z값을 표준화된 값, 혹은 표준점수라 부르는 것이다. 이 표준화는 주로 시험에서 많이 활용된다. IQ등의 지능검사라던지, 대학 학점이라던지, 미국의 SAT, 특히 후술할 성적표라던지.

고등학교 생명과학 I에서 우성 열성 몇 가지 던져주고 나타나는 것들을 확률로 만들라는 수행평가를 내주기도 하는데, 이게 별것 아닌것같지만 형질 4가지가 나오기만 해도 전체 256가지이다.(...) 이걸 손으로 구하겠는가? 확통 모르거나 예습하고 까먹은 고2들은 눈물을 흘리며 진짜로 그린다. 반대로 확통은 아는데 형질이 뭔지 몰라서 망하기도 한다. 이때 정규분포에서 어려운거까지 안 가고 고등학교 확률과 통계 수준만 대충 알고 있다면, 그리고 계산기까지 있다면 3분 이내에 끝내버린다. 물론 계산기가 없으면 좀 큰 수 암산하니 귀찮지만, 손으로 그리는 것보단 훨씬 낫다. 제출 직전 쉬는시간에 끝내버리고 제출할 수 있다. 고3때 확통을 배우는 학교라면 선생님이 채점을 거부할 수도 있으니 주의하자. 그런데 대놓고 조합 식을 써놓아도 그냥 받아주는 것 같다.

2.1 성적표

너의 성적표를 탐구해주도록 하겠다.
보통 성적표의 9등급은 표준점수의 범위에 따라 매겨진다. 간단히 말하면

  • 원점수가 전체 중 상위 몇%인지 -> 백분위
  • 백분위에 대응되는 평균 100, 표준편차 20의 정규분포값 -> 표준점수
  • 표준점수의 범위 -> 등급

으로 요약할 수 있다. 세부사항은 훨씬 복잡할 수 있다. 대학수학능력시험의 경우는 수능 등급제 항목에 기술된 것처럼 표준점수를 정수로 반올림하고 여기에서 다시 또 누적비율을 따지는 과정이 들어간다. 하지만 학생들 석차를 매길 수 있는 내신의 경우는 백분위를 따지는 것이 훨씬 편하므로, 굳이 표준점수를 뽑아내지는 않는다.

2.1.1 내신 전교등수 때려 맞히기

대부분의 내신 성적표에선 등급만 표기해줄뿐 전교 몇 등인지는 교육정책에 의해서 표기해주지 않는다. 하지만 원점수의 전체평균과 표준편차가 알려져 있으면, 원점수의 분포가 정규분포랑 비슷하다고 가정하고, 자신의 원점수를 이용해 표준점수, 전교등수, 백분위를 대략적으로 구할 수 있다.

계산은 간단하다. 만약 원점수의 분포가 정확한 정규분포를 따른다면, 자신의 원점수를 표준화해 표준점수로 만들 수 있다. 이 표준점수로 전체 백분위를 구하고, 전체 백분위에 해당하는 전교등수를 계산하면 끝. 요약을 하자면

  • (표준점수): 20*((원점수)-(평균))/(표준편차)+100
  • (백분위): (원-평)/편 을 구한 값은 아마 ±2 범위 사이에 있을것이다. 이 숫자가 양수인 사람은 정규분포표에서 자신의 숫자를 소수 둘째자리까지 구한 후 0.5에서 그 숫자를 빼면 되고, 숫자가 음수인공부 못하는 사람은 이런 거 보러 왔을리가 없겠지만 0.5에서 그 숫자를 더하면 된다.
  • (전교등수): (백분위)*(이수 전교생수)

정도가 되겠다.[11]

2.1.1.1 예시

성적표의 원점수를 90, 평균이 60, 표준편차가 20인 누군가의 성적표가 있다고 치자. 이 학생의 표준점수는 20*(90-60)/20+100으로 표준점수는 130점이이고 정규분포로 고쳤을때 이 학생은 z값이 1.5를 의미하고 있다. 1.5의 정규분포표의 값은 상단위의 표에 따라 0.4332를 의미한다. 즉 이 학생은 0.5-0.4332니 약 0.067, 즉 백분위의 근삿값이 상위 6.7%이므로(백분위는 93.3%) 성적표는 2등급일 가능성이 크다.

2.1.1.2 주의사항

이 방법은 학교의 원점수 분포가 정규분포랑 비슷하다는 가정이 있어야만 유효하다.[12]
예를 들어서 시험이 물난이도여서 만점자가 수두룩했다거나, 불난이도여서 잘하는 몇명 빼고는 다 죽을 쑤었다던가 한다면, 위 추산은 거의 먹히지 않을 것이다. 애초의 수능 변별력이 어쩌니 저쩌니 하는 불평이 매년 나오는 것도 그렇게 노력해도 수능의 원점수 분포를 정규분포로 맞추지 못해서인데, 그 수능이 그런데 하물며 내신은 오죽하겠는가?

2.2 세상은 정규분포

파일:Attachment/정규분포/jeonggyu.jpg
자기 주변만 보면 대중이 선호하는 것과 다르지만, 실상은 그 주변이 적다는 것을 보여주는 짤방.

트위터의 누군가가 '주변 사람들이 구글만 쓰던데 네이버는 누가 쓰죠?' 라는 트윗을 올린 것에서 유래한다.

파일:Attachment/정규분포/jeonggyu2.jpg

통계인원이 적으면 일반적인 통계치가 통계인원 내에서 적어보일 수가 있지만 결국 많으면 많아질수록 통계치에 근접해지는 것을 뜻한다. 결국 '소수자는 소수자일 뿐' 이라는 것을 어쩔 수 없이 나타내는 것. 굉장히 많은 상황에 이 그래프를 보여줄 수 있다. 대표적으로 선거 투표 개표 결과가 자기 생각과 다르게 나왔다거나 할 때. 선거 투개표 결과는 여론조사(표본조사)로도 얻을 수 없을 만큼 어마어마한 숫자의 모집단에 대한 결과이므로 '모수', 즉 '모평균', '모분산' 등에 해당한다. 이런 결과는 당연히 정규분포 근사가 가능하므로 일반 사람의 생각은 그저 저 중에 하나, 실제 몇명의 가치로는 0에 수렴한다.(실제로 정규분포에서 특정 지점의 확률은 0이다)

2.2.1 예시

  • 주변 사람들이 다 스팀 게임만 하는데 카카오톡 게임들은 누가 하죠?
  • 주변 사람들이 다 혈액형 성격설을 까는데 혈액형 성격설을 누가 믿죠?
  • 주변 사람들이 다 성소수자에 관대한데 누가 성 소수자를 그렇게 차별하죠?
  • 나는 대전액션게임을 피눈물 나게 연습해서 분명 실력이 올라갔는데 왜 승률은 시궁창이죠?
  1. 가우스가 처음 정립했기 때문에 가우스 분포(Gaussian distribution)라고도 한다. 독일 마르크 10DM 권종에도 그림과 함수식이 들어가있다.
  2. 저 식을 적분의 성질을 이용해 다변수함수 적분으로 만들고, 극좌표로 변환한 후 이중적분을 해주면 된다. 참 쉽죠? 처음 듣는 용어가 나오니 어려워보이지만 교양 미적분학 정도만 들으면 혼자서도 할 수 있는 비교적 쉬운 적분이다.
  3. 표준편차 6배 바깥의 범위([math]\mu\pm6\sigma[/math])는 0.0000002% 정도의 극히 희귀한 확률이다. IQ로 치면 10 이하나 190 이상에 해당하는 지수가 바로 6시그마이다.
  4. z분포라고 줄여 부르기도 한다.
  5. 정확히는 표준정규분포를 표준편차배 하고 평균을 더해주면 임의의 정규분포를 만들 수 있다.
  6. 엄밀히 말하면: 같은 분포를 따르고 서로 독립인 확률변수 X1 , X2 , ..., Xn 에 대해 이들의 평균 X = (X1 + X2 + ... + Xn)/n 을 평균이 0, 분산이 1이 되게 표준화한 Z=(X-μ)/σ√n의 분포는 n이 무한대로 갈 때 표준정규분포에 수렴한다.
  7. 이항분포 B(n,p)가 정규분포 N(np, npq)로 수렴한다는 내용은 이보다 이전에 라플라스(Laplace, Pierre-Simon)가 증명하였고, 이 버전을 "라플라스의 정리"라 부르는 경우도 있다. 물론 이를 일반화하여 현재의 중심극한정리를 정립한 것은 가우스이다.
  8. 하지만 그렇다고 중심극한정리를 큰 수의 법칙의 상위호환이라고 할 수는 없다. 중심극한정리는 성립하지 않지만 큰 수의 법칙은 여전히 성립하는 경우도 있기 때문이다.
  9. 엄밀히 말하면 이것은 중심극한정리 때문에 성립하는 내용은 아니다. 이것도 많은 사람들이 오해하는 내용.
  10. 최소제곱법에 대해 자세한 것은 네이버캐스트의 http://navercast.naver.com/contents.nhn?rid=22&contents_id=3352&leafId=22 을 참고. 아쉽게도 이 글은 정규분포와의 연관성을 전혀 언급하지 않고 있다.
  11. 노파심에서 말하겠만 물론 이 숫자 모두는 당연히 '추산'이다. 연속량을 이산으로 바꾸고, 숫자를 반올림하고, 정규분포 근사를 취하는 모든 과정에서 당연히 오차가 일어날 수 있다. 하지만 이런 오차는 뒤의 '주의사항' 부분에서 나올 오차에 비하면 거의 무시할 수 있다는 것도 유념하자.
  12. 대입 내신에서는 성적표에 표준편차를 기입해주는데 그걸로 학생의 전교 석차등수를 위의 가정을 넣고 전교석차를 구하는 식이다.