통계학

st_thompson_statistics_f.jpg [1]

統計學
Statistics

1 개요

과학의 범위
자연과학물리학 · 화학 · 생명과학(생물학) · 지구과학 · 천문학
형식과학수학 · 통계학 · 논리학 · 암호학 · 이론전산학 · 결정이론
응용과학공학 · 의학 · 수의학 · 치의학 · 약학 · 건축학 · 농학 · 컴퓨터과학
사회과학정치학 · 사회학 · 경제학 · 지리학 · 인구통계학
과학이 아닌 것유사과학 · 비과학 · 반과학 · 변경지대의 과학 · 인문학

통계학은 자료(data)의 학문이다. 통계학에서 배우는 모든 것들은 결과적으로 관찰실험으로부터 얻어진 자료에서 질 좋은 정보(information)를 적출하기 위한 것이다. 이를 위해 통계에서는 야생의 데이터를 어떻게 얻어내는지, 그 데이터를 어떻게 길들이는지, 전체에서 뽑아낸 몇 개의 자료만으로 전체에 대한 정보를 완전히 알아내는 것을 배우는 학문이다.

2 귀납논증의 학문

통계라는 이름에서 알 수 있듯이 귀납논증의 학문이다. 항상 반례 가능성을 가지고 있다. 설령 통계적으로는 100%라도 그것이 전수조사가 아닌 이상 반례가 존재할 가능성을 완전히 배제할 수는 없다. 반면 너무 자명하게 100% 혹은 0%인 경우도 통계적인 의미가 없다. 애초에 조사의 필요성이 없기 때문. "100세 이상 인간의 사망률은 100%다" 같은 명제가 여기 해당한다. 또한 일반적으로 봤을 때 가장 무의미한 수치는 50%이다. 특정한 결론을 내릴 수가 없기 때문. [2] 아이러니하게도 확실한 것을 중요시하는 수학과는 거리가 보이는 점.

3 다른 학문과의 관계

3.1 사회과학

대규모의 자료를 다루어야 하는 사회과학은 이게 없으면 존재할 수 없다. 통계학의 탄생 자체가 사회과학자 방대한 데이터를 분석하기 위해 만들어낸 학문이다. 영어이름부터가 State의 학문으로, 국가에 관한 특성을 연구하기 위해 만들어졌다. 몇천만에서 몇십억을 다루는 통계를 연구하는 통계학은 태생적으로 사회과학과 떼어놓을 수 없다.

실험분석이나 자료해석이 필요한 연구분야에서 논문을 쓰려면 통계 지식이 필요하다. 대부분의 논문은 통계 분석을 거쳐 논문의 결론을 제시하는 구조다. 따라서 대학원 진학시에는 기본적인 테이블 결과 해석 정도는 할 줄 알아야 하며, 최소한 기초통계학과 회귀분석에 대한 지식을 마련하는 것이 연구에 직/간접적인 도움이 될 것이다. 또한 자기 연구에 통계를 직접 써먹고 싶다면 SPSS, SAS, Stata, R, Matlab 등 통계분석 프로그램을 다루는 법도 배울 필요가 있다. 변수가 매우 적다면 엑셀로도 버텨볼 만하지만 최소 독립변수가 대여섯 개인 다중회귀분석만 들어가도 엑셀로는 답이 없다. 엑셀 함수(trend, slope, linest 등) 및 데이터분석 메뉴에서 다중회귀분석을 지원한다.

3.2 수학

태생적으로 수학과도 역시 불가분의 관계일 수 밖에 없는 학문으로, 통계를 공부하려면 어느 정도의 수학을 반드시 알아야 한다. 학문 특성상 확률과 부딪힐 일이 많다 보니 보통은 확률론과도 같이 엮인다. [3] 이 때문에 수학의 한 분야로 취급되기도 하나, 통계학의 경우 이론 못지않게 그에 대한 응용이 중요하다.(즉 두 학문의 지향점이 약간 다르다.) 수리적인 견지에서 통계학을 연구하는 수리통계학은 확률분포의 성질, 통계량의 충분성(sufficient statistics), 통계검정의 효용성(most powerful test) 등에 대한 증명, 확률과정(stochastic process)의 수리적 성질에 초점을 맞추는 반면, 응용통계학적인 견지에서는 통계적 모형에 대한 추정방법 개발과 구현, 분석결과의 해석 등에 방점이 놓여있다.

4 세부 분야

  • 다변량자료분석
말 그대로 다변량 자료를 다루는 분야이다. 말인 즉슨, 각 사람들의 키를 조사해서 얻은 자료를 분석하는 게 아니라, 각 사람들의 키, 몸무게, 허리둘레, 성별 등등 많은 변수를 조사하여, 변수가 많은 자료를 분석하고자 하는 분야이다. 변수가 많기 때문에 시각화가 어렵고, 많은 변수를 한 번에 다루기 위해 행렬 이론 등이 많이 사용된다. 차원을 줄이고 정보를 요약하는 방법을 많이 다룬다. 학부 수준에서는 몇 개의 주성분을 뽑아내어 차원을 축소하는 주성분분석, 숨겨진 요인을 찾는 인자분석, 자료를 분류 및 군집화하는 판별분석 및 군집분석 등을 다룬다.
  • 범주형자료분석
우리가 관심 대상으로 하는 자료는 키, 몸무게 등 수치적, 연속적으로 나오는 자료도 있지만, 성별 등 범주가 나누어져 있는 자료들이 있다. 이러한 범주형 자료를 분석하는 방법을 다룬다.
  • 비모수통계학
자료를 분석할 때 많은 경우 모형을 세우는데, 이 경우 주로 모수를 추정하는 데에 초점이 맞추어진다. 예를 들어, 두 변수 사이의 상관관계를 알아내고자 회귀분석을 실시한다고 하자. 이 때 두 변수 사이의 관계가 선형이라거나, 지수함수라거나 등 가정을 하게 되는데, 이 경우 (선형을 예로 들면) y절편과 기울기만을 알아내면 관계를 추정할 수 있다. 이 때 y절편, 기울기 등을 모수라 하며 이 경우 모수만을 추정하면 된다. 그러나 두 변수 사이의 관계를 특정하지 않고 예를 들어 '어떤 연속함수'라고만 정하게 된다면 모수 추정이 불가능해진다. 이와 같은 방법을 비모수적 방법이라 하며 이를 다루는 분야이다.
  • 생존자료분석
불완전한 데이터 중 특수한 형태를 다루는 분야이다. 예를 들어 어떤 병에 대한 신약의 효과를 검증하기 위해 환자들을 모아 그 수명 시간을 조사하고자 하는 상황을 생각해보자. 이 때, 병이 악화되어 이미 수명이 다 한 사람은 수명을 정확히 알고 있지만, 아직 생존한 환자는 그 수명을 정확히 알지 못하고 '현 시점보다는 오래 산다'는 사실만 알게 되며 따라서 데이터가 불완전해진다. 이와 같은 불완전 자료를 분석하는 방법을 다루며 의학통계에 주로 응용된다.
  • 수리통계학(이론통계)
확률변수의 분포, 조건부 확률과 독립성, 몇 가지의 특수한 분포(정규분포, 이항분포, 다항분포, 감마분포, 카이제곱분포, 포아송 분포, 다변량 정규분포), 확률변수의 함수 분포, 중심극한정리를 포함한 극한분포, 추정, 통계적 가설과 검정, 비모수적인 방법을 이용한 검정과 각종 통계량 등을 배운다.[4] 요약하면 통계학의 기초개념을 포괄적으로 다루는 분야.
첨언하자면, 이 단락의 원래 이름은 수리통계학이었는데, 사실 수리통계학이라 하는 건 세부 분야보다는 통계학과에서 배우는 과목 이름에 더 걸맞아 보인다. 통계학에도 역시 근간을 이루는 기본적인 배경 이론이 있으며 이러한 이론적인 부분을 다루는 분야를 뭉뚱그려 이론통계라고 한다. 그러나 이론통계 역시 세부 분야라고 하기 부적절한 것이, 이론통계에 수많은 분야가 있기 때문이다.
  • 시계열자료분석
시계열 자료, 즉 시간이 흐르며 관측된 자료를 다루는 분야이다. 주가 지수, 물가 지수, 월별/연별 강수량 등의 자료가 모두 시계열자료이다. 이러한 시계열자료의 두드러지는 특징은 한 시점에 여러 개의 데이터를 얻기 힘들다는 점과(시간이 흘러 버리므로), 관측치끼리 서로 연관이 있다(예를 들어, 오늘의 주가 지수는 어제의 주가 지수에 영향을 받을 수밖에 없다)는 점이다. 실생활의 수많은 자료가 시계열자료이므로 자료를 분석하고자 할 때 매우 중요한 분야 중 하나이다.
  • 실험계획법
어떤 주장을 통계적으로 검증하기 위해 자료를 수집할 때, 어떤 단계를 통하여 자료를 모을 지 실험을 계획하여야 한다. 이와 같은 실험을 계획하고 결과를 분석하는 법을 다룬다.
  • 통계계산
컴퓨터 기술이 발달하면서 통계적 자료분석 방법은 점차 고도화되고 복잡해졌다. 특히 최근에는 분석해야할 데이터가 매우 커지고 방대해짐에 따라, 어떻게 하면 더 빠른 알고리즘을 이용하여 분석할 수 있을 지가 중요한 문제로 대두되었다. 이 분야에서는 통계에 사용되는 계산 방법, 즉 컴퓨팅 기술을 주로 다루며, 빅 데이터 분석, 이미지 및 영상 처리, 기계 학습(머신 러닝) 등에 요긴하게 응용된다.
문서 참조.
  • 확률과정론
많은 현상은 이전의 상태가 이후의 상태에 영향을 미치며, 그 상태가 결정되어있지 않고 랜덤하다. 따라서 이를 시간에 대한 함수로서의 확률변수열이라고 생각할 수 있는데, 이를 확률과정(stochastic process)이라고 한다. 쉽게 말하면 매 시간마다 그 상태가 랜덤한 확률변수라는 것이다. 많은 현상을 단순화하여 모형을 세우고 그 확률과정의 여러 성질을 연구하는 분야이다.
문서 참조.
  • 베이즈 통계학
통계학에서 기존의 관점은 평균과 같은 모수를 상수이지만 알려져 있지 않은 것으로 보고, 값이 알려져 있지만 랜덤한 확률변수인 관측치를 이용하여 모수를 추정하는 데에 초점이 맞춰져 있었다. 그러나 베이지안의 관점은 약간 다르다. 모수를 우리가 알지 못하므로, 이 불확실성을 확률분포로 표현하여, 모수가 어떤 확률분포에서 얻어진 값인 것처럼 여긴다. 이러한 분포를 사전분포(prior distribution)라 하며 이는 사전에 내가 알고 있는 정보이다. 이후 관측치를 얻어 관측치를 보고 모수에 대해 알고 있는 정보를 업데이트하여 모수에 대한 새로운 분포를 얻는데 이를 사후분포(posterior distribution)라 한다. 사전에 알고 있는 정보를 사전분포라는 이름으로 분석에 활용하기 때문에, 주관적 확률 역시도 분석에 포함시킬 수 있다. 이름은 물론 베이즈의 정리로 유명한 토마스 베이즈에서 따온 것이며, 베이즈의 정리는 베이지안의 관점의 핵심을 축약하는 식이다. 실제로 계산해보면 사후분포가 절대 예쁜 모양으로 나오는 것이 아니라서 계산과 분석의 어려움 때문에 비주류의 경향이 강했던 관점이다. 그러나 컴퓨터 기술의 발달로 인하여 급성장하게 되었고 현대에 많은 발전이 있었던 분야이기도 하다.

5 통계의 함정

많은 사람들이 통계의 함정에 빠져 잘못된 판단을 내린다. 또 통계를 멋대로 이용해 억지 주장을 펴는 경우도 많다. [5]다음은 대표적인 통계의 논리적 함정이다.[6][7]

이 문서의 내용 중 전체 또는 일부는 독자연구문서에서 가져왔습니다.</div></div>

5.1 너무 작은 표본에 기초한 결론

아무도 빠지지 않을 것 같지만 실제로는 가장 많은 사람이 빠지는 통계의 함정이다. 어렸을 때 우유를 마시면 가 큰다는 주장에 대해 "나는 우유 매일 마시고도 키가 작아. 그거 거짓말이야."와 같은 소리를 하는 사람이 있다. 실제로 우유와 키가 별 상관이 없다는 연구 결과가 많지만, 진위 여부와는 무관하게 본인의 경우만으로는 이를 판단할 수 없다. 이 말은 자기가 우유를 마시지 않았더라면 지금보다 키가 작을 수 있었다는 반론에 반박할 수 없기 때문이다.

유의 수준이란 통계 분석에서 제 1종 오류를 범할 가능성의 상한을 뜻하는 것으로서, p (probability)값으로 표기한다. 여기서 제 1종 오류란 '실제로 효과가 없는데 결과상 효과가 있다고 나오는 오류'를 일컫는 것으로, 귀무가설을 거짓으로 기각하게 된다. 가장 문제가 되는 오류로 일반적으로 학계에서는 이를 5% 미만으로 통제하고 있다. 바꾸어 말하면, 실제 효과가 없는데 효과가 있다는 결론이 도출될 가능성을 5% 미만으로 묶어두어야만 결과의 유효성을 인정하겠다는 것이다.

검정력(1-β)이란 실제로 효과가 있는 것을 통계 분석을 통해 효과가 있다고 증명할 수 있는 힘으로, 잘못된 귀무가설을 기각하는 능력을 말한다 일반적으로 검정력은 0.80(80%)로 설정하고, 그 이상의 검정력을 요구할 경우 더 많은 수의 연구 표본수를 필요로 한다. 연구 표본수가 작아지면 '실제로 효과가 있지만 결과 상 효과가 없다는 결론을 도출'하는 제 2종 오류(β)의 가능성이 높아지며 검정력은 감소하게 된다. 연구자들은 제 1종 오류를 5%로 유지하면서 검정력을 최대화하는 통계 기법을 사용하고자 한다.

가령 정형외과 의사가 회전근 개 파열 환자의 수술적 치료 후, 조기 관절 운동군과 지연 관절 운동군의 재파열율을 비교하고자 한다. 본 연구는 80%의 검정력을 갖고 유의 수준 5%을 유지하고자 한다. 문헌 고찰을 통해 회전근 개 파열 수술 후 일반적인(지연) 관절 운동을 했을 경우 30%의 재파열을 보였다(p1). 10%이상의 재파열율 감소를 효과 크기로 설정할 경우, 조기 관절 운동 군의 재파열율을 20%로 설정하여 p2값에 대입한다. 이 경우 각 군당 최소 294명의 환자가 필요하며, 10%의 탈락률을 고려하면 최종적으로 각 군당 327명을 모집하면 된다.

큰 수의 법칙 문서 참조.

5.2 작위적인 표본을 통해 내린 결론

"개그맨들은 아내가 다 미인이다. 김대희, 김준호, 정종철, 김학도 등을 보라"와 같은 주장을 자주 들을 수 있는데 이는 작위적인 표본에 의한 착각일 수 있다. 개그맨의 아내가 실제로 대부분 미인인지를 판단하려면 임의의 방법으로 공정하게 표본을 뽑아 확인해봐야 한다.

5.3 매우 큰 표본에서 나타난 소수의 사례를 과대평가

표본의 크기가 매우 큰 경우 특이한 사례도 있기 마련이다. 로또 1등이 그렇다. 로또 1등에 당첨될 확률은 매우 작지만, 매주 당첨자가 나온다. 이는 수많은 사람들이 로또를 사기 때문이다. 하지만 이와 같은 현상을 잘못 해석하여 일반화하는 경우가 꽤나 많다. "내가 월드컵 축구 보기만 하면 우리나라가 져"와 같은 주장을 하는 사람이 이런 경우이다. 월드컵 경기의 경우 수백 만 명이 넘는 사람이 경기를 보고 그 중에는 자기가 볼 때마다 우리나라가 이기거나 지는 사람이 있을 것이다. 이는 결코 이상하지 않다.

5.4 일회성 조사를 통해 내린 결론

조사대상 시점의 개수가 작거나 불연속성이 클 경우[8]에는 시계열 분석을 통해 미래를 예측하는 데 한계가 있다. 단 하나의 시점(가령 1개년도의 자료)만으로는 시계열분석이라는 것 자체가 불가능하다.

5.5 잘못된 조사 방법

서울역에서 지나가는 사람들에게 "여기 음란물 보는 사람 있어요?"라고 크게 외칠 때, "네"하고 대답하는 사람은 백 명 중에 한 명도 되지 않을 것이다. 하지만 그렇다고 해서 음란물을 보는 사람은 1%도 되지 않는다고 판단할 수는 없다. 조사 방법이 잘못되었기 때문이다. 일반적으로 다른 사람들에게 말하기 영 좋지 않은 내용을 조사할때는 얼굴을 보면서 하는 조사는 피하는게 좋다.

그 외에 외압이 가해지는 환경 하에서 눈치보면서 거짓 설문을 작성하거나 등등 설문조사 자체를 믿을 수 없는 경우가 있다.

그리고 필요한 수준의 자료를 얻을 수 없는 경우가 있다. 통계자료를 모으는 데는 돈, 시간, 인력이 소요되며, 접근 가능한 권한이 필요하다.[9]

5.6 잘못된 인과관계 추론

상관관계는 인과관계와 무관할 수 있다. 담배를 피우는 사람은 분명 담배를 피우지 않는 사람에 비해 폐암에 걸릴 확률이 높다. 하지만 이것만으로는 담배가 폐암의 원인이라고 할 수 없다. 상관관계는 인과관계를 알려주지 않기 때문이다. 단초를 제공할 뿐이다. 담배가 폐암의 원인인지를 알고 싶다면 의학적인 연구가 필요하다.[10]

더욱 명확하고 극단적인 예를 하나 더 들자면, 정크푸드의 대명사인 치즈버거를 자주 먹는 사람들이 오히려 사망률이 낮다는(?!) 터무니없는 통계가 있는데 사실은 암으로 죽기 이전에 심혈관 질환으로 죽어버리는 경우가 많아서 결과적으로는 암 사망자의 비율이 줄어든 것이다(...)

사실 이것보다 더 뚜렷한 예시는 날아다니는 스파게티 괴물교의 지구온난화의 원인이 시간에 따른 해적 수 감소에 의한 것이라는 해석이 있다.

5.7 집단의 특성을 개인에게 적용

네덜란드 남자의 평균키는 180cm가 넘는다. 대한민국 남자의 평균키는 173cm 정도이다. 하지만 한국 남자 중에서도 분명 네덜란드 남자보다 키가 큰 사람이 있다. 남녀의 경우에도 마찬가지다. 일반적인 남자는 여자보다 운동 능력이 뛰어나지만, 남자를 1:1로 싸워서 제압할 수 있는 여자도 있다.

5.8 의도치 않은 편향

1990년대까지만 해도 심장마비여성보다 남성에게 더 쉽게 발생한다는 것이 정설이었으나, 2004년에 발표된 연구에 따르면 이는 남성의 심장병 증상이 더 뚜렷하여 의사가 더 일찍 발견하기 때문에 빚어진 오해였다. 심장병은 오히려 25세 이상 여성의 사망 원인 중 첫 번째이다.[11]

5.9 통계적으로 의미 있는 모든 분석에 현실적인 의미 부여

통계적으로는 의미 있는 결과라 하더라도 현실적으로는 별 의미가 없을 수도 있다. 한 연구에 따르면 오스트리아에서 군대에 지원한 50만 명을 조사한 결과, 봄에 태어난 사람이 가을에 태어난 사람보다 키가 0.6cm 큰 것으로 나타났다.[12] 하지만 키 0.6cm를 위해 출산 시기를 조정할 부모는 거의 없을 것이다.

5.10 오차범위

가령 어떤 여론조사에서 A후보 42%, B후보 40% 지지가 나타났다고 하자. 이 때 "A후보가 B후보에게 승리할 것으로 생각된다"라고 했을 때 잘못된 결론이기 쉽다. 위 여론조사가 신뢰도 95%에 오차범위 플러스마이너스 3.1%였을 경우, 오차범위 이내에서는 결과가 바뀔 수 있어서 특정한 결과를 지지하지 못 한다. 이 정도 차이면 "A후보가 이길지 B후보가 이길지 모르겠다"라는 결론을 내놓는 것이 좋다. 굳이 양측의 차이를 알아내고 싶으면 표본집단의 구성에 더 신경을 쓰든지 표본의 수를 대폭 늘리든지 해서 오차범위를 훨씬 줄여야 한다.

반대로, 신뢰도가 충분히 높고, 두 후보 사이의 차이가 오차범위의 3배 이상쯤 차이나버리면 결과가 뒤집힐 확률은 매우 낮아진다.

5.11 시각적 도해를 활용한 왜곡

파일:Deceiving-statistics.jpg

위의 그림은 통계학자들 사이에서는 교육적이면서도 동시에 악명 높은 것으로, 《The Economist》 1998년 5월 16일자 79페이지에 올라온 것이다. 매해 근로자와 사장이 받는 시간당 임금의 증가를 보여주고 있는데, 서로 다른 세 가지 방식으로 나타나 있다. 왼쪽은 있는 그대로를 보여준 것이고, 중간은 증가량에 로그를 취한 것이며, 오른쪽은 근로자와 사장의 최초 임금을 100으로 정해놓고 이후의 증가율을 보여주고 있다.

놀랍게도, 중간과 오른쪽의 시각적 도해는 왼쪽의 도해가 보여주는 것과는 정반대를 가리키고 있다. 중간에서는 "근로자들의 임금 증가가 급격하게 이루어져 왔다" 고 해석될 여지가 있으며, 오른쪽에서는 더 나아가 "근로자들의 임금 증가가 사장의 임금 증가를 아득하게 초월하고 있다" 는 식으로 해석될 여지가 있는 것이다. 만일 연구자가 나쁜 마음을 먹고 중간이나 오른쪽 방식을 채택해서 임금 증가를 설명하고자 한다면, 면밀하게 따져 보지 않는 이상 여론이 호도되고 많은 사람들이 속아넘어갈 확률이 높다.

특히 이러한 트릭은 시각적인 자료 제시에 자신 없어하는 사람들에게 잘 먹혀들어간다. 심지어 대학생들조차 인문학 전공자일 경우에는 간단한 상자도표(boxplot) 정도만 보여주어도 헉 하고 움츠러드는 모습을 볼 수 있을 정도다.(…) 뭔가 x축과 y축이 있고 거기에 추세선 같은 것이 그려져 있다면, 그 통계는 어찌됐건 믿을 만하다고 생각하게 될 수 있다는 것이다.

6 대학교에서의 교육

통계학과 항목 참조.

7 관련 시험과 자격증

8 관련 항목

  1. 출처:와이어드. 왜 통계를 배워야 하는가? 에 대한 좋은 글이다.
  2. 물론 여론조사처럼 수치 자체를 구하는 것이 중요한 일일 수도 있고, 일정 비율 이상이기만 하면 되는 통계 등에서는 얘기가 다르다.
  3. 다만 확률론의 경우 다른 통계 분야보다 순수수학적인 면이 많다.
  4. 서울대학교 통계학과 홈페이지
  5. 특히 OECD 통계
  6. 물론 논리적으로 올바른 통계적 추론의 경우에도 결과를 왜곡할 수 있는 편법은 얼마든지 있다. 통계 관련 종사자들 사이에서는 '원하는 결과는 그 어떤 결과라도 만들 수 있다.'는 것이 공공연한 비밀이다.
  7. 반대로 그러한 오용 사례를 접하고는 통계에 대한 무조건적인 불신에 빠져 무작정 표본의 수가 적다며 트집잡고 본다거나, 마음에 들지 않는 결론을 제시할 때는 밑도 끝도 없이 조작되었다고 주장하는 경우도 있다.
  8. 가급적 동일한 시간 간격으로 측정해야 한다.
  9. 가령 하나의 기업을 대상으로 한국의 기업문화와 사내 부조리에 대한 설문조사를 하고 싶다고 하자. 이걸 시행할 수 있는 권한을 가진 건 사장, 노조 간부, 정부 정도 뿐이다. 일개 사원이 이런 걸 시행하려 들다 발각되면 잘린다.
  10. 물론 많은 의학 연구가 담배는 폐암의 원인이라고 주장하고 있다. 물론 담배 회사들은 돈줄을 위해서 상반되는 주장을 펼치고 있다.
  11. Lori Mosca et al., "Evidence-based Guidelines for Cardio-vascular Disease Prevention in Women", American Heart Association, February 2004
  12. J. Utts, vol. 57, no. 2, May 2003