Statistical Methodology / Quantitative Methodology
統計的 方法
목차
1 들어가기 전에
젠장! 대학교 들어오면 수학이랑은 작별일 줄 알았는데!
이 문서에 들어온 위키러 여러분 중 일부는 수학과는 사이가 별로 좋지 않을 것이다. 그리고 그런 분들 중 일부는 사회과학을 멋모르고 선택했다가, 문과 출신임에도 다시 수학과의 악연을 이어가야 한다는 사실을 깨닫고 절규했을지도 모른다.(…) 이 문서에서 다룰 내용은 그들을 울리는 강의에서 가르치는 것과 거의 일치한다. 여러분의 전공이 경제학, 경영학, 심리학, 사회학, 행정학, 정치학 등이라면, 이하의 내용을 배우는 것을 피해가기 어렵다. 특히 여러분의 전공이 심리학이라면, ......축하한다.(…)
그러나 불행하게도 갈수록 통계를 모르는 사회과학도는 살아남기 힘든 시절이 오고 있다.(…)[1] 점점 더 많은 학문들에서 통계적 방법을 그들의 연구방법론으로 수용하고 있으며, 양적 접근법이 각광받는 만큼 통계 데이터를 제대로 수집해서 제대로 처리하고 제대로 해석하는 테크닉도 필수가 되어가고 있다. 애초에 그런 게 아니더라도, 통계에 대해서 최소한의 지식이라도 갖추고 있다면 험난한 사회생활 속에서 약팔이들의 거짓 광고나 정치인 지지율에 대한 언론플레이 등등에 잘 속아넘어가지 않는다. 아래에서 설명할 "통계적 검증"(검정) 파트가 특히 그렇다.
통계적 분석(statistical analysis) 역시 마찬가지이다. 세상에는 상관관계와 인과관계가 있다. 여러분도 주지하다시피 과학적 방법은 인류가 만들어 낸 최선의 인과관계 입증 방법이다. 그런가 하면, 통계적 방법은 인류가 만들어 낸 최선의 상관관계 검증 방법이다.[2] 그리고 과학적 방법은 허공에 둥둥 떠 있는 방법론이 절대 아니며, 그 밑바닥에는 통계적 방법이라는 단단한 기초가 자리하고 있다. 과학을 제대로 학문(學文)하기 위해서는 통계에 대한 지식이 필요하다.
이 문서는 기본적으로 통계학에 익숙하지 않은 사회과학도 혹은 문과 고등학생들을 가정하고 쓰였다. 따라서 엄밀하지 않은 정의, 거칠고 억지스러운 비유, 과격한 요약과 압축, 무책임한 설명(…)이 종종 있을 수 있다. 그러나 (r.10 버전 기준으로) 이는 반쯤 의도된 것이며, 지나치게 엄밀한 설명으로 도리어 진입장벽이 높아지지 않도록 한 조치다.[3] 혹시 통계학 전공자분이 이 문서를 접한다면, 의도적으로 가볍게 설명하려 한 점 양해 부탁드린다.
사회과학에서 통계학을 바라보는 시각은 대충 이렇다. "구체적인 원리나 이치는 우리 알 바 아니고, 이거 어떻게 써먹을까?" 실제로 강의중인 교수님들에게 "어떻게 그걸 증명할 수 있죠?" 라고 물어보면 십중팔구는 "그런 건 통계학자들이 연구하게 내버려두고, 우리는 이게 이렇다는 것만 알면 된다" 는 답변이 돌아온다. 진짜다.(…)[4] 그러나 무턱대고 무책임하다고 비난할 수는 없다. 군대에 비유하자면, "교관님, 엎드려쏴 자세는 잘 이해했습니다만, K-2 소총은 어떤 주조 공법으로 만들어지는 겁니까?" 로 뜬금없이 질문하는 훈련병을 생각하면 된다.(…) 사회과학도들이 알아야 할 것은 K-2를 가지고 엎드려쏴를 배워서 적을 사살하는 것이지,[5] K-2가 어떤 주조기술을 통해 만들어지는지[6]가 아닌 것이다. 그래도 굳이 배우겠다면 그 열의를 말리진 않겠다만, 이런 우수한 학생쯤 되면 이미 이 위키 페이지는 필요가 없을 것이다.
물론 이게 기초 수학을 아주 무시해도 된다는 면책조항인 건 결코 아니다. 수학에 대한 정말 최소한의 이해도 없이 무작정 덤벼들었다간 시작부터 막힌다. 좀 더 정확히 말하자면, 어찌어찌 통계를 돌리긴 하는데 어째서 이게 이렇게 되는 건지 감을 못 잡는다. 예컨대 확률이 무엇인지에 대한 개념적 기초가 부족한 사람이 통계적 방법을 접하면 초반의 확률변수 개념에서부터 벌써 알 듯 모를 듯 둥둥 떠다니기만 하는 문제를 겪을 것이다. 따라서 확률과 통계는 고등학교 수준에서라도 교과서 내지 참고서를 곁에 두고 꾸준히 탐독할 필요가 있다. 또한, 위 문단은 사회과학에서 수학적 증명이 무의미하다는 의미가 아니라, 수학적 증명이 그 목적이 아니라는 의미로 받아들여야 한다.
많은 대학생들은 "사회통계" 라는 강의명으로 이하의 내용들을 접하게 되므로 이 문서 역시 사회통계로도 리다이렉트가 되어 있다.
2 서론 : 기술통계와 추론통계
- 같이 보기 : 표본조사
통계학에는 크게 두 가지가 있다. 첫째는 연구 대상의 전체 또는 일부분을 통계해 수치를 뽑아 숫자와 그래프로 정리하는 기술통계(descriptive statistics)이다. 둘째는 일부분의 관찰 결과를 토대로 전체 관찰 결과, 또는 오지 않은 미래를 추정, 예측하는 추론통계(inferential statistics)이다. 물론 이상적으로 보자면 추론통계학보다는 기술통계학이 더 선호된다. 표본의 표집 과정에서 발생하는 오차(sampling error)의 가능성이 0이기 때문이다. 그러나 연구대상이 너무 거대해서 전수조사가 불가능한 경우가 있고, 전수조사를 하기에는 시간과 예산이 모자라는(…) 경우가 있으며, 연구의 특성상 (ex. 내구성 검사, 수명 검사 등) 전수조사를 하면 안 되는 경우가 있다. 결국 추론통계학은 이상과 현실의 타협점이다. 감당할 수 있을 만큼 오차를 무릅쓰면서, 충분히 높은 정확성을 유지하여 전체 대상을 예측하고, 그러면서 자신이 유발시키는 오차를 정확히 명시하는 것이다. 결국 이론적인 복잡성은 추론통계학이 한참 더 심할 수밖에 없다.
위에서는 대충 연구의 주제가 되는 대상이니 뭐니 했지만, 좀 더 정확히 표현하자면 다음과 같다. 연구의 주제가 되는 대상을 모집단(population)이라고 한다. 그리고 모집단의 수치화된 특성을 데이터로 정리하면 모수(parameter)가 된다. 반면, 추론통계학에서는 용어가 또 달라진다. 연구를 위해 뽑아낸 표본을 표본집단(sample)이라고 하며, 여기서 얻어낸 특성에 대한 데이터를 통계량(statistic)이라고 한다. 추론통계학의 목적을 다시 설명하면, 표본집단의 통계량을 가지고 모집단의 모수를 최대한 정확하고도 효율적으로 추정하는 것이라고 할 수 있다.
기술통계학이나 추론통계학이나 쓰임새 자체는 분야에 따라 다 다르다. 그러나 일반적으로 많은 통계 강의들에서는 추론통계학에 상당한 방점을 찍고 있다. 이는 아마도 그 이론적인 정교함과 엄밀함이 매우 높기 때문인 것도 있겠지만, 한편으로 현실은 종종 어른의 사정이 개입하기에 언젠가는 추론을 할 때가 오기 때문일 수도 있다. 보통 경제학이나 인구학(demography) 같은 분야에서는 기술통계학이, 경영학이나 행정학, 사회학 등의 분야에서는 추론통계학이 쓰인다. 특히나 인구주택총조사와 같은 센서스(census)는 기술통계학의 꽃이라 할 수 있으며, 심리학 등의 분야에서 고작 십수 명 앉혀놓고 연구한 결과를 일반화시키는 기예를 선보이는 것은 추론통계학의 첨단을 달리는 기법이라고 할 수 있다.
자세한 내용은 표본조사 항목을 참고.
2.1 기술통계의 시각화
statistical graphics
일반적으로 기술통계의 결과 데이터는 막대한 분량을 자랑하는 경우가 많다. 이를 돕기 위하여 도수분포표(frequency distribution table)라는 표 형태의 방법이 존재하는데, 대량의 자료를 하나하나 고스란히 보여주는 것이 아니라 일정한 기준에 따라서 등급(class) 또는 범주(category)로 묶어서 보여주는 것이다. 예컨대 TOEIC 점수를 600~695점, 700~795점, 800~895점 같은 방식으로 설정하고, 각각에 해당하는 응시자의 수를 표기하는 것은 등급의 구간을 편의상 100으로 설정한 도수분포표라고 할 수 있다. 만일 측정에 있어서 명목적인 데이터라면, 예컨대 성별이나 직업, 거주지역 같은 데이터를 활용해야 한다면 등급이라고 부르지 않고 범주라고 부른다.
그러나 경우에 따라서는 표로 만든다고 하더라도 여전히 눈이 빙빙 도는 경우가 있다. 또한 각각의 등급이나 범주를 비교해야 할 때에도 도수분포표로는 한계가 있다. 이 때문에 시각적으로 쌈빡하게 정리해서 보여줄 필요성이 생겼고, 그래서 고안된 것이 이하와 같은 다양한 몸부림(…)들이다. 어느 하나 할 것 없이 전부 다 중요하지만, 각각의 쓰임새는 그것이 다루는 데이터의 특징에 따라서 전부 다르다.
한컴오피스 한글 및 MS 워드에서 이하의 시각화 서비스를 지원하고 있으며, ITQ 및 컴퓨터활용능력 자격증 시험의 단골 주제이기도 하다.
2.2 막대그래프와 히스토그램
bar chart & histogram
주로 공시적 자료를 다룰 경우 쓰이는 그래프이다. 연속적 자료의 경우 히스토그램이라고 부르고, 불연속적(=이산적) 자료의 경우 막대그래프라고 부른다. 이산적 자료와 연속적 자료의 차이에 대해서는 하단의 서술을 참고. 시각적으로 보아 둘 사이의 차이점은 막대들의 모양으로, 막대가 서로 붙어 있으면 히스토그램이고 서로 떨어져 있으면 막대그래프라고 보면 된다.
시각적으로 최고의 디자인을 구현하는 것이 중요한데, 예컨대 { 45, 47, 51, 44, 49 } 에 해당하는 막대그래프를 그리는 데 수직 축을 덮어놓고 0에서부터 올라가도록 한 뒤 2씩 끊어 놓으면 보기에 몹시 불편하다. 이럴 경우 하단을 물결표를 써서 잘라 놓고, 가장 아래쪽은 40, 가장 위쪽은 55로 범위를 잡아서 5씩 끊어 놓으면 보기에 좋다. 44와 45가 유사해 보일 수 있으니, 각각의 막대 위에 각 수치를 기입해 두는 것도 좋은 선택.
막대가 가로로 놓여 있을 경우에는 bar chart, 세로로 놓여 있을 경우에는 column chart 라고 해서 구분하기도 한다.
2.3 꺾은선그래프
(polygonal) line chart
연속적 자료를 다루거나 통시적 자료를 다룰 경우, 동일하거나 일련의 관찰대상의 추이를 비교할 경우, 추세(trend)를 관찰할 경우에 쓰이는 그래프이다. 이 역시 시각적으로 좋은 모양새를 만드는 것이 중요해서, 만일 제대로 못 하면 말 그대로 그래프가 바닥을 뚫고 내려가는(…) 참사가 벌어진다.
파생형이 정말 많은 그래프이다. 통시적인 시계열 연구와 결합할 경우에는 순서도(run chart), 흐름도(flow chart) 등의 변형으로 나타난다. 범위 정보를 같이 제공할 경우에는 팬 차트(fan chart)라고 불린다. 주식시장에서 보이는 그래프는 스파클라인(sparkle line)의 변형이다. 일반인들에게 익숙할 다른 변종으로는 레이더도표(radar plot)가 있는데, 이는 원형에 유사한 다각형의 모양으로 표현하는 꺾은선그래프이다. 보통 한 관찰대상에 대한 여러 평가항목들이 있을 때 쓰는데, 위키러들에게는 코에이 사의 삼국지 시리즈의 인물 스탯 표기방식 덕분에 익숙할 것이다.(…) 축구 게임을 하면서도 자주 보게 된다.
2.4 원그래프
pie chart
비율 데이터를 나타내는 시각화 방식. 전체를 100%로 놓고 그 중에서 무엇이 얼마나 많은 비율을 차지하고 있는지 확인하는 도표이다. 간혹 원형이 아니라 도넛 형태로 표기되기도 하며, 일부는 잘라서 살짝 밖으로 빼내어 보여주기도 한다. 각각의 항목들에 대한 세부 정보는 보통 원 내부에 표기하는데, 비율이 너무 낮을 경우에는 연결선을 따로 빼내어 표기한다. 간혹 원그래프 전체를 3차원의 입체 형태로 나타내기도 한다. 사실 컴활 같은 것을 준비해 봤다면 무슨 얘긴지 다 알 것이다.
원그래프는 사실 치명적인 단점이 하나 있는데, 무조건 컬러 사진으로만 봐야 한다는 것이다. 이는 각 항목들을 색상으로 구분하기에 발생하는 문제다. 물론 21세기 들어서 흑백의 비중은 많이 줄었지만, 그래도 흑백 환경에서는 원그래프가 별로 좋지 않을 수 있다는 점은 상당히 아쉬운 부분. 그래서 이 경우에는 보통 가로선이나 세로선 및 점박이 등의 패턴 무늬를 넣어서 해결하는데, 그래프가 엄청나게 촌스러워진다는 별 것 아닌 새로운 문제가 생긴다.
2.5 상자도표
boxplot / box-and-whisker plot
상자-수염 그림이라고도 한다.
허리에 굵은 선이 그려진 박스가 있고 위 아래로 두 개의 세로선이 그어져 있으며, 종종 별표나 X표 같은 것도 둥실둥실 떠 있는 것이 특징. 전체 관찰값들의 범위(range)에 기초한 시각화 방식인데, 그것이 포함하는 통계적 정보가 꽤 많아서 연구자들이 적극 활용하고 있다.
박스의 이쪽 끝에서 저쪽 끝은 주어진 분포의 사분위수 간 범위(IQR; inter-quartile range)를 의미한다. 그리고 2Q, 즉 두 번째 사분위수이자 전체 분포의 중앙값(median)에는 굵은 가로선이 대응한다. 위쪽 수염의 끝부분은 최댓값(max), 아래쪽 수염의 끝부분은 최솟값(min)을 의미하며, 위아래로 나타나는 점 표시는 이상점(아웃라이어)이다.
상자도표는 정규분포와 함께 설명하는 것이 가장 정확한데, 전체 분포 범위의 가운데 50%가 상자의 범위와 정확히 일치한다. 박스의 양쪽 끝부분은 ±0.6745σ, 수염의 양쪽 끝부분은 ±2.6980σ 이다. 위쪽 수염과 아래쪽 수염은 각각 24.65%씩의 범위가 할당되어 있다.
상자도표는 여러 모로 굉장한 장점들을 갖고 있다. 우선 이상점을 처리하는 데 뛰어나고, 데이터 전체의 편포 여부를 확인하는 것이 쉽다. 또한 데이터의 집단 간 비교, 데이터의 타당도(validity)를 체크하는 것도 용이하다.
2.6 산점도 (산포도)
가로축(X축)과 세로축(Y축)을 설정한 좌표평면 상에서 각각의 관찰값들을 점이나 X 문자로 표시하는 방식. 물론 두 축이 의미하는 바가 무엇인지부터 확실하게 정의되어야 한다. 산점도는 나중에 회귀분석(regression)을 할 때 굉장히 중요해지는데, 자세한 내용은 통계적 방법/분석 문서를 참고하자. 특정 관찰값의 정보를 표시하려면 소괄호를 치고 X축 값과 Y축 값을 쉼표로 구분하여 표기하면 된다.
전체적으로 추세가 존재할 경우 굵은 직선으로 추세선(trend curve)을 표기하는 경우도 있으며, 이 경우 좌표평면은 일반적인 유클리드 공간에서 벗어나게 된다. 정확히 설명하자면 서로 다른 두 관찰값 간의 거리는 유클리드 거리와 달라지며, 새롭게 마할라노비스 범거리(Mah Dist; Mahalanobis generalized distance)에 따라 측정된다. 이를 엄밀하게 정의하는 것은 읽는 분들에게 고통스러울 수 있으니(…) 최대한 질박하게 설명하자면, 두 관찰값을 연결한 가상의 선이 추세선과 평행할수록 이 거리는 유클리드 거리보다 확연히 감소하고, 가상의 선이 추세선과 직교할수록 이 거리는 유클리드 거리보다 확연히 증가한다. 예컨대 이 그림 자료에서, 원점과 A점 사이의 거리는 원점과 B점 사이의 거리보다 훨씬 더 긴데, 이는 추세선이 우상향하는 방향으로 존재하기 때문이다. 이는 이상점을 찾아 정리하는 데 유리하며, 심화 수준에서는 카이제곱 분포에서도 써먹곤 한다. 이 정도의 통계적 활용은 본인이 포닥 급이 아니라면 몰라도 된다.
산점도는 관찰값이 특정 범위에 지나치게 오밀조밀 몰려 있을 때 읽기가 쉽지 않다. 이 경우는 별도로 이 부분만 확대시켜서 추가 산점도를 그려 주어야만 한다. 또한 X축과 Y축 중 어느 하나에도 질적 자료가 들어가면 안 된다. 만일 X축(독립변인)이 질적 자료일 경우에는 산점도와 회귀분석을 쓰는 것보다는 차라리 분산분석(ANOVA), Y축(종속변인)이 질적 자료일 경우에는 로짓분석(logistic regression), 둘 다 질적 자료일 경우에는 교차표 분석(cross tabulation)을 쓰는 편이 좋다.
서로 다른 변인에서 나타나는 여러 산점도를 한꺼번에 겹쳐 놓는 경우도 있다. 변인이 2개일 경우에는 따로 행렬도(biplot)라고 부르기도 한다. 만약 산점도 상에 X축과 Y축이 동일한 값을 갖는 가상의 점들을 따라 45도 사선을 긋고, 그 선과 실제 나타나는 산점도의 결과를 비교할 경우 이는 Q-Q도표(Q-Q plot)라고 부른다. 한편 과학계량학 분야에서는 출판 편향(publication bias) 문제에 대응하기 위하여 산점도의 변형인 깔때기도표(funnel plot)를 개발하기도 했다.
3 확률변수 : 이산적 자료와 연속적 자료
확률변수(random variable)란, 어떤 확률실험에 있어 일정한 확률을 갖고 발생하는 임의의 사건에 수치를 부여하는 변수이다. 어떤 확률변수가 어떤 특정 값을 취할 확률을 함수로 나타낸 것은 확률함수라고 하고, 그 함수의 모든 가능한 값들에 할당될 수 있는 모든 확률을 식으로 정의하거나 이를 시각화하여 나타낸 것이 바로 확률분포이다. 확률분포에 대한 자세한 내용은 통계적 방법/분포 문서를 참고하자.
확률변수 중에 일부는 그 모든 가능한 값이 유한 개인 경우가 있고, 어떤 일부는 무한 개인 경우가 있다. 이 차이는 이후의 모든 통계에 있어서 몹시 중요하다.[7] 당장 잠깐만 예를 든다 해도, 주사위 하나를 던지는 확률실험에서 나올 수 있는 결과의 값은 달랑 6개지만, 6명의 성인 남성을 모아 놓고 그들의 평균 키를 계산하는 확률실험에서 나올 수 있는 결과의 값은 그야말로 무한하다. 다시 말하면, 각각의 인접한 단위(adjacent units) 사이에서 존재할 수 있는 값의 수가 유한한 경우가 있고, 존재할 수 있는 값의 수가 무한한 경우가 있다. 유한한 경우를 우리는 이산변수(discrete variable)라고 부르고, 무한한 경우를 우리는 연속변수(continuous variable)라고 부를 수 있다. 물론 양쪽 어디에도 속하지 않는 확률변수가 없는 건 아니지만, 통계적 의미가 떨어지다 보니 그 존재감은 있는 듯 없는 듯한 수준.
갑자기 확률실험, 확률변수, 확률함수, 확률분포 등등이 쏟아져서 보는 사람 기겁하게 만들지만,(…) 간단한 이산확률변수의 사례를 들어서 설명하면 보다 편리하게 이해할 수 있을 것이다.
동전을 던진다고 가정해 보자. 동전을 던지는 확률실험에서, 임의의 사건은 “앞” 과 “뒤” 의 두 가지가 있다. 그렇다면 여기서 만들어지는 확률함수는 P(앞)=1/2, P(뒤)=1/2 두 가지가 나온다. 여기서 각 확률의 총합은 무조건 1이 나오게 되어 있다. 이번에는 두 개의 주사위를 동시에 던지는 확률실험을 가정해 보자. 두 주사위 눈의 총합이 2일 확률변수는 P(2)=1/12 확률변수로 나타나지만, 총합이 7일 확률변수는 P(7)=1/2 확률변수로 나타나며, 총합이 12일 확률변수는 P(12)=1/12 의 확률변수로 나타난다. 여기서도 다시 한 번, 각 확률의 총합은 무조건 1이 나온다. 여기서 1이라는 숫자는 결국 어떤 경우에든 이 이외의 상황이 만들어지지는 않는다는 뜻이다. 이를 바꿔 말하면 이산적 변수의 모든 확률변수는 무조건 0과 1 사이의 어딘가에 있다고도 할 수 있다.
앞서 설명한 것처럼, 이산확률변수는 모든 가능한 값이 유한하며, 각각의 값 사이의 차이가 통계적 의미를 갖는다. 서로 인접한 단위 사이에서 존재할 수 있는 값들의 수는 유한하며, 확률은 각각의 특정 값들에 대응하여 할당된다. 대표적인 이산확률변수로는 동전 던지기, 주사위 던지기(die roll), 사람이나 사물의 수,[8] Y/N 또는 T/F 형태의 판단 등이 있다. 또한 앞에서도 설명했듯이, 이산확률변수의 모든 특정 값의 확률은 0과 1사이에 있으며, 모든 확률의 총합은 예외 없이 반드시 1이다. 확률함수는 기본 P(X)의 형태. 일반적으로, 이산확률변수의 확률분포를 시각화할 경우에는 막대그래프(bar chart)의 형태로 나타난다.
반면, 연속확률변수는 모든 가능한 값이 무한하며, 각각의 값 사이의 차이가 큰 통계적 의미는 없는 경우가 많다. 서로 인접한 단위 사이에서 존재할 수 있는 값들의 수는 무한하며, 확률은 그 분포 상의 각각의 특정 구간들의 면적에 대응하여 할당된다. 대표적인 연속확률변수로는 사람의 키, 사물의 무게, 온도, 시간, 등이 있다. 연속확률변수의 확률분포 상에서 모든 구간은 양의 값을 갖게 되며, 면적의 총합이 무조건 1이다. 확률함수는 기본적으로 P(a≤X≤b)의 형태로 사용한다.[9]. 일반적으로, 이산확률변수의 확률분포를 시각화할 경우에는 히스토그램 또는 종형곡선(bell curve)과 같은 부드러운 비선형적 곡선의 형태로 나타난다.
이를 대조하기 쉽도록 표로 정리하면 다음과 같다.
이산확률변수 | 연속확률변수 | |
모든 값들을... | 셀 수 있다. | 셀 수 없다. |
인접한 단위 사이에서 존재하는 값들이... | 유한하다. | 무한하다. |
각각의 값 차이가 갖는 통계적 의미가... | 대개 크다. | 대개 크지 않다. |
확률은... 에 대응하여 할당된다. | 각각의 특정 값에 | 분포 상의 특정 구간의 면적에 |
기본이 되는 확률함수는... | P(X)이다. | P(a≤X≤b)이다. |
시각화하여 나타낼 경우... | 대개 막대그래프 모양이다. | 대개 히스토그램 또는 곡선형의 그래프 모양이다. |
중요한 특징은... | 모든 값은 0~1 사이에 존재하며, 모든 값의 총합은 1이다. | 분포 상의 모든 구간에서 양의 값을 가지며, 면적의 총합은 1이다. |
4 중심화 경향 : 평균, 중앙값, 최빈값
central tendency
많은 자료들을 늘어놓아 보면 빈도상의 패턴 내지 경향이 존재하는 경우가 있다. 관찰된 자료에서 집중되는 경향이 발견되는 것을 중심화 경향이라고 하고, 중심화 경향을 나타내는 수치는 따로 대푯값(representative value)이라고 부른다. 그리고 대푯값에는 평균(산술/기하/조화), 중앙값(median), 최빈값(mode)의 세 가지가 있다. 여기서 평균은 영어로 "mean" 이며, "average" 가 아님에 유의하자. 엑셀 함수목록에서는 average 로 쓰기는 하지만... 기하평균과 조화평균 역시 중심화 경향이긴 하지만 존재감은 역시 공기 수준이다. 평균은 관찰값 위에 bar를 긋거나 소문자 m으로 표시한다.
이 중에서 평균, 그 중에서도 산술평균(arithmetic mean)의 경우 양적 자료에서만 사용 가능하며, 그 수학적 응용의 가능성이 매우 크기 때문에 통계학적으로 극도로 자주 활용되고 있다. 산술평균은 간단히 말해서 전체 관찰값들의 총합을 관찰값의 수로 나눈 것과 같다. 가끔 전체 관찰값들의 총합을 2로 나눈 것과 같다는 얼빠진 오답이 나오기도 한다.[10] 한편 크기가 서로 다른 여러 집단들의 평균을 다시 평균하려면, 각 평균들에 크기별로 가중치를 주는 복잡한 과정을 거쳐야 한다.
평균이 갖고 있는 중요한 특징 중 하나는 그것이 이상점이나 극단값에 심하게 영향을 받는다는 점이다. 자료가 잘 나가다가 확 튀면 평균도 자료를 따라서 확 튄다. 그래서 편포(skewed distribution)의 경우 평균은 보통 긴 꼬리를 향해 끌려가는 모습을 보인다. 좌측편포의 경우 평균은 왼쪽으로 끌려가며, 우측편포의 경우 평균은 오른쪽으로 끌려간다. 이는 각종 사회 데이터를 이해하는 데에 있어서도 중요한데, 왜냐하면 예컨대 양극화로 인해 다수가 흙수저이고 소수가 금수저일 때 평균을 내 보면 스테인리스 수저 정도에서 나오기 때문이다. 결국 흙수저 인생이 얼마나 많은지의 문제는 가려지게 되며, 이런 경우는 평균에 더해 최빈값이나 중앙값을 함께 구해서 판단하는 것이 좋다. 평균이 만능은 아니라는 말.
한편 중앙값은 양적 자료에서만 사용 가능하며, 수치 자료가 크기 순서대로 정렬되어 있을 때 가장 가운데에 위치하는 관찰값과 같다. 세 가지 중심화 경향 중에서 중앙값은 가장 쓸데없이 복잡하다.(…) 이산적 자료에서 중앙값을 찾으려면 다음의 절차를 거쳐야 한다. 1) 전체 관찰값들을 크기 순서대로 정렬한다. 2) 관찰값의 수에 1을 더한 뒤 2로 나눈다. 3) 얻어진 수에 해당하는 번호의 관찰값을 읽는다. 4) 번호가 만일 x.5 형태로 나온다면, x번 값과 x+1번 값의 산술평균을 구한다. 그리고 연속적 자료에서는 이것보다 더 복잡하다! 사회통계 중간고사에 연속적 자료의 중앙값을 찾는 문제가 나왔다면 "문제 X까치 내네!" 라고 속으로 욕해도 된다.
중앙값은 편포 여부에 영향을 받지 않는다. 즉 꼬리가 길어지고 비대칭이 되더라도 그 분포의 중앙값 자체는 변하지 않는다. 만일 완전한 좌우대칭일 경우, 평균과 최빈값은 중앙값과 정확히 일치하며, 이는 정규분포의 특징이기도 하다. 그래서 중앙값을 기준으로 정리하면, 좌측편포의 경우 평균은 중앙값의 좌측으로, 최빈값은 중앙값의 우측으로 끌려간다. 우측편포의 경우는 그 반대라서, 평균은 중앙값의 우측으로, 최빈값은 중앙값의 좌측으로 끌려간다. 아무튼 이처럼 편포로부터 자유롭기 때문에 이상점이 많은 자료를 다룰 때에는 중앙값도 함께 구해서 판단하게 되곤 한다.
마지막으로 최빈값은 양적 자료와 질적 자료 모두에서 사용 가능하며, 그 관찰 빈도수가 가장 높은 관찰값을 말한다. 가장 직관적이고 단순하다면 단순한 개념인데, 질적 자료에서 사용할 수 있는 유일한 중심화 경향이다. 정의가 정의인 만큼 최빈값은 하나가 아니라 여럿이 될 수 있으나, 모든 빈도가 동일할 경우에는 좀 애매하다. 대개는 모두 최빈값이라고 간주하기보다는 최빈값 그런 거 없다 쪽으로 분석하는 듯. 이런 질적 자료에서 평균은 통계적으로 아무런 의미를 갖지 못한다.
최빈값은 편포에서 평균과 반대로 움직인다. 좌측편포의 경우 최빈값은 우측으로 밀려나며, 우측편포의 경우 최빈값은 좌측으로 밀려난다. 즉 최빈값은 꼬리에 대해 반대 방향으로 밀려나는 경향을 보인다. 결과적으로 좌측편포의 경우 세 가지 중심화 경향은 좌측에서부터 읽을 때 평균 - 중앙값 - 최빈값 순서로 놓이게 되며, 우측편포의 경우 세 가지 중심화 경향은 좌측에서부터 최빈값 - 중앙값 - 평균 순서로 놓인다. 평균은 이상점에 이끌리고, 중앙값은 그 이름대로 항상 중앙이며, 최빈값은 평균의 반대 방향으로 밀려난다고 보면 될 듯.
이상의 내용을 정리하면 다음과 같다.
(산술)평균 | 중앙값 | 최빈값 | |
자료의 유형 | 양적 자료 | 양적 자료 | 양적 자료 & 질적 자료 |
대칭형 분포에서 위치 | 평균, 중앙값, 최빈값이 서로 일치한다. | ||
좌측편포에서 위치 | 중앙값의 좌측 | 변동 없음 | 중앙값의 우측 |
우측편포에서 위치 | 중앙값의 우측 | 변동 없음 | 중앙값의 좌측 |
5 분산과 표준편차
variance & standard deviation (var & stdev)
먼저 이산적 자료에서 분산이란 각각의 관찰값들과 평균 사이의 편차를 제곱한 결과값을 평균한 것이다. 다시 말해서 분산은 관찰값의 편차제곱의 평균이다. 연속적 자료에서의 분산을 설명하자면, 분산은 확률밀도함수 상에서의 기대값, 즉 평균으로부터 특정 확률변수가 평균적으로 나타내는 거리를 의미한다.[11] 즉 여기서 분산이란 확률밀도함수의 모양이 평균으로부터 산포하고 있는 정도가 된다.
보통 분산을 처음 접했을 때 갖게 되는 흔한 생각은 "각 관찰값들이 평균으로부터 떨어진 거리를 재려면 (-) 부호를 떨어뜨려야 한다는 건 알겠는데,[12] 어째서 절대값이 아니라 제곱을 활용하는 거지?" 이다. 물론 여기서 절대값을 취하는 것도 가능은 하나, 향후 통계적 활용에 어려움이 있어서 잘 쓰이지는 않는 편이다. 만일 제곱 대신에 절대값을 활용할 경우, 이는 별도로 평균편차(MAD)라고 불린다. 분산에 제곱을 활용했다는 사실은, 이후 다시 표준편차가 왜 제곱근을 취하는지도 설명할 수 있다.
평균이 같다고 하더라도 분산이 다르면 이는 명백히 다른 통계적 정보를 제공하게 된다. 연속적 자료의 경우, 분산이 다르고 평균이 같은 두 정규분포는 한쪽은 늘씬한 키다리 분포, 한쪽은 땅딸막하고 뚱뚱한 분포를 보이게 된다. 보통 분산이 커질수록 분포의 키는 낮아지고 그만큼 극단값이 나타날 확률은 증가하게 된다. 정규분포의 꼭대기를 손가락으로 꾸욱 눌렀을 때 좌우 주변부가 들려올라가는 상황을 상상해 보자.(…) 보통 분산은 제곱의 형태이기 때문에 향후 통계적 활용에 어려움이 있어, 일반적으로는 분산에 제곱근을 취하는 표준편차를 더 자주 사용한다.
편차 정보가 제곱으로 인해 부풀려진 것이 분산이므로, 이제 그 부풀려진 것을 원상복구시키기 위해 제곱근을 취한 것이 표준편차다. 당연히 표준편차야말로 통계 연구자들이 정말로 관심 갖고 지켜보는 데이터이고, 향후 통계적 활용이 무궁무진하다. 특히 나중에 표본조사를 할 경우 튀어나오는 표본표준편차(sample standard deviation)의 경우 실제로 통계적 추정을 할 때 중요하게 활용되곤 한다. 와중에 공식도 약간 달라져서 n으로 나누는 게 아니라 n-1로 나눠주는 차이가 생긴다. 아무튼 이에 대해서는 통계적 방법/추정 문서를 참고하자.
6 자유도
7 분포
- 왜도와 첨도
- 피어슨의 비대칭 계수
- 분포와 확률
- 결합확률분포와 주변확률분포
- 공분산
- 정규분포
- 표준화 : z-분포와 z-테이블
- 68-95-99.7의 규칙
- 표본분포
- 표본오차
- 평균의 표본분포 : 모집단의 정규성 가정
- 중심극한정리 (CLT)
- 분산의 표본분포 : 카이제곱 분포
8 추정
- 점추정
- 불편추정량
- 독립동일분포성 (i.i.d.; independent and identically distributed)
- 오차범위와 신뢰구간
- z-통계량을 활용한 추정
- t-통계량을 활용한 추정
- 표본크기의 결정
9 통계학적 검정
- 결정규칙 : 영가설과 대립가설
- 1종 오류와 2종 오류
- 유의수준 : 알파와 베타
- 임계치, 기각역, 채택역
- 효과크기
- 단측검정과 양측검정
- 검정의 종류
- 표본크기와 모분산 정보
- z-검정 (단일표본)
- z-검정 (2개 독립표본)
- t-검정 (단일표본)
- t-검정 (2개 독립표본)
- 모분산검정
- 카이제곱 검정 (단일모집단)
- f-검정 (2개 독립모집단)
- 표본크기와 모분산 정보
- 비모수검정
- 순위검정 : Mann-Whitney 검정
- 순위검정 : Wilcoxon의 T-검정
- Kruskal-Wallis의 H-검정
- Freidman의 반복측정검정
- 사후검정
- 분산분석 : Tukey의 HSD 검정
- 카이제곱 : 중앙값 검정
10 분석
- 분산분석
- 일원분산분석
- 이원분산분석
- 다변량 분산분석
- 에타제곱
- 교차표 분석
- 기대값과 관찰값
- 카이제곱 분포
- 회귀분석
- 설명력 : R제곱
- 상관계수
- 산점도와 회귀분석
- 단순회귀분석
- 다중회귀분석
- 로지스틱 회귀분석 (로짓분석)
- 설명력 : R제곱
- 기타/고급 분석기법
- 시계열분석
- 경로분석
- 구조방정식
- 요인분석
- 회전 : 직각회전과 사각회전
- 메타분석
- 방법론적 질의 딜레마
11 통계 패키지
11.1 마이크로소프트 엑셀
해당 문서 참고.
11.2 ISP
11.3 SPSS
해당 문서 참고.
11.4 SAS
해당 문서 참고.
11.5 R
해당 문서 참고.
11.6 미니탭
11.7 STATA
11.8 스태티스티카
12 기타 프로그램
12.1 VENSIM
모델링을 구축하여 시뮬레이션을 명령할 때 쓰는 프로그램으로, Ventana Systems 사에서 개발하였다. 학술적인 목적일 경우 이 링크에서 무료 다운로드를 할 수 있다. 이름의 유래는 역시 자기네 회사 이름의 앞글자를 딴 것.
저량(stock)과 유량(flow)의 개념을 활용하여 각종 변인들을 설정할 수 있으며, 초기값을 지정한 후 시뮬레이션 회기를 돌려 보면 그 변화량의 추이가 그래프 형태로 제출된다. 활용 가능성이 꽤 큰 프로그램인데, 경영학에서 재고품을 처리하는 방법을 강구하기 위해, 행정학에서 국민연금의 적립금 추이를 예측하기 위해, 생태학에서 특정 서식지 내 한 종의 개체 수의 추이를 예측하기 위해 모형을 만드는 것이 가능하다. 당장 위의 사례 역시 생태학에서 만든 모형이다.
12.2 GrafEq
수식을 입력하면 그에 맞게 좌표평면 상의 그래프를 출력해 주는 수학 프로그램이다.
12.3 AMOS
확인적 요인분석에 활용되는 모델링 프로그램으로, SPSS와 함께 IBM과 제휴하여 제공되고 있다. SPSS와 마찬가지로 매우 직관적이고 진입장벽이 낮다는 점이 장점이며, 최초 개발자는 심리학자인 J.L.Arbuekle이다. 이름의 유래는 Analysis of Moment Structure의 약자.
구조방정식(SEM)을 다루기에 심히 적절해서 오늘날 많은 연구자들의 Must-Have 아이템이 되었지만, 정작 도입된 역사는 매우 짧다는 것이 문제. 국내의 전문가들로는 주로 이학식, 김계수, 이기종, 우종필, 배병렬 같은 분들이 거론된다고 한다. 경쟁 관계인 LISREL[13]이나 MPLUS[14] 같은 다른 프로그램들에 비해 장점이 확실히 많다. LISREL은 진입장벽이 너무 높고, MPLUS는 아는 사람들만 아는 강력한 프로그램이라고 통하고 있지만 고금의 탁월한 컴퓨터 소프트웨어들이 늘 그렇듯이 좀체 상용화가 되지 않았다.
모형에서 각각이 의미하는 바를 설명하자면, 사각형 박스는 관찰변인, 타원형 박스는 잠재변인,[15] 일방향 직선 화살표는 인과관계, 쌍방향 곡선 화살표는 상관관계를 의미한다.
사용상의 소소한 팁으로는, “Draw a latent variable” 또는 “Add an indicator to a latent variable”을 쓰면 더 빠른 작업이 가능하다는 것, 텍스트를 많이 포함할 경우 처음부터 큼직한 모형으로 그려야 한다는 것, 복잡하고 큰 모형이 있으면 “Resize the path diagram to fit on a page” 기능을 쓰면 된다는 것, 마지막으로 상관관계 화살표는 좌에서 우로, 우에서 좌로, 상에서 하로, 하에서 상으로 그릴 때마다 모양이 다 달라진다는 것 등이 있다.- ↑ 이러한 흐름은 1950~1960년대에 사회과학의 각종 분야들에서 양적 방법론이 각광을 받던 무렵부터 시작되었다고 봐도 무방하다.
- ↑ 입증과 검증은 엄연히 다르다. 상관관계가 존재하는지 아닌지는 수학적인 차원에서 "증명" 이 가능하기에 검증이라고 하지만, 인과관계의 존재에 대해서는 반복된 실험결과를 누적시키고 재현성을 확인하여 "입증" 하는 데서 그칠 따름이다.
- ↑ 예컨대 표준편차 얘기가 나오는 단락에 Chebysheff’s Inequality 증명을 한다든가(…) 정규분포를 설명하는데 모멘트 생성함수를 보여주려고 한다든가(……) 하는 종류의 편집을 말한다. 굳이 엄밀한 증명을 하고 싶다면 표준편차처럼 각 개념들의 이름으로 표제어를 삼아서 새 문서들을 만들고 거기서 설명할 수도 있을 것이다. 더 좋은 의견이 있다면 상단의 토론 탭에서 자유롭게 말씀해 주시기 바란다.
- ↑ 물론 그분들 중에도 통계적 방법론으로 박사학위를 받은 분들은 어지간한 통계학 대학원생도 너끈히 압도할 만큼의 내공을 갖추고 있다. 방법론 학회 열린다고 포스터 붙은 걸 보면 이런 분들이 해외에서 웬 듣도보도 못한 고급 분석기법을 수입해 와서 동료 교수들이나 박사 연구원들에게 강의하는 걸 볼 수 있다.
- ↑ 즉 통계 데이터를 가지고 주어진 사회현상을 분석하고 설명하는 것이지
- ↑ 즉 통계 데이터를 이끌어 낸 수학적 증명이 어떤 논리적 과정을 거치는지
- ↑ 이는 모든 가능한 값이 유한할 때 각각의 값의 차이는 통계적 의미가 크지만, 모든 가능한 값이 무한할 때 각각의 값의 차이는 통계적 의미가 크지 않기 때문이기도 하다.
- ↑ 예컨대 방문 고객의 수, 학생의 수, 재고품의 수 등
- ↑ 연속 확률변수는 X에 속하는 모든 x 에 대해서 P(X=x) = 0 이기 때문에 P(X)로 쓰는게 의미가 없고 P(a≤X≤b) 형태로 표현해야 된다. 반면 이산 확률 변수는 P(a≤X≤b) 형태로도 당연히 쓸 수 있다.
- ↑ 일반인들에게는 이게 은근 나오는 오답인 모양인지, 한때 인기를 끌었던 《상식의 오류 사전》 시리즈에서도 이 오답을 다루었던 적이 있다. "통계학자들이 보면 그냥 허허 웃고 넘어갈 수준" 이라고 디스하면서.
- ↑ 무슨 말인지 모르겠다면, 이산적 자료에서의 분산의 정의를 확률분포의 면적을 가지고 다시 설명한다고 생각하면 쉬울지도 모르겠다.
- ↑ 이걸 하지 않으면 평균으로부터의 모든 편차의 총합은 무조건 0이 되기 때문이다.
- ↑ 통계학자 K.Joereskag에 의해 개발되었으며, 국내에는 90년대에 소개되었다. 그리스 문자에 기초한 기호를 활용하며, 모든 명령어는 행렬 형태로 코딩된다.
- ↑ 통계학자 B.O.Muthen이 개발했다. 강력하고 경량화된 프로그램으로, 분석 범주가 넓다. 일반 연구자들보다는 통계적 방법론 전문 연구자들이 활용하고 있다고.
- ↑ 잠재변인의 indicator는 측정오차를 갖고 있으며, indicator 중 하나와 1의 관계를 가짐으로써 그 단위가 부여된다.