1 개요
Standard Deviation
자료의 관찰값이 얼마나 흩어져 있는지를 나타내는 값[1] 중 하나. 사실상 가장 많이 사용한다.
2 설명
표준편차(stdev; standard deviation)[2]는 짧게 말해서 분산에 루트를 씌운 것이다. 분산에서 왜 제곱을 하는지 알고 있다면, 표준편차에서 왜 루트를 씌우는지도 알 수 있다. 분산을 구하는 과정에서 음의 부호를 없애기 위해[3] 임의로 뻥튀기를 해 놓았으니, 이제 그 값을 도로 원상복구(…)시켜야 하는 것이다. 즉 제곱해서 커져 버린 값에 루트를 씌워서 도로 쪼그라들게 만들면 비로소 우리가 본래 알고 싶어하던 편차의 평균이 얻어지게 되는 것이다. 통계학자들은 시그마 소문자 기호로 표준편차를 표시하는데, 위에 서술한 바에 의해서 분산의 경우는 시그마 제곱으로 표현된다.
표준편차의 경우, 모든 관찰값에 동일한 상수를 똑같이 더하거나 빼는 것은 영향을 받지 않지만, 똑같이 곱하거나 나누게 되면 표준편차도 동일하게 영향을 받는다. 모든 수에 2를 곱한다면 표준편차도 2가 곱해진 새로운 값으로 구해지게 된다.
2.1 수식을 활용한 정의
우선 n개의 자료값 [math] x_1 , x_2, \cdot\cdot\cdot , x_n [/math]이 있다고 가정할 때 이 자료값의 평균(mean) [math]m[/math]부터 구하면 [math] m= \frac{x_1 + x_2 + \cdot \cdot \cdot + x_n } {n} [/math]로 표현된다. 다음에 각 자료값 [math]x_i, i=1, 2, \cdot \cdot \cdot n [/math]에 대해 [math] x_i -m [/math]을 평균 m에 대한 [math] x_i [/math]의 편차(difference)라고 부른다. 이 편차들의 제곱의 평균인 [math] V= \frac{{(x_1 -m)}^{2} + {(x_2 -m)}^{2} + \cdot \cdot \cdot + {(x_n -m)}^{2} }{n} [/math] 를 [math] x_1 , x_2, \cdot\cdot\cdot , x_n [/math]에 대한 분산(Varience)이라 부른다. 이 분산의 제곱근 [math] \sigma= \sqrt{ \frac{{(x_1 -m)}^{2} + {(x_2 -m)}^{2} + \cdot \cdot \cdot + {(x_n -m)}^{2} }{n} } [/math] 을 표준편차라고 부른다.[4]
확률변수의 X에 대한 방식으로 묘사될 때에는 다음과 같이 정의된다.
[math] \sigma [/math][math] (X) [/math][math] = \sqrt{ { X-E(X)}^{2} } = \sqrt { E({X}^{2} ) -{(E(X))}^{2}} [/math] |
3 용도
가장 대표적으로 수능점수의 표준점수가 이 평균과 표준편차를 기준으로 결정된다. 수능 시험 점수를 정규분포라고 가정하고 [5] 평균을 100으로, 표준편차를 20으로 가정하고 상대적으로 얼마나 높은 점수를 받았는지로 표현한다. 예를 들어, 올해 수능의 평균이 80점이고 올해 수능의 표준편차가 8점이라 가정하면 92점을 받은 학생은 표준점수가 130점(100+20*(92-80)/8)이 된다.
이밖에도 통계조사에서 표본의 평균을 기반으로 모집단의 평균을 추정할 때에도 이 표준편차가 모평균의 범위를 결정하는데 중요한 역할을 한다.
4 트리비아
단순히 편차들의 절대값의 평균을 구하지 않고 제곱의 평균을 구한 뒤 제곱근을 취하는 이유는 절대값 함수 자체가 대수적으로 처리하기 어렵기 때문이다. 이렇게 제곱의 평균의 제곱근을 RMS(root mean square, 우리말로는 근평균제곱)이라고 하는데 기체분자의 속도 분포를 기반으로 운동에너지의 평균을 구할 때에도 유용하다. 왜냐하면 운동에너지가 속도의 제곱에 비례하기 때문이다.
추론통계학에서는 많은 경우에 모집단의 표준편차라는 정보를 필요로 한다. 그런데 정작 연구자가 알고 싶은 정보가 바로 그 모집단에 대한 정보이고, 그 모집단을 전부 대상으로 관찰할 수 없으므로 굳이 힘들게 표본을 추출하여 통계적 처리를 하는 상황. 이러한 아이러니 때문에 연구자는 꿩 대신 닭이라고 부득이 표본표준편차로 대체할 수밖에 없게 되었으며, 그 결과 통계적 예측의 정확도가 다소 감소하는 문제가 발생하였고, 적어도 현대의 통계학으로는 이걸 해결하기가 불가능하다.(…)
엑셀 함수목록에서는 =stdev 를 입력하여 호출할 수 있었지만, 버전업을 거치면서 함수의 종류가 늘어났다. 대표적으론 전체를 아는 경우에는 stdev.p, 계산대상들이 어떤 대상들 중의 표본일 경우엔 stdev.s이다.- ↑ 이러한 의미를 가진 단어가 바로 산포도
물론 포도와는 무관하다(scatterplot)라고 한다. - ↑ 표준오차(standard error)와는 다르다. 이쪽은 추론통계학에서 수많은 표본평균들의 편차를 구함으로써 모평균 "뮤" 를 추정할 때 쓰인다. 이 경우 시그마 소문자에다 아래첨자로 m 을 붙여서 표기하며, 루트씌운 표본관측값의 수로 표본표준편차를 나누면 된다.
- ↑ 편차에 절댓값을 취해서 그걸로 평균을 내는 방법도 있지 않나 할 수 있지만, 나중에 통계분석을 할 때 쓰기가 까다로워서 잘 안 쓴다고 한다. 최근에는 robust한 관측값을 얻기위해 사용되는 분야가 꽤나 있다. 절댓값을 취하는 방법은 따로 "평균편차"(MAD) 라고 부른다.
- ↑ 표본 표준편차에서는 분모를 n이 아니라 n-1을 사용한다.
- ↑ 실제로 수험생들의 성적분포는 정규분포와는 다르다. 상위권은 오밀조밀 모여있고 중하위권은 점수 편차가 심하다. 이 현상이 특히 극대화된 케이스가 아랍어.