대푯값

Representative value[1]

1 개요

자료의 특징을 수 하나로 표현한 값. 평균값, 중앙값, 최빈값 등이 있다. 한글 맞춤법에 따르면 사이시옷 규정에 의해 "대푯값" 이 맞는다.

아래의 평균값, 중앙값, 최빈값을 설명하기 위해 다음과 같은 15개의 데이터가 주어져있다고 가정해보자.

1, 1, 2, 3, 4, 5, 5, 5, 5, 7, 8, 9, 10, 11, 24

2 평균값

평균값(mean)은 n개의 변량을 모두 더하여 그 개수로 나누어 놓은 숫자이다.

위 데이터에서는 [math]\displaystyle \frac{1 + 1 + 2 + 3 + 4 + 5 + 5 + 5 + 5 + 7 + 8 + 9 + 10 + 11 + 24}{15} = \frac{100}{15} = 6.\dot{6}[/math]

대수적으로 건드리기가 쉬워서 사실상 가장 대중적이고 유명한 대푯값. 통계적인 무언가에서는 항상 빠지지 않고 등장하는 수치이다. 그러나 만일 이상할 정도로 다른 변량들과 차이나는 변량이 들어차면 대표로서의 의미를 잃어버리기 때문에 그런 상황에선 아래의 값들을 사용한다.

3 중앙값

이 문단은 중앙값(으)로 검색해도 들어올 수 있습니다.

중앙값(median)(중위값이라고도 한다)은 n개의 값을 크기 순으로 늘어놓았을 때 가장 가운데에 있는 숫자이다. 위 데이터에서는 왼쪽에서 7번째에 있는 데이터인 두 번째 [math]5[/math]가 중앙값이다.

이것은 각 표본들의 격차가 워낙 커서 평균값이 의미가 없고 그 순위(백분위)가 더 중요할 때 주로 쓴다. 예를 들어 국민들의 평균소득은 부자와 가난한 서민의 소득은 워낙 격차가 커서 산술평균을 쓰면 부자들의 소득이 부당하게 비중이 높아진다. 그래서 산술적 평균은 의미가 없으므로 모든 국민을 소득순으로 줄세우기를 해서 그 50%에 있는 국민의 소득을 중위소득으로 보는게 합당하다. 또한 어느 한 관찰값이 극단적으로 높거나 낮게 동떨어져 있거나, 그 극단성이 너무 높아서 관찰값이 확정되지 않았거나,[2] 극단성을 포함할 여지가 있도록 개방된(open-ended) 자료일 때 쓰일 수 있다.

4 최빈값

이 문단은 최빈값(으)로 검색해도 들어올 수 있습니다.

최빈값(mode)은 가장 빈번하게 등장하는 값을 의미한다. 위 데이터에서는 5가 네 번 나타나므로 최빈값은 [math]5[/math]이다.

이건 각 값의 수치적 평균값이 의미 없고 대소 관계가 없을 때 사용한다. 예를 들어 사람들의 출생한 달이나 요일 따위. 최빈값은 여러 개가 될 수 있지만, 모든 관찰값이 동일하게 나타날 경우 최빈값은 의미가 없다.

5 여담

정규분포(normal distribution)에서 평균, 최빈값, 중앙값은 전부 동일한 위치에 놓이지만, 분포의 모양이 달라질 경우 세 값은 서로 달라질 수 있다. 예를 들어 기울어진(skewed) 정규분포에서는 두 가지 경우가 있는데, 왼쪽으로 기울어진 경우(positive skewed distribution) 값이 작은 순으로 정렬하면 최빈값, 중앙값, 평균이 나오고, 오른쪽으로 기울어진 경우(negative skewed distribution) 값이 작은 순으로 정렬하면 평균, 중앙값, 최빈값이 나온다.[3] 각각의 값들의 차이는 기울어진 정도가 클수록 커지며, 기울어진 정도를 따로 "왜도"(skewness)라고 부르기도 한다.

위의 대푯값 모두 각 값들과의 거리가 최소가 되는 값, 즉 분산도가 최소가 되는 값들이다. 단지 각 값들의 거리를 어떻게 측정하느냐에 따라 다를 뿐이다. 거리를 (x-y)^2로 정의하면 평균, lx-yl로 정의하면 중앙값, 차이가 있을때 1로 정의하면 최빈값이 된다.[4]
  1. 위치 측도(measure of location)라고도 한다.
  2. 예를 들어 10명의 사람들이 퍼즐을 푸는 평균 시간을 측정하는데, 9명은 12분 언저리에서 풀었지만 1명은 측정 한계시간 1시간을 훌쩍 넘기도록 여전히 끙끙거리는 바람에 측정이 중단된 경우.
  3. 평균은 긴 꼬리 쪽으로 이끌려가는데, 이는 평균이 극단값에 크게 영향을 받기 때문이다. 중앙값은 움직이지 않는다. 반면 최빈값은 평균과 반대방향으로 움직이며, 그 정의상 곡선의 최고점에서 벗어나지 않는다. 중앙값을 그래서 강고(robust)하다라고 표현한다. 이는 중앙값은 이상값들의 영향을 적게 받기 때문이다.
  4. 김태수,'통계학 입문',자유아카데미,2010,pp11-13