1 개요
Simpson's paradox
'[math]a_1/A_1 \gt b_1/B_1[/math] 이고 [math]a_2/A_2 \gt b_2/B_2[/math]' 이라고 반드시 '[math](a_1+a_2)/(A_1+A_2) \gt (b_1+b_2)/(B_1+B_2)[/math]' 인 것은 아니다. 즉, 각 부분에 대한 평균이 크다고 해서 전체에 대한 평균까지 크지는 않다는 의미이다. 영국의 통계학자 에드워드 심슨이 정리한 역설로, 각각의 변수에 신경 쓰지 않고 전체 통계 결과를 유추하다 일어나는 오류이다. 역전의 역설이라고도 불린다. 요약하자면 잘생긴 눈 코 입 귀를 한데 모아도 못생긴 얼굴이 나올수 있다는 거다. 괜찮다. 심슨가족 관련 항목인 줄 알고 낚인 것은 당신 뿐이 아니다.
2 예시
예를 들어 공학부에서 900명의 학생을, 식품영양학과에서 100명의 학생을 모집하는 어느 대학교에 남학생 1,000명과 여학생 1,000명이 지원했을 때, 지원자 수와 합격자 수가 다음과 같다고 하자.
- 공학부에서 합격자 비율
지원자 | 합격자 | 합격률 | |
남학생 | 900명 | 720명 | 80% |
여학생 | 200명 | 180명 | 90% |
- 여학생 합격률이 남학생 합격률보다 높다.
- 식품영양학과에서 합격자 비율
지원자 | 합격자 | 합격률 | |
남학생 | 100명 | 10명 | 10% |
여학생 | 800명 | 90명 | 11.25% |
역시 여학생 합격률이 남학생 합격률보다 높다.
이렇게 두 과 모두 여학생 합격률이 남학생 합격률보다 높다. 이제 전체 합격률을 알아보자.
지원자 | 합격자 | 합격률 | |
남학생 | 1,000명 | 730명 | 73% |
여학생 | 1,000명 | 270명 | 27% |
전체적으로 보면 남학생 합격률이 여학생 합격률보다 훨씬 높음을 알 수 있다.
각 모집단위에서 여학생이 남학생보다 높은 입학률을 보였으므로 전체에서도 여학생이 남학생보다 높은 입학률을 보일 것으로 기대하기 쉬운데, 확률에서는 이러한 논리가 적용되지 않는다.
3 원리
전체 통계를 낼 때 심슨의 역설이 발생한다면, 중요한 변수가 무시되었기 때문이거나, 각 부분의 샘플 크기나 비율이 다른데도 가중치를 주지 않았기 때문일 수 있다. 예시에서 숫자를 잘 보면, 공학부보다 식품영양학과의 합격률이 낮았으며, 남녀의 성비가 달랐다. 즉 공학부와 식품영양학과 모두 여학생의 합격률이 높았지만, 여학생 지원자들 중 공학부(200명)보다 합격이 어려운 식품영양학과(800명)에 집중되었기 때문에 전체 합격률이 낮았던 것이다.
더 쉬운 예를 들자면, 의사 A, B가 중환자 수술과 가벼운 수술을 맡는다고 생각해 보자. 두 수술 모두 A의 실력이 뛰어나지만, 아무리 실력이 좋아도 환자의 생명이 오락가락하는 중환자 수술을 많이 맡으면 전체 성공률은 떨어질 수밖에 없다. 반면 평범한 의사 B가 가벼운 수술을 많이 맡았다면, A보다 전체 평균 성공률은 더 높을 것이다. 이 경우 단순히 전체 평균으로만 계산한다면, 수술의 난이도 차이와 수술 횟수의 차이를 무시하여 결과를 왜곡하는 셈이 된다.
EBS 지식프라임에서 이 소재에 대해 다룬 적이 있다.
4 주의사항
왜곡이라는 말을 썼지만, 3.15 부정선거처럼 숫자를 조작한 것은 아니다. 예시에서 두 과의 지원자와 합격자를 합해보면 알 것이다. 단지 고려해야만 하는 변수를 무시했을 뿐이다. 즉 통계의 함정의 일종이라 할 수 있다. 이는 통계를 정반대로 해석해 잘못된 의사결정을 할 위험도 있을 뿐더러, 어떤 목적을 위해 의도적으로 무시하는 경우에는 더 심각하다 하겠다.
5 관련문서
- ↑ [math]a/x=b/y=c/z[/math]일 때[math]a/x+b/y+c/z=(a+b+c)/(x+y+z)[/math]