P-해킹

p-hacking / data seeking / statistical significance seeking

논문을 작성함에 있어서 지나치게 널리 사용되는 통계적 방법 중 하나인 유의확률 p-값에 관련된 부정행위... 라기보다는 꼼수.

주어진 신뢰수준에서 영가설을 기각하고 대립가설을 채택하기 위해 연구자들은 손쉽게 p-값을 사용한다. 물론 주지하듯이 95% 신뢰수준일 때 p-값은 0.05 이하여야 하고, 99% 신뢰수준일 때는 0.01 이하여야만 한다. 만일 그 이상의 p-값이 나온다면 신뢰수준을 바꾸든지 아니면 영가설을 기각해서는 안 된다[1]는 결론을 도출해야 한다. 연구자가 확신할 수 있을 만큼 강건한 p-값이 나타나면 애스터리스크 기호를 붙여 표시하기도 한다.

여기서 우리의 데이터는 종종 우리의 기대를 저버리기도 한다. 아예 확실하게 p-값이 엉망으로 나오면 아예 단념하고 말면 끝인데, 이게 아슬아슬하게 살짝 걸릴 것 같은 수치로 나온다는 점이다. 그러면 연구자들은 저도 모르게 p-값을 슬쩍 조작하려는 동기를 갖게 된다. 무슨 말인고 하니, 표본 측정값 중에서 일부 아웃라이어들을 살리거나 버리는 등의 방식을 통해서 그 통계적 정보가 더 선명하게 드러나게 만드는 것이다. 그렇게 해서 p-값이 간신히 0.05 값에 턱걸이를 하면 비로소 안심하고 출판한다. 이것이 바로 p-해킹의 전말.

언뜻 보면 연구부정행위의 한 종류로 보이지만 사실 이것은 부정행위가 아니라 꼼수라고 봐야 할 것이다. 즉 학술세계의 거짓말은 하지 않는다 버전. 일단 표절은 당연히 아니고, 없는 데이터를 만든 것(위조)도 아니며, 나타난 데이터를 버리기는 했을지언정 데이터 자체를 바꾸지도(변조) 않았기 때문이다. 예컨대 90건의 관측값을 갖고 있다면, 그 중에서 대략 15건 정도를 버리고( = 파일 서랍장에 숨겨놓고) 나머지 75건만 가지고 마치 처음부터 75건의 관측만을 한 것마냥 발표하면 되기 때문이다.[2] 이러한 성격 때문에 p-해킹은 종종 파일 서랍장 문제(file drawer problem)라고도 불린다. 최초로 이 표현이 제안된 것은 1979년의 일이나,[3] p-값에 대한 불신이 연구자들 사이에 싹트면서 갑자기 인기몰이 중.

심하게 말하면 p-해킹은 연구자들 사이에 은연중에 퍼져 있는 공공연한 비밀이라고도 하지만, 더 조심스럽게 말하자면 그 정확한 실태를 파악하기가 극히 곤란하다는 것이 문제이다. 쉽게 말해, p-해킹이 의심된다고 하더라도 심증은 있는데 물증이 없는 경우가 태반이다. 게다가 일단 p-해킹을 지적했다고 하더라도, 연구자가 만일 정말로 무고하다면 이를 방어하기도 마땅치 않다. 그래서 의심스러운 연구에 대해서 아주 연구부정행위라고 몰아붙이지는 않고, 대신 의심스러운 연구활동(QRP; questionable research practice)이라는 딱지를 붙이는 데서 그칠 뿐이다. 일단 어느 학술통계 관련 블로그(영어)에서는 "자신의 연구를 섣불리 정당화하려 하지 마라. 사전에 신뢰수준을 선정했다는 것을 논증하거나, 결과수치가 강건함을 보여주거나, 재현성이 존재함을 증명하거나 해라. 만일 이 세 가지가 불가능하다면, 당신을 저격한 사람에게 술이나 사 주어라. 그가 제대로 봤을 테니까." 라고 제안한 적이 있다.(…)

p-해킹이 문제가 되자 학술계에서도 대응 방법을 찾기 위해 고심중이다. 일례로 p-곡선(p-curve)이라는 방법은 x축으로는 유의확률을, y축으로는 문헌의 출판 수를 의미하는 분포표인데, 이렇게 하면 유독 p=0.05 근방에서는 출판된 문헌의 수가 하늘을 치솟을 정도로 높은 막대기가 그려지는 경우가 많다. 구체성은 없지만, 적어도 학계에 p-해킹이 만연해 있을 수 있다는 경고 메시지 정도로서는 괜찮은 측정 방법인지도. 과학자사회가 미숙한 국가의 학자들일수록 p-해킹의 유혹에도 취약하고 실제로 그러한 경향이 있을 수 있다는 우려도 나오는 상황인데, p-해킹 자체가 원래 연구윤리의 클래식한 범주에는 들지 않지만 어쨌건 도의적인 측면에서는 관계가 있기 때문이다.

사실 통계학자들 사이에서 p-값 자체는 꽤 예전부터 애증의 대상이었다. 그것이 갖는 통계적 함의에는 관심도 없이, 단순히 "내 연구가 출판될 수 있느냐 없느냐" 의 YES/NO 여부만을 판가름하는 숫자로만 여겨지는 현실에 개탄하는 것도 하루 이틀 일이 아니었던 것이다. 특히 1994년에는 제이콥 코헨(J.Cohen)이라는 심리학자가[4] 《American Psychologist》 저널에 〈 The Earth Is Round ( p < .05 ) 〉 (…)라는 골때리는 제목의 논문을 써서 유명해지기도 했다. 특히 2010년대에 들어서면서는 p-값만으로 연구의 흐름이 좌우되는 세태를 고발하는 논문들이 분야를 가리지 않고 방법론, 측정, 평가, 실험설계 관련 저널들에서 봇물 터지듯 쏟아져 나왔으며,[5] 미국통계학회(ASA)에서 아예 p-값의 오남용을 경계할 것을 당부하는 성명서를 발표하기도 했다. 소수지만 일부 저널은 실제로 격렬한 반대를 무릅쓰고 "우리 저널은 p-값 데이터 들어간 논문은 읽어보지도 않고 리젝할 거임" 을 선언하기도 했다고.(…) 《Nature》 지의 보도자료(영어) 역시 얄짤없는 심리학
  1. 영가설은 유독 "채택한다" 는 표현을 쓰지 않는다.
  2. 이런 표본이 실제로 표본표집에 따라서는 우연히 만들어질 수 있다는 사실 때문에 더욱 골치아픈 문제인 것이 바로 p-해킹이다.
  3. Rosenthal, 1979.
  4. 연구방법론 깐깐하기로는 의학의 뒤를 잇는 학문이다. 나무위키에 등재된 다른 다양한 연구방법론 관련 문서들도 심리학자들이 공헌한 바가 어마어마하다.
  5. 가장 유명한 것이 Simmons, Nelson, & Simonsohn, 2011.