재현성

상위 문서 : 연구방법론 관련 정보, 실험
같이 보기 : 연구투명성, 출판 편향, 심리학

再現性
replicability / reproducibility

"반복 가능한 실험으로서 특정한 사건이 규칙과 조절에 부합하게 반복될 때에만, 원칙적으로 우리의 관찰은 누구에게서든지 검증될 수 있다... 이러한 반복을 통해서만 우리는 "우리가 단지 고립된 '우연의 일치' 를 다루고 있는 것이 아니며, 그것의 규칙성과 재현 가능성으로 인해, 간주관적으로 검증 가능한 것을 다루고 있다" 고 스스로 확신할 수 있는 것이다."
(Only when certain events recur in accordance with rules or regularities, as in the case of repeatable experiments, can our observations be tested - in principle - by anyone... Only by such repetition can we convince ourselves that we are not dealing with a mere isolated 'coincidence,' but with events which, on account of their regularity and reproducibility, are in principle inter-subjectively testable.)
- 칼 포퍼(Karl Popper), 1959

"확신은 반복을 통해서 만들어진다. 이 명제를 회피하려는 그 어떠한 시도도 성공할 수 없으며, 오히려 파괴적이다."
(Confirmation comes from repetition. Any attempt to avoid this statement leads to failure and more probably to destruction.)
- 존 터키(John Tukey), 1969

"과학이라는 활동이 따로 있고, 재현이라는 활동이 따로 있는 것이 아니다."
(It's not that there's an activity called 'science' and there's a separate activity called 'replication.')
- 게리 킹(Gary King), 2011 #

1 정의와 설명

어떤 연구를 똑같이 다시 반복함으로써 기존 원본에서 보고되었던 결과가 (거의) 똑같이 다시 나타나는지를 관찰하는 것. 과학적 방법의 황금률이자 이정표이고, 초석이자 요체이다.^[1] 연구자들 중에서도 주로 통계적 방법이나 실험설계 같은 방법론(methodology) 전공자들에게 지대한 관심을 받고 있으며, 하술될 여러 이유들로 인하여 2010년대 들어 학계에 갑작스럽게 떠오르는 핫 키워드가 되었다.

이쯤에서 《사이언스》 지에 등재된 문헌에서 제안된 바 있는 재현성의 정의를 소개하자면 다음과 같다.^[2]

"한 연구로부터 도출된 결과와 결론을 서로 독립적인 다른 연구를 통해 확증하는 것"
(The confirmation of results and conclusions from one study obtained independently in another)

만일 여러분이 어느 날 여러분의 지하실이나 반지하 주차장, 창고에서 상온핵융합에 성공(?)했다고 가정해 보자. 여러분은 이제 그 사실을 논문이라는 매체를 통해서 학계에 전달하게 될 것이다. 그러면 학계에서는 이 녀석이 정말로 성공한 게 맞는지, 아니면 (당장은 모르지만) 여러 이유들로 인하여 괜히 설레발을 친 것인지(…)^[3]를 구분하기 위해 팔을 걷어붙일 것이다. 그들은 여러분이 논문에서 공개한 연구의 절차대로, 관찰과 실험의 절차대로 정확히 똑같이 반복하게 될 것이다. 만일 여러분이 제대로 했다면, 그들 역시 상온핵융합을 관찰할 것이며, 여러분은 정말로 상온핵융합에 성공한 것이다. 하지만 다른 사람들은 재현에 실패했다면... 여러분의 발견은 한바탕의 해프닝으로 끝날 것이다.

여기까지가 기존에 널리 받아들여지고 있던 재현성의 개념이었다. 적어도 칼 포퍼는 이게 제대로 작동한다고 믿었던 것 같다. 그러나 연구자들이 막상 따져보자, 재현성이라는 것이 생각만큼 그렇게 간단치가 않음이 드러났다. ~~위의 목차만 쭉 읽어봐도 재현성이 과학철학(?)적으로 의외로 골치아픈 개념임을 알 수 있다.~~

2 구분

2.1 직접재현

direct replication

직접재현이란 원본 논문의 조건과 절차, 도구, 참가자, 변인들을 모두 고스란히 동일하게 하여 재현하는 것이다. 보통 좁은 의미의 재현성은 바로 이 직접재현을 의미하며, 직접재현 결과 원본 연구의 결과와 달라질 경우 원본 자체의 신뢰도가 저하된다. 즉 못 믿을 연구가 된다는 말이다. 현실적으로 학계에는 황금률처럼 받아들여지지만^[4] 실제로 이런 연구는 거의 찾아보기 힘든데, 그 이유를 사회심리학자 브라이언 노세크(B.Nosek)는 "인센티브의 부재" 에서 찾고 있다. 이런 연구는 독자성(originality)이 없기 때문에 학계에 어떤 진보를 가져오지 못하고, 그 때문에 저널 측에서도 게재를 꺼리고 학자들도 그 필요성은 알면서도 손을 대지 않는 것. ~~쉽게 말해 모두에게 꼭 필요한 것이지만 개인에게는 아무런 이득이 없고, 누군가는 꼭 해 주었으면 하며 떠넘기고 싶은 일~~

이 문제는 하단에 더 자세하게 설명될 것이다.

2.2 개념재현

conceptual replication^[5]

개념재현이란 원본 논문의 조건과 절차, 도구, 참가자, 변인들 중에서 한두 가지만 변형하여 재현하는 것이다. 보통 넓은 의미의 재현성에는 이것도 포함하며, 뭔가가 바뀌었기 때문에 원본 연구의 결과와 달라지더라도 원본이 아주 틀렸다고 장담할 수가 없다. 원론적으로는 직접재현이 확인된 이후에 변형재현을 진행하여, 결과가 달라질 경우 변인의 조작에 귀인할 수 있다. 즉 뭔가가 바뀌었을 때 "아하, 이건 내가 바꾼 것에 대응하여 바뀐 것이구나!" 라고 자신 있게 판단할 수 있다는 것이다. 이런 재현연구는 현실적으로 학계 연구의 상당한 비중을 차지하고 있는데, 문제는 직접재현으로 충분히 뒷받침되지 못하고 있다는 것. 즉 직접재현으로 지지받고 있지 못한 상태에서 곧바로 개념재현으로 점프해 넘어가고 있다는 것이다. 어찌보면 학계의 씁쓸한 관행. 그러나 만일 개념재현에 가중치를 많이 둘 경우, 다양한 분야들의 과학 공동체의 연구들은 대체로 강고(robust)하다고 말할 수 있다.

예컨대, 정시로 대학에 입학한 학생과 수시로 대학에 입학한 학생 간의 학점의 차이가 유의미한지를 연구하는 교육학 논문의 재현성을 판단한다고 가정해 보자. 이 논문의 "Method" 또는 "Procedures" 단락에 적힌 대로 고스란히 똑같은 절차를 거쳐서 재현 연구를 했다면, 이것은 직접재현이다. 그러나 모든 것을 동일하게 하되 단 하나, 이를테면 연구대상이 되는 학생들의 거주지역이나 연령변인, 젠더변인, 기타 상황변인 중 하나를 살짝 다르게 해서 재현을 시도한다면 이는 개념재현이다.

2.3 유형 및 재현의 단계

재현성 논의가 처음 제대로 제기된 지도 수 년이 흐른 2016년, 일군의 연구팀에 의하여 재현성의 유형별 분류가 가능하며 각 유형별로 단계적 지위를 갖고 있다는 것이 제안되었다. 앞서 단계가 해결되면 뒤 단계로 넘어간다는 것. 게다가 재현성 한두 번 실패만으로 원본의 가치를 함부로 속단할 수 없지만, 일련의 재현 시도들이 줄곧 실패만을 반복한다면 이는 뭔가 의미하는 바가 있을 것이라고 하였다.

정리하면 다음과 같다.^[6]

이름	의미	재현 시도가 실패했다면...	연거푸 실패하고 있다면...
정확재현 exact replication	동일한 연구자에 의해 수행되는 직접재현	1종 오류?(Type 1 error?)	가설을 기각한다.
▼　　　　　　　　　　　　재현되는가?　　　　　　　　　　　　▼
근접재현 close replication	동료 연구자에 의해 수행되는 직접재현	실험자 편향?	가설을 기각한다.
▼　　　　　　　　　　　　재현되는가?　　　　　　　　　　　　▼
건설적 재현 constructive replication	동료 연구자의 팔로우업(follow-up)	연구결과의 경계조건을 재설정.	가설을 기각하거나 대폭 수정한다.
▼　　　　　　　　　　　　재현되는가?　　　　　　　　　　　　▼
실험실 개념재현 conceptual replication under laboratory conditions	실험실 조건에서의 개념재현	연구결과의 조작화를 재설정.	가설을 수정한다.
▼　　　　　　　　　　　　재현되는가?　　　　　　　　　　　　▼
현장 개념재현 conceptual replication under field conditions	현장 적용 조건에서의 개념재현	실험실 편향? 가설의 약화처리.	가설의 일반화를 제한한다.
▼　　　　　　　　　　　　재현되는가?　　　　　　　　　　　　▼
만세! 당신의 가설은 이제 확실히 재현된다고 자신 있게 말할 수 있다!

3 번역의 미묘함

이 단락의 서술은 Asendorpf et al.(2013)의 문헌에 의존하고 있다. 현실적으로 수많은 문헌들에서 이하의 두 단어들은 거의 50:50 수준으로 대등하게 혼용되고 있다. 그러나 굳이 의미를 나누어 보자면 이렇다는 얘기.

3.1 Reproducibility

뒤에 나오는 replicability의 필요조건이다. 연구자 간 직접재현 가능성을 의미한다. 이를 위해 재현자는 미가공 데이터(raw data), 코드북, 방법론의 세 가지를 알고 있어야 하며, 데이터를 얻기 위해서는 연구투명성이 보장된 개방형 레포지토리가 필요하다. 정리하면, 투입 데이터와 연구 절차를 모두 동일하게 하여 정확히 동일한 산출 데이터가 나오는지 보는 것이다.

예컨대 연령에 따른 정치성향의 차이를 살펴보는 논문의 reproducibility는, 재현성 연구를 위해 원본 논문에서 모집했던 그 대학교와 그 노인정을 다시 찾아가, 그때 참여했던 참여자들을 빠짐없이 전부 다시 모아서 + 동일한 연구 절차를 다시 거쳐야 한다. 물론 이렇게까지 하는 건 지나치게 힘들기 때문에 보통은 학계에 공개된 데이터 세트를 이용한다. 만일 원본 미가공 데이터가 공개되지 않았거나, 원본의 저자가 그냥 없애버렸다면? 그 논문의 reproducibility는 물 건너 간 거다.^[7]

3.2 Replicability

이것은 서로 다른 표집 간 개념재현 가능성을 의미한다. 이를 위해 재현자는 다른 변인은 고정시키고 모집단 내의 표본추출만 달리하면서, 새롭게 설계한 새 연구가 표본 오차와 같은 비체계적 오차만을 보일 뿐 체계적 오차는 보이지 않음을 보여주어야 한다. 그러나 표본의 차이뿐만 아니라 다른 변인들까지도 조작하면서 재현해 보이는 개념재현은 일반화 가능성(generalizability)에 더 가깝다. 정리하면, 투입 데이터를 달리하고 연구 절차를 동일하게 하여 통계적으로 현저한 차이가 없는 산출 데이터가 나오는지 보는 것이다.

위의 동일한 예시를 다시 끌어와 보자. 연령에 따른 정치성향의 차이를 살펴보는 논문의 replicability는, 재현성 연구를 위해 원본 논문에서 모집했던 그 대학교와 그 노인정을 다시 찾아가긴 하는데, 예전에 표집된 참가자들이 누군지와는 무관하게 새롭게 무선추출을 한다. 그리고 그렇게 얻어진 (원본과는 다른) 미가공 데이터를 가지고 원본과 정확히 동일한 실험 절차를 거치는 것이다.

4 논란

재현성 문제가 2010년대 들어서 연구자들의 격론을 초래하기 전, 심지어 2000년대까지만 하더라도 연구자들은 재현성에 대해서 굉장히 막연하거나 안이하게, 이론적인 수준에서만 생각했다. 그렇기 때문에 막상 재현성이 문제가 되자, 그들은 그들의 생각과는 다소 다르게 흘러가는 상황에 당황할 수밖에 없었으며, (적어도 이론상으로는) 흠잡을 데 없어 보였던 과학 공동체의 지식축적 프로세스에 약점이 있음을 깨닫게 되었다. 그래서 《Perspectives on Psychological Science》 같은 심리학 저널을 필두로 많은 저널들이 특별 토론을 열었고, 《사이언스》 지의 팟캐스트에서 다루기도 했으며, 듣기^[8] 많은 연구자들이 일명 "재현성 프로젝트" 를 열어서 우리 분야는 재현성이 잘 보장되고 있는지 재검토를 하기 시작했다.

4.1 재현을 위한 연구투명성의 문제

research transparency

애초에 재현을 할 수 있는 객관적 여건 자체가 열악하고 부족한 실정이다.

재현성은 내 연구를 하는 것이 아니라 남의 연구를 하는 것이기 때문에, 원본 저자의 도움이 절대적으로 필요하다. 지속적으로 그들의 도움을 받으면서 궁금한 점을 문의해야 하고, 필요하다면 미가공 데이터까지도 전달받아서 가능한 한 원본에 가깝게 자신의 연구를 맞추어 가야 한다. 그러나 과연 학계에 그러한 방식의 연구활동을 할 수 있는 객관적 여건이 갖추어져 있을지는 의문이라는 것이다. 특히 자신의 연구가 재현되지 않을 것을 우려한 일부 학자들이 재현성을 위한 컨택 자체를 거부하려는 경우도 있을 수 있다. ~~남의 연구에 대한 재현성은 당연히 필요하지만 어딜 내 연구에 시비냐~~ 특히 자신의 업적에 빛이 바래서 좋을 것이 없는 계약직 교수들 입장에서는 더더욱...

브라이언 노세크는 연구투명성이야말로 재현성 연구를 활성화시키기 위한 가장 중요하고 결정적인 전제조건이라고 잘라 말한다.^[9] 다시 말하면 이것이 제대로 보장되지 않는 상황에서는 재현 자체가 극히 어렵거나 무의미하게 된다는 의미다. 그래서 그가 출범한 과학 기구 중 하나가 바로 개방과학협력체(OSC; Open Science Collaboration)다. 그 외에도 연구투명성 문제가 비교적 일찍 제기된 심리학계에는 《Journal of Open Psychology Data》 같은 저널도 생겼고, PsychFileDrawer.org, PsychDisclosure.org 등등의 사이트에서 연구 데이터를 투명하게 공유하기 위한 노력을 이어 가고 있다. 마찬가지로 지구온난화를 연구하는 지구과학이나 환경공학 등에서도 BerkeleyEarth.org 같은 사이트에서 미가공 데이터를 공개하고 있다.

4.2 출판 가능성 : 참신함 vs. 재현성

publishability

여건이 보장되더라도, 학계에는 재현성 논문을 게재해 줄 저널 자체가 없다.

심리학계에서 최초로 재현성 문제를 제기한 인물이자 개방과학협력체를 이끌고 있는 노세크가 "인센티브 자체가 없다" 고 지적했듯이, 학자들은 재현성 연구, 특히 직접재현 연구가 좋다는 건 알면서도 그것이 자신들의 연구업적이 되지 못한다는 이유로 인하여 연구를 꺼리고 있다. ~~그거 한다고 일자리가 나오길 하나 테뉴어가 나오길 하나 펀딩이 나오길 하나...~~ 논문 문서에서도 나오지만 모든 논문들은 기존에 축적된 문헌들을 정리한 후 이를 바탕으로 자신만의 이야기를 하는 것이 매우 중요한데, 여기서 자신만의 이야기가 없다면 이는 레포트와 다를 바가 없게 된다. 문제는, 재현성 연구는 자신만의 이야기를 하지 않더라도 충분히 그 자체로 가치가 있는데, 이 부분이 간과되고 있었던 것이다.

쉽사리 게재가 확정되고 있는 간접재현과 달리, 직접재현은 게재 자체가 사실상 불가능에 가깝다. 이 때문에 일부 논자들은 "재현 멀쩡히 잘 되고 있구만, 뭐가 안 된다고 징징임?" 하는 식으로 반응하기도 한다. 그렇기 때문에 이 주제를 이야기할 때에는 먼저 간접재현은 논외로 하고 직접재현의 필요성^[10]에 대해서만 논의를 한정시켜야 한다.

많은 저널들은 논문의 가치를 평가하는 기준 중 하나로 참신함(novelty) 내지는 독자성(originality)을 본다. 즉 어느 그 누구도 생각하지 못했던 아이디어가 그 논문에 담겨 있느냐는 얘기다. 이것은 지금까지 매우 효과적인 논문 출판 기준이 되어 왔지만, 막상 재현성이 이슈가 되자 "남의 아이디어가 정말 제대로 된 아이디어인가?" 를 검증하는 논문은 실어 줄 수가 없다는 사실이 밝혀졌다. 이런 상황에서는 더 이상 "과학은 완벽하지 않습니다. 그러나 과학은 끊임없이 스스로의 오류를 교정해 갑니다" 라는 자기교정성(self-correcting)을 외칠 명분이 없어지는 것이었다. 이에 대해 한 연구자는^[11] 〈과학인가 예술인가?〉 에서 학술출판 세계에는 병목 현상이 존재하며, 제한된 양의 저널에 많은 연구자들이 한꺼번에 투고하려다 보니 조금이라도 더 성공적인 것처럼 보이고, 혁신적인 것처럼 보이고, 유용한 것처럼 보이는 논문을 쓰려고 동기화된다고 주장했다. ~~본격 PUBLISH 101~~ 다른 연구자는^[12] 오히려 이런 호들갑스러운 논문들일수록 더욱 재현성을 의심해 보아야 한다고 주장했다.

물론 이미 학계에는 반직관적(counter-intuitive) 연구 전문저널, 영가설(null-hypothesis) 전문저널, 실패한 연구 전문저널 등이 존재한다. 그러나 노세크는 이미 이것들은 최선의 방법이 아니라고 주장한 적이 있는데, 그에 따르면^[13] 이런 저널들이 이미 기존의 주류 저널들보다 "한 수준 낮은" 것처럼 간주되고 있으며, 그 영향력도 클 것이라고 전망하지 못하는 상황이라고 한다.

이에 대해 연구자들은 각자 나름의 대안을 내놓았는데, 차라리 실험연구에 대해 공부하는 학부생 및 대학원생들에게 재현성 연구를 과제물로 내자는 주장,^[14] 저널과 저자 및 대학교에게 각자 다르게 적용되는 실용적 가이드라인을 만들자는 주장,^[15] 누적적 메타분석(cumulating meta-analysis)을 활용하자는 주장^[16] 등이 제기되어 왔다. 그러나 아직까지는 "썰" 만이 무성할 뿐, 재현성 연구의 출판을 장려하기 위해 본격적으로 무언가를 해 보려는 노력은 시작되지 않았다. 예컨대 OSC 같은 단체가 발족하긴 했어도, 이들을 통해 재현성 연구가 필요하다는 문제의식은 얻을지언정 저널들이 쉽사리 움직일지는 여전히 불투명한 실정이다.

4.3 재현에 실패했다는 기준은 무엇인가?

만약 어떤 저널이 재현성 연구를 받아주더라도, 무엇을 기준으로 재현에 실패했다고 단정할 수 있을지도 분명하지 않다.

어떤 새로운 연구가 세상에 나타나고, 이에 대해 직접재현 1건, 개념재현 3건이 실시되었으며 모두 재현에 성공했다고 가정하자. 이번에는 여러분이 이 연구에 대해 다시 직접재현을 시도했는데, 믿을 수 없게도 이번에는 재현에 실패했다고 가정하자. 원본 연구는 말짱 꽝이라고 간주하고 이후의 3건의 개념재현도 휴지통에 집어넣어야 할까? 그렇다면 재현에 성공한 1건의 직접재현은 뭐가 되는가? 어쩌면 내 연구가 미처 통제되지 못한 모종의 혼입변인으로 인해 왜곡된 것은 아닐까?^[17] 내가 똑같은 재현을 다시 실시했을 때 이후에는 실패하게 될까, 성공하게 될까?

물론 일관되게 연달아 재현에 실패한다면 이는 어쩌면 재현 자체가 불가능하다는 잠정적 결론을 이끌어낼지도 모른다. 그러나 현실적으로 완벽한 재현은 불가능하고, 그러다 보니 일부는 재현되고 일부는 재현되지 않는 상황들이 발생한다는 것이다. 또한 이미 수많은 후속연구들을 파생시킨 전설적인 연구가 알고 보니 재현이 안 되더라는 상황이 발생할 수도 있다. 그러면 원본의 연구를 기각하고, 이후의 산더미 같은 후속연구 문헌들까지 한꺼번에 폐지 취급해야 할지 애매해진다. 어쩌면 연구자는 원본 연구의 가설을 반증하는 것이 아니라 무능하고 멍청해서 제대로 재현조차 하지 못한 "자기 자신" 을 반증하게 될지도 모른다! 사실 학계에는 무조건 재현만 되고, 무조건 재현이 절대 안 되는 연구보다는 일부는 재현되고 일부는 안 되는 식의 연구들이 훨씬 많다.

4.4 재현의 실패가 원본의 성과에 주는 의미?

만약 확실하게 재현이 실패했다고 판단하더라도, 원본의 진위에 대해서 우리가 어떤 통찰을 얻기가 쉽지 않다.

연구자들이 힘을 모아서 재현 실패에 대한 확실한 기준을 세웠다고 가정하자. 그리고 어떤 연구가 여러 건의 재현성 실험 결과 재현성이 결여되어 있다는 결론에 도달했다고 가정하자. 그렇다면 이를 통해 원본의 연구결과를 우리가 어떻게 받아들여야 할까? "네 전부 헛소리 투성이였습니다. 다음 논문!" 하고 넘기면 될까? 아예 폐기할 것이 아니라 일부 수정해서 이 아이디어를 계속 살려 갈 수 있지 않을까?^[18] 원본에서도 뭔가 문제가 있었기에 이런 결과가 나왔을 뿐, 원본에서 제기한 문제를 잘 갈고 닦으면 좀 더 강고한 결론을 얻을지도 모르는 일인 것이다.

이에 대해 라카토슈적인 접근을 따르자면,^[19] 어쩌면 이 재현이라는 문제는 핵심적 주장을 건드린다기보다는 상당히 주변부적인 주장을 건드리는 것일 수 있다. 당연히 원본의 연구자는 그대로 물러서지 않을 것이고, 자신의 키 아이디어는 그대로 두면서 몇몇 소소한 부분들만 손질하여 그대로 밀고 나가려 할 것이다. 이에 대해서도 원본의 저자가 제대로 짚었는지를 판단하는 것은 어려우며, 결과적으로 재현성 실험을 다음에 또 해 봐야 한다. 물론 이 실험조차도 그 통찰은 굉장히 제한적일 뿐이다.

이런 상황이기 때문에 결과적으로 이 논쟁을 보다보면 "뭐임? 재현성 연구 해봤자 의외로 그렇게 통찰적(insightful)이지 못한 결론만 나온다면, 뭐 어쩌라는 거임? 그래놓고 재현성이 과학적 방법의 핵심임?" 같은 볼멘소리가 나올 수밖에 없다.(…) 어쩌면 칼 포퍼 이후로 재현성에 대한 학계의 인식은 한동안 안이하게 정체되어 있었는지도 모른다. 그렇기 때문에 학계에서 그렇게 너도나도 들고일어나서 뒤늦게나마 재현성의 실제에 대해 성토하고 있는 것일지도 모른다.

5 2011년 재현성 위기설

학계에서 본격적으로 재현성이 이슈가 된 계기는 사실 사회심리학(social psychology) 분야에서 찾는 것이 빠르다. 물론 예전에도 단속적으로 재현성에 신경을 쓰자, 재현성이 중요하다 같은 이야기들은 많이 나왔지만, 여기에 본격적으로 불이 붙은 것은 2011년이며 이에 사회심리학이 미친 영향은 작다고 보기 어렵다.

지난 1987년, 《American Psychologist》 에는 한 편의 비범한 제목의 논문이 올라왔다. 이름하여 〈경성과학은 얼마나 '딱딱하고', 연성과학은 얼마나 '부드러운가'?〉 였는데,^[20] 이는 물리학과 심리학 및 각종 사회과학의 재현성을 비교하는 논문이었다. 쉽게 말해 "야 자연과학자 너네들, 니들이 사회과학 그렇게 무시하는 이유가 재현이 안되서라며? 내가 연구해 봤는데 물리학이나 심리학이나 재현성이 별반 다를 거 없거든? 그러니까 다시는 우리들 무시하지 마라" 가 내용이다.(…) 그때 이후로 ~~열폭하고 있던~~ 사회과학자들, 특히 심리학자들은 크게 환호했고^[21] 그 이후로 엄청난 근자감에 휩싸인 채 당당하게 연구를 계속했다.

...그렇게 생각하던 시기가 그들에게도 있었다.

문제가 터진 것은 2011년. 사회심리학자들에게 이 해는 정말이지 어수선하고 고단한 해로 기억되고 있다.^[22] 서로 다른 네 가지 이슈들이 때마침 한꺼번에 폭발했는데, 이것들 하나하나가 학문 수준에서는 그냥 잽 수준이 아니라 그야말로 묵직한 핵펀치였다. 그런데 이 이슈들이 어째 죄다 재현성이라는 이슈와 접점을 갖고 있었으니...

디데리크 슈타펠(D.Stapel) 연구부정행위 사건 : 사회적 비교(social comparison) 분야의 권위자로 여겨지던 슈타펠의 수많은 연구문헌들이 알고 보니 하나부터 열까지 데이터를 조작했다는 사실이 밝혀져서 학계에 충격을 준 사건. 당사자는 잘못을 순순히 인정하고, 자신의 과오를 반복하지 않기를 당부하는 의미의 자서전을 썼~~고 그걸로 돈을 벌고 있~~다. 무서운 것은, 이 문제가 밝혀지기 전까지 한동안 학자들이 그 사실을 새카맣게 모르고 있었다는 것. 쉽게 말해, 아무도 재현이라는 것을 해 볼 생각을 하지 않았으며, 당연한 사실처럼 취급했다는 것이다.
대릴 벰(D.J.Bem) 초능력 논문 게재 사건 : 사회심리학의 북극성과도 같은 《Journal of Personality and Social Psychology》 가 벰의 전인지(precognition) 개념이 존재한다는 논문을 출판하여^[23] 학계가 발칵 뒤집힌 사건이다. 이는 쉽게 말하면 "인간은 미래를 느낄 수 있다" 는 내용인데, 이게 한낱 음모론 호사가들이 제멋대로 인용하며 떠들어댄 게 아니라 연구자 본인부터 대놓고 논문에서 Psi, ESP 같은 단어들을 써 놨다는 게 함정.(…) 열받은 연구자들이 미친듯이 재현성 실험을 해서 반박논문을 출판하려 했는데... JPSP에서 단순 재현성 논문은 게재를 안 한다고 답변했다! # 아무튼 한때 학계를 혼돈의 카오스로 몰아넣었던 사건이다.^[24]
옐테 위처트(J.M.Wicherts) 연구투명성 고발 : 심리학계의 수많은 문헌들이 은밀하게 수행되는 연구와 실험들을 다루고 있다고 고발하면서, 동료 연구자들이 연구 데이터와 원본 미가공 데이터를 열람하고자 해도 연락이 안 되거나, 공개를 거부하거나, 공개하고 싶은데 데이터를 못 찾거나 하는 등으로 인해 열람이 불가능하다고 한다.^[25] 이 때문에 나중에 재현성을 탐색하거나 후속연구를 할 때 어떻게 제대로 연구를 진행하겠냐는 비판이 일었다.
조셉 시몬스(J.P.Simmons) 파일 서랍장 문제 고발 : 심리학계의 수많은 문헌들이 데이터를 제멋대로 취사선택하고 조합하여 연구가설에 부합하는 방향으로 미묘하게 바꾸는 꼼수를 부리고 있으며 만일 가설에 부합하지 않을 경우 조용히 서랍장에 밀어넣고 입 싹 씻는 관행이 있다고 고발하였다. 이 경우 reproducibility가 아닌 replicability를 통하여 그 연구의 정직성을 검증할 필요가 있다.

하여간 이런 거대한 떡밥들이 와르르 쏟아져나온 와중에, 《사이언스》 에서도 때마침 재현성 특집호를 마련해서 "어디, 우리 한번 각 분야들에서 연구 재현성이 어떻게 관리되고 있는지 따져봅시다!" 하면서 멍석을 깔아놓던 참이었다. # 마침 울고 싶었는데 뺨 맞은 듯한 심리학계에서는 곧 재현성 이슈에 격렬한 관심을 보였으며, 이듬해 《Perspectives on Psychological Science》 에서 이 주제로 토론을 하기도 했다.

사실, 사회심리학계 외부에서도 재현성 자체는 줄곧 논의가 되어 오고 있었다. 대표적으로 이미 1995년에 마케팅 및 광고 분야에서도 연구의 재현성을 놓고 논의를 하기도 했고,^[26] 2005년에는 의학 분야의 권위자 중 하나인 존 요아니디스(J.Ioannidis)가 〈대부분의 출판 연구가 거짓인 이유〉 라는 ~~패기쩌는~~ 논문을 써서 세간의 주목을 받기도 했다.^[27] 그러나 본격적으로 방법론으로서의 재현성이 논란이 되기 시작한 것은 다름아닌 2011년. 이때부터 점차 종양생물학^[28] 등 다른 분야들에서도 "야 우리도 남의 얘기 할 때가 아닌데?" 라면서 자체적으로 재현성 문제에 대한 재검토에 들어가기 시작했다.

재현성에 대한 이후 몇 년 동안의 비판적 재검토의 결과는 상당히 충격적이었는데, 2012년에 출판된 한 논문에서는^[29] 심리학계 상위 100대 저널에서 100년 동안 출판된 논문들의 불과 1.07%만이(…) 재현성에 대한 관심을 기울이고 있었다고 보고하기도 했다. 이후 2015년에는 개방과학협력체가 진행한 재현성 프로젝트의 결과가 《사이언스》 지에 출간되었는데,^[30] 이들에 따르면 "원본의 효과 크기에 비해 재현본의 효과 크기는 절반밖에 되지 않았으며, 원본이 얼마나 방법론적으로 우수하고 원본이 얼마나 현저한지와는 무관하게, 재현본에서는 그 현저성이 감소한다" 고 한다. 무엇보다도 충공깽인 것은, 재현 결과 유명 저널에 실린 유명 논문 10건 중 6건은 원본에서 확인된 현상이나 효과에 대해 사실 그런 거 없다의 결론이 나온다는 것.

학술계와 무관한 곳에서는 거의 느낌도 오지 않겠지만(...) 내부적으로 이는 소위 재현성 위기설(replication crisis)이라고까지 불리고 있다. 심지어 일부 연구자들은 재현성게이트(repligate)라고까지 부를 정도니 그들이 느끼는 일대 혼란을 짐작해볼 수 있을 듯.

2011년에 불거진 "위기" 담론은 이들 분야에서 연구자들을 위태롭게 하고 있다. 지금까지는 확고하게 입증된 정설이라고 생각되었던 것이 사실 알고 보니 사상누각이었다거나, 내지는 상황에 따라 변동 가능하고 재현되지 않을 수도 있다는 불확실성이 발생한 것이다. 그러나 일반인 입장에서는 너무 불안해 할 필요는 없다. 무엇보다도 "우리 뭔가 잘못하고 있는 것 같아!" 라고 뒤늦게나마 자성을 시작했다는 점에서 아직 과학은 신뢰할 만하며, 현재의 재현성 위기 논쟁은 그 의의를 평가하자면 "이제부터는 정말 제대로 다시 해 보자" 는 합의에 가깝기 때문이다. 특히 젊은 신진 연구자들이 이에 많은 호응과 협조를 보내고 있다는 것은 반가운 소식이다.

그렇기에 이는 학계가 한 번쯤 겪고 지나가야 할 일종의 성장통으로 보아야 할지도 모른다.

6 한국의 경우

사실 이미 오래전 황우석 사태때 한국에서는 크게 논란이 되었던 지라 한국에서는 나름 면역이 생긴 사람들이 많았다. 당시에 황우석 지지 측에서, '네이처에서 실었는데 거짓이겠냐? 네이처 편집자들이 바보냐!?' 이런 논리로 밀고 나가다가 결국 거짓으로 밝혀졌기 때문이다. 당연히 당시 네이처란 권위에 눌려 황우석을 지지했던 측에선 '네이처 너 뭐냐?'란 의문으로 돌아서게 되었는데, 당시 권위있는 네이처조차 상당히 허술하고 맘 먹으면 얼마든지 조작 가능하고 게재할 수 있다란 사실을 보여줬기 때문이다. 특히 당시 황우석은 국민영웅급이어서 한국인들에게 충격이 컸고 네이처를 믿었던만큼 황우석을 믿었기에 절대적 권위가 있으리라 믿었던 네이처가 허술하다는 사실에 충격을 받았던 한국인들이 많았다.

7 재현성 대체하기

7.1 후속연구 여부?

학계에서는 어떤 논문이 저널에 출판되었다고 해서 무조건적인 신뢰를 보내는 것은 아니다. 어느 정도 회의적인 분위기가 존재한다고 해도 저널에 출판되어서 "그냥 한 번 읽어볼 만하다, 이런 썰도 있더라" 같은 식으로 판단하도록 유도하는 경우가 많고, 정작 많은 연구자들은 해당 논문의 가치를 후속연구가 진행되는가 아닌가로 판단하곤 한다. 만일 쓸만한 논문이라면 어떤 식으로든 후속연구가 진행되어 점차 확장되어 갈 것이고, 여러 사람들에게 인용되고 연구되면서 자연스럽게 재현성도 검증될 것이라는 기대 때문이다.

즉 1회성으로 그치고 묻히는 논문은 일단 판단을 보류하고, 후속연구가 없다면 그냥 한번 읽고 버리는 것으로 간주할 수 있다는 것이다. 물론 한동안 묻혔다가 후세에 발굴될 수도 있는데, 그럼 그때 인정하면 되고 발굴되기 전까진 판단을 보류하는 것이다. 이 방법으로라면 학계를 떠들썩하게 했던 사건인 초능력 논문 게재 사건(…) 같은 것도 걸러낼 수 있다. 후속연구가 없고, 다른 연구자들에게 긍정적 언급이 되지도 않고 있기 때문이다.

이 때문에 어떤 이들은 모든 논문마다 전부 재현성을 검증하는 것이 현실적으로 불가능하다는 걸 받아들이고, 차라리 이를 대신해서 후속연구를 주된 판단기준으로 삼아야 한다고 생각하기도 한다. 쓸만한 내용이라면 반드시 후속연구를 통해 조금씩 발전하고 진화할 것이기 때문이다. 초능력 논문처럼 기존의 인식과 관념을 뒤엎는 논문이라면 더 주의 깊게 엄격한 검증을 거치도록 하면 된다고 본다.

그렇다면 후속연구는 얼마나 좋은 대안이 될 수 있을까? 적어도 2016년 초까지의 문헌들 중에서 후속연구 여부를 판단기준으로 삼을 것을 강조하는 문헌은 발견되지 않았다. 확인되면 추가바람. 이 아이디어에는 다음과 같은 몇 가지의 문제점이 있다.

첫째, 우리가 과학과 그 방법론을 신뢰할 수 있는 이유에 대해서 칼 포퍼는 매우 논리적인 추론과정을 거쳐서 "재현성을 통한 자기교정성" 을 들었다. 이것이 옳다는 전제 하에 과학은 굉장한 권위를 얻었고, 과학자들은 그들이 제대로 된 길로 가고 있다고 자신할 수 있었다. 그런데 재현성이 흔들리자 "차라리 재현성이란 기준 자체를 버리자" 라고 말한다면 리스크가 너무나 크다. 게다가 새롭게 제시한 대안인 후속연구 여부는 오히려 현장 연구자들의 노하우나 휴리스틱에 가깝다. 우리가 과학을 신뢰할 수 있는 이유가 과학자들의 "감" 과 휴리스틱에 의존해도 괜찮은 것인가?

둘째, 후속연구 문제는 학계의 뿌리깊은 정치싸움과도 맞닿아 있다. 학계의 주류를 차지하는 학파(school)에 속할수록 인정받기도 쉽고 후속연구도 나오기 쉽다. 당장 그 저자가 자기 대학원생 제자들 불러다가 쓰라고 해도 나오는 것이 후속연구다.^[31] 씁쓸한 관행이긴 하지만, 현실적으로 학계에는 이미 아무개 패거리, 아무개 파벌, 아무개 나와바리(…) 같은 것이 존재한다는 게 중론이다. 신진 연구자가 등장하면 제일 먼저 보는 것이 그가 박사학위를 받은 대학교이고, 그가 박사학위를 사사받은 지도교수의 소속 파벌이다. 이런 사람들끼리 (일차적으로) 서로 연구성과도 공유하고 의견도 교환하고 피드백도 주고 하는 것이다. 이는 자칫 연구자들에게 "인정받고 싶다면, 네게 적극 찬동해 줄 패거리를 만들어 와라" 의 잘못된 신호를 줄 위험도 있으며, 그들이 소위 말하는 "대세" 만 쫓아가게 하고, 남들의 관심은 없지만 잠재력이 큰 분야는 손대지 않게 만드는 결과를 초래할 수도 있다. 즉 한 논문의 지적 진실성이 학계의 헤게모니와 같은 정치적 메커니즘에 의존하여 판단될 위험이 존재한다.^[32]

셋째, 후속연구 여부로 따지자면 물론 초능력 논문에 대해서는 걸러내는 것이 가능하겠지만, 두 가지 반례가 존재한다. 사회심리학의 자아고갈(ego depletion)이라고 불리는 현상이 그 첫째다. 이는 이 분야의 대가인 로이 바우마이스터(R.Baumeister)가 발견한 것으로, 인내력과 자기통제 능력에는 일정한 한계치가 존재한다는 이론을 만들어냈다. 문제는, 이 발견을 바탕으로 이미 무수히 많은 심리학 논문들이 쏟아져 나왔음에도 불구하고, 최근 들어 자아고갈 현상이 재현되지 않는 문제가 발생하고 있다는 것이다. 둘째 반례로는 디데리크 슈타펠의 연구부정행위를 들 수 있다. 이 역시 동료들에 의해 숱한 후속연구가 이루어졌으나, 그의 모든 연구성과가 말짱 다 사기라는 것이 밝혀져서 학계에 충격을 주었다. 후속연구 여부를 판단의 기준으로 삼을 경우 이 두 사례에 대해 잘못 판단하게 된다. 이미 풍부한 후속연구가 이루어졌다고 해서 재현성 검증을 거부할 자격이 생기지는 않는다는 얘기다.

어찌보면 후속연구 여부를 판단기준으로 삼는 것은 상당히 휴리스틱적이고 연구현장의 테크닉인 성격이 짙다고 할 수 있다. 그러나 그와 동시에 학계의 동향에 대해 상당한 이상적 전제를 내포하고 있는 것도 사실이다. 실제로 많은 연구자들은 정신적으로 바쁠 때나 자기 관심분야가 아닌 논문을 대할 때 간단히 "후속 연구가 얼마나 진행되었나?" 를 가지고 확인하곤 한다. 저널 입장에서도 사실 이렇게 판단하는 것이 더 편하기도 하다. 그러나 재현성은 (순전히 논리적으로 보아) 과학적 방법의 핵심적인 밑바탕이 되는 것이고, 그렇기에 이런 판단기준으로 대체되기에는 무리가 크다. 그렇지 않다면 과학이 갖고 있는 건전한 권위 자체가 상당 부분 손상될 수도 있다.

결국 후속연구 여부는 재현성 여부를 온전히 대체한다기보다는, 재현성을 즉각 확인하기 곤란한 상황에서 대안적으로 쓸 만한 서브 판단기준으로서 기능하도록 하는 것이 옳을 것이다. 이를 버팀대로 삼은 상태로, 재현성 논쟁 자체는 계속해서 이어갈 필요가 있다. 이를 통해, 적어도 최악의 사태에 직면하지는 않겠지만, 그래도 문제 자체가 온전히 해결되는 것도 아니기 때문이다.

8 외부 링크

↑ 재현성에 관련된 문헌들을 뒤져보면 거의 절대 다수가 이런 문장들로 시작한다.
↑ Jasny, Chin, Chong, & Vignieri, 2011.
↑ 이를 엄밀하게는 거짓긍정(false positive)이라고 한다.
↑ 직접재현의 가치를 평가 절하하는 연구자들도 있다. 예컨대 Stroebe & Strack(2014) 등. 이에 대한 반박으로는, Simons(2014)를 볼 것.
↑ 가끔 변형재현(tweak replication)이라고도 하는데 상당히 드물게 쓰인다.
↑ Hueffmeier et al., 2016.
↑ 보통 연구참가자 정보는 개인정보에 속하기 때문에 관련법 및 대학교 내규 등에 따라서 취급이 까다롭다. 원본 저자가 갖고 있을 거라고 보장할 수가 없다.
↑ 영문 스크립트가 제공되며, 재현성 논쟁은 18:40부터 시작.
↑ Nosek et al., 2012.
↑ 앞서 언급했지만 직접재현을 생략한 간접재현은 그 자체로 이미 사상누각이다.
↑ Giner-Sorolla, 2012.
↑ Francis, 2012.
↑ Nosek et al., 2012.
↑ Frank & Saxe, 2012. 저자들은, 만일 적절한 슈퍼비전을 받는 조건에서라면, 이들의 연구결과도 충분히 신뢰할 수 있으리라고 자신하고 있다.
↑ Asendorf et al., 2013.
↑ Braver et al., 2014.
↑ 예컨대 직접재현의 경우 그 연구의 사회적, 문화적, 공간적 배경으로 인해 "완벽한" 재현은 엄밀히 말하자면 불가능하다. 동일 연구자가 재현하는 정확재현조차 시간적 차이가 있을 수 있고, 연구장소가 다를 수 있어서 한계가 있다. 이에 대해서는 Schwarz & Strack(2014)를 참고.
↑ e.g. Hueffmeier et al., 2016. 본 문서 상단의 표를 볼 것.
↑ Earp & Trafimow, 2015; Lakatos, 1978.
↑ Hedges, 1987.
↑ 실제로 《심리학의 오해》 서적에도 이 연구내용이 인용되고 있다.
↑ Pashler & Wagenmakers, 2012.
↑ Bem, 2011.
↑ 벰의 연구에 대한 주요 반박으로는 Galak et al.(2011) 등을 볼 것.
↑ Wicherts, Bakker, & Molenaar, 2011.
↑ Madden, Easley, & Dunn, 1995.
↑ Ioannidis, 2005. 이에 대한 다른 학계의 반박으로는 Stroebe(2016) 등이 있다.
↑ Errington et al., 2014.
↑ Makel et al., 2012.
↑ Open Science Collaboration, 2015.
↑ 반대로, 학계에서 상당한 거물이 목청을 높이면서 부정하는 연구결과는 출판되기도 힘들고, 출판되더라도 뒷말이 반드시 나오게 된다. 물론 노쇠한 석학과 젊은 연구자가 키배를 뜨면, 나중에 알고보니 대개 후자가 옳았다더라는 웃지못할 얘기도 있다지만.(…)
↑ 다시 말해, 한 논문의 지적 진실성이 그 자체로서 판단되기보다는 과학자 집단의 동학(dynamics)과 같은 복잡한 어른의 사정에 영향을 받은 채로 판단될 위험이 있다.

[1] 재현성에 관련된 문헌들을 뒤져보면 거의 절대 다수가 이런 문장들로 시작한다.

[2] Jasny, Chin, Chong, & Vignieri, 2011.

[3] 이를 엄밀하게는 거짓긍정(false positive)이라고 한다.

[4] 직접재현의 가치를 평가 절하하는 연구자들도 있다. 예컨대 Stroebe & Strack(2014) 등. 이에 대한 반박으로는, Simons(2014)를 볼 것.

[5] 가끔 변형재현(tweak replication)이라고도 하는데 상당히 드물게 쓰인다.

[6] Hueffmeier et al., 2016.

[7] 보통 연구참가자 정보는 개인정보에 속하기 때문에 관련법 및 대학교 내규 등에 따라서 취급이 까다롭다. 원본 저자가 갖고 있을 거라고 보장할 수가 없다.

[8] 영문 스크립트가 제공되며, 재현성 논쟁은 18:40부터 시작.

[9] Nosek et al., 2012.

[10] 앞서 언급했지만 직접재현을 생략한 간접재현은 그 자체로 이미 사상누각이다.

[11] Giner-Sorolla, 2012.

[12] Francis, 2012.

[13] Nosek et al., 2012.

[14] Frank & Saxe, 2012. 저자들은, 만일 적절한 슈퍼비전을 받는 조건에서라면, 이들의 연구결과도 충분히 신뢰할 수 있으리라고 자신하고 있다.

[15] Asendorf et al., 2013.

[16] Braver et al., 2014.

[17] 예컨대 직접재현의 경우 그 연구의 사회적, 문화적, 공간적 배경으로 인해 "완벽한" 재현은 엄밀히 말하자면 불가능하다. 동일 연구자가 재현하는 정확재현조차 시간적 차이가 있을 수 있고, 연구장소가 다를 수 있어서 한계가 있다. 이에 대해서는 Schwarz & Strack(2014)를 참고.

[18] .g. Hueffmeier et al., 2016. 본 문서 상단의 표를 볼 것.

[19] Earp & Trafimow, 2015; Lakatos, 1978.

[20] Hedges, 1987.

[21] 실제로 《심리학의 오해》 서적에도 이 연구내용이 인용되고 있다.

[22] Pashler & Wagenmakers, 2012.

[23] Bem, 2011.

[24] 벰의 연구에 대한 주요 반박으로는 Galak et al.(2011) 등을 볼 것.

[25] Wicherts, Bakker, & Molenaar, 2011.

[26] Madden, Easley, & Dunn, 1995.

[27] Ioannidis, 2005. 이에 대한 다른 학계의 반박으로는 Stroebe(2016) 등이 있다.

[28] Errington et al., 2014.

[29] Makel et al., 2012.

[30] Open Science Collaboration, 2015.

[31] 반대로, 학계에서 상당한 거물이 목청을 높이면서 부정하는 연구결과는 출판되기도 힘들고, 출판되더라도 뒷말이 반드시 나오게 된다. 물론 노쇠한 석학과 젊은 연구자가 키배를 뜨면, 나중에 알고보니 대개 후자가 옳았다더라는 웃지못할 얘기도 있다지만.(…)

[32] 다시 말해, 한 논문의 지적 진실성이 그 자체로서 판단되기보다는 과학자 집단의 동학(dynamics)과 같은 복잡한 어른의 사정에 영향을 받은 채로 판단될 위험이 있다.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]