- 상위 문서 : 연구방법론 관련 정보, 연구윤리
- 같이 보기 : 재현성, p-해킹, 심리학
research transparency / open science
"개방과학" 이라고도 한다.
2010년대 중엽부터 과학자사회에서 대두되고 있는 연구윤리 이슈 중 하나로, 연구에 활용된 데이터에 대한 완전한 개방성과 접근성이 보장되는 것을 말한다. 심리학 분야에서 이슈가 된 이래로 여러 과학 분야들로 논의가 확대되어 가고 있다.
1 왜 필요한가
짧게 말하면, 과학이라는 활동의 신뢰성을 보장받기 위해서는 그 투명성이 먼저 보장되어야 하기 때문이다. 기존의 문헌들은 대부분 연구 절차와 설계, 참가자 정보, 그리고 측정 도구 정도에 있어서만 투명하게 공개해 왔지만, 원본 미가공 데이터(raw data)에 대한 정보나 코드북(codebook), 결과 데이터에 대해서는 충분히 공유하지 않았다. 그래서 파일 서랍장 문제(file-drawer problem)와 같은 연구의 진실성 여부가 논란이 되었다. 과학 활동 자체가 하나의 거대한 생존자 편향의 무대가 되어 가고 있는 것이다. 처음부터 명확한 연구목표와 변인 설정을 해 놓고 시작하는 게 아니라, 숱한 변인들을 측정하는 척도들을 한꺼번에 던져 놓고는 "제발 하나만 걸려라, 하나만 물어라"(…) 하다가 척도 하나에서 애스터리스크 하나가 뜨면[1] "옳다구나!" 하면서 달랑 그것 하나만 논문에 싣는 것이 학계의 불편한 현실이라는 것이다.
또한 별도의 레포지토리가 지원되는 경우가 별로 없다 보니, 어떤 문헌을 참조하고 인용하려는 연구자들이나 재현성에 의문을 품은 연구자들이 나중에 해당 연구의 저자에게 문의하더라도, "너무 오래 전 일이라서 데이터를 폐기했습니다" 의 답변만을 받고 좌절하는 일들이 많았다. 예컨대, "일본 애니메이션을 많이 보는 사람일수록 또래 관계에서 소외감을 많이 느낀다"(…) 는 연구가 발표된다고 가정해 보자. 그렇다면 이것이 정말로 믿을 만한 연구인지를 알기 위해서는 해당 연구를 재현해 볼 필요가 있는데, 그러기 위해서는 원본의 미가공 데이터가 필요하다. 그런데 정작 그 미가공 데이터에 접근할 수 있는 방법도 극히 부족하고, 미가공 데이터 자체가 공유되지도 못하고 있는 게 오늘날 학계라는 것이 연구투명성 운동가들의 주장이다.
이와 관련하여 《American Psychologist》 에 올라온 한 문헌을 예로 들면,[2] 심리학계의 기존 문헌들 중 중요한 것만 대상으로 하더라도 그 중의 73%는 데이터 세트에 대한 공유가 이루어지지 않고 있었다. 이 문헌의 저자는 분석대상 논문들의 저자들에게 연락을 취하여 데이터를 얻을 수 있는지 문의했는데, 한 번 연락으로 데이터를 얻은 사례는 단 11%에 불과했고(…) 여러 차례 문의해서 확보한 경우가 16%, 승인했으나 이후 연락두절로 확보 실패한 경우가 20%, 데이터 공유를 거부하거나 파일 삭제 등으로 인해 제공이 불가능한 경우가 무려 35%, 이메일 주소가 잘못된 경우가 4%,(…) 연락 자체가 안 되는 경우가 14%였다고 한다.
사실 데이터 공유의 문제는 통계법이나 각종 법적인 문제, 연구소나 대학교의 사정이 얽혀 있기 때문에 데이터의 장기 보존이 어려운 경우가 많다. 그렇기 때문에 전용 아카이브나 레포지토리가 반드시 필요하며, 이 부분은 문헌정보학자들의 개입과 기여가 상당히 중요하다고 말할 수 있다. 적어도 아직까지는 있어도 턱없이 부족하거나, 그런 게 있는지를 모르거나, 어디로 접속해야 하는지를 모르거나, 어떻게 써야 하는지를 모르거나, 굳이 써야 하나 싶은 경우가 많기에, 관련 홍보가 잘 안 되고 있는 실정이기도 하다.
2 어떻게 보장해야 하는가
아직까지는 산발적인 논의들만이 나오고 있지만, 사례를 중심으로 열거하자면 다음과 같다.
우선 연구데이터 전문 저널의 출범을 꼽을 수 있다. 예컨대 《Journal of Open Psychology Data》 의 경우, "data papers" 라고 해서 연구데이터만 따로 뽑아서 투고하는 것이 가능하다. 문헌들의 구성은 논문의 그것과는 다소 달라서, 개관(overview) - 연구방법(methods) - 데이터 세트 설명(dataset description) - 재사용 가능성(reuse potential) 형식으로 되어 있다.
연구투명성을 조사하는 설문지 역시 만들어졌다. "Disclosure Statement Project" 라고 불리는 프로젝트에서는 파일 서랍장 문제를 짚어보는 네 가지 사항을 질문하는 설문지가 있다. 그 구체적 내용은, 1) 누락된 데이터(data exclusion)가 있는가? 2) 숨긴 처치(manipulation) 내용이 있는가? 3) 숨긴 측정 도구가 있는가? 4) 표본 크기(sample size)를 변경했는가? 이다. 전부 기대와는 다른 결과는 숨기고, 기대에 부응하는 결과만을 취사선택해서 발표하는 관행에서 흔히 볼 수 있는 꼼수(…)들이다. 일부 대학원생들은 이 설문지 내용을 보고 뜨끔했을 수도 있겠다.
2014년부터 연구투명성을 지킨 논문에 인증 마크를 부착하는 제도 역시 시작되었다.[3] 인증은 크게 3가지이며 다음과 같다. #
- 개방 데이터(open data) : 인증마크는 청색 바탕에 막대그래프 도안이 자리하고 있다.
- 개방 재료(open materials) : 인증마크는 황색 바탕에 개봉된 박스 도안이 자리하고 있다.
- 사전 등록(preregistered) : 인증마크는 적색 바탕에 V자 도안이 자리하고 있다.
연구투명성을 준수하는 저널을 위한 가이드라인 역시 만들어졌다. 투명성과 개방성을 장려하는 가이드라인(transparency & openness promotion guidelines)에 따르면, 저널들은 일정한 기준에 따라서 4단계로 나누어질 수 있다.
- lv. 0 : 데이터 공유를 장려하는 데서 그치거나, 아예 그런 안내 자체가 없다. 연구투명성에 무관심한 기존의 학계 저널들에게 일괄적으로 부여되는 등급.
- lv. 1 : 데이터 공유를 장려하며, 가능할 경우에는 저널 측에서 관련 데이터로의 액세스를 제공한다.
- lv. 2 : 이 저널에 수록된 문헌들은 신뢰할 수 있는 레포지토리에 데이터를 공유해야 한다. 만일 액세스가 불가능할 경우에는 별도의 양해 문구를 달아두어야 한다.
- lv. 3 : 신뢰할 수 있는 레포지토리에 데이터를 필수적으로 공유해야 하며, 더 나아가 모든 출판물들은 게재 전에 재현성 검증을 필수로 거쳐야만 한다. 사실상 연구투명성 운동의 궁극적 이상이라고 볼 수 있는 등급.
또한 현대의 학계는 전반적으로 긴 글을 꺼리고 간결체를 선호하는 경향을 보이는데, 이 때문에 각 저널마다 4,000자 이하 논문만 투고하게 하는 등의 분량 규정이 존재한다. 그런데 간결하게 논문을 쓴다는 미명 하에 데이터에 대한 정보가 자칫 부족해질 수 있다는 이의가 제기되었고, 그래서 서론(intro) 및 문헌 연구(lit review) 부분만 2,000자로 분량을 제한하게 하고 나머지는 무제한으로 쓰도록 방침을 바꾸면 좋지 않겠냐는 의견도 나왔다. 또한 기존에는 연구데이터 공개를 꺼리는 동기를 주로 문제삼았지만, 역발상으로 이제는 "데이터 공유를 결심하게 하는 동기는 무엇인가" 로 접근하기도 한다. #
각 대학교들에서도 많은 노력을 하고 있어서, 예컨대 캐나다의 명문대 중 하나이자 연구투명성 및 개방과학 운동에 적극적인 브리티시 컬럼비아 대학교는 소속 교원들의 인사고과에 투명성 준수 여부를 반영하기 시작했다. 또한 예일 대학교는 자체적으로 "YODA Project" 라는 것을 만들어서 어?? 보건학 관련 레포지토리를 관리하고 있다.