H 인덱스

상위 항목 : 연구방법론 관련 정보, 지표
같이 보기 : 과학계량학

지표 (metrics)
저자 수준	저널 수준	문헌 수준
h-index	임팩트 팩터 SJR SNIP	피인용수

1 개요

h-index / Hirsch index

지표 혹은 계량(metrics)의 한 종류로, 개별 연구자의 연구업적과 성취, 학계에 미치는 영향력을 자연수로 표현한 것.

IF가 저널의 품질을 가늠해 보는 데 쓰이고, 피인용수가 논문의 인기를 가늠해 보는 데 쓰인다면, 이 h 인덱스는 연구자의 역량을 가늠해 보는 데 쓰인다. 이게 단순해 보이면서도 그만큼 직관적이고 깔끔한지라, 오늘날 어마어마하게 적용되어 쓰이고 있는 중.

2 상세

처음에 만들어진 것은 2005년으로, 만들어진 지 10년도 채 못 되어 학술세계를 완전히 장악해 버릴 정도로 인기를 얻었다. 캘리포니아 대학교 샌디에이고 캠퍼스에 있던 물리학 교수 조지 허시(Jorge E. Hirsch)가 자신의 논문 《개인의 과학적 산출량을 계량하기 위한 지표》(An Index to Quantify an Individual’s Scientific Output)를 발표한 것이 그 시초.

h 인덱스 값은 허시의 논문 그림자료 1번에 제시된 그래프를 따라 공식화되는데, 구체적인 내용은 다음과 같다.

가로축을 긋고 "논문의 수"(paper number)로 정한다.
세로축을 긋고 "피인용수"(number of citation)로 정한다.
만들어진 좌표평면 위에 원점에 대하여 볼록한 형태의 곡선을 그린다.
만들어진 좌표평면 위에 원점을 지나면서 기울기가 45도인 직선을 그린다.

여기서 곡선과 직선이 만나는 점, 즉 한 연구자가 출판한 논문의 수와 인용의 수가 같은 점이 생기는데 이를 h 값이라고 하고, 곡선 아래의 전체 넓이는 이 연구자가 지금껏 출판한 모든 논문들의 모든 피인용수라고 할 수 있다. 정리하면, "어떤 연구자의 h 인덱스 값이 h 일 때, 이 연구자의 논문 중 h 편이 h 회 이상 인용되었다."^[1]

이 지표가 쌈빡한 이유는 따로 있는데(…) 정량적인 지표이면서도 그와 동시에 양적 수준과 질적 수준을 모두 포괄하여 보여준다는 특징이 인정받았기 때문이다. 위키러 여러분이 머릿속으로 간단한 사례를 가정해서 계산해 보면 알겠지만, h 인덱스는 "가끔씩 불후의 논문을 쓰거나" 아니면 "그냥저냥한 논문들을 공장처럼 뽑아내는" 연구자들에게 결코 좋은 숫자를 내놓지 않는다. 다시 말해, h 인덱스가 높게 나오는 연구자들은 즉 양적으로도 우월하고 질적으로도 범접할 수 없는 넘사벽의 석학이라는 얘기다.

3 비판

단 어느 지표나 다 그렇듯이 이것 역시 한계점은 존재한다. 가장 우선 떠오르는 것은 역시 원로 석학들에게는 유리하지만 박사후 과정이나 초짜 연구자들에게는 불리하다는 것. 이제 막 학계에 발을 들여놓은 연구자치고 좋은 h 값이 나올 리가 없고, 이 경우 h 값은 이 새파란 연구자가 얼마나 실력이 대단한지를 제대로 보여주지 못하게 된다. 또한 인용을 근거로 측정하는 지표가 다 그렇듯이, 서로 다른 분야의 연구자들끼리 비교하는 건 영 무리다. 더불어 자기인용 부분을 제거하지 않았기 때문에 실제보다 다소 과장되었을 위험이 있고, 마지막으로 한 논문을 여러 연구자들이 쓰게 될 경우 그 기여의 정도가 다 다를 수 있는데 이 부분이 모두 동일하다고 간주하고 측정된다는 한계가 있다.

극단적인 예시로 다음과 같은 사례를 생각해 볼 수 있다.

* 유능한 박사후과정 A박사 - 각각 350, 452, 877회 citation된 단독 1저자 논문 3개를 출판했다. 숫자에서 볼 수 있듯 상당히 업계에서 유명한 논문들이고, 본인도 유명하지만, SCI 논문은 이 3개 뿐이다. - A박사는 웬만한 교수들은 그냥 동급 이상으로 인정해주는 장래가 촉망되는 젊은 연구자다. - 이 경우 A박사의 h index는 3이다. (3회 이상 인용된 논문 3개를 낸 건 사실이지만 4회 이상 인용된 논문 4개를 낸 것은 사실이 아니므로) * 거대 유명그룹에 소속되어 교수의 통제를 받는 박사후과정을 보조하는 박사과정이 시킨 잡일을 하는 석사 2년차 B학생 - 1저자는 커녕 2저자나 3저자 논문도 하나도 없고 끝에서 2저자(...) 논문만 자기도 모르는 새(...) 10개다. - 그냥 양산형 실험논문이라 10개의 논문이 citation된 횟수는 각각 8, 7, 7, 6, 5, 5, 3, 0, 0, 0이다. - 심지어 앞의 8, 7, 7, 6, 5, 5, 3번 인용되었다는 7개의 논문은 절반이 자기인용이다(...) - 이 경우 B학생의 h index는 5이다. (뭔가 좀 부실하지만 어쨌든 본인 이름이 들어간 5회 이상 인용된 논문 5개를 낸 것이 사실이므로)

위 사례에서 볼 수 있듯이, h인덱스를 높이려면 일단 다작이 기본이 되어야 하고, 그 저자가 쓴 논문의 품질이 온전히 반영이 안되는 문제가 있다. 그리고 앞서도 언급되었듯이 자기인용에 의한 뻥튀기도 제거가 안되고, 논문에 대한 기여도도 반영이 안된다. 그리고 별로 관여도 안했으면서 이름만 빌려주고 여기저기 기웃거리면서 학계에서 20년 이상 버티면 누구도 무시 못할 엄청난 h-index보유자가 되는 경우도 가능하고, 실제로도 국내외를 불문하고 생각보다 이런 사람이 많다.

4 이야깃거리

h 인덱스는 구글 스콜라에서도 지원하며, 연구자 프로필 내역으로 들어가면 우측 상단에 심지어 시계열 추세까지 보여주면서 상세히 보고서를 뽑아놓는다. WoS나 SCOPUS 같은 몇몇 학술DB들에서도 열람이 가능하다. 단, 이들끼리는 서로 h 값이 다른 경우가 많은데, 그 이유는 이들이 서로 다른 기준에 입각하여 피인용수를 정리해 보여주고, 그 결과 피인용수를 근거로 하여 계산되는 h 값 역시 달라지게 되기 때문.

유사품도 많이 있다. 그 중에서 i10 인덱스(i10-index)는 구글 스콜라에서 함께 제공하는 것인데, 어떤 연구자의 논문 중에서 10 이상의 피인용수를 얻은 논문의 수를 나타낸 것이다. 한편 h 코어(h-core) 역시 구글 스콜라에서 제공하는데, 어떤 연구자의 논문을 피인용수에 따라 내림차순 정렬한 다음, h 값만큼의 상위 논문들을 취합한 데이터이다. 그 연구자의 연구업적 중 핵심 중의 핵심이라고 할 수 있겠다. 그 외에도 h5 인덱스(h5-index) 같은 것도 있는데, 구글 스콜라에서는 희한하게도 이걸 가지고 저널을 계량하는 데 써먹고 있다.(…)^[2] 하여간 개량이나 대안이 꽤나 많이 나온 거라서, 이듬해인 2006년에 레오 에게(L.Egghe)에 의해 제안된 g 인덱스(g-index) 같은 것도 있는 등 한도끝도 없다.

5 예시

몇몇 사례들을 들자면 다음과 같다. 예컨대 심리학 분야에서 2015년 기준 최종보스 급으로 활약중인 석학 두 명을 들자면, R.Baumeister의 경우 h 값이 138이며, R.R.McCrae의 경우 h 값이 124이다. 폴리아세틸렌등 고분자의 전자기적 성질에 대한 규명으로 노벨 화학상을 수상한 물리학자 앨런 히거가 178. 한편 무신론 성향으로 유명한 심리철학자 대니얼 데닛(D.C.Dennett)의 h 값은 같은 해 기준으로 79. 초끈이론의 거장인 에드워드 위튼의 h 값이 110이고, 우리나라 컴퓨터공학과 교수님들의 h 값의 평균은 약 30정도. 다른 분야도 확인되면 추가바람. 물론 분야별 비교는 앞서도 말했듯이 불가능하다.

↑ 구글 스콜라에 따르면, 어떤 연구자의 h 개의 논문들의 피인용수가 h 회 이상이 되기 위한 가장 큰 수가 h 이다.
↑ h5인덱스도 어떻게 보면 꽤 설득력 있어 보이는 지표지만, 게재되는 논문의 양이 일단 압도적으로 많은 저널이 유리할 수밖에 없으므로 비판이 많다.

[1] 구글 스콜라에 따르면, 어떤 연구자의 h 개의 논문들의 피인용수가 h 회 이상이 되기 위한 가장 큰 수가 h 이다.

[2] 5인덱스도 어떻게 보면 꽤 설득력 있어 보이는 지표지만, 게재되는 논문의 양이 일단 압도적으로 많은 저널이 유리할 수밖에 없으므로 비판이 많다.

[1]

[2]