신뢰도와 타당도

상위 항목 : 연구방법론 관련 정보
같이 보기 : 심리검사, 표준화

1 개요

어떤 이론을 기초로 한 검사나 조사를 평가할 때 쓰이는 두 가지 기준이다. 모든 검사나 조사를 통해 얻어진 데이터들이 전부 의미 있는 것은 아니며, 그 중 일부는 상당히 쓰레기 같을 수도 있다.(…) 이는 그 검사 내적인 문제 때문일 수 있다. 그렇다면 어떤 검사나 조사에 문제가 있는지 없는지를 어떻게 아는가? 그 여부를 판단하는 것이 바로 신뢰도와 타당도이다.

신뢰도와 타당도는 비단 연구방법론을 수강하는 대학원생들뿐만 아니라 상담이나 직업, 사회분석 관련 각종 자격증을 취득하고자 하는 고시생들에게도 시험 빈출개념으로 다루어진다. 그러나 그 중요성에도 불구하고, 처음 접하는 사람들에게는 신뢰도와 타당도가 ~~단어 자체도 좀 비슷해 보이고 해서~~ 의미상 서로 헷갈리기 일쑤이고(…) 그 하위 분류들을 일일이 다 기억하는 것도 머리가 아플 정도인 경우가 많다. 물론 어느 분야나 다 그렇듯이, 일단 이 개념들을 제대로 탑재하고 나면 이렇게 뻔하고 명백해 보이는 것도 흔치 않아 보인다.(…)

따라서 나무위키에서는 최대한 쉽고 다양한 방법으로 이해를 돕고, 약간의 의미상의 손실이나 오류를 감수하더라도 몇몇 일상적 예를 들도록 하겠다. 이보다 정확하고 자세한 정보를 원한다면 도서관에서 전공서적을 찾아볼 것.

2 신뢰도

Reliability. 해당 데이터가 구체적인 대상을 가리키는 정도이다. 일관되고 재현이 가능한(replicable) 측정이 존재하는지 평가하는 기준. 좋은 검사나 조사는 시간, 문항, 평가자와 무관하게 일관된 결과를 제공하며, 그 점수들이 반복된 측정에서 똑같이 재현되는 정도가 뛰어나다. 시기를 달리하거나, 더 많은 문항을 사용하거나, 더 많은 심사위원 혹은 관찰자들에 의해 측정되더라도, 역시 동일한 결과가 나오게 된다는 것이다. 예를 들어, 아침에 측정한 데이터와 저녁에 측정한 데이터가 서로 들쑥날쑥 천차만별이라면, 그 검사에는 그다지 믿음이 가지 않을 것이다. 군대의 영점 사격에 비유하자면, 표적지에 남은 탄착군이 작은 원 모양이 아닌 상황이다. ~~견착 불량 및 호흡 불량~~

불행히도, 대학수학능력시험의 신뢰도는 그다지 높지 않은 편이다. 왜냐하면, 2014학년도 응시자 성적은 2013학년도 시험지를 받았을 때 (그것이 처음 풀어보는 것이라고 가정한다면) 고스란히 유지될 것으로 기대하기 힘들기 때문이다. 매년 난이도 조절 실패니, 물수능이니 하는 논란이 불거지는 현상은 수능의 신뢰도가 떨어지고 있음을 의미한다. 물론 현실적으로는 어차피 점수 자체보다는 줄세우기를 해서 등급 컷으로 나누기 때문에 큰 사회적 비용까지 지출되지는 않지만...

대중적으로 유명한 성격검사인 MBTI는 어떨까? 전문가들 사이에서도 MBTI의 신뢰도에 대해서는 의견이 다소 엇갈린다. 그나마 괜찮은 편이라고 이야기하는 사람들도 있고, 신뢰도가 크게 떨어진다는 사람들도 있다. 보통은 전체 채점사례 중 40% 정도는 6개월 정도의 텀을 두고 연달아 채점했을 때 결과 유형이 바뀐다고 간주되는 듯. 어세스타를 비롯하여 MBTI를 가지고 돈을 버는 사람들도 이 문제를 놓고 고심하고 있지만, 영 뾰족한 해결책은 없는 모양이다. 사실 MBTI의 신뢰도도 그렇고 타당도도 그렇고, MBTI란 물건 자체가 태생적으로 나름의 한계를 안고 만들어진 것이다 보니 그렇다고 봐야 할 듯.

신뢰도는 후술할 타당도의 필요조건이다. 신뢰도 높고 타당도 낮은 데이터는 널려 있지만, 신뢰도 낮고 타당도 높은 데이터는 사실상 존재하지 않는다고 간주된다. 혹시라도 존재한다면, 적어도 전자보다는 후자를 택하는 게 살짝 더 안전할 거라고 한다.

확률과 통계에서 '신뢰도 n%의 신뢰구간'(0<n<100)이니 하는 것도 이러한 개념이다. 해당 구간에 모평균이 있을 확률이 n%라는 뜻. 저 n이 늘어나면 신뢰구간이 길어지는데, '이 안에 모평균이 있다'가 참이 될 확률은 더 커졌지만 오히려 모평균을 특정하기는 더 어려워졌다. 요 앞에서 말한 '신뢰도만 높고 타당도는 낮은 데이터'의 일종이라 할 수 있다. 그리고 표본의 크기가 커지면 커질수록 같은 신뢰도에서 신뢰구간이 좁아진다. 즉 표본이 클 수록 정확하다는 것. 신뢰도의 주요 독립 변수는 다음과 같다.

시간
검사/조사 내적 측면
평가자

2.1 검사-재검사 신뢰도

test-retest reliability

동일한 검사를 일정한 시간적 간격을 두고 두 번 실시하여 결과가 유사한지 확인한다. 유사하다면 검사-재검사 신뢰도가 높다고 할 수 있다. 여기서 문제는, "그럼 도대체 얼마만큼의 시간적 간격이 필요한가?" 의 질문이 나온다는 것이다. 1시간? 이렇게 단시간에 연이어 검사를 해서는 안 된다. 왜냐하면 연습효과가 발생하여 뒤의 검사결과는 앞의 검사결과보다 좋게 나오기 때문이다. 그렇다면, 2년? 이렇게 오랜 시간을 기다려서도 안 된다. 왜냐하면 성숙요인이 발생하여 시간적 경과에 따라 변화될 것으로 기대되는 변인들이 기하급수적으로 많아지기 때문이다. 가장 일반적으로 여겨지는 간격은, 위에서 슬쩍 언급했듯이 6개월 정도가 암묵적으로 받아들여지는 기간이다.

2.2 내적 일관성 신뢰도

internal consistency reliability

내적으로 검사 문항들 사이의 동일성과 합치성을 평가하는 신뢰도로, 이하의 동형 신뢰도와 반분 신뢰도의 두 가지로 나누어진다. 특정 일부 문항들에 있어서 신뢰도가 낮은 것이 포착되면, 그 문항을 삭제하거나 또는 역채점을 하여 해결할 수 있다. 그러나 만일 검사 전체가 난장판이라면, 아예 깨끗이 갈아엎고 새로 한 판 짜는 수밖에.(…)

2.2.1 동형 신뢰도

parallel-form reliability

한 검사의 문항들을 비교 가능한 두 가지의 버전으로 만들어서, 두 검사결과 점수가 유사한지 확인하는 방법. 유사하다면 동형 신뢰도가 높다고 할 수 있다. 상당히 초창기에 쓰이던 유서깊은 방법으로, 검사의 문항들을 무선표집(random sampling)하여 버전 A를 만들고, 다시 버전 B를 만든다. 두 버전 사이의 표면적인 내용은 서로 다를지언정, 그 밑바탕이 되는 이론적 배경이나 개념은 서로 완전히 동일해야 한다. 동형 신뢰도는 현실적으로 너무 어렵다는 비판을 받고 있는데, 이론적으로 동일하면서 서로 다른 두 가지 버전의 검사지를 만들라는 건 결국 개발자의 작업량을 두 배로 늘리라는 얘기이니(…) ~~갈려들어가는 건 힘없고 불쌍한 대학원생~~

2.2.2 반분 신뢰도

split-half reliability

한 검사의 문항들을 중간에 싹둑 자르든 어쩌든 해서 두 개의 버전으로 만들어서, 두 검사결과 점수가 유사한지 확인하는 방법. 유사하다면 반분 신뢰도가 높다고 할 수 있다. 이 경우 활용되는 계수는 흔히 크론바흐의 알파 계수(Cronbach's alpha coefficient)라 하는 것을 쓰는데, 나무위키에 담기에는 너무 전문적인 내용인지라 일단은 생략한다.(…) 반분 신뢰도 역시 한계가 없는 것은 아닌데, 다름이 아니라 문항의 수가 적을 경우에는 쓰기가 곤란하다는 것. 일례로 유명한 심리검사 중 하나인 로젠버그 자존감 척도(RSES; Rosenberg's Self-Esteem Scale)의 경우, 문항 수는 달랑 10개에 불과하다.(…) 이걸 대상으로 반분 신뢰도를 측정하려 할 때 어찌 될지는 더 이상 말할 필요가 없다.

2.3 평가자 간 신뢰도

inter-rater consistency reliability

한 검사의 결과 프로파일을 평가함에 있어서 둘 이상의 다수의 평가자들 사이에 그 해석이나 판단이 유사한지 확인하는 방법. 유사하다면, 평가자 간 신뢰도가 높다고 할 수 있다. 만일 결과가 유사하지 못하다면 다음 중 한 사례일 수 있다. 그 검사를 구성하는 이론적 개념이나 배경이 모호하게 적용되었거나, 너무 광범위하게 적용되었거나, 경우에 따라서는 일부 평가자들이 잘못 이해했을 수도 있다.

3 타당도

Validity. 해당 데이터가 가리키는 대상이 조사자가 알고자 하던 것과 일치하는 정도. 조사 결과가 그것이 목표로 하는 특성을 반영하는 정도. 좋은 조사는 측정 대상과 정확히 관련되고, 측정 대상이 아닌 것과 철저히 무관하며, 외적 준거에 의해서도 잘 지지된다. 의외로 많은 검사들이 A를 검사한다고 표방하지만 유사 개념인 B를 평가한다.(…) 예를 들어, 학교에서 실시한 IQ 검사가 알고 보니 학업 성취도 평가였다면, 이런 검사는 타당하지 않다고 말할 수 있을 것이다.^[1] 영점 사격에 비유하자면, 탄착군이 표적과 다른 상황이다. ~~클리크 조정이 필요한 상황~~

위의 신뢰도 서술에서도 다루어졌고, 바로 위 사격 비유에서도 암시되었지만, 신뢰도는 높은데 타당도에서 결함을 보이는 검사나 조사들이 꽤 많다. 신뢰도는 타당도의 필요조건일 뿐이다. 영점 사격에 비유하자면, 탄착군이 좁긴 하지만 표적이 아닌 곳에 있는 상황이다. 즉, 신뢰도가 얼마나 "일관되게 집중된" 탄착군을 만드느냐의 문제라면, 타당도는 얼마나 "제대로 조준된" 탄착군을 만드느냐의 문제라고 할 수 있다.

다시 한 번 수능의 문제로 되돌아가 보자. 평가원이 대오각성하여 수년간 수능의 난이도 조절에 크게 성공했다고 가정하자. 즉, 신뢰도를 높이는 데 성공했다고 가정하자. 이 상황에서, 타당도의 높낮이는 무엇을 의미할까? 수능의 존재 의의는 고등학교 졸업자들이 대학교의 고등교육을 얼마나 잘 소화할 수 있는지를 미리 가늠해 보는 것이다. 즉, 수능에서 높은 점수를 받은 학생이 과연 대학 교육도 잘 익힌다면, 수능의 타당도는 높다고 할 수 있다. 반면, 수능에서 높은 점수를 받은 학생치고는 대학교에서 영 죽을 쑤고 있다면(…) 수능의 타당도는 낮다고 봐야 할 것이다.^[2]

추가로 쉬운 예시 - 양궁대회에서 10발의 화살을 쏘았다. 선수는 10점을 맞추려고 했다.

1) 과녁에 7점, 8점, 9점, 10점 등등 고르게 맞춘 경우 : 신뢰도 및 타당도 낮다
2) 과녁에 한 방향으로만(예를 들어 오른쪽에만) 5점만 맞춘 경우 : 신뢰도는 높지만, 타당도는 낮다.
왜냐하면 선수는 10점을 맞추려고 했으니
3) 과녁에 10점(정가운데)만 맞춘 경우 : 신뢰도 및 타당도가 높다.

한번 더 MBTI 예시를 들어 보자. MBTI의 신뢰도가 높다고 주장하든 낮다고 주장하든 간에, 절대 다수의 심리학 전문가들은 MBTI의 가장 치명적인 한계점으로 "태생적으로 낮은 타당도" 를 지적한다. 대표적으로, 응답자들은 자기도 모르게 (물론 검사지에 유의사항으로 적혀 있긴 하지만) 자신의 실제 성격이 아니라 자신이 바라는(wanna-be) 이상적인 성격, 또는 자신의 직업적 특성으로 인해 강제된 성격으로 응답할 위험이 있다. 가장 중요한 문제는, MBTI에서 말하는 감각형, 직관형, 사고형, 감정형 같은 개념들이 현대 심리학에서 말하는 용어들과는 천만광년 정도 거리가 있다는 것이다.^[3] 물론 이는 칼 융의 분석심리학에 이론적 배경을 의지하고 있기 때문. 이 때문에 MBTI에서 사고니 감정이니 하는 것을 측정하더라도 그것은 실제 자신의 정확한 성격과 괴리가 발생하게 된다.^[4] 타당도의 주요 독립 변수는 다음과 같다.

문항 내용
피검사자들의 이해
외적 준거와의 비교

비슷하면서도 약간 다른 개념으로 생태학적 타당도라는 것도 있는데, 이 문서에서 말하는 신뢰도와 타당도가 조사에 대한 것이라면 생태학적 타당도는 특정 실험의 타당도를 평가하는 개념이다.

3.1 구성 타당도

construct validity

간혹 구인 타당도라고도 한다.어떤 검사가 그 기저에 존재하는 이론의 구성개념을 정확히 측정하는지 보는 타당도로, 이하의 두 가지로 나누어 볼 수 있다.

이렇게 보면 별 것 아닌 것 같거나 좀 막연해 보이지만, 흔히 말하는 바넘 효과가 발생한다는 얘기는 바로 이 구성 타당도에 문제가 있다는 뜻이다!

3.1.1 수렴 타당도

convergent validity

어느 검사와 관련이 있는 다른 이론적 예측이나 다른 검사 결과를 비교하여 결과가 유사한지 확인하는 방법. 유사하다면, 수렴 타당도가 높다고 할 수 있다. 즉, 이 검사에서 고득점을 받은 사람이 다른 이론적 예측에 잘 부합하고 관련 검사를 받아도 고득점을 받는다면, 이 검사는 타당한 검사라고 할 만한 것이다. 극단주의에 관련된 검사를 만들 경우, 극단주의에 관련된 각종 필수요소는 전부 빠짐없이 포함되어 있어야 한다. 아래의 변별 타당도도 그렇지만 이를 다시 말하면 상관관계 연구를 따로 해 봐야 한다는 얘기인데, 이걸 개별 문항들 수준에서 일일이 다 해 봐야 한다.(…) 그리고 이런 문항이 수백 개씩 들어있는 검사들이 요즘 세상에는 널려 있다.

3.1.2 변별 타당도

discriminant validity

어느 검사와 관련이 없는 다른 이론적 예측이나 다른 검사 결과를 비교하여 결과가 유의한 차이를 보이는지 확인하는 방법. 유의한 차이가 나타난다면, 변별 타당도가 높다고 할 수 있다. 즉, 이 검사에서 고득점을 받은 사람이 여타 이론적 예측과는 무관하게 움직이고 관련 검사를 받아도 현저한 차이를 보인다면, 이 검사는 타당한 검사라고 할 만한 것이다. 다시 극단주의에 관련된 검사 예시로 되돌아가자. 변별 타당도의 관점에서, 극단주의에 상관없는 내용을 묻는 문항은 절대로 있어서는 안 된다. 이런 문항이 포착된다면 그것을 삭제하거나 아니면 일종의 더미 데이터로 취급하거나, 연구대상과 정반대를 가리키는 문항의 경우에는 역채점을 할 수 있다.

이는 종종 확산 타당도(divergent validity)라고 불리기도 한다.

3.2 안면 타당도 & 내용 타당도

face validity & content validity

이 검사에 대한 사람들의 반응을 기초로 검사목적 혹은 주제를 잘 파악하는지 확인하는 방법. 사람들이 쉽게 알아챈다면, 안면 타당도 혹은 내용 타당도가 높다고 할 수 있다. 그 분야 전문가들에게 물어보는 경우에는 내용 타당도가 되고, 일반인 응답자들에게 물어보는 경우에는 안면 타당도가 된다. 물론 이렇게까지 자세하게 구분하기보다는, 그냥 두 용어를 혼용해서 쓰기도 하는 듯. 굉장히 주관적이고 질적인 타당도 기준이지만, 그래도 ~~사회과학 연구방법의 AK-47이라 할 만한~~ 리커트 척도법을 활용해서 계량화할 수 있는 길도 있긴 하다. 이런 경우는 내용 타당도 지수(CVI; Content Validity Index)라는 걸 쓰기도 하는데, 역시 너무 전문적이기 때문에 이에 대해서도 더 이상의 자세한 설명은 생략한다.

안면 타당도가 높을 경우 응답자는 이것이 자신에게 어떤 의미를 갖는지를 이해하고 더욱 성심성의껏 응답할 수 있다. 그러나 여기에는 부작용이 있는데, 특히 심리검사의 경우, 응답자가 허위반응(faking response)과 같은 반응 패턴을 보임으로써 자기 자신을 숨기려고 할 수도 있다는 점이다. 그리고 연구자가 의도하거나 원하는 게 무엇인지 알아채고, 공연히 그것에 부합하려 하거나 혹은 거부하려 하는 패턴을 보일 수도 있다. 이 때문에 안면 타당도가 높은 것이 문제가 되는 일부 검사에서는 질문의 순서를 섞거나, 별 시답잖은 더미 문항들을 중간중간에 끼워넣는 식으로 연막을 친다.(…)

3.3 준거 타당도

criterion validity

검사 외적 준거에 비추어 보아 결과가 유사한지 확인하는 방법. 검사의 결과가 예측한 내용이 외적 준거에 의해 지지된다면, 준거 타당도가 높다고 할 수 있다. 준거 타당도는 이하의 두 가지로 다시 나누어지게 되는데, 각각 장단점이 뚜렷하다. 준거 타당도는 경영학 쪽에서도 몹시 좋아하는 것인데, 입사면접이나 미래예측과 관련된 의사결정 등에서 꽤 유용히 쓰이기 때문.

3.3.1 동시 타당도

concurrent validity

기존에 존재하는 외적 준거를 통해 데이터를 확보하고, 새로 제작한 검사의 결과와 비교하여 결과가 유사한지 확인하는 방법. 유사하다면 동시 타당도가 높다고 할 수 있다. 동시 타당도는 아래의 예측 타당도에 비해 더 객관적이고 양적인 타당도에 속하며, 외적 준거와 검사의 수행이 동시에 비교된다. 기존의 검사지를 개정하거나 대체할 새 검사지를 만들었을 때에도 동시 타당도를 통해서 그 타당도를 보장받을 수 있을 것이다. 물론 기존의 유사한 검사가 존재하지 않을 경우에는 쓸 수 없다는 한계가 있다.

3.3.2 예측 타당도

predictive validity

우선 검사 데이터를 확보한 이후에 시간이 지남에 따라 그 예측한 바가 얼마나 현실에 부합하는지 확인하는 방법. 부합한다면 예측 타당도가 높다고 할 수 있다. 예측 타당도는 위의 동시 타당도에 비해 더 주관적이고 질적인 타당도에 속하며, 외적 준거와 검사의 수행이 서로 다른 시기에 이루어진다. 대표적으로 취업 현장에서 직무적성 테스트를 할 경우, 그 테스트의 타당도를 확인하려면 여기서 고득점을 올린 구직자가 실제 취업 이후에 얼마나 높은 직무수행을 보이는지 ~~아니면 뜻밖에도 쩔쩔매거나 뺀질거리는지~~ 관찰하는 수밖에 없다. 이를 거꾸로 뒤집어 말하면, 예측 타당도는 앞으로의 미래에 벌어질 일을 이야기하는 타당도라고도 할 수 있다. 타당도를 확인하려면 "기다려야 한다" 는 점이 종종 심각한 단점으로 작용하기도 한다.

↑ 비슷하게는, 우울장애를 검사하는 문항이 불안(anxiety)을 측정할 위험이 있다. 또는, 응답자의 애국심을 검사하는 문항이 집권 대통령에 대한 국정지지도를 평가할 위험이 있다.
↑ 이 문제에는 논란의 소지가 있다. 대학교란 것은 대개 지적 수준이 비슷한 학생들을 모아 놓고 가르치는 곳이다. 쉬운 이해를 위해 극단적으로, 서울대와 비인기 대학의 강의 수준 차이를 생각해 보자. 서울대에서 평점이 낮은 학생은 비인기 대학의 수석 학생보다 본인이 받는 강의를 소화하는 것이 힘들겠지만, 전자의 대학 교육 이수 능력이 후자보다 낮다고 판단하기는 힘들다.
↑ 감각(sensation)의 경우 단어는 같되 의미는 전혀 다르고, 감정(feeling)의 경우 심리학에서는 잘 쓰지 않으며 그보다는 정서(emotion)나 정동(affect) 같은 단어가 더 많이 쓰인다.
↑ 대조적으로, Big5 검사인 NEO-PI-R의 경우 최종보스급 신뢰도와 타당도를 전세계에서 인정받은 바 있다. 심지어 Big5의 배경이 된 5요인 모형(FFM; Five Factors Model)에 반대하는 연구자들조차도 NEO-PI-R의 타당도에 대해서는 거의 태클을 걸지 않는다고.

[1] 비슷하게는, 우울장애를 검사하는 문항이 불안(anxiety)을 측정할 위험이 있다. 또는, 응답자의 애국심을 검사하는 문항이 집권 대통령에 대한 국정지지도를 평가할 위험이 있다.

[2] 이 문제에는 논란의 소지가 있다. 대학교란 것은 대개 지적 수준이 비슷한 학생들을 모아 놓고 가르치는 곳이다. 쉬운 이해를 위해 극단적으로, 서울대와 비인기 대학의 강의 수준 차이를 생각해 보자. 서울대에서 평점이 낮은 학생은 비인기 대학의 수석 학생보다 본인이 받는 강의를 소화하는 것이 힘들겠지만, 전자의 대학 교육 이수 능력이 후자보다 낮다고 판단하기는 힘들다.

[3] 감각(sensation)의 경우 단어는 같되 의미는 전혀 다르고, 감정(feeling)의 경우 심리학에서는 잘 쓰지 않으며 그보다는 정서(emotion)나 정동(affect) 같은 단어가 더 많이 쓰인다.

[4] 대조적으로, Big5 검사인 NEO-PI-R의 경우 최종보스급 신뢰도와 타당도를 전세계에서 인정받은 바 있다. 심지어 Big5의 배경이 된 5요인 모형(FFM; Five Factors Model)에 반대하는 연구자들조차도 NEO-PI-R의 타당도에 대해서는 거의 태클을 걸지 않는다고.

[1]

[2]

[3]

[4]