변인

variable

1 개요

어떤 연구의 대상이 되는 일련의 관찰된 특성의 집합으로, 특정 개념이 조작적 정의[1]를 통해 둘 이상의 서로 다른 관찰값을 갖도록 정량화가 가능하게 된 것.[2] 넓은 의미에서는 연구의 대상이 될 수 있는 잠재성을 지닌 모든 특성의 집합으로 말할 수도 있다. 변수라고 불리기도 한다. 약간 다른 방향에서 말하자면, 구성(construct)이라는 개념을 조작화한 것이라고도 할 수 있다.

연구 현장에서는 숨쉬는 것처럼 자연스럽게 통하는 용어지만 막상 하나하나 설명하기는 굉장히 까다로운 것.(…) 변인은 크게 두 가지 정도의 특성을 갖고 있다. 첫째, 이론 속의 특정 개념(concept)에 대응하지만, 경험적 실증세계에서 지표를 통해 측정이 가능하다. 즉, 어떤 개념이 연구를 위해 조작적으로 정의되면 그때부터는 연구용으로 적합한 "변인" 이 된다. 둘째, 모든 변인은 값(value)으로든 범주(category)로든 간에 둘 이상의 서로 다른 값을 갖는다. 예를 들어 값의 수가 가장 적은 변인인 "성별"(sex)의 경우에도 "남성", "여성" 의 두 가지 값이 나온다. 물론 "참가자(participant) 학생의 전교 석차" 처럼 많은 값을 가질 수도 있고, "특정 행동의 관찰 빈도" 처럼 사실상의 양수 범위 전체가 값이 될 수 있으며, 사실 이런 경우가 더 많다.

변인의 문제는 특히 사회과학에서 굉장히 강조되는데, 이는 사회가 워낙에 복잡 다양해서 그런지 "완벽하게 통제된 연구 환경" 을 조성하기가 극도로 까다롭기 때문이다. 결과적으로 어느 정도씩은 불필요한 변인이 개입하여 연구 데이터를 왜곡시킬 가능성을 감수해야만 한다. 그렇기 때문에 자료분석이나 조사방법에 있어서 변인은 항상 중요하게 다루어지고 있다.

2 종류

2.1 독립 변인

independent variable (IV)

종속 변인[3]에 선행하면서, 종속 변인에 영향을 줄 것으로 기대되거나 종속 변인의 변화를 예언(predict)할 수 있다고 여겨지는 변인이다. 사실상 연구의 주제가 되며, 연구자의 처치(treatment)가 가해지는 변인이기도 하다. 대부분의 실험 연구는 어떤 독립 변인이 특정 종속 변인과 인과관계를 갖고 있는 게 맞는지 검토하는 방식으로 이루어진다.

한 마디로 말하자면 원인, 수학x 값. 함수에서도 그렇듯이, 독립 변인은 연구자 맘대로 조절할 수 있다. 다시 말해서 취급이 자유롭다. 쉽게 비유하자면 이렇다. 종속 변인은 독립 변인의 눈치를 보면서(…) 자기 값을 일정하게 정해서 따라가야 하는 운명인지라 이름이 '종속 변인' 이 되었고, 독립 변인은 종속 변인의 의향(?)과는 무관하게 지 꼴리는 대로 값을 정할 수 있으므로(…) 그 자유로움 덕분에 이름이 '독립 변인' 이 되었다는 것.[4]

사소한 것이지만 독립 변인은 엄밀히 말하자면 "종속 변인에 영향을 주는 변인" 이 아니라 "종속 변인에 영향을 준다고 간주되는 변인" 이라고 하는 쪽이 안전하다. 왜냐하면 인과관계는 증명이 불가능하고, 어디까지나 입증의 영역이기 때문이다. 즉 연구자들은 나날이 쌓여가는 긍정적인 연구 데이터들을 토대로 해서 "이 정도라면 인과관계가 존재한다는 주장을 신뢰할 수 있겠어" 라는 결론을 얻을 따름이지, "이 변인은 종속 변인에 영향을 미친다고 확실히 증명되었어" 라는 결론을 얻지는 않는다.[5]

만일 어느 대학원생에게 지도교수가 "그래서, 지금 이 변인이 독립인가 종속인가?" 라고 묻는다면, 그 말을 다시 풀면 "이 변인을 연구자가 조작할 수 있는가?" 의 의미가 된다. 행여 대학원생 위키러가 있다면 당황하지 말자.

2.2 종속 변인

dependent variable (DV)

독립 변인에 후행하면서, 독립 변인의 변화에 의해 영향을 받을 것으로 기대되는 변인이다. 연구자가 최종 단계에서 분석하게 될 데이터는 바로 이 종속 변인이다. 연구자의 통제 하에 있는 변인이 아니기 때문에, 결과가 어떻게 나올지는 연구자도 장담할 수 없다. 연구자의 기대에 부합하면 가설이 옳은 것이고, 연구자의 기대에 어긋나면 가설이 틀렸을 뿐.[6]

한 마디로 말하자면 결과, 수학의 y 값. x 값을 이래저래 넣어 봐서 y 값이 나오는 걸 보고 두 변인 사이에 어떤 관계가 존재하는지를 파악하는 것이 가장 중요하다. 특히 결과의 대조를 위해 자연 상태의 관찰대상을 하나 더 정해놓는 것도 잊어서는 안 된다. 위에서도 설명했지만 종속 변인은 연구자가 그 값을 정할 수 없다. 만일 연구자가 임의로 종속 변인의 값을 정했다면 이는 아주 훌륭한(?) 연구부정행위가 된다!(…) 학계에서 이런 짓을 하다가 걸리면 매장당한다.

이제 독립 변인과 종속 변인을 확인하기 위해 간단한 예를 들어 보자.

어느 연구자가 자신의 연구주제를 "대중매체의 폭력성이 어린이 시청자의 폭력성에 미치는 영향" 으로 삼았다. 이를 위해 이 연구자는 "대중매체의 폭력성" 이라는 개념을 조작적 정의하여 "무선추출된 10분 동안의 비디오 클립에서 관찰된 신체적, 언어적, 정서적 공격성(aggression)의 횟수의 합" 으로 정하고, "어린이 시청자의 폭력성" 이라는 개념을 조작적 정의하여 "비디오 클립 시청 후 10분 동안 관찰된 신체적, 언어적, 정서적 공격성의 횟수의 변화" 로 정했다. 연구자는 실험집단을 두 개로 나누어, 한쪽은 가벼운 폭력성이 포함된 비디오를, 한쪽은 심각한 폭력성이 포함된 비디오를 보여주기로 하였다. 연구자는 먼저 무선추출된 어린이 집단을 10분 동안 자유롭게 놀게 하며 상태를 관찰하고, 통제집단에게는 자연 다큐멘터리로 구성되고 실험집단에게는 가볍거나 심각하게 폭력적인 프로그램으로 구성된 비디오 클립을 10분 동안 보여주었으며, 이후 각각의 세 집단을 10분 동안 관찰하면서 어떤 변화가 생겼는지 관찰하기로 하였다.

이 사례에서 독립 변인은 비디오 클립 속에 포함된 공격성의 정도가 되고, 종속 변인은 비디오 시청 전후로 어린이가 보여주는 공격성의 정도가 되겠다.

2.3 제3의 변인들

현실적으로 세상은 그렇게 단순 명료하고 만만하지가 않다.(…) 그렇기 때문에 두 변인 사이의 간단한 인과관계로 그치는 사례는 오히려 거의 없고, 온갖 어디서 굴러먹다 왔는지 모를 개뼉다귀 같은 별의별 기상천외한(?) 변인들이 한도끝도 없이 복잡하게 연결되어 상호작용하고 있다. 이 때문에 연구자들은 제3의 변인들의 가능성을 최대한 고려하고, 숙고하고, 예측해서, 적절하게 통제해야만 한다.

연구자들의 최종적인 목표는, 실험 결과에 유의미하게 영향을 미칠 것으로 예상되기는 하지만 그래도 자기 연구에서 독립 변인으로 인정해주기는 싫은(…) 변인들을 최대한 찾아내어 통제 변인으로 바꾸는 것이다.

2.3.1 매개 변인

mediator

독립 변인과 종속 변인 사이에 끼어서 인과적인 연쇄의 고리를 형성하는 변인. 즉 처음에는 독립 변인이 종속 변인의 원인이 되는 간단한 관계라고 생각했는데, 따져보니 그게 아니라 독립 변인의 결과 매개 변인이 따라오고, 매개 변인의 결과로 종속 변인이 따라오는 복잡한 케이스라고 할 수 있다. 물론 이론상으로는 독립 변인이 매개 변인에 완전하게 의존하여 종속 변인에 영향을 미치는 케이스도 가능은 하지만, 많은 경우에는 매개 변인에게도 일정 부분 의존하면서 종속 변인에게도 직접적으로 영향을 미치기도 한다.[7]

매개 변인이 개입하는 순간, 매개 변인은 독립 변인에게는 종속 변인으로서의 위상을 갖게 되고, 종속 변인에게는 독립 변인으로서의 위상을 갖게 된다. 물론 실제 독립 변인과는 달리, 그 기능이 규정되어 있지 않고 비가시적인 차원에서 불확실한 수준으로 변인 관계에 개입한다.

매개 변인은 현명한 연구자가 잘 활용하기만 하면 독립 변인과 종속 변인 사이의 논리적 관계에 대한 새로운 통찰을 제공한다. 연구는 전혀 예상치 못한 새로운 국면으로 접어들 수도 있고, 차후의 연구에 대한 좋은 길잡이가 될 수도 있다.

2.3.2 조절 변인

moderator

독립 변인과 종속 변인 사이의 인과관계의 강도(strength)에 영향을 미치는 변인. 조절 변인이 변화하게 되면 독립 변인과 종속 변인 사이의 인과관계는 강해지기도 하고 약해지기도 한다. 즉 같은 종속 변인의 데이터라고 하더라도 독립 변인이 종속 변인의 값을 예언하는 정확성이 높아질 수도 있고 낮아질 수도 있는 것이다. 앞서 심리학관찰학습 사례를 가져올 경우, 조절 변인은 "부모의 TV시청 지도" 가 될 수 있다. 적절한 TV시청 교육을 받은 어린이는 공격적 비디오를 보더라도 그 공격성을 덜 학습하게 될 것으로 기대할 수 있다.

이번에는 경영학 분야의 성과급으로 예를 들어 보자. 성과급 제도를 도입하면 사원들의 실적이 향상될 거라는 가설을 세웠을 때, 독립 변인은 성과급 시행 여부(Y/N)가 되고, 종속 변인은 사원들의 실적의 증감이 된다. 여기서 조절 변인으로 감안할 것은 관리자의 리더십이다. 만일 관리자가 권위주의적(authoritarian) 리더십을 보여준다면 성과급 제도는 실적의 증가로 이어지기 어렵게 될 수 있을 것이다.

2.3.3 외생 변인

extraneous variable

독립 변인과 종속 변인 양쪽 모두에게 영향을 미치고 있어서, 실제로는 존재하지 않는 인과관계를 만들어내는 변인. 다시 말해, 변수 x 와 변수 y 의 모두의 변화를 설명할 수 있는 변인이다. 겉으로 보기에는 독립 변인이 원인, 종속 변인이 결과인 것 같지만, 한꺼풀 벗겨보면 외생 변인이 존재하기 때문에 인과관계가 존재하는 것처럼 보일 뿐이다. 만일 외생 변인을 통제하게 되면 독립 변인과 종속 변인 사이에 "존재하는 것으로 보이던" 인과관계가 사라져 버린다.

상관관계와 인과관계 항목에도 나오지만, 아이스크림 판매량이 증가하면 익사 사망자 수도 증가한다. 얼핏 보면 아이스크림이 사람잡는 음식인 것 같다. 설마... 사실은 여름철 더위라는 외생 변인이 존재하기 때문에 거짓 인과관계가 나타나게 되는 것.[8] 다른 예를 들면, 경찰의 수가 많을수록 범죄 피해액이 많아지는 경향이 있는데, 범죄를 줄이려면 경찰을 줄여야 할까? 알고보면 그 지구에 범죄 발생 빈도가 유달리 높기 때문에 경찰도 많고 범죄 피해액도 높은 것일 수 있다.

보다시피 외생 변인은 논리와도 밀접한 관계가 있다. 이 링크에서 유사한 오류들을 많이 찾아볼 수 있다. (외생 변인과는 무관한 오류의 사례들도 있으므로 유의)

2.3.4 통제 변인

control variable

연구에 유의미한 영향을 미칠 것으로 예상되어 연구자가 통제한 변인. 쉽게 말해서, 연구 데이터를 왜곡시킬 수 있는 아까 그 개뼉다귀 변인들을 블랙리스트(?)에 올려놓고, 이들이 연구 환경에 발붙이지 못하도록 실험 조건을 설정함으로써 해당 연구와는 완전히 무관하게 만들어버리는 것이다. 모든 예상 변인들이 연구에 영향을 미치지 못할 것이라고 생각되면, 이제 연구자는 그 실험의 조건에 대해서 "잘 통제되었다" 고 말할 수 있다.

물론 이렇게까지 하더라도 여전히 연구자가 예상치 못한 변인들이 갑툭튀해서 연구결과를 망쳐놓을 위험이 존재한다.[9] 연구자 혼자서는 이러한 변인들을 추적하기가 쉽지 않기 때문에 동료 연구자들과 체계적으로 실험설계 내용과 실험 데이터를 교류하면서 비평을 받게 되는데, 이 과정을 동료평가라고도 한다. 즉 이 사람이 발견하지 못한 변인을 저 사람이 발견해서 "이 연구, 이러이러한 변인이 개입되었을 수 있겠는데요?" 라고 조언해 주는 것이다.

이렇게까지 하더라도 여전히 연구자들은 그들의 데이터가 실제 관계를 온전히 설명하리라고 믿지는 않는다. 단지 최대한 실제에 근사하도록 최선을 다할 뿐. 나머지 자잘한 변인들에 대해서는 약간의 위험을 감수하고 "케테리스 파리부스"(ceteris paribus) 선언을 하기도 한다. 영어로 옮기면 "All other things being equal", 한국어로 옮기면 "다른 모든 조건들이 동일할 때" 가 된다. 일종의 가정인데, 현실을 설명하는 능력이 그나마 어느 정도 보존될 수 있으니까 써먹는 것이지, 결코 "현실을 온전히 설명할 수 있어서" 써먹는 게 아니다.(…)[10] 특히 경제학에서 이런 걸 좋아한다.
  1. 자신이 연구하고자 하는 것들을 객관적인 값으로 볼 수 있게 하는 것. 예를들면 똑똑함이라는 개념에 조작적 정의를 가하면 iq라는 수치로 표현이 된다. 물론 iq가 똑똑함의 다는 아니다
  2. 이를 더 세밀하게 구분하자면, 정숫값을 취할 수 있는 이산 변수(discrete variable)와, 존재하는 모든 실숫값들을 취할 수 있는 연속 변수(continuous variable)로 나누어 볼 수 있다. 이산 변수는 불연속 변수라고도 한다. 이에 따라 통계적 분석 방법도 바뀌는데, 이산 변수만 가지고 분석할 경우에는 카이자승 분석을 해야 한다.
  3. 실험이 아닌 연구에서는 기준 변인(criterion variable)이라고도 한다.
  4. 함수에 다시 비유하자면 y=x+2 라는 식이 있을 때, x 에 무엇을 넣을지는 맘대로지만 y 값은 자신이 투입하는 x 값에 의해서만 결정된다고 봐도 되겠다.
  5. 물론 일상적으로는 그런 식으로 말해도 통하긴 한다.
  6. 보다 엄밀하게 다시 설명하면, 종속 변인의 변화가 연구자의 기대에 부합하면 영가설(null-hypothesis)을 기각할 수 있게 되고, 연구자의 기대에 어긋나면 영가설을 기각할 수 없게 된다. 이것도 은근 중요한 게, "영가설을 채택한다" 는 말은 존재하지 않는다.
  7. 이를 다시 직접효과(direct effect)라고도 한다.
  8. 물론 상관관계 자체는 분명히 존재한다.
  9. 이러한 불청객 변인을 가리켜서 혼입 변인(confounding variable)이라고도 한다.
  10. 사실 변인을 "통제" 한다는 발상 자체가 이미 현실과 멀어지겠다는 선언을 하는 것과 다름없다.