죄수의 딜레마

Prisoner's Dilemma.

1 소개

대한민국에서는 영어를 그대로 직역했기에 죄수딜레마란 표현을 많이 쓰고 있다. 그외에 수인(囚人)의 딜레마, 용의자의 딜레마, 용의자의 고민[1]이라고도 한다. 두 명의 참여자가 2개의 선택권을 가지고 있는 대표적인 2×2 게임.[2]

게임 이론의 대표적인 예시 중 하나다. 이 외에도 세 명의 총잡이가 게임 이론의 유명한 예시 중 하나. 하지만 《이기적 유전자》라는 희대의 베스트셀러를 만난 죄수의 딜레마 쪽이 더 유명하다. 세계적으로, 그리고 다양한 학문들 사이에 엄청난 영향력을 미친 유명한 예로서, 그만큼 많은 학제에 직간접적으로 도움을 주었다. 미시경제학에서 시작됐지만 비단 경제학뿐 아니라 경영학, 행정학(정책학), 생물학, 생태학 등 문과와 이과 어느 쪽에서나 설명력을 갖는다. 그 외에도 상대 정당에 대한 정확한 정보가 없는 상태에서 의사결정을 내려야 한다는 점에서 정치학, 특히 국제관계상의 문제를 다루는 국제정치학에서도 등장한다. 냉전 당시 군비경쟁을 이 모형으로 설명하는 것이 대표적인 예이다.

2 내용

두 명의 공범이 의심되는 용의자를 따로따로 수사실로 불러 자백을 할 수 있는 기회를 준다. '둘 다 자백하지 않으면 2년 징역, 둘 다 서로의 죄를 자백하면 7년 징역, 둘 중의 한 명이 자백하고 다른 한 명은 자백하지 않았다면, 자백한 쪽은 석방, 자백하지 않은 쪽은 10년 징역에 처하게 된다'는 상황에서 용의자는 자백을 하는 것이 이득인가, 아니면 자백하지 않는 것이 이득인가를 따진다.

<표:자신과 상대의 자백여부에 따른 자신의 수감기간>

상대의 자백상대의 거부
자신의 자백자신, 상대 모두 7년자신 석방, 상대 10년
자신의 거부자신 10년, 상대 석방자신, 상대 모두 2년

두 사람이 각자의 이익을 위해서 이성적으로 행동한다 가정하면, 상대방이 취하는 행동과 무관하게 자신이 자백하는 것이 이득이므로[3] 둘 다 자백을 택하게 된다. 그 결과 둘 다 사이좋게(?) 7년의 징역을 살게 된다는 것을 통해 개개인의 이익을 보려는 행동이 전체적으로는 손해를 보는 결과를 초래할 수 있다는 것을 시사하고 있다.[4] 이는 상당한 논란을 불러 일으켰다. 용의자의 딜레마란 게임 자체는 장 자크 루소가 등위 게임이라는 이름으로 등장시킨 매우 오래된 예시였지만 1950년대 캘리포니아에서 메릴 플레드와 멜빈 드레셔에 의해 정립되었으며 그 후폭풍은 가히 충격적이었다. 이 이론으로 인해 애덤 스미스자유방임주의, 즉 '서로가 서로의 이익을 위해 노력하다 보면 자연히 사회는 발전하게 된다'라는 이야기는 절대적 진리의 자리에서 한발자국 물러나게 되었다.

경제학이 아닌 경로로 딜레마를 접하면서 가장 많이 하는 실수 중 하나가 보복에 대한 부분이다. 경제학 서적을 살펴보면 알겠지만 이 딜레마는 비협조 게임의 전제하에서 진행되는 내용이다. 선택에 대하여 상대방은 어떠한 강제력(보복)도 행사할 수 없다전제조건 하에 있는 게임이다. 동일한 게임을 여러번 반복할 경우 앞선 선택에 대해 보복이 가능하여 결과가 달라지는 건 물론이거니와[5], 특히 둘이 단순한 공범관계가 아니라 범죄 조직원이거나 할 경우, 상대 이외의 조직의 제3자가 자신을 배신자로 간주해 암살할 수 있다는 사실이 영향을 미치게 된다.

3 해결 방법

이 딜레마를 해결하기 위해 '정보의 격리'를[6] 푼 뒤 당사자간에 담합을 한다거나 연속된 죄수 게임에서 상대의 대응을 그대로 따라해 상대가 최선의 공동으로 유리한 선택을 하게 하는 논리, 상대가 자신만 유리한 결정을 한 것에 즉시 대가를 치르게 하는 논리 등이 나와있다.

예를 들어 서로 의사소통이 되는 상태에서 이러한 '게임'을 단기성으로 한 번 하고 끝나는 게임이 아니라 반복적으로 하게 되면 다음 게임 결과에 영향을 주기 때문에 서로 이익을 보는 방향인 '둘 다 거부'로 나아갈 수 있다.[7]

반복되는 횟수가 유한하게 정해진 경우에 '자백'이 선택되는 것은 무엇 때문일까? 예를 들어, 100번 반복되고, 형기의 합계를 최소화하는 것이 이익이 되는 '게임'이라고 하자. 우선 마지막 100번째에서 둘 중 한 사람이 '자백'을 선택하면 자신은 1년, 상대는 10년의 형기를 받는다. 그렇기 때문에 마지막 100번째의 선택은 '자백'이 최선의 전략이다. 그렇다면 99번째는 어떨까? 어차피 100번째에는 상대방이 배신할 것이므로 99번째의 선택지에서 상대방에 대한 의리를 지켜서 '거부'를 선택할 필요가 없어진다. 따라서 99번째의 선택지 '자백'이 최선의 전략이 된다. 이런 과정으로 결국 모든 선택지가 '자백'이 되는 것이다.

이 딜레마는 인간이 이성적으로 사고할 때 안습적인 결과가 나오지만, 이 게임을 무한 반복하면 신기하게도 동지애가 생길 수도 있다. 예를 들어 1차세계대전 당시 전선이 정체되는 경우가 많았는데, 식사시간이나 크리스마스는 전투를 중단한다든가 같이 모여서 파티를 벌이는 등의 경우를 들 수 있다.

이에 대해서 전문적으로 알기 위해서는 경제학의 미시경제학, 더 구체적으로는 '게임 이론'을 학습할 수 있다. 단지 상식적인 이해를 원한다면 좋은 책으로 협력의 진화가 있다. 이 책은 로버드 액설로드(Robert Axelrod)가 계속해서 반복되는(정확히는 언제 끝날지 알 수 없는) 죄수의 딜레마 상황에서 최적의 전략[8] 은 무엇인지를 찾아내는 두 번의 대회의 결과를 정리한 것이다. 놀랍게도 이 대회에서 온갖 꼼수와 치사함(...)이 난무하는 전략들 중 1위를 차지한 것은 무척 단순한 '팃포탯(Tit-for-tat) 전략'이었다. 얼마나 간단하냐 하면, 처음에는 상대방과 협력한 뒤, 다음 번에는 상대방이 지난 번에 내게 했던 것과 똑같이 따라한다. 가 전부. 즉, 처음에 협력한 뒤에 상대방이 배반했다면 다음번에는 나도 배반하고, 상대방이 협력했다면 나도 다음번에 협력하는 식이다. 더 놀라운 것은, 첫 대회에서 팃포탯이 승리하자 액설로드가 팃포탯의 승리와 그 이유를 분석한 자료를 다음 대회 참가자에게 배포했을 정도로 팃포탯의 전략이 다 드러났지만, 두 번째 대회에서도 팃포탯이 승리했다는 것이다.

팃포탯의 특징을 인간적인 개념에 대입해 보면, 신사적이고(처음에는 무조건 협력하니까), 명료하고(전략이 단순하여 상대가 알 수 있으니까), 분개할 줄 알고(보복한다), 관용적이라는 것(상대가 배신한 뒤 다음번에 협력을 요청하면 이전의 배신을 잊고 다시 협력해주니까) 정도가 된다. 과연 자세한 내용은 팃포탯 항목 참고.

여담이지만, 협력의 진화 개정판 서문을 보면 리처드 도킨스가 이 게임의 결과에 광희(...)한 것을 알 수 있다.[9] 이후 도킨스는 이기적 유전자의 개정판에서 한 장을 추가한 뒤 이 죄수의 딜레마와 팃포텟 전략을 통해 개체의 '마음씨 좋은' 행동이 어떻게 성공적일 수 있는지 설명한다.

4 쓰임새

국가 간에 환경 문제의 해결에 있어서 이 딜레마가 잘 드러난다. 개별 국가들은 서로간에 협정이 이루어지지 않는 한 이러한 문제들을 해결하는 것에 충분한 노력을 기울이지 않고, 이로 인해 지구 전체적으로는 피해를 입게 된다. 간단히 중국에서 불어오는 미세먼지를 생각해보자. 중국 입장에서는 이를 해결하기 위해서 많은 비용이 들지만, 이러한 노력에 대한 댓가는 한국도 누리게 되고, 따라서 환경을 개선할 충분한 유인이 주어지지 않는다고 볼 수 있다. (물론 현실적으로는 중국 자신에게도 피해가 크기 때문에 완전한 죄수의 딜레마로 보기는 어렵다.)[10]

냉전시대의 미국과 소련의 핵 군비 경쟁을 설명할 때 죄수의 딜레마가 주로 사용된다. 상대방이 핵을 비축할지 안할지 정보가 불확실한 상황에서 미국과 소련 각자의 입장에서는 자신이 핵을 보유하는 것이 최선의 선택이 되기 때문이다.

미국 입장소련 핵 비축 O소련 핵 비축 X
미국 핵 비축O핵군비 균형(차선I)미국이 핵 군비 압도(최선)
미국 핵 비축X소련이 핵 군비 압도(최악)핵 없는 평화(차선II)

소련이 핵을 비축하는지 안하는지 모르는 상황에서 미국으로서는 핵을 비축하지 않는 것보다는 핵을 비축하는 것이 더 합리적인 선택이다. 만약 미국이 핵을 비축하지 않고 소련도 핵을 비축하지 않는다면 핵 없는 평화가 오면서 인류 전체적으로는 좋을지는 몰라도, 소련이 핵을 비축하는 날에는 미국으로서는 최악의 상황으로 치달을 수 있다. 하지만 미국이 핵을 비축한다면 못해도 소련과 핵 군비는 균형을 이룰 수 있고, 소련이 핵을 비축하지 않는다면 핵 군비를 압도함으로서 최선의 상황으로 이끌 수 있기 때문.
주목할 점은 여기서도 개개인(이 케이스에서는 각 국가)의 이익을 보려는 합리적인 행동이 전체적으로는 손해를 보는 결과를 초래한다는 것. 보이지 않는 손은 뭘하고 있는가 전체를 두고 봤을때 가장 합리적이고 손해가 적은 선택지는 양측 다 핵무기를 보유하지 않는 것이다. 이런 죄수의 딜레마로 인한 핵 군비 경쟁의 위험성을 미국과 소련 모두 인지하고 있었기에, 서로간의 핵 군비 경쟁을 억제하기 위해 각자의 나라를 연결하는 핫 라인 개설, 핵확산금지조약 체결 등 많은 노력을 기울였다.[11]

뱅크런 사태에서도 개별적인 사람들에게 주어지는 유인으로 인하여 사회 전체적으로 나쁜 결과를 초래한다는 점이 드러나지만, 이 경우는 죄수의 딜레마와는 엄연히 다르다. 조금 까다로울 수 있지만 잘 생각해보자. 개별적인 투자자 입장에서는 다른 투자자들의 행동을 예측하고 따라할 유인이 주어진다. 즉, 다른 투자자들의 행동에 따라서 내 입장에서의 최적의 행동이 달라지게 되는 것이다. 이러한 게임은 조정 게임(coordination game)이라고 불린다.

이기적 유전자》에 잘 설명되어 있고, 영화 《LA 컨피덴셜》에도 등장한다. 또한, 영화 《다크 나이트》 후반부에서도 죄수의 딜레마와 비슷한 상황을 연출했다. 다만 여기서는 합리적인 판단을 내릴 수 있는 주체인 두 그룹이 비합리적인 선택을 함으로서 쌍방이 구제된다는 결과가 나온다.

<왓슨, 내가 이겼네!> 라는 수학서적 에서는 두 절도용의자에게 이 방법을 쓴 이야기가 나오는데, 둘 모두 자백하지 않았다. 이유는 자백하면 10년 뒤에 파트너가 머리를 날려버릴 것이 분명하므로. 이것을 고안한 마이크로프트 홈즈는 둘 다 멍청해서 안 통한 것이라고 화냈지만.

드라마 《》에서도 이걸 이용해서 범인들의 자백을 받아내기 위해 두 명을 다른 방에서 심문했지만 유리창으로 몰래 입모양으로 신호를 보내는 바람에 실패하는 장면이 나온 적이 있다.

무한도전 도둑들 특집도 이 딜레마를 이용한 특집이다. 이쪽은 배신을 전제로 만든거지만

코드 - 비밀의 방에서의 게임 룰 중 하나인 만장일치 투표가 이와 동일하다.
  1. 서울대학교이준구 경제학 교수는 엄밀히 말해 형량거래는 판결 이전에나 가능하며, '죄수'란 일반적으로 판결이 확정되어 징역형을 살고 있는 이를 지칭하므로 '죄수의 딜레마'는 올바르지 못한 표현이라고 주장한다.
  2. 옛 고등학교 이산수학에 포함되었다 다음 교육개정때 없어졌다.
  3. 상대방이 자백했을 경우 자신이 자백하면 7년형, 거부하면 10년형이고, 상대방이 거부했을 경우 자신이 자백하면 석방, 거부하면 2년형이다.
  4. 반대로 두 사람 모두 공공의 이익(두 사람의 형량 총합)을 위해 개인의 이익을 포기한다면 결과적으로는 두 사람 모두 상당한 이익을 볼 수 있다.
  5. 무한히 반복되는 경우만 해당한다. 유한하게 반복되는 경우에는 상기 설명한 균형에서 벗어나지 않는다.
  6. 두 용의자간에 어떠한 의사소통도 불가능하다는 게 가장 중요한 전제조건이다.
  7. 이론적으로는 '게임'을 무한정 반복하는 경우에 한해서 '둘 다 거부'라는 선택지가 선택된다. '게임'의 횟수가 정해진다면, 두 사람은 한 번 하고 끝날때와 동일한 선택지인 '자백'을 선택하게 된다. 실제로는 충분한 숫자의 유한한 횟수 즉 당사자 입장에서 무한이나 다름없는 '유한한' 수의 게임이 벌어진다면 '둘 다 거부'하게 된다.
  8. 최적의 전략이 되는 기준은 승리한 수가 아니라 가장 많은 총점을 획득한 것으로 뽑았다. 실제로 토너먼트에서 1위를 차지한 팃포탯(TFT)은 최선의 결과가 무승부이고, 상대 전략보다 고득점을 함으로써 승리하는 것은 불가능한 전략이다.
  9. 도킨스 왈, '나는 책이 나오자마자 구입해 흥분에 휩싸여 읽었으며, 이 책의 전도사라도 된 듯 만나는 사람들마다 붙잡고 읽으라고 권하였다. 수년간 내가 가르친 옥스퍼드 대학교 학부생들은 한 사람도 빠짐없이 액설로드의 책을 읽고 에세이를 써내야 했다. 나는 지구 위 모든 사람이 이 책을 공부하고 이해한다면 이 행성이 더 살기 좋은 곳이 되리라고 굳게 믿는다. 세계의 지도자들을 모두 가두어 놓고 이 책을 준 다음 다 읽을 때까지 풀어주지 말아야 한다. 그것은 그들 개인에게 기쁨이 될 뿐 아니라 인류를 구원할 것이다.' (...)
  10. 사실 국제적인 환경 문제는 죄수의 딜레마보다는 공유지의 비극으로 더 잘 설명될 수 있다
  11. 오리지널(?) 죄수의 딜레마에 대입해보면 자백은 하되 사전에 어느정도 말을 맞춰놔서 범행의 일부만 자백하여 감형을 노리는 것에 비유할 수 있겠다.