튜링 테스트

Turing Test

1 개요

기계가 인간과 얼마나 비슷하게 대화할 수 있는지를 기준으로 기계에 지능이 있는지를 판별하고자 하는 테스트로, 1950년. 앨런 튜링이 제안한 테스트. 이미테이션 게임이라고도 부른다.

인공지능 연구의 초기 단계에서는 지능이 무엇인지에 대한 명확한 해답이 존재하지 않았다. 무엇이 인간다운 것인지도. 2500년 역사를 자랑하는 철학조차도 인간, 인간다운 것이 무엇인지 기준선을 제시하지 못했으니 어찌 보면 당연한 일이다. 그런 상황에서 튜링은 지능, 인공지능에 대한 기준선을 정하는 것은 나중으로 미루고, 일단 인간이 보기에 인간같은 것을 인간에 준하는 지능이 있다고 간주하기로 한다.

2 과정

과정은 대략 이렇다. 질의자 하나와 응답자 둘을 준비, 응답자 중 하나는 컴퓨터이고 나머지는 인간. 어느 쪽이 컴퓨터인지는 모른다. 응답은 키보드로만 이루어지고 이 테스트에서 질의자가 어느 쪽이 컴퓨터인지 판별할 수 없다면 컴퓨터는 테스트를 통과한다. 즉 컴퓨터가 인간처럼 대화를 할 수 있다면 그 컴퓨터는 인간처럼 사고할 수 있다고 본다는 것. 이건 가장 기본적인 튜링 테스트인데, 10명중 2~3명을 낚은 인공지능은 있었지만 현재까지 이걸 통과한 인공지능은 없었다. 1라운드부터 공략 불가 캐릭터

기본적인 튜링 테스트도 이런데 후술할 CAPTCHA 연산이야 말할 것도 없고, 스스로 무언가를 창작하는 수준은 까마득하다.

튜링 테스트를 응용한 보안 기술이 CAPTCHA인데, 사람은 변형된 글자를 봐도 간단히 풀 수 있는데, 컴퓨터에 저장된 건 정자밖에 없으므로 변형된 글자를 읽지 못한다. 필체인식이 있지만, 이것도 사람이 어느정도 데이터를 넣어줬기 때문에 가능한 것. 최근 CAPTCHA에 대한 연구가 나오고 몇 개는 술술 뚫리지만, 더 빡신 캡챠는 비가역적인 연산이 산더미라 컴퓨터가 뚫기 무진장 어렵다.[1] CAPTCHA는 튜링 테스트에서 일종의 2단계 수준.

더 높은 수준의 튜링 테스트는 시각 및 청각적으로도 의사소통을 해야한다. 즉 화상 전화를 통해서 테스트를 하게 된다. 억양, 몸짓, 표정 등이 아니라 무진장 더 높은 차원으로 인간과의 유사성을 만족해야한다. 이 정도는 통과해야 사회생활이 가능한 수준이 될 수 있으므로, 굳이 따지고 보자면 일종의 3단계 수준.

일반인(?)들은 튜링테스트가 인공지능을 증명하는 절대적인 방법이라 생각하는 경향이 있으며 이는 창작자들 역시 예외가 아니라 인공지능을 설정하며 튜링테스트를 통과했다는 언급을 필수적으로 하곤 하는데, 사실 이 테스트는 인공지능학이라는 범주에서 보면 그저 참고 사항일 뿐 기준점은 아니다.

간단히 말해, 튜링 테스트는 '어떤 인간'은 통과할 수 없는 경우가 생기는 반면, '(튜링 테스트에)특화된 인공지능'은 모두 통과할 수 있는 경우가 동시에 생기는 것도 가능하기 때문에 '테스트'의 본질에 적합하지 않아서다. CAPTCHA 여러 번 틀려서 로그인이 막힌 인간도 수두룩하다

2.1 최초의 통과사례?

2014년 6월에 영국 레딩 대학에서 개발한 '유진'이라는 프로그램이 튜링 테스트를 통과했다...고 기자들이 설레발을 쳤다.(기사) 심사위원단의 33% 가 이 프로그램을 사람으로 인정하여 기준인 30%를 넘어섰다. 그러나 전문가들은 회의적이다. 직접 실험해보니 우크라이나에 산다고 대답해놓고 우크라이나에 가 본 적이 있냐고 묻자 가 본 적이 없다고 대답했다고 한다.(...) 기사

참고로 영국 레딩 대학은 세계 최고의 인공지능 & 로봇 덕후 중 하나인 케빈 워릭 교수가 재직하고 있는 대학이다. 이 사람은 쥐 태아의 뇌 조직을 이용한 로봇을 개발하기도 하고 스스로의 몸에 RFID 칩을 이식하기도 했다. 이 사람의 저서 「나는 왜 사이보그가 되었는가」도 참고할만 하다.

이를 엄밀히 '인공 지능' 이라고 할 수는 없다. 입력 문장에 따라 무엇인가 추론하는 것이 아니라 규칙에 기반해 출력을 뱉어내는 알고리즘이기 때문에 주류 인공지능 알고리즘과는 비교 자체가 치욕인 수준이다. 사실 33%라는 성공률도 불과 3명 중 1명 꼴인 수준이다. 또한 실험 중에 이 프로그램을 우크라이나에 사는 13세의 아이로 설정하여 통과하였다. 실제로도 첫 탄생 이후 테스트 수행까지 데이터 축적에 13년이 소요되었고 프로그램을 만든 베셀로프 역시 "믿을만한 캐릭터를 만들기 위해 노력했다"고 말한 것까지 감안하면, 순수하게 인공지능으로 뚫었다기 보다는 그 한계를 '심리학'(=감정)으로 보완해 기술 지체(문화 지체의 반대)를 극복했다고 봐야 한다. 사실 순수하게 인공지능 만으로는 뚫을 수도 없다. 어중간하게 닮으면 불쾌한 골짜기 현상이 발생, 사람으로 인정받기 더욱 어려워지기 때문. 굳이 따지자면, 유진은 겨우 1단계에서 턱걸이를 한 수준이다.

튜링 테스트에 대한 흔한 농담 중에 진짜 인공지능을 구축하는 것 보다는 시험자가 선호하는 질문 패턴을 파악해서 그에 대한 답변 목록을 만들어주는 쪽이 더 편하다는 이야기가 있다. 예를 들어, 이름이나 나이, 거주지 등 인적사항 파악 단계를 넘어가면 '사랑이 뭔지 아니' 같은 추상적인 질문을 통해 상대가 인간인지 컴퓨터인지 가려내려고 하는 시험자가 많으니 사랑이 뭐냐거나, 사랑을 해 본 적 있느냐는 질문에 대한 대답을 준비해두면 유리하다는 식.

참고로 1998년 12월 기준 천조국 미국이 만든 최신의 인공지능이 지렁이 수준(...진짜 이렇게 발표했다!)이었고 2000년까지 꿀벌 수준의 지능을 가진 인공지능을 만드는 것이 목표였다고 한다. 물론 유진과는 아무 상관 없다.

유진보다 나은 사례를 찾자면 나딘의 예를 들 수 있다. 나딘은 자폐증 또는 치매 환자와의 상호작용을 위해 개발되고 있기 때문에, 튜링 테스트를 통과하는 것이 매우 중요하기 때문. 더불어 이 목표에는 3단계 수준인 TOM을 통과하는 것도 포함되어 있다.

2.2 애슐리 매디슨 튜링 테스트 통과?

애슐리 매디슨 채팅 봇이 튜링테스트를 통과했다라는 식의 내용이 있었다 수많은 남자 회원들이 자신들이 대화한 상대가 실제 여성 회원이 아닌 채팅봇인줄도 모르고 지속적인 대화를 위해 계속 유료 결제를 하였다. 특히 채팅봇은 아무리 오래 대화해도 직접 만나줄 가능성이 0%고, 계속 만나줄듯 말듯 대화만 하므로 계속적인 대화를 위한 남성 회원들의 유료 결제액이 많다고 한다.
하지만 이건 튜링테스트에 대한 기본을 무시한 것이다. 애초에 튜링 테스트는 인공지능을 가지고 있는지를 알 기 위한 것이지, 인간을 속이는 것이 목적이 아니다. 더구나 채팅봇의 경우는 상단에도 있지만 예상 답변을 미리 입력해두기 쉽고, 해당 사이트의 특성상 대화의 내용도 한정적이다. 무엇보다 튜링테스트 1차만 해도, 상대에게 봇과 인간이 동시에 존재한다는 것을 알려주지만 해당 사안의 경우는 상대가 인간이 아니라 봇일 수 있다는 것은 전혀 주어지지 않은 상황이다. 그리고 이용자들 입장에서는 상대가 봇이라고 생각했다고 해도 피드백을 할 방법이 없다. 실제 에슐리 매디슨 봇의 경우는 가상 인물의 프로필과 사이트에 맞는 가상 답변 등을 미리 넣어두고, 예상치 못한 답변의 경우는 얼버무리는 정도면 충분하다. 해당 경우에 속아넘어간 사람은 엄청나게 많고, 상대가 봇이라고 알려주지 않았을 경우에는 더더욱 그렇다.

채팅봇의 경우는 그 자체로 활용도가 많으나, 이걸 인공지능이라고 부르는 것은 상당히 곤란하다.

3 트리비아

영화 더 머쉰에서는 인공지능에 대해 TOM으로 튜링테스트를 시도하였다(예: 샐리와 앤 문제)

인간의 정신을 탐구하는 심리철학에서도 매우 큰 의의를 갖는다. 여기를 참고하자.

미국의 철학자 존 설(John Searle)이 튜링 테스트를 비판하기 위해 중국어 방 논변을 제시한 바 있다. 튜링 테스트를 통과했다는 것이 곧 정신(mind)을 갖고 있다는 것을 의미하지는 않는다는 게 설의 요지다.

질의자에게 자신이 사람이라고 믿게 하는 것을 넘어, 질의자 스스로가 컴퓨터라고 믿게 하면 추가점수를 얻을 수 있다 카더라(...) #

미국 조지아텍 대학에서 2016년 1월부터 인공지능(AI) 관련 온라인 교과 과정의 조교를 맡은 '질 왓슨'이라는 이름의 AI가 등장하였다. [1] 질문에 대답을 받은 학생들은 ai일 것이라 생각도 못했다고..

4 관련 항목

  1. 제일 간단한 예시로 컴퓨터는 5살 아이도 할 수 있는 개와 고양이의 차이도 잘 구분하지 못한다(...) 특히 고양이를 고르라는 문제에서 털옷(산타복장 등)을 입혀놓은 고양이 사진같은게 CAPTCHA에 간간이 뜨기도 하는데 이러면 컴퓨터 입장에선 충공깽수준(...)