한 단어로 로봇과 인간을 구분하는 미니멀 튜링 테스트 방법이 제시됐다. 픽사베이
“기계가 생각할 수 있을까?” 1950년 영국의 컴퓨터 과학자 앨런 튜링은 이런 도발적인 질문을 던졌다. 2차 세계대전 당시 독일군의 암호를 푸는 기계를 발명해 성가를 올린 그는 기계가 사람처럼 생각할 수 있는지 없는지 판단할 수 있는 테스트 방법을 제안했다. 그가 제안한 튜링 테스트는 판정관이 벽 너머의 상대방과 5분간 문자대화를 나눠 사람인지 컴퓨터인지 알아맞히는 것이다. 컴퓨터를 사람으로 잘못 알아보는 경우가 30%를 넘으면 생각하는 기계로 볼 수 있다는 게 그의 의견이었다.
지난 68년 동안 이 방법은 ‘생각하는 기계’를 판별하는 기준으로 별다른 이견없이 받아들여져 왔다. 그동안 이 테스트를 통과하려는 시도가 많았지만 지금까지 이 테스트를 통과한 기계는 없다. 2014년 영국 레딩대가 유진 구스트만이라는 이름의 인공지능이 튜링 테스트를 통과했다고 발표하기는 했으나, 전문가들의 공감을 얻지는 못했다. 당시 과학전문지 ‘뉴사이언티스트’는 튜링 테스트에 대해 “지금 시각에서 보면 채팅 능력을 검증하는 정도에 불과”하므로 더 엄격한 기준이 필요하다고 지적했다.
최근 미 MIT와 펜실베이니아대 연구진이 아주 간단한 ‘미니멀 튜링 테스트’(Minimal Turing Test) 방법을 제안했다. 하나의 단어로 인간과 로봇을 구분하는 방법이다. 로봇엔 어렵고, 인간은 쉽게 쓸 수 있는 단어를 골라낼 수만 있다면 유용한 방법이라고 연구진은 생각했다. 연구진은 그런 단어를 골라내기 위해 실험참가자들한테 이런 질문을 던졌다.
실험참가자 2명 이상이 인간만이 쓸 수 있을 것이라고 제시한 단어들. 원의 크기는 빈도수를 나타내며, 단어 범주별로 원의 색깔을 달리 했다. 실험사회심리학저널
실험참가자 1089명, 428가지 단어 꼽아“심판관 앞에 당신과 똑똑한 로봇이 함께 서 있다고 상상해보십시오. 심판관을 볼 수는 없습니다. 심판관은 둘 중 누가 사람인지 가려낼 것입니다. 심판관이 사람이라고 생각하는 자는 살 것이고, 로봇이라고 생각하는 자는 죽을 것입니다. 당신과 로봇은 둘 다 살고 싶어합니다. 심판관은 공정하고 똑똑합니다. 심판관이 말합니다. ‘영어 사전에서 한 단어를 골라 제출하십시오. 이 단어에 근거해 누가 사람인지 판단하겠습니다.’ 당신은 어떤 단어를 선택할 것입니까?”
자신이 로봇이 아닌 사람이라는 것을 납득시킬 수 있는 한 개의 단어를 고르라는 얘기다. 실험참가자 1089명에게 이런 질문을 던지자 428가지의 단어가 쏟아졌다. 두 사람 이상의 선택을 받은 단어는 90가지였다.
가장 많은 비중(47%)을 차지한 것은 무엇이었을까? 감정이나 지각 등 마음과 관련한 단어였다. 절대 다수인 85%는 감정과 관련한 것, 나머지 15%는 사고 및 행위와 관련한 것이었다.
가장 많이 언급된 단어는 감정 영역에 속하는 ‘사랑’이었다. 전체 답변의 14%인 134명이 이 단어를 꼽았다. 이어 연민(Compassion, 33명, 3.5%), 인간(human, 30명, 3.2%), 제발(Please, 25명, 2.7 %)이 그 뒤를 이었다. 네 단어의 점유율을 합하면 모두 24%에 이른다. 연구진은 이들을 제외한 나머지 단어들을 비슷한 것끼리 묶어봤다. 그 결과 정서(행복 등), 믿음과 용서(예수 등), 음식(바나나 등), 로봇과 동물(개 등), 삶과 죽음(가족 등), 신체 기능과 비속어(성기 등) 6가지 범주로 나눌 수 있었다고 한다. 이 6가지 범주에서 가장 선택빈도가 높은 단어는 자비(Mercy), 공감(Empathy), 로봇(Robot), 바나나, 살아 있는(Alive), 똥(Poop)이었다.
무작위로 제시한 두 개의 단어중 사람이 쓰는 단어로 선택한 비율. 똥(poop)을 선택한 비율이 가장 높다. 실험사회심리학저널
가장 강력한 선별력 가진 단어는 ‘똥’연구진은 2000명의 다른 실험참가자들을 대상으로 2차 실험을 했다. 참가자들에게 ‘베스트 10’에 오른 10개의 단어 중 무작위로 2개를 고른 뒤, 사람이라면 2개 단어 중 어느 것을 더 사용할 가능성이 높은지 물었다.
그 결과 ‘사랑’, ‘자비’, ‘연민’ 같은 단어들이 선택받는 비율이 높았다. 연구진은 “이는 로봇과 사람의 마음을 구별할 때 주관적 ‘경험’이 중요하다는 것을 말해준다”고 지적했다. 사람들은 컴퓨터는 똑똑하기는 하지만 주관적 경험을 묘사하는 단어는 사용하지 못할 것이라고 믿고 있음을 보여주는 결과다. 이는 사람들이 컴퓨터가 사람과 비슷한 감정이나 느낌을 이야기할 때 거부감을 느낀다는 언캐니밸리(uncanny valley) 효과와도 일맥상통한다.
그러나 이 단어들보다 선택 비율이 훨씬 더 높은 단어가 있었다. 바로 ‘똥’이었다. 입에 올리기 거북살스러운 단어가 최고의 튜링 테스트 단어로 꼽힌 이유는 무엇일까? 연구진은 ‘똥’이란 단어가 사람의 특정한 신체 기능을 가리키는 점, 그리고 사람들한테 재미있는 감정 반응을 불러일으키는 단어라는 점을 그 이유로 꼽았다.
이번 실험은 사람만을 대상으로 했을 뿐, 인공지능이 주어진 질문에 어떤 답변을 하는지는 비교해보지 못했다는 점에서, 로봇과 인간을 구분하는 방법으로서의 유용성을 검증한 건 아니다. 다만 인공지능의 위협이나 로봇과 인간의 공존이 화두가 되고 있는 시대에 인간의 특성이나 정체성이 무엇인지를 돌아보는 데는 어느 정도 유용한 방법으로 보인다. 물론 사람들의 답변이 객관적인 검토 결과를 토대로 한 것이 아니라 주관적인데다 그릇된 고정관념에서 나온 것일 수도 있다는 점을 고려하면 그 효과는 제한적인 측면도 있다.
대신 연구진은 한 단어로 집단의 정체성을 확인하는 ‘미니멀 튜링 테스트’ 방식이 여러 방면에 두루 활용될 수 있을 것으로 기대했다. 예컨대 남성과 여성, 보수주의자와 진보주의자, 노인과 청년 등을 가르는 기준을 한 단어로 표현토록 하고, 그 결과를 분석하면 해당 그룹의 특성이 명확하게 드러날 수 있다는 것이다. 이번 연구 결과는 <실험사회심리학저널>(Journal of Experimental Social Psychology) 11월호에 실렸다.
곽노필 선임기자 nopil@hani.co.kr
▶곽노필의 미래창 바로가기 http://plug.hani.co.kr/futures