IT·가전

[한국어와 인공지능]① 맞춤법 대가 권혁철 교수, 문장 분석기로 우리글 AI 기반 만든다

Shawn Chase 2016. 9. 18. 10:49

김범수 기자


입력 : 2016.08.30 10:41 | 수정 : 2016.09.09 11:23 [편집자주] 인공지능(AI)이 우리 곁으로 성큼 왔다. 이세돌 9단과 알파고의 바둑 대결은 무서운 인공지능의 진화 속도를 보여준다. 하지만, 한국어를 알아듣고 이해하며 한국인과 대화를 나누는 인공지능을 만드는 건 또 다른 산을 넘는 일이다. 영어와 전혀 다른 발음, 어순, 문법 체계를 가진 한국어 기반의 인공지능을 만드는 사람들을 만나 한국어의 기계적 처리 이슈와 과제를 정리한다.

 그래픽=이진희 디자이너
그래픽=이진희 디자이너

김정호가 대동여지도를 완성하는데 대략 30년의 세월이 걸렸다고 한다. 그는 지도에 평생을 바쳐 근대의 지도와 비교해도 손색없는 세밀한 지도를 만들었다. 목판본도 만들어 지도를 재생산할 수 있도록 했다.

권혁철 부산대 전기컴퓨터공학부 교수를 만났을 때 김정호가 떠오른 것은 그 역시 오로지 더 나은 한글 맞춤법·문법 검사기를 만드는 데 26년이라는 세월을 바쳤기 때문이다. 이런 노력 덕분에 그는 개인용 컴퓨터에서 메모리 40MB 정도면 누구나 사용할 수 있는 맞춤법 프로그램을 만들었다. 권 교수가 길러낸 제자들 역시 정보기술(IT)업계 곳곳에서 그 실력을 발휘하고 있다.

그는 서울대 전자계산기공학과를 졸업하고 동 대학원 전산학 석사를 마친 후 1987년 박사 학위를 받았다. 1988년 부산대 자연과학대 전자계산학과 조교수가 됐다. 당시 한국에서 한글을 연구해서 관련 프로그램을 만드는 분야가 활발하지 않았다. 한글 코드를 연구하던 그는 한국어를 통한 기계 번역 분야를 연구하기 시작했다. 코드란 정보를 나타내기 위한 기호 체계를 말한다.

1990년대만 해도 컴퓨터 메모리가 512킬로바이트(KB), 즉 1메가바이트(MB)의 절반밖에 안 됐다. 그는 당시 10만 단어를 400KB에 넣을 수 있는 알고리즘을 만들었고 지금은 200만 단어가 2MB 정도의 메모리로 처리가 될 수 있는 기술을 가지고 있다.

최근 그는 정보기술(IT) 업계에서 화제의 인물이 됐다. 카카오가 맞춤법 검사기에 대한 응용 프로그램 인터페이스(API)를 공개한다고 밝히자, 권 교수는 카카오가 자신이 개발한 한국어 맞춤법 검사기를 표절했다는 요지의 글을 페이스북에 올렸다. 논란이 가속되자 카카오는 맞춤법 검사기 API 공개를 철회했다.

카카오, 표절 논란된 한글 맞춤법 검사기 API 공개 중단<2016.08.18>

권혁철 교수가 있는 부산대에서 그를 직접 만나 현재 연구하고 있는 분야에 대한 설명과 한국어에 대한 그의 철학, 카카오와의 문제 등에 대해 들어봤다.

 권혁철 교수가 기자와 만나 맞춤법 프로그램 표절 논란에 관해 설명하고 있다. /부산=김범수 기자
권혁철 교수가 기자와 만나 맞춤법 프로그램 표절 논란에 관해 설명하고 있다. /부산=김범수 기자

◆ ‘한글을 바르게 쓰겠다’는 철학으로 버틴 26년

한글 맞춤법 검사기에 관해서는 권 교수의 맞춤법 프로그램이 최고 권위를 지닌다. 소프트웨어 업계에서 나오고 있다. 네이버(NAVER (841,000원▲ 1,000 0.12%))나 카카오 (80,500원▲ 600 0.75%)같은 큰 기업이 만든 맞춤법 교정기라도 권 교수의 프로그램이 한 수 위라고 평가하고 있다.

권 교수는 ‘우리말을 바르게 살려서 써야 한다’는 게 자신의 기본 철학이라고 설명했다. 이 철학을 가지고 26년 동안 맞춤법 프로그램을 개선해왔다는 것이다. 새롭게 나오는 단어나 외국 인명의 한글 맞춤법 표기까지 매일 업데이트된다.

그는 매일 아침 대학원생 프로그래머로 구성된 연구진과 새 단어를 입력하고 새 오류들을 고친다. 그가 새 단어나 오류들을 잡아내지 못하는 경우를 먼저 발견하는 날이면 연구진들을 혼이 날 각오를 해야 한다. 그는 벤처기업 나라인포테크도 만들었다. 직원이 3명이다. 이곳과도 협력해 맞춤법 프로그램을 업데이트한다.

권 교수는 “부산대 맞춤법 검사기에는 규칙이 2만 개가 들어가 있다"면서 “전체 오류의 1%도 안 되는 오류를 잡기 위해 아주 세세한 규칙까지 만들었다"고 말했다. 그는 “대부분은 눈치채기가 힘들 정도로 미미한 오류를 잡기 위한 것이지만, 나만의 철학으로 만들었던 프로그램인 만큼 지금도 아침마다 아주 사소한 부분도 개선하고 있는 것"이라고 덧붙였다.

맞춤법 검사기는 두 가지 기술로 오류를 잡는다. 우선 올바른 단어를 기준으로 오류를 잡는 것이다. ‘학규’라는 단어는 ‘학교’를 잘못 쓴 것이라고 보고 수정해준다.

단어 자체는 오류가 아닌데 문맥상 틀린 것을 잡는 기술이 두 번째다. 가령, '초석을 다지다'를 '추석을 다지다'로 쓸 경우 문맥상 의미가 맞지 않다고 보고 이를 바르게 고치는 규칙을 맞춤법 검사기에 넣어두는 것이다.

권 교수는 “이런 규칙을 찾는 것이 어려운데, 우리가 하나하나 찾아서 넣었다"면서 “그런데 쉽게 찾을 수 없는 규칙들을 다른 검사기에서 발견하는 경우가 종종 있고, 이 때문에 카카오와의 표절 시비가 있었던 것”이라고 설명했다.

 권혁철 교수는 매일 아침 맞춤법 프로그램을 업데이트하는 방법과 기존 프로그램과 차이 나는 미세한 지점을 짚어서 설명했다. /부산=김범수 기자
권혁철 교수는 매일 아침 맞춤법 프로그램을 업데이트하는 방법과 기존 프로그램과 차이 나는 미세한 지점을 짚어서 설명했다. /부산=김범수 기자

◆ “표절이 유력한 맞춤법 프로그램을 공개하는 것은 멸종에 이르는 길"

지난 8월 18일 카카오는 한글 맞춤법 검사기의 API를 공개하기로 했다가 철회했다. 권혁철 교수가 페이스북을 통해 표절 의혹을 제기한 직후였다.

권 교수는 “카카오의 검사기가 어느 정도 표절한 부분이 있다고 봤다. 이런 것을 API로 공개하면 우수한 기술 대신 기술은 떨어지지만 무료인 프로그램을 상업적으로 활용하게 돼 생태계가 망가진다”면서 “각자도생으로 경쟁하는 것과 생태계가 망가지는 것은 차원이 다른 문제다"고 강조했다.

그는 “생태계가 망가지면, 더는 이 분야에서 개발자가 나타나지 않게 된다"면서 “만약 대형 기업이 작은 개발사를 죽이고 난 후 그 대형 회사마저 수익성이 없다며 더이상 투자하지 않는다면, 한글 맞춤법 프로그램은 ‘멸종’의 길로 가게 된다"고 덧붙였다. 그는 “말 그대로 골목상권에 대기업이 들어오는 것과 비슷한 상황인 셈이다”라고도 했다.

권 교수는 세간의 오해를 풀고 싶다고 했다. 그는 “맞춤법 검사기를 개발할 때 정부의 지원금을 받아본 적이 없고, 비상업적일 경우 요청하면 API를 제공하고 언론사에는 1억원이 안되는 금액에 소프트웨어와 서비스를 제공하고 있다”며 “수익을 발생시키기 어려운 상황이지만 신념을 바탕으로 연구개발을 이어갈 예정이며 관련업계도 ‘한글을 바르게 쓴다’는 원칙을 바탕으로 경쟁을 계속 했으면 한다”고 말했다.


 18일 권혁철 부산대 교수 페이스북 게시물/페이스북 캡처
18일 권혁철 부산대 교수 페이스북 게시물/페이스북 캡처

◆ 한국어 문장 분석 프로그램도 개발 중

권 교수는 한국어를 기반으로 한 기계학습(머신러닝)과 인공지능의 장을 열 수 있는 ‘한국어 문장 분석 프로그램’을 2014년 11월부터 만들기 시작했다.

권 교수는 “한국어 문장 분석 프로그램은 2014년 삼성의 미래기술육성사업 창의과제 중 하나로 선정됐다"면서 “인공지능이 지식을 습득하는 데 필요한 기초 기술을 제공하는 것이 목표"라고 말했다.

실제로 문장 분석 프로그램은 한국어 기반 인공지능을 만드는 핵심 기술이다. 예를 들어 ‘나는 어머니를 사랑한다’는 한 문장에서 ‘나’가 주어이고 ‘어머니’가 목적어이며 ‘사랑한다’는 동사다. 이 문장 성분과의 관계를 알게 돼 ‘나라는 사람이 어머니를 사랑한다’는 지식을 뽑아낼 수 있게 만드는 것이다. 기계번역에서 맞춤법이 틀리면 기계번역 자체도 틀리게 된다. 그가 26년간 맞춤법 프로그램을 만들며 다져온 내공을 한국어 문장 분석 프로그램에도 담고 있다.

권 교수는 “이런 문장 분석 기술이 어느 정도 개발되면, 인공지능은 위키피디아나 뉴스와 같은 텍스트에서 지식을 뽑아낼 수 있게 된다”며 “다시 말해 인공지능이 한글 기반의 지식을 얻게 된다”라고 말했다.

하지만, 한국어 문장 분석 프로그램은 맞춤법 분석 프로그램을 만들기보다 어렵다. 현재는 이 프로그램은 시범 테스트 기간으로 한 개 문장만 분석할 수 있다.

권 교수는 “우리 말에는 문장 처음에 나오는 조사 '은·는'은 문장의 마지막 용언과 결합할 가능성이 높다”면서 “결국 문장을 형태소 단위로 잘라서 서로 간에 의존관계를 밝혀내는 원리로 만들어야 하는 데, 관계를 연결하고 뜻을 바로잡으려면 한 문장을 분석하는 것도 어렵다”고 말했다.

권 교수에 따르면, 문장이 연결된 경우에는 더 어려워진다. 대명사가 골치 아프게 한다. 특히 단어와 단어 사이에 관계를 맺을 가능성은 수십만 가지가 넘기 때문에 이걸 찾아내기가 쉽지 않다. 속담 단어는 별개의 뜻을 입력해 줘야 한다. '먹다'와 같은 동사는 ‘밥을 먹다’ ‘더위를 먹다' ‘한방 먹다’ 등으로 다양한 의미가 있는데 이것 역시 모두 처리해 줘야 한다.

권 교수는 “이 프로그램은 단일 회사나 단일 연구팀이 만들어 발전시키기에는 한계가 있어 오픈 소스로 공개해 많은 개발자가 프로그램 개선에 참여할 수 있도록 할 것”이라며 “올 11월 삼성 측과 함께 기술을 시연하게 되며 그때 오픈 소스 공개 방식도 논의할 예정"이라고 말했다.