[시선] 말뭉치 구축의 세계 동향과 한국어 말뭉치

“저는 말뭉치와 사전을 연구합니다.”라고 하면 으레 돌아오는 질문이 말뭉치가 무엇이냐는 것이었다. ‘언어를 연구하는 각 분야에서 필요로 하는 연구 재료로서, 언어의 본질적인 모습을 총체적으로 드러내 보여 줄 수 있는 자료의 집합’이라는 국어정보학 개론서의 정의를 설명하는 것이 쉽지 않았었는데 최근에는 말뭉치의 개념을 비전공자에게 쉽게 설명할 방법이 생겼다. 언어 연구에 활용하려고 만든 일종의 빅데이터라고 하면 다들 고개를 끄덕끄덕한다. 4차 산업혁명과 인공지능, 빅데이터가 화두인 이 시대에, 언어를 매체로 한 모든 학문 분야와 산업의 근간이 되는 말뭉치 구축의 세계적인 동향과 한국어 말뭉치의 현황을 짚어보는 것은 한국어의 경쟁력을 가늠해 보는 한 방법이 될 것이다.

사용자 수 순위 13위, 인터넷 사용자 수 순위 10위. 이것이 한국어의 객관적인 위상이다. 그렇다면 한국어 말뭉치의 규모도 세계 10위권일까? 2007년 21세기 세종계획(국가 차원의 국어 정보화 중장기 프로젝트) 종료 당시 한국어 말뭉치는 양적인 측면에서 세계 최고 수준에 도달해 있었다. 21세기 세종계획 사업 결과로 구축된 말뭉치는 약 2억 어절(띄어쓰기 기준) 규모로 당시 미국, 일본, 중국 등의 말뭉치 규모가 2~5억 단어 수준이었다. 그러나 세종계획 이후 국내에서는 전반적으로 말뭉치 구축 규모가 대폭 축소된 반면 타 국가들에서는 지속적인 투자를 통해 말뭉치의 규모를 확장했다. 미국의 경우 BNC(British National Corpus)를 차용한 1.5억 단어 규모의 ANC가 가장 큰 말뭉치였으나, 현재는 공개된 것만 2000억 단어 이상의 규모로 확대되었다. 또한, 일본, 중국, 유럽도 이후 지속적으로 구축사업을 추진 또는 급속히 확대하여 100억 단어 이상의 대규모 언어 자원을 확보하고 있다. 이러한 말뭉치 규모의 확대는 대부분 단기간의 구축 사업을 통한 것이 아니라 지속적으로 구축에 투자한 결과이다. 지난 10년간 국가 수준의 대규모 한국어 언어 자원의 구축이 사실상 중단된 결과 현재는 영어, 일본어, 중국어, 스페인어 등 세계 최고 규모의 말뭉치와는 규모 면에서 비교하기 어려운 수준으로 전락했다.

국가 말뭉치의 구축이 중단되기는 했지만, 자료 기반 연구의 필요성에 의해 연구 기관과 대학을 중심으로 100여 종에 달하는 다양한 말뭉치가 구축됐다. 말뭉치의 개념을 한국에 도입한 것은 연세대학교 언어정보연구원(당시 한국어 사전편찬실)이다. 연세대 언어정보연구원에서는 1988년에 사전 편찬을 위해 처음 말뭉치를 구축하기 시작한 이후 지속적으로 말뭉치를 구축해 왔다. ‘연세 말뭉치’는 문어 말뭉치, 구어 말뭉치, 교과서 말뭉치, 한국어 학습자 말뭉치, SNS 말뭉치 등 여러 가지 하위 말뭉치를 포함하는 27억 어절 규모의 거대한 언어 자료의 총칭이다. 고려대학교에서는 신문 말뭉치, 서울대학교에서 시공간 주석 말뭉치 등을 공개했다. 한국외국어대학교에서는 한국어-독일어 병렬 말뭉치를 구축했고, 한국전자통신연구원(ETRI)에서는 한국형 인공지능 엑소브레인의 개발을 위해 질의응답을 위한 다중 주석 말뭉치를 구축했다. 경희대학교에서는 고소설, 개화기 등의 역사 자료를 구축했고 감정 분석 말뭉치는 서울대학교, 한국외국어대학교 등에서 구축했다. 한국어의 변이 연구를 위해 제주대학교에서 구축한 재일 한국인 담화 말뭉치와 수어 연구를 위한 세한대학교의 수어 말뭉치, 심리학적 주석을 부착한 영남대학교의 말뭉치 등도 소개할 만하다.

언어 자원으로서의 말뭉치의 급격한 양적 증가는 기계학습, 사물인터넷(IOT), 가상현실 등과 같은 인공지능을 지향하는 기술들의 발전과 관련이 있다. 같은 영어라도 영국보다 미국에서 말뭉치의 양적 증가가 현저하고, 아시아에서는 일본보다 중국에서 말뭉치 구축과 활용이 빠르게 증가하는 것은 인공지능 분야의 산업적 움직임과 같은 흐름을 보인다. 딥러닝 분야에서는 당장 인공지능을 만드는 데에 활용할 수 있는 재료들을 찾고 있는데, 그중에서 가장 필수적인 재료가 대량의 언어 자료 즉 말뭉치와 같이 근간이 되는 언어 자원이다. 인간과 유사하게 언어를 이해하고 표현하기 위해서 기본적으로 분석해야 할 대상이기 때문이다. 한국어 말뭉치는 단순히 한국어 연구나 기술 개발의 실험 자료를 넘어 4차 산업 시대에서 우리나라와 한국어의 미래를 결정하는 중요한 축이 된다. 이에 2007년 이후 맥이 끊긴 국가 차원의 말뭉치가 다시 구축된다는 소식이 반갑다. 최근 한국어 인공지능 기술의 발전을 위해 2018년부터 5년 동안 총 154억 7천만 어절의 말뭉치를 구축하는 국어 정보화 사업 계획이 마련됐다. 이를 통해 한국어 언어처리 기술 개발을 위한 기반을 다지는 것은 물론, 외국의 왜곡된 한국어 자료 활용을 차단하고 사회적 비용도 절감할 수 있기를 기대한다.

우리대학교 언어정보연구원 김한샘 교수 chunchu@yonsei.ac.kr

상단영역

본문영역

[시선] 말뭉치 구축의 세계 동향과 한국어 말뭉치

개의 댓글

댓글 정렬

내 댓글 모음