TECH M
TECH M
ETRI, AI 서비스용 한국어 최첨단 언어모델 공개…구글 배포 모델 대비 4.5% 우수
국내 연구진이 최첨단 한국어 언어모델을 개발해 공개했다. 인공지능(AI) 비서와 AI 질의응답, 지능형 검색에서 한국어를 활용한 서비스 개발이 한층 나아질 전망이다.
한국전자통신연구원(ETRI)은 10일 최첨단 한국어 언어모델 ‘코버트(KorBERT)’를 홈페이지에 공개했다. 공개한 모델은 두 종류다. 구글 언어표현 방법을 기반으로 더 많은 한국어 데이터를 넣은 언어모델과 한국어 ‘교착어’ 특성까지 반영한 언어모델이다.
이 기술은 올해 3월 한컴오피스 지식검색 베타버전에도 탑재했다. 하반기에 ETRI 언어모델을 활용한 ‘법령분야 질의응답 API’를 추가 공개하고, ‘유사 특허 지능형 분석 기술’ 출시도 목표하고 있다.
언어처리를 위한 딥러닝 기술을 개발하려면 텍스트에 기술된 어절을 숫자로 표현해야 한다. 이를 위해 그동안 언어를 활용한 서비스를 개발하는 기관에서는 주로 구글이 제공한 다국어 언어모델 ‘버트’를 사용했다.
버트는 문장 내 어절을 한 글자씩 나눈 뒤, 앞뒤로 자주 만나는 글자끼리 단어로 인식한다. 지난해 11월에 처음 공개됐을 때 언어처리 11개 분야에서 많은 성능 향상을 이뤄 주목을 받았다.
구글은 40여 만 건의 위키백과 문서 데이터를 사용해 한국어 언어모델을 개발했다. 하지만 ETRI 연구진은 여기에 23기가바이트(GB)에 달하는 지난 10년간 신문기사와 백과사전 정보를 더해 45억개 형태소를 학습시켜 구글보다 많은 한국어 데이터를 기반으로 언어모델을 개발했다.
하지만 데이터 양만 늘리는 것으로는 언어모델 고도화에 한계가 있다. 게다가 한글은 다른 언어와 달리 어근에 조사가 붙는 교착어다. 이에 연구진은 한국어의 의미 최소 단위인 형태소까지 고려해 한국어특성을 최대한 반영한 언어모델을 만드는데 심혈을 기울였다.
연구진은 이번 한국어에 최적화된 언어모델이 전처리 과정에서 형태소를 분석한 언어모델, 한국어에 최적화한 학습 파라미터, 방대한 데이터 기반 등이 구글 모델과 다른 특징이라고 설명했다.
새 언어모델은 성능을 확인하는 5가지 기준에서 구글 한국어 모델보다 성능이 평균 4.5% 가량 우수했다. 특히 단락 순위화(Passage Ranking) 기준에서는 7.4%나 높은 수치를 기록했다.
새 언어모델을 활용하면 서비스 성능과 경쟁력을 높일 수 있다. 딥러닝 연구와 교육 목적으로 대학과 기업, 기관 개발자들이 많이 활용할 것으로 예측된다.
총괄책임자인 ETRI 김현기 박사는 “한국어에 최적화한 언어모델로 한국어 분석, 지식추론, 질의응답 같은 다양한 한국어 딥러닝 기술에서 고도화가 가능할 것으로 기대된다”고 말했다.
이번 연구개발에 근간이 된 ‘엑소브레인 사업’은 2016년 EBS 장학퀴즈 우승, 기술이전과 사업화 39건, 국내외 표준화 44건, 특허출원 70건 등의 성과를 낸 바 있다.
박응서 테크엠 기자 gopoong@techm.kr
-
'전자정부 名家' LG CNS, 1200억 '행복e음' 사업 수주로 자존심 회복할까공공 소프트웨어(SW) 사업의 강자 LG CNS가 올해 공공시장 첫 '대어'로 꼽히는 보건복지부 차세대 사회보장정보시스템(행복e음) 구축 사업에 출사표를 던졌다.17일 업계에 따르면 LG CNS는 이날 행복e음 사업 재입찰에 제안서를 제출했다.행복e음 사업은 지난 2009년 복지부가 각종 사회복지 급여 및 서비스 지원 대상자의 자격과 이력에 관한 정보를 통합 관리하기 위해 구축한 시스템을 현대화 하는 사업이다. 올해부터 3년간 약 1220억원이 투입된다.이 사업은 지난 3일 첫 입찰 공고를 마감했으나 무2020-03-17 16:54:47테크M 남도영 기자
-
네이버 vs 카카오, 포털-메신저 이은 3라운드... 링은 '콘텐츠'#수천억 자금으로 뭘 만들까#넷플릭스 잡을 수 있을까#톡TV-네이버TV 경쟁 볼만할 듯국내 대표 인터넷 맞수 기업 네이버와 카카오의 세번재 경쟁 무대 막이 올랐다. 포털과 메신저 플랫폼에서 치열하게 경쟁해온 두 기업의 3라운드 링은 '콘텐츠'다. 이미 양사는 콘텐츠 자회사에 수천억원의 자금을 쌓아놨다. 올해부터 본격적으로 콘텐츠 양산에 돌입한다. 콘텐츠 주도권 경쟁의 전초전은 이미 시작됐다.◆실탄 마련한 카카오M, 직접 콘텐츠 제작 개시카카오는 지난 16일 콘텐츠 자회사 카카오M이 3자 배정 유상증자2020-03-17 15:53:45테크M 허준 기자
-
[템 사이트] 게임 하면 유니티! 2020년 기대되는 유니티 기반 게임은?연일 쏟아지는 신작 소식이 게이머들을 설레게 하고 있습니다. 남다른 스케일을 자랑하는 게임업체들의 대형 신작은 물론 독특한 게임성을 내세운 게임까지, 게이머들의 다양한 취향을 만족시킬만한 다양한 신작게임들이 많습니다.오늘은 특히 유니티 엔진을 기반으로 한 신작 게임들을 엄선해서 소개할까 합니다. 유니티는 이미 전세계 수백만명의 게임 개발자들이 사용하는 유명한 게임엔진입니다. 최신 버전의 엔진 '유니티 2019.3' 업데이트를 통해 260가지가 넘는 개선사항과 신규 기능이 포함돼 진일보한 고성능 그래픽과 최적화 기2020-03-17 15:30:39테크M 허준 기자