TECH M
TECH M
ETRI, 5개 외국어 음성과 영어대역문장DB 배포…태국어와 말레이어, 인도네시아어, 아랍어, 베트남어
13년 간 네이버, 삼성, SKT 등에 367건 배포, ․550억 절감 효과
인공지능과 음성 인식, 번역에 효과적인 활용할 수 있는 외국어 DB를 쉽게 얻을 수 있는 길이 열렸다.
한국전자통신연구원(ETRI)이 27일 국내에서 처음으로 태국어와 말레이어, 인도네시아어, 아랍어, 베트남어 음성 데이터베이스(DB)와 영어대역문장 DB를 일반에 배포한다고 밝혔다. 음성인식과 번역엔진에 대한 외국 기술 의존도를 줄여, 국내 기업이 해당 언어를 활용한 다양한 서비스 개발에 큰 도움이 될 것으로 예상된다.
이번에 배포하는 음성 DB는 최근 인기 있는 인공지능(AI) 스피커와 내비게이션, 사물인터넷(IoT) 같은 장치에서 음성인식과 번역 SW를 개발하는데 필요한 기초 자료다.
가능한 많은 언어와 품질이 좋은 DB를 구축하면 서비스를 다양화하고, 고부가가치 서비스를 창출하는데 핵심으로 활용할 수 있다.
하지만 그동안 DB를 확보하는 데 여러 장벽이 있었다. 외국 업체에서 외국어 음성 DB를 구입할 수 있지만 비용이 많이 들었다. 특히 관련 자료가 없는 나라 언어는 자체적으로 수집하는 수밖에 없어 시간과 비용에 큰 문제가 발생했다.
이런 문제를 인식한 ETRI가 이를 해소하는데 나선 것이다. 태국어와 말레이어, 인도네시아어, 아랍어, 베트남어 대화체 음성 DB 200만 발화(發話)와 영어-태국어, 영어-말레이어, 영어-인도네시아어, 영어-아랍어, 영어-베트남어 대화체 대역(對譯)문장 DB 300만 문장을 배포한다. 태국어와 말레이어, 인도네시아어 자료는 국내 최초로 제공하며, 아랍어와 베트남어는 ETRI가 기존에 제공한 자료에 데이터양을 늘려 배포한다.
국내 업체들은 ETRI가 제공하는 자료를 받아 DB 구축 비용을 대폭 절감할 수 있다. 외국 업체에서 DB 구입 시 언어 당 1~2억원 정도 비용이 소요된다. ETRI는 5% 수준에서 제공할 예정이다.
특히 이번 DB는 최대한 많은 사람들로부터 언어 데이터를 얻으려고 크라우드 소싱 기법을 도입했다. 총 2만 5000여 명이 발화에 참여했다. 단순히 데이터 양만 늘린 것이 아니라 높은 정확도까지 확보했다. 외부 감리 업체 측정 결과 99%가 넘는 높은 품질을 인증 받았다. 기존보다 더 많은 양을 축적한 데이터를 토대로 집단 지성에 의한 검증 시스템을 도입했기 때문이다고 ETRI 측이 설명했다.
ETRI 음성지능연구그룹 윤승 박사는 “이 DB를 활용해 언어음성기술을 개발하면 다양한 외국 신규시장 진출과 국가 경쟁력 강화에 크게 기여할 것으로 예측한다”고 설명했다.
ETRI는 2011년부터 한국어, 영어, 일어, 중국어 언어음성DB를, 2014년에는 프랑스어, 2015년에는 독일어, 러시아어, 아랍어, 베트남어를 구축해 배포했다.
현재까지 삼성전자와 LG전자, KT, 네이버, 카카오, 엔씨소프트, 보이스웨어, 셀바스AI, 시스트란 인터내셔널, 솔트룩스 같은 국내 60개 기관에 367건 DB를 배포하며 총 550억원에 달하는 비용 절감 효과를 얻었다. 이번 DB도 국내 10개 기관에 배포할 경우 최소 150억원 수입대체 효과를 얻을 수 있다.
ETRI가 배포 중인 DB는 총 45종으로 ETRI 홈페이지에서 찾을 수 있다.
[테크M = 박응서 기자(gopoong@techm.kr)]
-
'전자정부 名家' LG CNS, 1200억 '행복e음' 사업 수주로 자존심 회복할까공공 소프트웨어(SW) 사업의 강자 LG CNS가 올해 공공시장 첫 '대어'로 꼽히는 보건복지부 차세대 사회보장정보시스템(행복e음) 구축 사업에 출사표를 던졌다.17일 업계에 따르면 LG CNS는 이날 행복e음 사업 재입찰에 제안서를 제출했다.행복e음 사업은 지난 2009년 복지부가 각종 사회복지 급여 및 서비스 지원 대상자의 자격과 이력에 관한 정보를 통합 관리하기 위해 구축한 시스템을 현대화 하는 사업이다. 올해부터 3년간 약 1220억원이 투입된다.이 사업은 지난 3일 첫 입찰 공고를 마감했으나 무2020-03-17 16:54:47테크M 남도영 기자
-
네이버 vs 카카오, 포털-메신저 이은 3라운드... 링은 '콘텐츠'#수천억 자금으로 뭘 만들까#넷플릭스 잡을 수 있을까#톡TV-네이버TV 경쟁 볼만할 듯국내 대표 인터넷 맞수 기업 네이버와 카카오의 세번재 경쟁 무대 막이 올랐다. 포털과 메신저 플랫폼에서 치열하게 경쟁해온 두 기업의 3라운드 링은 '콘텐츠'다. 이미 양사는 콘텐츠 자회사에 수천억원의 자금을 쌓아놨다. 올해부터 본격적으로 콘텐츠 양산에 돌입한다. 콘텐츠 주도권 경쟁의 전초전은 이미 시작됐다.◆실탄 마련한 카카오M, 직접 콘텐츠 제작 개시카카오는 지난 16일 콘텐츠 자회사 카카오M이 3자 배정 유상증자2020-03-17 15:53:45테크M 허준 기자
-
[템 사이트] 게임 하면 유니티! 2020년 기대되는 유니티 기반 게임은?연일 쏟아지는 신작 소식이 게이머들을 설레게 하고 있습니다. 남다른 스케일을 자랑하는 게임업체들의 대형 신작은 물론 독특한 게임성을 내세운 게임까지, 게이머들의 다양한 취향을 만족시킬만한 다양한 신작게임들이 많습니다.오늘은 특히 유니티 엔진을 기반으로 한 신작 게임들을 엄선해서 소개할까 합니다. 유니티는 이미 전세계 수백만명의 게임 개발자들이 사용하는 유명한 게임엔진입니다. 최신 버전의 엔진 '유니티 2019.3' 업데이트를 통해 260가지가 넘는 개선사항과 신규 기능이 포함돼 진일보한 고성능 그래픽과 최적화 기2020-03-17 15:30:39테크M 허준 기자