TECH M
TECH M
“음성은 시작” 오디오 인식 인공지능의 잠재력
영이노베이터’s 리포트
[테크M = 한윤창 코클리어닷에이아이 대표] 지금 시점에서 IT분야 최고의 화두는 인공지능이다. 반짝 뜨다 가라앉을 듯 보였던 인공지능은 딥러닝으로 대표되는 머신러닝 기술의 빠른 발전에 힘입어 세상을 뒤흔들 만큼의 파급력을 갖게 됐다.
내로라 하는 글로벌 기업들과 각국 정부가 인공지능 기술 개발에 대규모 투자를 아끼지 않고 있다.
인공지능이 지금의 영향력을 갖게 된 데는 2012년 알렉스 크리체브스키(A.Krizhevsky)가 이미지넷(ImageNet)대회에 들고 나온 딥러닝 시스템도 큰 영향을 미쳤다.
수많은 이미지를 분류하는 성능을 겨루는 이미지넷 대회에서 크리체브스키가 들고 나온 딥러닝 기반 기술은 다른 방법들과 비교해 차원이 다른 성능을 보여줬다. 이후 다양한 분야 많은 연구자들이 딥러닝 기반 인공지능 개발에 뛰어들었고, 이는 급속한 기술 발전으로 이어졌다.
최근 이미지 인식 분야는 글자 및 숫자인식을 넘어 정형화되지 않은 많은 종류의 사진들까지 의미를 파악하고 인식할 수 있게 됐다.
실제 애플리케이션에 활용될 정도로 발전된 이미지 인식 기술은 우리도 모르는 사이에 삶에 자연스럽게 녹아들어 스마트폰에서도 ‘음식’, ‘신발’, ‘강아지’ 등의 단어로 사진을 편하게 검색할 수 있게 되었다.
오랫 동안 성능이 정체돼 있던 음성 인식 분야도 딥러닝 덕분에 정확도가 크게 향상됐다. 5~6년전만 해도 소위 ‘말귀를 못알아 듣는다’는 박한 평가를 받던 음성인식 기술은 딥러닝 기술의 발전과 함께 인공지능을 상징하는 반열에 올라섰다.
거물급 회사들이 음성인식 기술을 탑재한 스마트 스피커를 쏟아내고 있다.
음성 인식은 오디오 인식의 한 영역이다. 오디오 인식에서 음성 인식은 여전히 가장 큰 부분을 차지하고 있다.
응용 분야가 확대되고 있는 이미지 인식과 비교하면 오디오 인식은 아직 음성 인식에 크게 치우쳐 있다. 음성 인식을 제외하면 음악 검색 서비스 등이 그나마 실생활에서 많이 쓰이는 오디오 인식 애플리케이션 중 하나다.
이미지 분야는 글자 인식을 넘어 점차 사람과 같은 시각 인지 능력을 갖춰가고 있는데, 오디오 인식 활용은 왜 음성 인식 위주에 그치고 있을까?
오디오 자체가 가진 기술적인 어려움도 있겠지만 소리에 얼마나 많은 정보가 들어 있고, 우리 일상 생활에서 중요한 역할을 하는지에 많은 사람들이 과소평가하고 있다는 것이 더 큰 이유라고 생각한다.
사람은 자고 있는 중에도 알람소리를 듣고 일어날 정도로 생각보다 소리에 민감하다. 예전부터 종소리는 다양한 문화권에서 마을에 시간을 알려주는 가장 빠르고 확실한 수단이었다.
목소리만 듣고도 우리는 상대방이 감기에 걸렸는지 쉽게 알 수 있다. 이외에도 아기가 울고, 개가 짖고, 유리가 깨지는 등 대화가 아닌 비언어적인 소리는 우리 일상에 많은 영향을 미치고 있다. 사람이 너무 자연스럽게 이해하는 이 같은 소리에 담긴 정보들은 아직 컴퓨터가 이해하기엔 어렵다.
인공지능 개발 관점에서 보면 비언어적인 소리를 인식하는 것은 만만치 않은 도전이자 거대한 기회다.
지금은 사람의 말을 알아듣고 간단한 명령을 실행해 주는 것만으로도 인공지능이라고 불리운다. 하지만 인공지능 기술이 발전되고 보편화됨에 따라 사람들의 기대치는 빠르게 올라갈 것이다.
사람의 언어는 미리 만들어 놓은 약속이기 때문에 범위가 정해져 있지만, 인식의 범위를 세상에 존재하는 모든 소리로 늘린다면 난이도는 매우 높아질 것이다.
하지만 인공지능이 진화하기 위해서는 언젠가는 꼭 해결하고 넘어가야할 문제다. 박사 졸업 후 연구실 동료들과 함께 코클리어닷에이아이(Cochlear.ai)를 설립하게 된 것도 오디오 인공지능 분야의 잠재력이 매우 크다고 생각했기 때문이다.
대기업들이 자금력과 우수한 인력들을 가지고 있지만, 오디오 인식은 스타트업이 도전해 볼만한 영역이다.
제대로된 오디오 인공지능을 구현하기 위해서는 딥러닝 기술 뿐만 아니라 다양한 머신러닝 기법들, 고도화된 신호처리 기술, 여기에다 많은 오디오 데이터를 필요로 하는데 여러 일을 같이 하는 대기업에서 이에 최적화된 팀을 꾸리는 것은 쉽지 않다.
오디오 인식은 인공지능의 수준을 끌어올리는 계기가 될 수 있다. 수많은 소리에 담긴 의미를 사람처럼 컴퓨터가 파악할 수 있을 때 인공지능은 사람의 인지능력에 한발 다가갈 수 있을 것이다.
오디오 인공지능 기술은 조용한 음악을 들을 때 조명을 은은하게 바꿔준다든지, 위급 상황에 집주인에게 알람을 주는 등의 단순한 활용부터 시작해서 조만간 사람이 먼저 부르고 명령하지 않아도 주변 상황을 알아서 판단하고 맥락을 파악하여 적절한 서비스를 제공해주는 방향으로 진화해나갈 것이라고 생각한다.
이를 통해 확보한 데이터는 자연어 처리 및 시각 인지 등 다른 인공지능 기술과 함께 쓰여 더욱 사람 같은 시스템을 만드는데 기여할 것이다.
코클리어닷에이아이가 개발하는 오디오 인공지능 기술은 국내외에 비슷한 선례가 없어 벤치마킹을 할 수 있는 분야가 아니다. 하지만 인공지능 기술로 인해 시장의 판이 다시 짜여지고 있는 지금, 오디오 인식이라는 새로운 분야에서 새로운 기준을 세울 수 있는 기회가 있다고 생각한다.
오디오 인공지능은 관련 학계에서는 비교적 오래전부터 연구되고 논의되던 분야이다. 음악정보분석, 감정분석, 음성인식, 화자인식, 환경음 인식 등 수많은 분야들로 파편화돼 있던 오디오 인식 분야는 딥러닝 기술의 발전으로 점차 통합될 것이고, 머지않아 자연스럽게 우리 일상 생활을 더욱 편리하게 만드는데 크게 기여할 것이라고 생각한다.
코클리어닷에이아이는 최근 케이큐브벤처스로부터 투자를 유치했다. 이를 기반으로 오디오 데이터 확대 등 기술 개발에 보다 집중할 계획이다.
<본 기사는 테크M 제56호(2017년 12월) 기사입니다>
-
'전자정부 名家' LG CNS, 1200억 '행복e음' 사업 수주로 자존심 회복할까공공 소프트웨어(SW) 사업의 강자 LG CNS가 올해 공공시장 첫 '대어'로 꼽히는 보건복지부 차세대 사회보장정보시스템(행복e음) 구축 사업에 출사표를 던졌다.17일 업계에 따르면 LG CNS는 이날 행복e음 사업 재입찰에 제안서를 제출했다.행복e음 사업은 지난 2009년 복지부가 각종 사회복지 급여 및 서비스 지원 대상자의 자격과 이력에 관한 정보를 통합 관리하기 위해 구축한 시스템을 현대화 하는 사업이다. 올해부터 3년간 약 1220억원이 투입된다.이 사업은 지난 3일 첫 입찰 공고를 마감했으나 무2020-03-17 16:54:47테크M 남도영 기자
-
네이버 vs 카카오, 포털-메신저 이은 3라운드... 링은 '콘텐츠'#수천억 자금으로 뭘 만들까#넷플릭스 잡을 수 있을까#톡TV-네이버TV 경쟁 볼만할 듯국내 대표 인터넷 맞수 기업 네이버와 카카오의 세번재 경쟁 무대 막이 올랐다. 포털과 메신저 플랫폼에서 치열하게 경쟁해온 두 기업의 3라운드 링은 '콘텐츠'다. 이미 양사는 콘텐츠 자회사에 수천억원의 자금을 쌓아놨다. 올해부터 본격적으로 콘텐츠 양산에 돌입한다. 콘텐츠 주도권 경쟁의 전초전은 이미 시작됐다.◆실탄 마련한 카카오M, 직접 콘텐츠 제작 개시카카오는 지난 16일 콘텐츠 자회사 카카오M이 3자 배정 유상증자2020-03-17 15:53:45테크M 허준 기자
-
[템 사이트] 게임 하면 유니티! 2020년 기대되는 유니티 기반 게임은?연일 쏟아지는 신작 소식이 게이머들을 설레게 하고 있습니다. 남다른 스케일을 자랑하는 게임업체들의 대형 신작은 물론 독특한 게임성을 내세운 게임까지, 게이머들의 다양한 취향을 만족시킬만한 다양한 신작게임들이 많습니다.오늘은 특히 유니티 엔진을 기반으로 한 신작 게임들을 엄선해서 소개할까 합니다. 유니티는 이미 전세계 수백만명의 게임 개발자들이 사용하는 유명한 게임엔진입니다. 최신 버전의 엔진 '유니티 2019.3' 업데이트를 통해 260가지가 넘는 개선사항과 신규 기능이 포함돼 진일보한 고성능 그래픽과 최적화 기2020-03-17 15:30:39테크M 허준 기자