“음성은 시작” 오디오 인식 인공지능의 잠재력 > 기사

오디오 인식 AI 활용 사례

[테크M = 한윤창 코클리어닷에이아이 대표] 지금 시점에서 IT분야 최고의 화두는 인공지능이다. 반짝 뜨다 가라앉을 듯 보였던 인공지능은 딥러닝으로 대표되는 머신러닝 기술의 빠른 발전에 힘입어 세상을 뒤흔들 만큼의 파급력을 갖게 됐다.

내로라 하는 글로벌 기업들과 각국 정부가 인공지능 기술 개발에 대규모 투자를 아끼지 않고 있다.

인공지능이 지금의 영향력을 갖게 된 데는 2012년 알렉스 크리체브스키(A.Krizhevsky)가 이미지넷(ImageNet)대회에 들고 나온 딥러닝 시스템도 큰 영향을 미쳤다.

수많은 이미지를 분류하는 성능을 겨루는 이미지넷 대회에서 크리체브스키가 들고 나온 딥러닝 기반 기술은 다른 방법들과 비교해 차원이 다른 성능을 보여줬다. 이후 다양한 분야 많은 연구자들이 딥러닝 기반 인공지능 개발에 뛰어들었고, 이는 급속한 기술 발전으로 이어졌다.

최근 이미지 인식 분야는 글자 및 숫자인식을 넘어 정형화되지 않은 많은 종류의 사진들까지 의미를 파악하고 인식할 수 있게 됐다.

실제 애플리케이션에 활용될 정도로 발전된 이미지 인식 기술은 우리도 모르는 사이에 삶에 자연스럽게 녹아들어 스마트폰에서도 ‘음식’, ‘신발’, ‘강아지’ 등의 단어로 사진을 편하게 검색할 수 있게 되었다.

오랫 동안 성능이 정체돼 있던 음성 인식 분야도 딥러닝 덕분에 정확도가 크게 향상됐다. 5~6년전만 해도 소위 ‘말귀를 못알아 듣는다’는 박한 평가를 받던 음성인식 기술은 딥러닝 기술의 발전과 함께 인공지능을 상징하는 반열에 올라섰다.

거물급 회사들이 음성인식 기술을 탑재한 스마트 스피커를 쏟아내고 있다.

음성 인식은 오디오 인식의 한 영역이다. 오디오 인식에서 음성 인식은 여전히 가장 큰 부분을 차지하고 있다.

응용 분야가 확대되고 있는 이미지 인식과 비교하면 오디오 인식은 아직 음성 인식에 크게 치우쳐 있다. 음성 인식을 제외하면 음악 검색 서비스 등이 그나마 실생활에서 많이 쓰이는 오디오 인식 애플리케이션 중 하나다.

이미지 분야는 글자 인식을 넘어 점차 사람과 같은 시각 인지 능력을 갖춰가고 있는데, 오디오 인식 활용은 왜 음성 인식 위주에 그치고 있을까?

오디오 자체가 가진 기술적인 어려움도 있겠지만 소리에 얼마나 많은 정보가 들어 있고, 우리 일상 생활에서 중요한 역할을 하는지에 많은 사람들이 과소평가하고 있다는 것이 더 큰 이유라고 생각한다.

사람은 자고 있는 중에도 알람소리를 듣고 일어날 정도로 생각보다 소리에 민감하다. 예전부터 종소리는 다양한 문화권에서 마을에 시간을 알려주는 가장 빠르고 확실한 수단이었다.

목소리만 듣고도 우리는 상대방이 감기에 걸렸는지 쉽게 알 수 있다. 이외에도 아기가 울고, 개가 짖고, 유리가 깨지는 등 대화가 아닌 비언어적인 소리는 우리 일상에 많은 영향을 미치고 있다. 사람이 너무 자연스럽게 이해하는 이 같은 소리에 담긴 정보들은 아직 컴퓨터가 이해하기엔 어렵다.

인공지능 개발 관점에서 보면 비언어적인 소리를 인식하는 것은 만만치 않은 도전이자 거대한 기회다.

지금은 사람의 말을 알아듣고 간단한 명령을 실행해 주는 것만으로도 인공지능이라고 불리운다. 하지만 인공지능 기술이 발전되고 보편화됨에 따라 사람들의 기대치는 빠르게 올라갈 것이다.

사람의 언어는 미리 만들어 놓은 약속이기 때문에 범위가 정해져 있지만, 인식의 범위를 세상에 존재하는 모든 소리로 늘린다면 난이도는 매우 높아질 것이다.

하지만 인공지능이 진화하기 위해서는 언젠가는 꼭 해결하고 넘어가야할 문제다. 박사 졸업 후 연구실 동료들과 함께 코클리어닷에이아이(Cochlear.ai)를 설립하게 된 것도 오디오 인공지능 분야의 잠재력이 매우 크다고 생각했기 때문이다.

대기업들이 자금력과 우수한 인력들을 가지고 있지만, 오디오 인식은 스타트업이 도전해 볼만한 영역이다.

제대로된 오디오 인공지능을 구현하기 위해서는 딥러닝 기술 뿐만 아니라 다양한 머신러닝 기법들, 고도화된 신호처리 기술, 여기에다 많은 오디오 데이터를 필요로 하는데 여러 일을 같이 하는 대기업에서 이에 최적화된 팀을 꾸리는 것은 쉽지 않다.

오디오 인식은 인공지능의 수준을 끌어올리는 계기가 될 수 있다. 수많은 소리에 담긴 의미를 사람처럼 컴퓨터가 파악할 수 있을 때 인공지능은 사람의 인지능력에 한발 다가갈 수 있을 것이다.

오디오 인공지능 기술은 조용한 음악을 들을 때 조명을 은은하게 바꿔준다든지, 위급 상황에 집주인에게 알람을 주는 등의 단순한 활용부터 시작해서 조만간 사람이 먼저 부르고 명령하지 않아도 주변 상황을 알아서 판단하고 맥락을 파악하여 적절한 서비스를 제공해주는 방향으로 진화해나갈 것이라고 생각한다.

이를 통해 확보한 데이터는 자연어 처리 및 시각 인지 등 다른 인공지능 기술과 함께 쓰여 더욱 사람 같은 시스템을 만드는데 기여할 것이다.

코클리어닷에이아이가 개발하는 오디오 인공지능 기술은 국내외에 비슷한 선례가 없어 벤치마킹을 할 수 있는 분야가 아니다. 하지만 인공지능 기술로 인해 시장의 판이 다시 짜여지고 있는 지금, 오디오 인식이라는 새로운 분야에서 새로운 기준을 세울 수 있는 기회가 있다고 생각한다.

오디오 인공지능은 관련 학계에서는 비교적 오래전부터 연구되고 논의되던 분야이다. 음악정보분석, 감정분석, 음성인식, 화자인식, 환경음 인식 등 수많은 분야들로 파편화돼 있던 오디오 인식 분야는 딥러닝 기술의 발전으로 점차 통합될 것이고, 머지않아 자연스럽게 우리 일상 생활을 더욱 편리하게 만드는데 크게 기여할 것이라고 생각한다.

코클리어닷에이아이는 최근 케이큐브벤처스로부터 투자를 유치했다. 이를 기반으로 오디오 데이터 확대 등 기술 개발에 보다 집중할 계획이다.

<본 기사는 테크M 제56호(2017년 12월) 기사입니다>

TECH M

TECH M

“음성은 시작” 오디오 인식 인공지능의 잠재력

영이노베이터’s 리포트

인기기사

광고영역

태그