구글, AI로 청각장애인 소통 돕는다…실시간 AI 음성 텍스트 변환 앱 개발 > 기사

사가 사블라 구글 AI 리서치 프로덕트 매니저는 14일 서울 강남구 구글코리아 사무실에서 열린 화상 기자간담회에서 자동 자막 생성 애플리케이션 ‘라이브 트랜스크라이브’를 설명했다.

구글이 청각 장애인을 위해 실시간 대화를 자막으로 생성하는 애플리케이션(앱) ‘라이브 트랜스크라이브’를 공개했다.

세계보건기구(WHO)에 따르면 세계에 청각 장애를 앓고 있는 사람은 4억6600만명에 달한다. 구글이 인공지능(AI) 기술을 이용해 이들의 소통을 돕는 기술을 선보였다.

구글코리아는 14일 서울 역삼동 구글코리아 사옥에서 구글 본사의 사가 사블라 인공지능(AI) 리서치 프로덕트 매니저를 화상통화로 연결해 라이브 트랜스크라이브 기술을 소개했다.

라이브 트랜스크라이브는 머신러닝 기반 음성 텍스트 변환 기술을 활용한 앱이다. 스마트폰 마이크를 통해 일상 생활에서 들리는 대화를 실시간 자막으로 변환해 보여준다. 세계 70개가 넘는 언어를 지원한다.

보청기 사용 불편을 넘어설 수 있는 청각 보완 앱

사블라 매니저는 “나이가 들면서 청력이 점점 감퇴하는데 보청기를 사용하는 것에 대한 사회적 낙인이 존재한다. 또 비싸고 불편하다는 이유로 보청기 사용을 꺼리는 노인은 소통에서 고립되고 만다”고 말했다.

이어 “그래서 청각이 아닌 시각이나 촉각 같은 다른 감각으로 청각장애인이 청각 장애가 없는 사람과 대화할 때 나타나는 간극을 줄일 순 없을까 하는 고민을 했다”며 트랜스크라이브를 개발하게 된 계기를 설명했다.

그는 라이브 트랜스크라이브가 신경망 두 개를 사용하고 있다고 설명했다. 하나는 모바일에, 다른 하나는 구글 클라우드에 적용했다.

먼저 모바일에 있는 온디바이스(on-device) 신경망은 ‘음성 감지기’ 역할을 한다. 여러 가지 소리를 570가지로 분류하고, 이 중 사람 말소리가 있는지 없는지 파악한다.

클라우드에서는 음성인식 엔진이 돌아간다. 이때 구글 자동음성인식(ASR) 기술은 주변이 시끄러운 상황에서도 음성을 정확하게 인식하도록 만든다. 사블라는 “음성을 인식하는 엔진이 무겁기 때문에 스마트폰 단말기에 넣으면 성능이 떨어진다. 그래서 클라우드에 넣었다”고 설명했다.

ASR기술은 우선 들려오는 소리에서 소음과 대화를 구분하고, 이를 음소단위로 분리해 인식한다. 그리곤 사전에 있는 단어와 매칭하는 과정을 거쳐 맥락을 파악해 단어를 수정해 나간다.

사블라는 “이런 과정을 거쳐 의학 용어나 법률 용어 같은 전문 용어도 잘 인식할 수 있다”고 말했다.

이어 실제 대화내용을 제대로 텍스트로 전달하려면 무엇보다 ‘맥락’을 파악하는 것이 중요하다며, 라이브 트랜스크라이브가 이 점에서 뛰어나다고 강조했다.

“예를 들어 ‘오늘 뉴욕에서 뉴 저지(new jersey)를 샀어’라고 말했을 때는 새로운 셔츠를 샀다는 의미다. 하지만 이것을 ‘뉴저지(New Jersey)’라는 지역 이름으로 표현하면 맥락을 파악하지 못한 것”이라고 설명했다.

그는 또 라이브 트랜스크라이브가 200ms 미만의 빠른 속도로 실시간 대화 내용을 자막으로 변환한다고 설명했다. 이때 서로 다른 두 개 언어를 사용해도 한 번에 인식할 수 있다.

빠른 속도 뿐 아니라 70개가 넘는 언어를 다루면서도 높은 정확도를 갖췄다. 한국어는 오류율이 20% 미만으로 다른 언어와 비교했을 때 높은 수준이다. 사블라는 “앞으로 한국어 데이터를 많이 수집해 음성인식 정확도를 더욱 높여 나갈 것”이라고 말했다.

목소리 시각화로 이용 편의성 높여

라이브 트랜스크라이브는 현재 사용자 주변 소음 정도와 마이크에 사용자 목소리가 얼마나 잘 인식되는지를 시각화해 보여줌으로써 서비스에서 정교함을 높였다. 사블라는 “만약 주변이 조용한 상황인데 나만 혼자 크게 목소리를 낸다면 민망한 상황이 될 수 있다”며 “앱 오른쪽 상단에 주변 환경과 내 목소리 크기 정도를 비교할 수 있는 표시를 만들어 사용자가 난처해지지 않도록 했다”고 말했다.

라이브 트랜스크라이브는 현재 안드로이드 기기에서 베타 버전으로 서비스하고 있다. 스마트폰 구글플레이에서 무료로 다운로드 할 수 있다. iOS용 앱 출시 계획은 아직 미정이다.

현재 라이브 트랜스크라이브는 클라우드 환경을 필요로 하기 때문에 네트워크로 연결돼 있어야 사용할 수 있다. 하지만 구글은 앞으로 음성인식 기술을 완전한 온디바이스 방식으로 전환해 사용자가 네트워크 연결 없이도 사용할 수 있도록 할 예정이다.

이 밖에도 구글은 다양한 기술을 활용해 서비스를 정교화할 계획이다. 예를 들어 스마트폰 카메라를 이용해 여러 사람 중에서 현재 말하고 있는 사람이 누군지 파악할 수 있도록 할 수 있다. 사블라는 “사람 음성 뿐 아니라 자동차 소리나 개 짓는 소리 등을 이모티콘으로 알려주는 서비스도 고민하고 있다”고 말했다.

이어 “라이브 트랜스크라이브는 한국에서도 이미 상당수 사용자를 보유하고 있다”며 “앞으로 사용자가 필요로 하는 부분이 있으면 이를 최대한 반영하면서 서비스를 개선해 나가겠다”고 강조했다.

[테크M=곽예하 기자(yeha1798@techm.kr)]

TECH M

TECH M

구글, AI로 청각장애인 소통 돕는다…실시간 AI 음성 텍스트 변환 앱 개발

라이브 트랜스크라이브, 200ms 미만 빠른 속도로 실시간 대화 변환…한국어 오류율 20% 미만

인기기사

광고영역

태그