TECH M
TECH M
구글, AI로 청각장애인 소통 돕는다…실시간 AI 음성 텍스트 변환 앱 개발
라이브 트랜스크라이브, 200ms 미만 빠른 속도로 실시간 대화 변환…한국어 오류율 20% 미만
구글이 청각 장애인을 위해 실시간 대화를 자막으로 생성하는 애플리케이션(앱) ‘라이브 트랜스크라이브’를 공개했다.
세계보건기구(WHO)에 따르면 세계에 청각 장애를 앓고 있는 사람은 4억6600만명에 달한다. 구글이 인공지능(AI) 기술을 이용해 이들의 소통을 돕는 기술을 선보였다.
구글코리아는 14일 서울 역삼동 구글코리아 사옥에서 구글 본사의 사가 사블라 인공지능(AI) 리서치 프로덕트 매니저를 화상통화로 연결해 라이브 트랜스크라이브 기술을 소개했다.
라이브 트랜스크라이브는 머신러닝 기반 음성 텍스트 변환 기술을 활용한 앱이다. 스마트폰 마이크를 통해 일상 생활에서 들리는 대화를 실시간 자막으로 변환해 보여준다. 세계 70개가 넘는 언어를 지원한다.
보청기 사용 불편을 넘어설 수 있는 청각 보완 앱
사블라 매니저는 “나이가 들면서 청력이 점점 감퇴하는데 보청기를 사용하는 것에 대한 사회적 낙인이 존재한다. 또 비싸고 불편하다는 이유로 보청기 사용을 꺼리는 노인은 소통에서 고립되고 만다”고 말했다.
이어 “그래서 청각이 아닌 시각이나 촉각 같은 다른 감각으로 청각장애인이 청각 장애가 없는 사람과 대화할 때 나타나는 간극을 줄일 순 없을까 하는 고민을 했다”며 트랜스크라이브를 개발하게 된 계기를 설명했다.
그는 라이브 트랜스크라이브가 신경망 두 개를 사용하고 있다고 설명했다. 하나는 모바일에, 다른 하나는 구글 클라우드에 적용했다.
먼저 모바일에 있는 온디바이스(on-device) 신경망은 ‘음성 감지기’ 역할을 한다. 여러 가지 소리를 570가지로 분류하고, 이 중 사람 말소리가 있는지 없는지 파악한다.
클라우드에서는 음성인식 엔진이 돌아간다. 이때 구글 자동음성인식(ASR) 기술은 주변이 시끄러운 상황에서도 음성을 정확하게 인식하도록 만든다. 사블라는 “음성을 인식하는 엔진이 무겁기 때문에 스마트폰 단말기에 넣으면 성능이 떨어진다. 그래서 클라우드에 넣었다”고 설명했다.
ASR기술은 우선 들려오는 소리에서 소음과 대화를 구분하고, 이를 음소단위로 분리해 인식한다. 그리곤 사전에 있는 단어와 매칭하는 과정을 거쳐 맥락을 파악해 단어를 수정해 나간다.
사블라는 “이런 과정을 거쳐 의학 용어나 법률 용어 같은 전문 용어도 잘 인식할 수 있다”고 말했다.
이어 실제 대화내용을 제대로 텍스트로 전달하려면 무엇보다 ‘맥락’을 파악하는 것이 중요하다며, 라이브 트랜스크라이브가 이 점에서 뛰어나다고 강조했다.
“예를 들어 ‘오늘 뉴욕에서 뉴 저지(new jersey)를 샀어’라고 말했을 때는 새로운 셔츠를 샀다는 의미다. 하지만 이것을 ‘뉴저지(New Jersey)’라는 지역 이름으로 표현하면 맥락을 파악하지 못한 것”이라고 설명했다.
그는 또 라이브 트랜스크라이브가 200ms 미만의 빠른 속도로 실시간 대화 내용을 자막으로 변환한다고 설명했다. 이때 서로 다른 두 개 언어를 사용해도 한 번에 인식할 수 있다.
빠른 속도 뿐 아니라 70개가 넘는 언어를 다루면서도 높은 정확도를 갖췄다. 한국어는 오류율이 20% 미만으로 다른 언어와 비교했을 때 높은 수준이다. 사블라는 “앞으로 한국어 데이터를 많이 수집해 음성인식 정확도를 더욱 높여 나갈 것”이라고 말했다.
목소리 시각화로 이용 편의성 높여
라이브 트랜스크라이브는 현재 사용자 주변 소음 정도와 마이크에 사용자 목소리가 얼마나 잘 인식되는지를 시각화해 보여줌으로써 서비스에서 정교함을 높였다. 사블라는 “만약 주변이 조용한 상황인데 나만 혼자 크게 목소리를 낸다면 민망한 상황이 될 수 있다”며 “앱 오른쪽 상단에 주변 환경과 내 목소리 크기 정도를 비교할 수 있는 표시를 만들어 사용자가 난처해지지 않도록 했다”고 말했다.
라이브 트랜스크라이브는 현재 안드로이드 기기에서 베타 버전으로 서비스하고 있다. 스마트폰 구글플레이에서 무료로 다운로드 할 수 있다. iOS용 앱 출시 계획은 아직 미정이다.
현재 라이브 트랜스크라이브는 클라우드 환경을 필요로 하기 때문에 네트워크로 연결돼 있어야 사용할 수 있다. 하지만 구글은 앞으로 음성인식 기술을 완전한 온디바이스 방식으로 전환해 사용자가 네트워크 연결 없이도 사용할 수 있도록 할 예정이다.
이 밖에도 구글은 다양한 기술을 활용해 서비스를 정교화할 계획이다. 예를 들어 스마트폰 카메라를 이용해 여러 사람 중에서 현재 말하고 있는 사람이 누군지 파악할 수 있도록 할 수 있다. 사블라는 “사람 음성 뿐 아니라 자동차 소리나 개 짓는 소리 등을 이모티콘으로 알려주는 서비스도 고민하고 있다”고 말했다.
이어 “라이브 트랜스크라이브는 한국에서도 이미 상당수 사용자를 보유하고 있다”며 “앞으로 사용자가 필요로 하는 부분이 있으면 이를 최대한 반영하면서 서비스를 개선해 나가겠다”고 강조했다.
[테크M=곽예하 기자(yeha1798@techm.kr)]
-
"푹+옥수수, 동남아의 넷플릭스로"…박정호 SKT 사장 전략 통할까앵커> SK텔레콤이 '내수 이동통신사'에서 벗어나 글로벌 ICT 회사로 도약하겠다는 계획을 꾸려가고 있습니다. SK텔레콤의 옥수수와 지상파의 푹을 통합한 토종 OTT를 동남아의 넷플릭스로 만들기 위한 전략을 짜고 있는데요. 김예람 기자가 알아봤습니다.기자> 박정호 SK텔레콤 사장이 미디어 부문의 글로벌화 로드맵을 꾸려나가고 있습니다.과거 SK텔레콤은 ‘통신시장 해외 진출에 성과를 내지 못하고 중국, 미국, 베트남 등에서 철수했습니다.이제는 통신 사업이 아닌 미디어 사업 등으2019-03-15 14:03:13김예람 기자
-
“AI 도움으로 양자물리학 더 잘 이해”… 인텔 부사장, 히브리대 연구 결과 발표인공지능(AI) 도움으로 양자물리학을 더 쉽게 이해하는 기술이 개발됐다.인텔은예루살렘 히브리대 컴퓨터공학 연구진이 AI가 양자물리학 현상을 이해하는 데 도움을 줄 수 있다는 사실을 수학적으로 증명했다고 15일 밝혔다. 이 연구 결과는 미국 물리학회가 발행하는 ‘피지컬 리뷰 레터스(Physical Review Letters)’에 게재됐다.인텔 수석부사장 겸 모빌아이(Mobileye)의 CEO 암논 샤슈아 교수는 지난 13일(수) 미국 국립과학원회보(PNAS)가 워싱턴 D.C.에서2019-03-15 11:47:55곽예하 기자
-
애플, 6월 개발자회의 개최…아이패드 등 신제품 공개 전망애플이세계 개발자 컨퍼런스(WWDC)를 오는 6월 3일부터 7일까지 미국 새너제이 매키너리 컨벤션 센터에서 개최한다고 15일 발표했다.올해로 30주년을 맞이한 애플 WWDC는 업계 애널리스트와 언론이 주목하는 연례행사다. 씨넷을 비롯한 외신에 따르면 애플은 올해행사에서 아이폰과 아이패드용 iOS 최신 버전과 애플워치와애플TV 같은 새 OS도 공개할 것으로 보고 있다. 또아이패드와 맥프로 신제품도 공개할 것이라는 전망도 나오고 있다.이번 행사에서는머신러닝과 증강현실, 헬스와 피트니스분야에 속한2019-03-15 11:11:34박응서 기자