보이스 퍼스트 디바이스, 인공 집단지성으로 진화 > 기사

[테크M= 황성재 퓨처플레이 파트너]

“아리야”, “헤이 구글”, “알렉사”, “빅스비”, “시리” 등 인공지능 비서를 부르는 장면을 주변에서 심심치 않게 볼 수 있다.

아마존 에코(Amazon Echo)가 영미권에서만 1100만 대 이상 판매됐고 삼성전자의 새 스마트폰 갤럭시S8에도 빅스비(Bixby)가 핵심 기능으로 소개되는 등 인공지능 비서 기술이 빠르게 대중화되고 있다.

초기 스마트폰 앱 생태계가 앱스토어를 통해 성장한 것처럼, 아마존 에코의 애플리케이션 ‘스킬’도 내부 생태계를 통해 1만 개를 넘어서고 있다. BI인텔리전스는 2020년까지 아마존 플랫폼을이용한 수익이 약 12조 원에 이를 것으로 전망했다.

인공지능 스피커는 수요자와 공급자 모두에게 매력이 있다. 수요자에게는 음악을 틀어주는 킬러 애플리케이션이 있어 비교적친근하고, 스마트폰 같은 고가 부품이 필요하지 않아 부담 없는 가격으로 살 수 있다.

공급자 관점에서는 사용자의 주변에 접근할 수 있는 서비스 플랫폼으로서의 잠재 가치가 높다. 특히, 웨어러블, 스마트 카, 가전 등 다양한 형태의 기기로 확장해 사용자의공간을 하나의 통합된 가상환경으로 구성할 수 있다는 점이 큰 매력이다.

이미 사용자의 65%가 더 이상 스마트폰에 새로운 앱을 깔지 않고 있다. 이 때문에 앱 설치를 위한 광고비(CPI)가 이미 3.4달러를 훌쩍 넘어서고 있다. 이를 고려한다면 인공지능 스피커 플랫폼은 새롭게 등장한 기회의 장이라 할 수 있다.

그렇다면 인공지능 스피커는 현재 어떻게 활용되고 있을까? 크리에이티브 스트레티지의 최근 자료에 따르면 아마존 에코가 가장 많이 배치된 곳은 주방이고 그 다음으로 거실, 가족실, 침실 순으로 배치돼 있다.

흥미로운 것은, 스마트 홈의 대표적 공용 공간인 거실보다 주방에서 더 많이 활용되고 있다는 점. 주방은 설거지와 요리 등 손을 쓰지 않는 핸즈프리 인터랙션이 필요한 멀티태스킹 환경이다. 때문에 음성 디바이스의 장점이 잘 드러난다.

반대로 거실은 TV가 주요 미디어로 활용되기 때문에 추가 디바이스 활용에 제약이 있다. 이 때문에 지금은 인공지능 스피커가 주방 같은 멀티태스킹 환경에서 가장 활용도가 높은 기기라고 할 수 있다.

스마트 스피커의 사용은 어떤 형태일까? 통계에 따르면 사용자들은 음악실행, 스마트 조명 컨트롤, 시간 세팅 순으로 에코를 활용하고 있었다. 여기서 나타나는 것처럼 뮤직 플레이어는 스피커 재화의 본질적 사용 시나리오로, 일반인들의 구매유인을 촉진시키는 핵심 기능이자 지속적으로 활용되는 킬러 애플리케이션이라고 할 수 있다.

하지만 다양성의 관점에서 에코의 활용도는 아직 일차원적이다. 따라서 스마트 스피커가 더욱 빠르게 대중화되려면 음악듣기
기능 외에 사용자를 묶어둘 수 있는(lock-in) 다양한 킬러 애플리케이션이 필요해 보인다.

보이스-퍼스트 디바이스의 사용자 경험

기본적으로 음성 채널은 시각, 촉각과는 다른 강점을 가지고 있다. 우선 그 자체가 생체정보이므로 보이스 프린트(Voiceprint)를 갖고 있다. 따라서 사용자 인식과 명령수행을 동시에 할 수 있다.

이와 함께 핸즈 및 아이 프리 인터렉션(Hands andeyes free)이 가능하다. 이러한 특성은 스마트 차량이나 부엌 등 멀티태스킹을 요하는 환경에서 장점이 된다. 뿐만 아니라 말로 하는 정보 전달에는 사용자의 감정이 포함될 수 있다. 같은 명령이라 하더라도 감정에 따른 세밀한 인식이 가능하다.

단점도 있다. 음성은 기본적으로 공개된 채널(Public channel) 이므로 정보가 모두 노출된다. 또 사용자가 해당 음성채널에 집중을 해도 외부의 소음 때문에 정보를 전달받지 못할 수 있다.

이와 함께 음성 채널은 일시적(Transient) 특성을 가지기 때문에 전달에 문제가 생긴 경우 다시 반복해서 전달해야 하는 단점이 있다. 이처럼 보이스-퍼스트 디바이스는 그 채널의 특성상, 기존 디바이스의 상호작용 문법과는 다르게 구성되어야 한다.

과거 데스크탑 GUI 환경에서 가장 널리 사용된 마우스는 클릭(Click), 무브(Move), 스크롤(Scroll) 같은 문법체계를 갖고 있다.
지금 가장 많이 사용되는 터치스크린은 터치(Touch)와 릴리즈(Release)의 문법체계에 기초를 두고 있다. 보이스 퍼스트 디바이스는 음성을 이용한 깨우기(Initiate), 대화(communicate), 종료(terminate) 의 3가지 문법을 기본으로 하고 있다.

중요한 것은, 과거 환경에서 통용된 입출력 문법과 인터랙션이 인공지능 스피커 환경에서는 아직 명확하게 정립되지 않았다는 것.

예를 들어, 정보목록의 끝에 다다를 경우(e.g., 전화번호부의 마지막에 다다른 경우) 터치스크린은 사용자의 움직임을 제대로 인식하지 못한 것인지 더 이상 추가 정보가 없기 때문인지 실세계의 물리적 운동을 통해 자연스럽게 표현한다(아이폰의 바운스 백과 안드로이드의 번짐 효과).

하지만 인공지능 스피커 환경에서는 이러한 인터랙션이 아직 정립되어 있지 않다. 사람이 질문을했을 때 답이 없다면 질문이 전달되지 않은 것인지, 정보가 충분치 않은 것인지, 권한이 없는 것인지를 표현할 방법이 아직 정립되지 않았다.

초기 버전의 구글 홈의 경우 대화 인식이 제대로 되지 않더라도 아무런 피드백이 없도록 디자인되었는데, 당시 많은사용자들은 가상의 대화 상대에게 무시를 당한 것 같다는 후기를남겼다. (이후 구글 홈은 업데이트 되면서 좀 더 친절해졌다)

이처럼, 보이스-퍼스트 디바이스는 환경적 특성을 고려해 사용자 경험을 디자인해야 한다. 몇 가지 중요한 피드백 요소만을 정리하면 다음과 같다.

음성 피드백: 인공지능 스피커의 기본 채널은 음성이고, 가상비서와의 이야기를 기본으로 하기 때문에 음성의 나이, 성별, 성격 등이 사용자 경험에 중요한 역할을 한다. 대부분의 가상 비서가 여성 목소리인 것에 대해 논란이 빚어진 것처럼, 가상 비서의 기본 음성을 어떻게 디자인할 지에 대한 고민이 필요하다. 이것은 마치 GUI 환경에서 룩앤필(look and feel)을 디자인하는 것과 비슷하다고 할 수 있다. 청각 채널을 반드시 음성으로만 이용해야 하는 것은 아니므로 이어콘(earcon) 등의 사용도 고려해 볼 수 있다.

시각 피드백: 인공지능 스피커는 음성을 이용한 상호작용이 기본이지만 이외의 다양한 피드백 채널도 활용할 수 있다. 실제 아마존 에코는12개의 LED로 이루어진 링의 색과 움직임 변화를 통해 다양한 비주얼 피드백을 만들어 낸다. 사용자가 음성으로 대화를 시도할 때에는 사용자의 방향으로 푸른색 LED를 비추어 듣고 있다는 신호를 보내고, 주어진 명령을 인식하기 위한 프로세싱 단계에서는 푸른색 띠를 회전시키는 피드백을 보여준다. 이러한 회전 운동은 GUI 환경에서 흔히 쓰인 원형 프로그레스 바(Progress bar) 의 형태를 그대로 따르고 있다고 할 수 있다. 이러한 시각 피드백은 낮은 해상도이지만 사용자 경험에 많은 차이를 줄 수 있다.

물리적 움직임 피드백: 보이스-퍼스트 디바이스 중에서는 물리적 움직임 속성을 가진 디바이스도 있다. 지보(Jibo)의 경우 고정된 위치에서 음성 정보와 물리적 움직임을 통해 감정을 전달한다. 이 같이 움직임도 보이스-퍼스트 디바이스의 중요한 디스플레이로 활용할 수 있다.

인공지능 스피커의 한계

인공지능 스피커가 대중화 되고, 우리 삶에 중요한 역할로 자리 잡기 위해서는 다양한 문제점을 개선, 보완해야 한다. 인공지능 스피커가 가진 현재의 한계점은 어떤 것들이 있을까?

>>>

음성 채널은 시각, 촉각과는 다른 강점을 가지고 있다. 그 자체가 생체정보이므로 보이스 프린트 (Voice print)를 갖고 있다.

따라서 사용자 인식과 명령수행을 동시에 할 수 있다.

킬러 애플리케이션(killer application): 앞서 언급한 것처럼, 지금은 음악듣기 말고는 사용자가 지속적으로 사용할 만한 킬러 애플리케이션이 없다. 요리 레시피 공유, 책 읽어주기, 언어 학습, 음성형 게임 등 풍부한 애플리케이션과 사용 시나리오가 필요하다.

성능(Performance): 최근 구글I/O의 발표에 따르면 음성 인식 에러률이 4.9%로 빠른 속도로 향상됨을 알 수 있다. 자연어 처리(NLP) 기술도 많이 발전했지만 음성 및 자연어 인식에 기술적 한계가 있다. 기본적으로 보이스형 챗봇은 사용자의 자연어를 정확하게 이해하고 명확하게 표현할 수 있어야 한다. 아마존 에코는 TV 뉴스 앵커의 음성을 주인의 명령으로 잘못 인식, 특정 제품을 주문해서 많은 논란이 일었다. 이러한 문제가 발생하지 않도록 사용자의 음성을 구별하여 인식하는 기술도 필요하다.

가격(Price): 인공지능 스피커의 대중화를 위해서는 가격을 좀 더 낮출 필요가 있다. 현재 가격 장벽이 크게 높은 것은 아니지만, 더 빠른 대중화를 위해서는 통신사와의 협업을 통해 가격을 낮추거나 무료로 공급할 수 있어야 한다.

프라이버시(Privacy): 보이스-퍼스트 디바이스의 경우 초기화 명령인식을 위해 항상 음성정보를 모아야 하는데, 이 때문에 충분히 거부감이 생길 수 있다. 또한 해킹 등에도 완벽하게 안전할 수가 없다. 이러한 프라이버시 이슈를 최소화하기 위한 방법과 사회적 논의가 필요하다.

환경 특이점(Environmental Singularity): 실제 스마트 스피커의 사용 시나리오에서 두 번째 빈도를 차지하는 것이 스마트 전구와 같은 사물인터넷 디바이스를 컨트롤 하는 것(Scene)이다. 하지만, 아직 대중적으로 사물인터넷 환경이 충분히 갖춰지지 않았다. 따라서 인공지능 스피커를 구입하더라도 지금은 반쪽의 기능만 활용할 수밖에 없는 실정이다.

인공지능 스피커는 수많은 사물인터넷 기기들과 연결돼 이들을 통합하는 메타 인터페이스로서 역할하게 될 확률이 높다. 누적된 음성 상호작용 데이터를 기반으로 다른 기기보다 우월한 성능을 가질 수 있고 공개된 규약에 따라 다른 기기로 명령을 전달하는 권력형 허브의 역할을 기대할 수 있다. 따라서 실제 사물인터넷 환경이 충분히 구축되고 보편화 되었을 때 스마트 스피커 본연의 가치도 함께 높아질 것이다.

인공지능 스피커의 미래

그렇다면 인공지능 스피커는 앞으로 어떤 방향으로 진화할까?
스마트폰처럼 반드시 필요한 디바이스가 될까? 아니면 단순히 보조 디바이스 역할을 하게 될 것인가? 시간이 지나도 지금 같은 스피커의 형태일까? 아니면 새로운 형태의 디바이스가 될 것인가?

주변 공간으로 증강된 음성비서, 언제 어디서나: 올해 CES에서 회자됐던 “알렉사는 어디에나 존재한다(Alexa is Anywhere)”는 말처럼, 음성 비서는 스피커 형태의 기기뿐만 아니라 다양한 환경에 증강될 확률이 높다. 냉장고, 세탁기, 청소기 같은 가전부터 목걸이, 이어폰, 안경 같은 웨어러블 디바이스, 빠르게 변화하고 있는 스마트카 환경 등 다양한 영역에서 활용될 전망이다. 알렉사는 이러한 비전을 SDK를 통해 추구하고 있지만, 궁극적으로이러한 인공지능 비서가 운영체제화 될 가능성도 있다. 영화 허(Her)에서도 인공지능 비서가 일종의 운영체제 형태로 언급됐는데, 음성 커뮤니케이션이 대중화됨에 따라 운영체제의 역할로 확장될 수 있음을 시사한다.

에이전트의 에이전트, 인공 집단지성의 탄생: 인공지능 비서는 특정 공간에서 하나로만 구성되는 것이 아니라 여러 개로 존재할 확률이 크므로, 에이전트들의 협업 체계가 중요한 요소가 될 수 있다. 특정 음식 주문을 위해서 휴대폰의 빅스비와 냉장고의 알렉사가 함께 업무를 수행하는 것이다. 이러한 환경에서는 에이전트의 우선순위, 권한, 사용에 따른 비용 체계 등을 구성할 필요가 있다. 일종의 인공지능의 집단지성 체계를 통해 사용자에게 언제 어디서나 원하는 정보와 명령을 통합해 서비스한다. 실제 다양한 형태로 파편화 되어 있는 챗봇을 관리하고 연결하는 메타봇의 필요성이 논의되고 있다.

메타 서비스(Meta service)의 개요

사용자 문맥(User context) 기반, 적극성을 띄는 인공지능의 등장: 현재의 인공지능 스피커는 사용자의 문맥(Context) 정보를 서비스에 활용하지 못하고 있다. 궁극적으로는 사용자의 문맥을 입체적으로 이해, 해당 상황에 적절한 서비스를 제공해야 한다. 실제 음성으로 정보를 주고받는 것은 한계가 있고 계속 말을 하는 것은 이용자의 피로도를 높이므로 사용자가 수동적으로 정보를 입력하는 형태는 바람직하지 않다. 따라서, 인공지능 비서가 사용자 문맥을 기반으로 합리적인 선택지를 제안하거나 결과에 대한 승인만을 요청하는 형태가 되어야 한다.

음성명령을 통해 피자를 주문한다면 피자나 음료의 종류, 수량, 목적지, 결제 정보 등의 구체적인 정보가 필요한데, 이를 매번 성으로 전달하는 것은 바람직하지 않다. 따라서 인공지능 비서가 사용자의 광범위한 상황정보(과거의 음식 주문정보, 점심식사나 다이어트 여부, 일주일간의 몸무게 변화 추이, 계좌 잔액 상태, 전날 수면의 질)를 다차원적으로 해석해 적절한 음식을 추천하는 게 보이스-퍼스트 디바이스의 바람직한 사용 시나리오라 수 있다.

이러한 배경에서, 사용자의 상황을 인지하기 위해 활용하는 빅데이터는 큰 의미를 가진다. 또 앞으로 이러한 정보의 양과 해상도는 계속해서 높아질 것이므로 그 활용 시나리오는 더욱 강화될 있다. 웨어러블의 센서 기술이 고도화되고 대중화되면 생체정보(맥박, 혈압, 혈당, 등)를 활용할 수 있게 되고 이를 통해 한층 더 차원적인 서비스를 설계할 수 있게 되는 것이다.

웨어러블과 사물인터넷 기술을 통해 축적한 높은 해상도의 사용자 상황(context)을 인공지능 기술을 이용해 다차원적으로 해석, 개입(intervene)과 실행(execution)에 가까운 적극성을 확보하도록 지원하는 것을 메타 서비스(meta service)라 부를 수 있다. 다양한 물리적, 비물리적 환경에서 얻어낸 입체적인 사용자 데이터와 신뢰도 있는 인공지능 기술을 통해 단순 추천을 넘어서는 적극적인 서비스를 하는 것.

음식 주문 서비스를 예로 들어보자. 과거에는 사용자가 음식점에 직접 전화해서 음식을 주문했다면, 이제는 내 주변 맛집과 평가정보를 기반으로 메뉴를 추천 받고 손가락으로 음식을 주문할수 있게 됐다. 그리고 다가올 시대에는, 인공지능 비서가 사용자의 맥락을 기반으로 적절한 타이밍에 적절한 메뉴를 먼저 추천할 수 있게 될 것이다. 토요일 오전 영화를 보면서 피자를 시켜먹는 이용자가 있다면, 토요일 오전 영화를 켤 때 피자주문을 할지 물어보는 것이다.

메타 서비스와 관련, 흥미로운 특허를 하나 살펴보자. 아마존은 마우스 움직임, 특정 페이지에 머무른 시간, 과거 주문정보 등을 조합해 특정 도서를 어떤 사람이 어느 정도의 확률로 구매할지 계산, 먼저 그 이용자와 가장 가까운 물류센터로 배송하는 예측 배송(US 8,615,473) 특허를 냈다. 이러한 적극성을 가진 메타서비스를 통해 사용자는 원하는 물건을 단 몇 분 만에 배송 받을
수 있게 된다.

물리화된 비트, 로봇으로의 진화: 인공지능 스피커는 로봇으로 진화하는 디바이스의 첫 번째 형태라고 생각한다. 사실상 현재 시장에 출시된 인공지능 스피커의 형태에서 물리적 움직임 속성만 부여하면 로봇이라 할 수 있고, 지보(Jibo)나 메이필드(Mayfield)
등은 이미 로봇의 형태를 가지고 있다. 특히, 아마존 룩(Amazon Look), 에코 쇼(Echo Show) 처럼 인터페이스를 확장하는 시도는 계속될 것이고 마지막은 우리가 흔히 생각하는 로봇이 될 전망이다.

>>>

일종의 인공지능의 집단지성 체계를 통해 사용자에게 언제 어디서나 원하는 정보와 명령을 통합해 서비스한다. 실제 다양한 형태로

파편화 되어 있는 챗봇을 관리하고 연결하는 메타봇의 필요성이 논의되고 있다.

<본 기사는 테크M 제50호(2017년 6월) 기사입니다>

TECH M

TECH M

보이스 퍼스트 디바이스, 인공 집단지성으로 진화

인기기사

광고영역

태그