‘누구는 다정다감, 빅스비는 쾌활' 목소리 색깔 따라 다른 효과 > 기사

[테크M = 글 연세대학교 UX랩 인지공학스퀘어(김세이, 조광수) ]

“시리야~ 문자 좀 보내줘”

음성으로 문자 메시지를 보내는 일은 이제 우리에게 익숙하다. 스마트폰을 사용하면서 음성인식 서비스와 대화를 나눠보지 않은 사람은 없을 것이다.

국내에도 SK텔레콤 ‘누구’, KT ‘기가지니’, 삼성 ‘빅스비’, 네이버 ‘웨이브’, 카카오 ‘카카오미니’ 등 다양한 제품들이 등장하기 시작하면서 음성 비서가 점차 대중화되고 있다.

우리는 음성 비서와 목소리로 소통한다.

사람들은 음성 비서의 목소리를 듣고 그 서비스에 대한 이미지를 형성하게 된다. 음성 비서의 목소리는 기업의 이미지를 좌우하기 때문에 목소리의 특징을 제대로 아는 것이 중요하다.

음성비서 목소리가 기업 이미지 좌우

목소리는 다양한 특징을 가지고 있다. 목소리에는 성별, 나이, 사는 곳, 성격, 감정 등 수많은 정보들이 담겨있다.

사람들은 목소리를 듣고 단 몇 초 안에 그 사람이 어떤 사람인지 판단을 내린다. 사람들은 성별, 나이와 같은 인구학적인 특징부터 그 사람의 성격까지 빠르고 자동적으로 판단한다. 그리고 화자에 대한 느낌과 화자를 대하는 태도를 결정하게 된다. 나아가 그 사람과 어떻게 관계를 맺고 행동할지를 결정한다.

이런 목소리의 특성으로 인해 고객의 상품 구매가 어떻게 달라지는지를 보여주는 실험이 있다. 마케팅 이론 중에 ‘매치업(match up) 가설’이라는 것이 있다. 말하는 사람과 상품의 특징이 일치할 때 사람들은 그 정보가 더욱 효과적이고 설득적이라고 느낀다는 것이다. 1990년 스탠퍼드대학교의 클리포드 나스 교수와 모리시마(Morishima), 베넷(Bennett), 이(Lee)는 이에 관한 실험을 진행했다.

이 실험에서는 실제 이베이에서 판매 중인 상품들 중에 전형적인 남성용 상품과 여성용 상품을 고른 뒤 상품의 설명을 남성과 여성의 목소리로 들려주었다. 상품은 예를 들어 여성용 부츠와 남성용 부츠, 혹은 바느질과 총기에 관한 책으로 구분됐다. 실험 결과는 어땠을까?

사람들은 남성용 상품은 남성 목소리로 여성용 상품은 여성 목소리로 설명한 경우에 더욱 신뢰감이 있고 전문적으로 느껴진다고 대답했다. 동일한 내용의 설명이었지만, 상품을 설명해주는 목소리가 누구인지에 따라 다른 판단을 내린 것이다.

기업들은 음성 서비스를 만들 때 보이스 퍼소나(Voice Persona)를 설정하고 그에 맞는 목소리를 결정한다. 우리가 사용하는 스마트 스피커는 모두 다른 목소리를 가지고 있다. 이것은 기업들이 다양한 퍼소나를 구현하기 위해 노력한 결과이다.

애플 ‘시리’ 목소리 바뀐다

SK텔레콤 누구의 경우 20대 중후반의 다정다감하고 친근한 여성 비서를 나타내고자 했다. 목소리에 감성을 표현하기 위해 차분하고 친근한 이미지의 성우를 사용했다. 삼성 빅스비는 여자와 남자 목소리를 모두 제공하는데, 여성은 명랑하고 쾌활한 목소리, 남성은 적극적이고 자신감이 넘치는 목소리라고 소개하고 있다. 애플의 ‘시리’는 올가을 출시될 ‘iOS 11’에서 자연스러움, 개성, 표현력을 높이기 위해 새로운 성우를 선정했다고 밝힌 바 있다.

사용자들의 머릿속에 형성된 멘탈 모델(Mental Model)이 서비스가 지향하는 방향과 일치한다면 더 좋은 시너지를 낼 수 있다. 사람들은 목소리나 말투를 듣고 ‘이 서비스는 활발한 성격이구나’, ‘얘는 똑똑하구나’, ‘다정하구나’라고 이미지를 갖게 된다. 그래서 목소리의 특징을 제대로 알고 반영하는 것이 매우 중요하다.

예를 들어 발랄하고 귀여운 어린아이의 목소리로 금융 서비스를 제공한다면, 사람들은 신뢰감을 느끼지 못할 것이다. 신뢰감이 필요한 금융 서비스는 낮은 톤의 목소리를 사용하여 차분한 이미지로 구현하고 게임과 같은 재밌는 콘텐츠는 사람들이 친근함을 느끼는 높은 음의 외향적인 목소리로 구현하는 것이 좋을 것이다.

기업들은 음성 서비스를 제공할 때 목소리를 어떻게 디자인할지 고민해야 한다. 기업이 광고나 다양한 마케팅 활동을 통해 브랜드 이미지를 구축하듯이 기업의 서비스 이미지에 맞는 퍼소나를 결정하고, 퍼소나를 반영한 목소리를 적용해야 한다. 이제 사람들이 기업에 대해 갖는 이미지를 목소리로 형성할 수 있다. 브랜드 마케팅의 확장인 셈이다.

음성 비서의 목소리를 구현할 때에도 전략이 필요하다. 다양한 보이스 퍼소나를 구현하기 위해 목소리의 높낮이(pitch)나 빠르기(speech rate) 등을 조절할 수 있다. 목소리를 구별하는 가장 큰 특징은 기본 주파수(frequency)이다. 기본 주파수가 높으면 고음의 목소리, 기본 주파수가 낮으면 저음의 목소리로 음높이가 달라지게 된다. 여자의 목소리(220㎐)는 평균적으로 높은 주파수를 가지고, 남성의 목소리(110㎐)는 낮은 주파수를 가진다.

특히 목소리는 크기(volume), 음높이, 음역대(pitch range), 속도(speech rate)의 큰 축을 가지고 있다. 이것을 어떻게 조절하느냐에 따라 다양한 성격을 나타낼 수 있다. 예를 들어 1979년에 애플, 스트리터(Streeter), 크라우스(Krauss)가 발표한 심리학 논문에 따르면, 친근한 목소리는 높은 음높이와 넓은 주파수 범위(frequency range), 빠른 속도를 가진다. 혹은 목소리의 특징에 따라 지배적인 이미지와 순종적인 이미지도 구별 가능하다. 지배적인 목소리는 낮은 음높이, 한정된 주파수 범위, 큰 목소리(loudness)를 가진다.

사람들은 이 4가지 축을 사용해 목소리의 특징을 판단하고 어떻게 행동할지를 결정한다. 이런 판단으로 시스템에 대한 이미지를 만들고, 시스템에 호감을 느끼거나 신뢰감을 느끼게 된다. 또 이 시스템에서 추천하는 상품을 구매할지와 같은 사용자의 행동을 결정하게 된다. 이처럼 목소리의 크기, 음높이, 음역대, 속도를 적절하게 조절하면, 사용자들이 어떻게 생각하고, 느끼고, 행동할지에 큰 차이를 가져오게 된다.

또 기업의 전략에 따라 합성기와 사람의 목소리 중 적절한 방식을 선택하거나 두 가지를 혼용할 수 있다. 합성기와 사람의 목소리는 각각 다른 장단점을 가진다. SK텔레콤 누구와 아마존 ‘에코’, 애플의 시리는 사람 목소리를 녹음해 사용한다. 사람이 직접 녹음하기 때문에 자연스럽지만, 비용과 시간이 많이 든다. 몇 만 문장을 사람의 목소리로 직접 녹음해야 한다. 미리 녹음해놓지 못한 예외 상황에서는 한 글자씩 녹음한 목소리를 이어 붙여서 사용하게 되는데 기계 목소리와 같이 부자연스럽게 느껴질 수 있다.

구글은 합성기를 사용한다. 우리는 구글 어시스턴트의 목소리를 들으면 기계라는 것을 쉽게 알 수 있다. 아무래도 사람의 목소리보다 딱딱한 느낌이 든다. 합성기는 금액이 적게 들기 때문에 다양한 퍼소나 구현이 가능하다는 장점이 있다.

마이크로소프트(MS) ‘코타나’의 경우 이런 장단점을 보완해 합성기와 사람 목소리를 함께 사용한다. 가장 많이 사용되는 문장들은 사람의 목소리로 녹음해 자연스러움을 살리고, 딥러닝 기술을 사용해 뉘앙스까지 학습하고 있다.

하지만 사람들은 사람의 목소리와 기계의 목소리를 구별해낸다. 사람들은 기계의 목소리보다는 자연스러운 사람의 목소리를 선호할 수 있다. 합성기가 많이 발달하긴 했지만, 아직 사람과 같이 구현할 수는 없기 때문이다.
따라서 음성 합성기의 성능이 더 발달해야 한다. 사람은 사람의 목소리, 녹음된 목소리, 합성된 목소리 등 모든 목소리에 자동적으로 퍼소나를 형성하게 된다.

합성기로 사람의 목소리 특징을 모두 구현할 수 있게 되면, 다양한 퍼소나에 대한 가능성을 열어 준다. 기업들은 음성 합성기를 활용해 기업의 이미지에 맞는 퍼소나를 구현할 수 있을 것이다. 이제 목소리에도 전략이 필요하다. 음성 서비스를 도입할 때 기업들은 각 기업의 특색에 맞는 보이스 퍼소나를 설정해야 한다.

목소리를 들으면서 사람들은 멘탈 모델을 형성하고 그 서비스에 대한 이미지와 기대를 형성한다. 게다가 목소리는 사람들의 태도와 행동에 영향을 미치기 때문에 목소리의 특징을 정확히 알고 반영하는 것이 무엇보다 중요하다.

>>>

사람들은 목소리의 특징을 판단하고 어떻게 행동할지를 결정한다. 이런 판단으로 시스템에 대한 이미지를 만들고, 시스템에 호감이나 신뢰감을 느끼게 된다. 또 이 시스템에서 추천하는 상품을 구매할지와 같은 사용자의 행동을 결정하게 된다.

<본 기사는 테크M 제54호(2017년 10월) 기사입니다>

TECH M

TECH M

‘누구는 다정다감, 빅스비는 쾌활' 목소리 색깔 따라 다른 효과

UX心포니

인기기사

광고영역

태그