바로가기 메뉴
본문 바로가기
대메뉴 바로가기

TECH M

"3배 정교해졌다"...MS '드로잉봇'으로 본 AI 기술의 진화

2018-01-25황치규 기자, 곽예하 인턴기자

누군가가 그리고 싶은 그림을 텍스트로 정리해 주면 인공지능(AI)이 거기에 맞는 그림을 정교하게 그려주는 기술이 개발되고 있어 눈길을 끈다. 지금 나와 있는 기술보다 매우 정교한 결과물을 내놓는다고 한다.

마이크로소프트 연구소가 캡션과 같은 텍스트를 기반으로 이미지를 만들어주는, 드로잉봇(drawing bot) 기술을 개발 중이다.

마이크로로소프트 드로잉봇은 개별 글자들을 기반으로 이미지를 생성하는 것이 특징. 이를 기반으로 이전에 개발된  문장 위주의 텍스트-이미지 변환 기술보다 품질 측면에서 3배 이상 발전했다고 한다.

마이크로소프트에 따르면 이 회사 드로잉봇 기술을  통해 풀을 뜯는 가축의 평범한 모습부터, 물에 떠다니는 이층 버스의 이상적인 장면까지 그릴 수 있다. 텍스트에서 설명하지 않은 내용도 이미지에 반영하는 것이 가능하다. 드로잉봇 기술이 상상력까지 갖췄음을 보여준다는 설명이다.

마이크로소프트 연구소의 샤오동 수석연구원은 "빙(Bing)에서 검색을 하면 그냥 평범한 새 사진을 구하겠지만 드로잉봇이 그린 그림에는 실제 존재하지 않는, 컴퓨터가 가진 상상력이 담겨 있다"고 말했다.

드로잉봇 제작을 통해 샤오동과 그의 동료들은 약 5년간 진행해온 ‘컴퓨터 비전과 자연언어의 교차점 연구’를 마무리할 수 있게 됐다.

 이번 연구는 자동으로 사진에 캡션을 달아주는 ‘캡션봇(CaptionBot)’을 개발하는 것으로 시작됐다. 이를 기반으로 사람들이 사물이나 장소 이름을 말하면  관련 사진을 찾아주는 기술 연구로 이어졌다. 이같은 기술은 특히 시각장애인들에게 큰 도움이 될 수 있다는게 마이크로소프트 설명이다.

이번 연구에는 머신러닝 인공지능이 사물을 인지하고, 행동을 분석하고, 자연언어로 대화할 수 있도록 훈련시키는 기술이 녹아들었다.

GAN (Generative Adversarial Network) 기술도 탑재됐다. GAN은 두 가지 머신러닝 모델로 구성된다. 하나는 텍스트에서 이미지를 생성하고 다른 하나는 그 이미지의 진위 여부를 판단한다. 이 두 모델이 함께 작동하며 효율성을 증진시킨다. 

GAN은 ‘파란 새’ ‘초록나무’ 와 같이 단순한 텍스트를 이미지로 변환할 때 매우 효과적이다. 그러나 ‘초록 줄무늬가 있는 새’, ‘노란 날개와 빨간 몸통의 새’ 와 같이 복잡한 텍스트로부터 생성된 이미지는 품질이 크게 떨어진다. 이미지 생성기(generator)가, 아무리 설명이 긴 문장이어도 그것을 하나의 인풋(input) 으로 인지하기 때문이다. 이 과정에서 디테일한 정보가 손실되고, 초록-노랑-빨강이 뒤섞인 뿌연 이미지를 얻게 된다.

이같은 문제를 해결하기 위해 마이크로소프트 연구원들은  AttnGAN (attentional GAN) 기술을 개발했다. AttnGAN은 텍스트를 각각의 단어로 쪼갠 후 그 단어를 이미지의 특정 부분과 연관 짓는 기술이다. 문장 중심의 텍스트-이미지 변환 기술에 비해 드로잉봇이 3배나 정교할 수 있는 이유다.

AttnGAN 모델은 ‘상식’으로 통하는 내용들도 트레이닝 데이터로 갖추고 있다.  이를 생성된 이미지를 구체화하는데 이용한다. 예를 들어, 트레이닝 데이터에 있는  새 이미지들이 주로 나뭇가지에 앉은 형태이기 때문에, 텍스트에 다른 설명이 없어도 AttnGAN은 대부분의 새를 나뭇가지에 올라가 있는 형태로 그린다.

연구팀은 테스트용으로 드로잉봇에게 ‘연못에 떠있는 빨간색 이층버스’ 라는 캡션을 제공했다. 드로잉봇은 흐릿한 이층보트의 모습과, 연못 주변에 세워진 빨간 이층버스를 그려냈다. 이 사례는 드로잉봇이 ‘물에 떠다니는 것은 버스가 아니라 보트’ 라는 상식과, 입력된 텍스트 사이에서 겪은 내적 갈등을 보여준다.

텍스트-이미지 생성 기술이 상용화되면 화가나 인테리어 디자이너들을 위한 ‘스케치 어시스턴트’ 역할을 할 수 있다. 음성기반 사진검색용도로 활용되거나, 대본을 갖고 애니메이션 영화를 제작해 업계 종사자들의 육체적 노동을 줄여주는 시나리오도 가능하다.

현재로선 드로잉봇은 완벽한 수준으로 볼 수는 없다. 드로잉봇이 만든 이미지를 자세히 보면 결점들이 분명하게 보인다. 컴퓨터가 그린 그림임을 바로 알 수 있을 정도다. 그럼에도 AttnGAN 기술이 그린 이미지는 확실히 기존 GAN 보다 품질 면에서 크게 향상됐다는 점은 주목할만 하다.
 
샤오동 수석연구원은 "AI와 인간이 같은 세상을 살아가기 위해서는 서로 소통할 수 있는 방법을 찾아야 한다"면서 "언어와 시각은 인간과 기계가 소통하는 데에 가장 중요한 두 가지 수단"이라고 말했다.

(주)테크엠주소 : 서울시 강남구 테헤란로2길 27, 10층 (역삼동, 비젼타워)대표이사.발행인 : 김현기편집인 : 허준개인정보보호책임자 : 김현기청소년보호책임자 : 허준
사업자등록번호 : 553-81-01725대표전화 : 070-4513-1460보도자료 및 제보 : press@techm.kr