TECH M
TECH M
"3배 정교해졌다"...MS '드로잉봇'으로 본 AI 기술의 진화
누군가가 그리고 싶은 그림을 텍스트로 정리해 주면 인공지능(AI)이 거기에 맞는 그림을 정교하게 그려주는 기술이 개발되고 있어 눈길을 끈다. 지금 나와 있는 기술보다 매우 정교한 결과물을 내놓는다고 한다.
마이크로소프트 연구소가 캡션과 같은 텍스트를 기반으로 이미지를 만들어주는, 드로잉봇(drawing bot) 기술을 개발 중이다.
마이크로로소프트 드로잉봇은 개별 글자들을 기반으로 이미지를 생성하는 것이 특징. 이를 기반으로 이전에 개발된 문장 위주의 텍스트-이미지 변환 기술보다 품질 측면에서 3배 이상 발전했다고 한다.
마이크로소프트에 따르면 이 회사 드로잉봇 기술을 통해 풀을 뜯는 가축의 평범한 모습부터, 물에 떠다니는 이층 버스의 이상적인 장면까지 그릴 수 있다. 텍스트에서 설명하지 않은 내용도 이미지에 반영하는 것이 가능하다. 드로잉봇 기술이 상상력까지 갖췄음을 보여준다는 설명이다.
마이크로소프트 연구소의 샤오동 수석연구원은 "빙(Bing)에서 검색을 하면 그냥 평범한 새 사진을 구하겠지만 드로잉봇이 그린 그림에는 실제 존재하지 않는, 컴퓨터가 가진 상상력이 담겨 있다"고 말했다.
드로잉봇 제작을 통해 샤오동과 그의 동료들은 약 5년간 진행해온 ‘컴퓨터 비전과 자연언어의 교차점 연구’를 마무리할 수 있게 됐다.
이번 연구는 자동으로 사진에 캡션을 달아주는 ‘캡션봇(CaptionBot)’을 개발하는 것으로 시작됐다. 이를 기반으로 사람들이 사물이나 장소 이름을 말하면 관련 사진을 찾아주는 기술 연구로 이어졌다. 이같은 기술은 특히 시각장애인들에게 큰 도움이 될 수 있다는게 마이크로소프트 설명이다.
이번 연구에는 머신러닝 인공지능이 사물을 인지하고, 행동을 분석하고, 자연언어로 대화할 수 있도록 훈련시키는 기술이 녹아들었다.
GAN (Generative Adversarial Network) 기술도 탑재됐다. GAN은 두 가지 머신러닝 모델로 구성된다. 하나는 텍스트에서 이미지를 생성하고 다른 하나는 그 이미지의 진위 여부를 판단한다. 이 두 모델이 함께 작동하며 효율성을 증진시킨다.
GAN은 ‘파란 새’ ‘초록나무’ 와 같이 단순한 텍스트를 이미지로 변환할 때 매우 효과적이다. 그러나 ‘초록 줄무늬가 있는 새’, ‘노란 날개와 빨간 몸통의 새’ 와 같이 복잡한 텍스트로부터 생성된 이미지는 품질이 크게 떨어진다. 이미지 생성기(generator)가, 아무리 설명이 긴 문장이어도 그것을 하나의 인풋(input) 으로 인지하기 때문이다. 이 과정에서 디테일한 정보가 손실되고, 초록-노랑-빨강이 뒤섞인 뿌연 이미지를 얻게 된다.
이같은 문제를 해결하기 위해 마이크로소프트 연구원들은 AttnGAN (attentional GAN) 기술을 개발했다. AttnGAN은 텍스트를 각각의 단어로 쪼갠 후 그 단어를 이미지의 특정 부분과 연관 짓는 기술이다. 문장 중심의 텍스트-이미지 변환 기술에 비해 드로잉봇이 3배나 정교할 수 있는 이유다.
AttnGAN 모델은 ‘상식’으로 통하는 내용들도 트레이닝 데이터로 갖추고 있다. 이를 생성된 이미지를 구체화하는데 이용한다. 예를 들어, 트레이닝 데이터에 있는 새 이미지들이 주로 나뭇가지에 앉은 형태이기 때문에, 텍스트에 다른 설명이 없어도 AttnGAN은 대부분의 새를 나뭇가지에 올라가 있는 형태로 그린다.
연구팀은 테스트용으로 드로잉봇에게 ‘연못에 떠있는 빨간색 이층버스’ 라는 캡션을 제공했다. 드로잉봇은 흐릿한 이층보트의 모습과, 연못 주변에 세워진 빨간 이층버스를 그려냈다. 이 사례는 드로잉봇이 ‘물에 떠다니는 것은 버스가 아니라 보트’ 라는 상식과, 입력된 텍스트 사이에서 겪은 내적 갈등을 보여준다.
텍스트-이미지 생성 기술이 상용화되면 화가나 인테리어 디자이너들을 위한 ‘스케치 어시스턴트’ 역할을 할 수 있다. 음성기반 사진검색용도로 활용되거나, 대본을 갖고 애니메이션 영화를 제작해 업계 종사자들의 육체적 노동을 줄여주는 시나리오도 가능하다.
현재로선 드로잉봇은 완벽한 수준으로 볼 수는 없다. 드로잉봇이 만든 이미지를 자세히 보면 결점들이 분명하게 보인다. 컴퓨터가 그린 그림임을 바로 알 수 있을 정도다. 그럼에도 AttnGAN 기술이 그린 이미지는 확실히 기존 GAN 보다 품질 면에서 크게 향상됐다는 점은 주목할만 하다.
샤오동 수석연구원은 "AI와 인간이 같은 세상을 살아가기 위해서는 서로 소통할 수 있는 방법을 찾아야 한다"면서 "언어와 시각은 인간과 기계가 소통하는 데에 가장 중요한 두 가지 수단"이라고 말했다.
-
자영업자 겨냥 카톡 기반 회계 서비스 '캐시노트’ 뜬다[인터뷰]김동호 한국신용데이터 대표자영업자들은‘24시간이 모자라’다. 업종에 따라 다르지만 새벽부터 재료마련과 손질 등 장사준비를 시작해야 하고,오픈한 뒤로는 고객응대로 바쁘다. 영업을 마친 뒤에는 청소를 비롯한 마감 업무에 정신이 없다. 매출관리와 세금신고를 제대로 하고 싶지만 해야 할 업무를 처리하다보면 뒤로 미루기 일쑤다.김동호 한국신용데이터 대표에게 자영업자들이 처한 이같은 상황은 비즈니스 기회였다.그는 카카오톡으로쉽게매출관리와 세금신고 업무를 할 수 있도록 지원하는2018-01-25 17:20:23김태환 기자
-
중국이 소형 하드웨어용 AI 칩 시장을 노리는 이유중국 정부과 기업들은 반도체 시장에서의 열세를 만회하기 위해 인공지능(AI)에 최적화된 칩을 주목해왔다. 이미 규모의 경제가 지배하는CPU나 메모리 반도체와 달리 AI용 칩은판이 새로 짜이고 있는 만큼, 초반 레이스를주도할기회가 있다는 판단에서다.구체적인 결과물들도 속속 나오고 있다. 24일(현지시간) MIT테크놀로지리뷰에 따르면 중국 칭화대 연구팀은 다양한 기기에 탑재될 수 있는 AI 칩인 싱커(Thinker) 개발했고, 이를 탑재한 첫 제품도 3월선보인다.칭화대 연구팀이 개발한 싱커는 신경망을 지2018-01-25 15:58:09황치규 기자
-
"3배 정교해졌다"...MS '드로잉봇'으로 본 AI 기술의 진화누군가가 그리고 싶은 그림을 텍스트로 정리해 주면 인공지능(AI)이 거기에 맞는 그림을정교하게 그려주는 기술이 개발되고 있어 눈길을 끈다. 지금 나와 있는 기술보다 매우 정교한 결과물을 내놓는다고 한다.마이크로소프트 연구소가 캡션과 같은 텍스트를 기반으로 이미지를 만들어주는, 드로잉봇(drawing bot) 기술을 개발 중이다.마이크로로소프트 드로잉봇은 개별 글자들을 기반으로 이미지를 생성하는 것이 특징. 이를 기반으로 이전에 개발된 문장 위주의 텍스트-이미지 변환 기술보다 품질 측2018-01-25 10:57:16황치규 기자, 곽예하 인턴기자