TECH M
TECH M
"3배 정교해졌다"...MS '드로잉봇'으로 본 AI 기술의 진화
누군가가 그리고 싶은 그림을 텍스트로 정리해 주면 인공지능(AI)이 거기에 맞는 그림을 정교하게 그려주는 기술이 개발되고 있어 눈길을 끈다. 지금 나와 있는 기술보다 매우 정교한 결과물을 내놓는다고 한다.
마이크로소프트 연구소가 캡션과 같은 텍스트를 기반으로 이미지를 만들어주는, 드로잉봇(drawing bot) 기술을 개발 중이다.
마이크로로소프트 드로잉봇은 개별 글자들을 기반으로 이미지를 생성하는 것이 특징. 이를 기반으로 이전에 개발된 문장 위주의 텍스트-이미지 변환 기술보다 품질 측면에서 3배 이상 발전했다고 한다.
마이크로소프트에 따르면 이 회사 드로잉봇 기술을 통해 풀을 뜯는 가축의 평범한 모습부터, 물에 떠다니는 이층 버스의 이상적인 장면까지 그릴 수 있다. 텍스트에서 설명하지 않은 내용도 이미지에 반영하는 것이 가능하다. 드로잉봇 기술이 상상력까지 갖췄음을 보여준다는 설명이다.
마이크로소프트 연구소의 샤오동 수석연구원은 "빙(Bing)에서 검색을 하면 그냥 평범한 새 사진을 구하겠지만 드로잉봇이 그린 그림에는 실제 존재하지 않는, 컴퓨터가 가진 상상력이 담겨 있다"고 말했다.
드로잉봇 제작을 통해 샤오동과 그의 동료들은 약 5년간 진행해온 ‘컴퓨터 비전과 자연언어의 교차점 연구’를 마무리할 수 있게 됐다.
이번 연구는 자동으로 사진에 캡션을 달아주는 ‘캡션봇(CaptionBot)’을 개발하는 것으로 시작됐다. 이를 기반으로 사람들이 사물이나 장소 이름을 말하면 관련 사진을 찾아주는 기술 연구로 이어졌다. 이같은 기술은 특히 시각장애인들에게 큰 도움이 될 수 있다는게 마이크로소프트 설명이다.
이번 연구에는 머신러닝 인공지능이 사물을 인지하고, 행동을 분석하고, 자연언어로 대화할 수 있도록 훈련시키는 기술이 녹아들었다.
GAN (Generative Adversarial Network) 기술도 탑재됐다. GAN은 두 가지 머신러닝 모델로 구성된다. 하나는 텍스트에서 이미지를 생성하고 다른 하나는 그 이미지의 진위 여부를 판단한다. 이 두 모델이 함께 작동하며 효율성을 증진시킨다.
GAN은 ‘파란 새’ ‘초록나무’ 와 같이 단순한 텍스트를 이미지로 변환할 때 매우 효과적이다. 그러나 ‘초록 줄무늬가 있는 새’, ‘노란 날개와 빨간 몸통의 새’ 와 같이 복잡한 텍스트로부터 생성된 이미지는 품질이 크게 떨어진다. 이미지 생성기(generator)가, 아무리 설명이 긴 문장이어도 그것을 하나의 인풋(input) 으로 인지하기 때문이다. 이 과정에서 디테일한 정보가 손실되고, 초록-노랑-빨강이 뒤섞인 뿌연 이미지를 얻게 된다.
이같은 문제를 해결하기 위해 마이크로소프트 연구원들은 AttnGAN (attentional GAN) 기술을 개발했다. AttnGAN은 텍스트를 각각의 단어로 쪼갠 후 그 단어를 이미지의 특정 부분과 연관 짓는 기술이다. 문장 중심의 텍스트-이미지 변환 기술에 비해 드로잉봇이 3배나 정교할 수 있는 이유다.
AttnGAN 모델은 ‘상식’으로 통하는 내용들도 트레이닝 데이터로 갖추고 있다. 이를 생성된 이미지를 구체화하는데 이용한다. 예를 들어, 트레이닝 데이터에 있는 새 이미지들이 주로 나뭇가지에 앉은 형태이기 때문에, 텍스트에 다른 설명이 없어도 AttnGAN은 대부분의 새를 나뭇가지에 올라가 있는 형태로 그린다.
연구팀은 테스트용으로 드로잉봇에게 ‘연못에 떠있는 빨간색 이층버스’ 라는 캡션을 제공했다. 드로잉봇은 흐릿한 이층보트의 모습과, 연못 주변에 세워진 빨간 이층버스를 그려냈다. 이 사례는 드로잉봇이 ‘물에 떠다니는 것은 버스가 아니라 보트’ 라는 상식과, 입력된 텍스트 사이에서 겪은 내적 갈등을 보여준다.
텍스트-이미지 생성 기술이 상용화되면 화가나 인테리어 디자이너들을 위한 ‘스케치 어시스턴트’ 역할을 할 수 있다. 음성기반 사진검색용도로 활용되거나, 대본을 갖고 애니메이션 영화를 제작해 업계 종사자들의 육체적 노동을 줄여주는 시나리오도 가능하다.
현재로선 드로잉봇은 완벽한 수준으로 볼 수는 없다. 드로잉봇이 만든 이미지를 자세히 보면 결점들이 분명하게 보인다. 컴퓨터가 그린 그림임을 바로 알 수 있을 정도다. 그럼에도 AttnGAN 기술이 그린 이미지는 확실히 기존 GAN 보다 품질 면에서 크게 향상됐다는 점은 주목할만 하다.
샤오동 수석연구원은 "AI와 인간이 같은 세상을 살아가기 위해서는 서로 소통할 수 있는 방법을 찾아야 한다"면서 "언어와 시각은 인간과 기계가 소통하는 데에 가장 중요한 두 가지 수단"이라고 말했다.
-
'전자정부 名家' LG CNS, 1200억 '행복e음' 사업 수주로 자존심 회복할까공공 소프트웨어(SW) 사업의 강자 LG CNS가 올해 공공시장 첫 '대어'로 꼽히는 보건복지부 차세대 사회보장정보시스템(행복e음) 구축 사업에 출사표를 던졌다.17일 업계에 따르면 LG CNS는 이날 행복e음 사업 재입찰에 제안서를 제출했다.행복e음 사업은 지난 2009년 복지부가 각종 사회복지 급여 및 서비스 지원 대상자의 자격과 이력에 관한 정보를 통합 관리하기 위해 구축한 시스템을 현대화 하는 사업이다. 올해부터 3년간 약 1220억원이 투입된다.이 사업은 지난 3일 첫 입찰 공고를 마감했으나 무2020-03-17 16:54:47테크M 남도영 기자
-
네이버 vs 카카오, 포털-메신저 이은 3라운드... 링은 '콘텐츠'#수천억 자금으로 뭘 만들까#넷플릭스 잡을 수 있을까#톡TV-네이버TV 경쟁 볼만할 듯국내 대표 인터넷 맞수 기업 네이버와 카카오의 세번재 경쟁 무대 막이 올랐다. 포털과 메신저 플랫폼에서 치열하게 경쟁해온 두 기업의 3라운드 링은 '콘텐츠'다. 이미 양사는 콘텐츠 자회사에 수천억원의 자금을 쌓아놨다. 올해부터 본격적으로 콘텐츠 양산에 돌입한다. 콘텐츠 주도권 경쟁의 전초전은 이미 시작됐다.◆실탄 마련한 카카오M, 직접 콘텐츠 제작 개시카카오는 지난 16일 콘텐츠 자회사 카카오M이 3자 배정 유상증자2020-03-17 15:53:45테크M 허준 기자
-
[템 사이트] 게임 하면 유니티! 2020년 기대되는 유니티 기반 게임은?연일 쏟아지는 신작 소식이 게이머들을 설레게 하고 있습니다. 남다른 스케일을 자랑하는 게임업체들의 대형 신작은 물론 독특한 게임성을 내세운 게임까지, 게이머들의 다양한 취향을 만족시킬만한 다양한 신작게임들이 많습니다.오늘은 특히 유니티 엔진을 기반으로 한 신작 게임들을 엄선해서 소개할까 합니다. 유니티는 이미 전세계 수백만명의 게임 개발자들이 사용하는 유명한 게임엔진입니다. 최신 버전의 엔진 '유니티 2019.3' 업데이트를 통해 260가지가 넘는 개선사항과 신규 기능이 포함돼 진일보한 고성능 그래픽과 최적화 기2020-03-17 15:30:39테크M 허준 기자