[MIT리뷰④] 딥마인드, 사진 한 장만으로 인식하는 AI 개발 > 기사

지금까지 인공지능은 뭔가 학습하려면 수천 개의 데이터가 필요했다.

구글 딥마인드의 연구자들은 이를 피할 수 있는 방법을 찾았다.

사람은 어떤 물건을 한두 번만 보고 나면 그 물건을 알아볼 수 있다. 그러나 컴퓨터 비전이나 음성인식의 기반이 되는 알고리즘은 하나의 새로운 이미지나 단어를 인식하기 위해 수천 개의 데이터를 필요로 한다.

구글 딥마인드의 연구진은 이 문제에 대한 해결책을 찾았다.

그들은 딥러닝 알고리즘에 몇 가지 기술을 추가해 ‘원 샷 러닝’이라고 하는, 데이터 하나 만으로도 대상을 인식할 수 있는 기술을 만들었다. 또 이 기술을 설명이 붙은 수많은 이미지, 손글씨와 언어에 적용할 수 있음을 보여줬다.

현재 최고의 컴퓨터 알고리즘은 대상을 안정적으로 인식한다. 그러나 이를 위해서는 수많은 데이터가 필요하고 시간과 비용이 많이 든다. 무인자동차가 도로 위의 차를 인식하도록 하려면 수천 개의 데이터를 집어넣어야 한다.

때로 그렇게 많은 종류의 데이터를 구하는 것은 비현실적일 수 있다. 새로운 집에 도착한 로봇이 그 집의 구조를 알기 위해 수많은 시간을 돌아다니면서 배워야 한다면 어떨까.

구글 딥마인드의 오리올 비니알스 박사는 일종의 거대한 신경망인 딥러닝 시스템에 메모리 요소를 추가했다.

일반적으로 이런 시스템은 가상의 신경 사이의 연결 강도를 미세 조정하기 위해 많은 수의 이미지가 있어야 한다. 이들은 설명이 붙은 수많은 사진들의 데이터베이스인 ‘이미지넷’을 기반으로 새로운 시스템의 능력을 시연했다.

이 프로그램은 각 이미지를 수백 개의 카테고리로 분류해야 하는 번거로움이 있지만 일단 한 번 분류를 마치고 나면 새로운 대상을 단 하나의 사진만 갖고도 학습할 수 있다.

이는 이미지 고유의 특성을 효율적으로 학습하기 때문이다. 이 알고리즘은 한 장의 개 사진만 있어도 기존 알고리즘과 비슷한 정확도로 사진을 인식했다.

비니알스 박사는 이 시스템이 새로운 단어의 뜻을 빠르게 인식할 수 있다는 점에서 특히 유용하다고 말한다. 이 방식을 적용한다면 구글의 검색엔진이 처음 보는 단어에 대해서도 그 뜻을 빠르게 학습할 수 있다.

딥러닝 시스템은 점점 더 유용해지고 있다. 추가 메모리 기능이 있다면 더욱 그럴 것이다.

구글 딥마인드의 다른 팀은 최근 네트워크에 메모리를 추가해 간단한 추론 능력을 갖게 만들었다.

몇몇 간단한 네트워크 다이어그램을 분석하는 이 프로그램은 지하철 지도를 읽는 법을 학습할 수 있다.
“그렇게 큰 규모의 데이터 세트를 한 번에 학습할 수 있다면 매우 흥미로운 접근 방법이다.”

KAIST 뇌기계지능연구실 이상완 교수의 말이다.

하지만 이 기술의 유용성에 의심을 품고 있는 이들도 있다.

하버드대 뇌과학과 샘 거쉬맨 교수는 “인간은 일반적으로 이미지를 구성하는 요소들을 통해 이해한다"며 "이는 현실에 대한 지식이나 상식이 있어야 한다”고 설명한다.

거쉬맨과 이상완 교수 모두 기계가 인간의 학습을 따라잡으려면 시간이 더 걸릴 것이라고 전망하고 있다.

<본 기사는 테크M 제46호(2017년 2월) 기사입니다>

TECH M