바로가기 메뉴
본문 바로가기
대메뉴 바로가기

TECH M

딥러닝은 와해성 기술, 순간의 선택이 미래 바꿔

2016-11-30이동윤 딥바이오 연구원



[KEY POINT]

머신러닝 기술이 부상함에 따라 인공지능 기술을 육성하기 위해 글로벌 기업은 물론 각국 정부까지 적극 나서고 있다. 머신러닝 기술에서 우위를 확보하기 위해서는 정리된 대량의 데이터와 인공지능 전문 하드웨어, 우수한 인력 확보가 매우 중요하다. 인공지능 선도 기업들도 이같은 상황을 인식 머신러닝 기술 선점을 위해 다양한 노력을 기울이고 있다. 최근에는 다양한 인공지능 오픈소스가 공개됨에 따라 초기 진입장벽이 매우 낮아지고 인공지능 기술 러시라고 할 수준의 관심이 쏠리고 다양한 시도가 이뤄지고 있다.



알파고와의 대결을 계기로 널리 알려진 머신러닝은 ‘기계가 똑똑해지도록 하는 기술’이라고 할 수 있다.

비록 오류 가능성이 있지만 다량의 데이터를 통한 통계학습에 기반을 둔 머신러닝은 경쟁관계에 있던 학습방법을 확연히 압도, 이제는 인공지능의 지배적 방향이 됐다. 머신러닝 기술의 부상은 2000년대 후반 인텔 CPU의 클럭 속도 증가가 한계에 부딪힘에 따라 소프트웨어에 IT업계의 관심과 예산이 맞춰진 것이 계기가 됐다. 맵리듀스란 분산처리 방식과 하둡 소프트웨어는 머신러닝 적용의 통로를 여는 역할을 했다고 볼 수 있다.

하지만 더 직접적인 계기는 역시 구글이 촉발한 인공지능 기술의 확산이다. 구글의 창업자들은 인공지능 초기 연구자의 자녀로 창업 초기부터 회사의 목적을 인공지능의 실현에 두었다.

그 중에서도 가장 각광받고 있는 딥러닝은 동물의 신경망에서 착안한 인공신경망 계열 머신러닝의 개량 버전이다. 딥러닝과 인공지능이란 용어가 함께 쓰이는 것은 이 용어가 오랫동안 이 분야를 대표해 왔기 때문이기도 하지만 딥러닝 연구자들이 더 이상 자신들의 연구를 동물의 신경망 처리에 의존할 필요가 없다고 보는 생각을 반영한 것이기도 하다.

이들은 ‘지능을 가진 기계’를 만들기 위해 생물의 신경망 작동방식을 똑같이 따를 필요는 없다고 말한다. 비행기가 새처럼 날개를 퍼덕이지 않고, 잠수함이 어류처럼 지느러미를 흔들지 않으며 자동차에 다리가 없는 것처럼 말이다. 딥러닝은 딥 컨볼루셔널 네트워크, 장단기 기억, 딥 강화학습, 자가부호화기 등 4가지 기술을 기본으로 변형 또는 조합해 다양한 데이터와 문제들을 분류하고 예측한다.

이중 딥 강화학습은 비디오 게임의 조작이나 로봇의 움직임, 바둑 등 다양한 대상을 다룬다. 때문에 앞으로 중요한 것은 문제에 대한 상상력이 될 전망이다. 당장은 ‘개선방향을 정확하게 말할 수 있는 모든 불편이나 의문점’이 딥러닝과 딥 강화학습의 대상이 되겠지만 장기적으로는 개선방향까지 기계가 스스로 알아낼 것으로 보인다.



데이터 보유자 힘 커져

딥러닝의 관심이 높아지고 적용 영역이 급속히 넓어짐에 따라 대량 데이터에 대한 의존도가 높아지고 데이터 보유자의 협상력도 커지고 있다.

대부분의 머신러닝은 판정의 기준을 제시하는 지도기반 학습이기 때문에 기준이 없는 데이터에는 사람이 데이터의 속성을 정리해 붙여줘야 한다(레이블링). 메타 데이터라고 하는 이 레이블링 데이터를 갖고 있느냐 그렇지 않느냐의 여부는 머신러닝의 적용과 효과 창출에 결정적인 의미를 갖는다. 특히 헬스케어 등은 신뢰받는 전문가가 레이블링을 해 줘야 한다.

만약 기업이 레이블링 데이터, 특히 전문분야에서 활용할 수 있는 데이터를 갖고 있다면 그만큼 머신러닝 분야에서 큰 파워와 잠재력을 갖고 있다고 할 수 있다.

머신러닝 기술의 구현 면에서도 레이블링 데이터의 확보가 가장 시급한 과제다. 이것이 확보되지 않으면 머신러닝 작업은 올스톱 상태에 머무른다고 해도 과언이 아니다. 아직 레이블링 데이터는 사람이 투입돼 할 수밖에 없는데 그에 수반되는 투자의 문제는 결국 의사결정권자의 의지에 달렸다.

레이블링 데이터의 수급이 원활해진 다음의 과제로는 하드웨어 인프라의 투자가 꼽힌다. 프로그램 운용은 초기 진입장벽이 낮아졌기 때문에 내부 인력도 튜토리얼을 열심히 공부하면 어느 정도의 성과를 낼 수 있다. 그러나 딥러닝이 요구하는 최소 하드웨어는 레이블링 데이터와 마찬가지로 전체를 스톱시키는 병목으로 작용한다.

딥러닝 전용 하드웨어라고 해도 될 GPGPU는. 선택의 폭이 제한된 만큼 제로섬 양상이 될 가능성이 높다.

GPGPU를 사실상 독점 공급하고 있는 엔비디아는 이익극대화를 추구하는 움직임도 보이고 있다. IBM의 경우 엔비디아와의 협력구도 외에 따로 뉴로모픽 칩을 개발하고 있는데 이것이 실현된다면 GPGPU로 일원화돼 있는 딥러닝 하드웨어도 선택의 폭이 넓어질 전망이다. 그러나 이는 뉴로모픽 칩에 탑재된 알고리즘이 어느 정도 안정화된 미래의 일이다.

이와 달리 인텔과 MS는 좀 신속하게 머신러닝 특화 칩 시장에 대응하기 위해 FPGA. 기반의 개발을 추진 중인 것으로 알려져 있다.

머신러닝의 개발은 오픈소스와 떼어 생각할 수 없을 만큼 의존성이 높다. 자체 개발 기업들도 대부분 깃허브(github.com)의 오픈소스를 가져다 조합해 만든다. 이에 따라 개발 조직을 둘 여력이 되는 경우, 구매보다 내부 개발을 더 선호하는 상황이다. 이같은 환경에서는 데이터 공급처와의 관계, 문제해결에 대한 경험, 빠른 문제 해결력, 시장의 선점 여부가 경쟁력을 좌우하게 된다.

오픈소스를 활용하는 만큼 인공지능에서 중요한 것은 무엇보다 인력의 질이다. 더 똑똑해진 기계가 모든 것을 맡게 될 날이 올지도 모르지만, 앞으로도 아주 오랜 기간 기계를 만들고 학습시키는 역할은 사람이 맡을 전망이다.

일찍이 인력의 중요성을 깨달은 기업들은 어떤 인력을 영입할지, 그 인력들을 어떤 조직에서 일하게 할지 고민하고 있다. 구글이나 페이스북 등은 우수한 인력을 뽑기 위해 코딩 테스트와 함께 관심과 열정의 정도, 오픈소스 커뮤니티에서의 활동 등을 고려한다. 오픈소스 커뮤니티 활동을 보는 것은 이 분야의 작업절차에 익숙한지를 보기 위해서다.

인력 수급전에서 우위를 점하기 위해 기업들은 전문 인력이 선호하는 일터 만들기에 적극 나서고 있다. 좋은 자극을 받고 배울 수 있는 동료, 데이터, HW 인프라를 제공하고 전문성을 높이는 기회를 주고 장기적 관점에서 기다려주는 분위기를 조성하는 것 등이다. 글로벌 대기업도 딥러닝 인력에 대해서는 전직이나 외부논문 발표 등에 대한 제한을 최소화하고 있는 것으로 알려져 있다.

>>>
오픈소스를 활용하는 만큼 인공지능에서 중요한 것은 무엇보다 인력의 질이다.
더 똑똑해진 기계가 모든 것을 맡게 될 날이 올지도 모르지만,
앞으로도 아주 오랜 기간 기계를 만들고 학습시키는 역할은 사람이 맡을 전망이다.


연구와 개발 간 협력 강화해야

이외에 머신러닝을 정규교육을 받은 전문 연구 인력과 기존 IT개발자에서 옮겨온 개발 인력과의 상호 협업도 주목할 포인트이다. 연구 인력은 논문 리딩과 학계의 연구흐름을 따라잡는 데 강하다.

반면 개발자들은 실제 빠르게 기술을 익히고 개발할 수 있다. 이들의 협업과 관계의 조정은 최선의 시너지를 내는 데 매우 중요할 전망이다. 물론 조직으로서는 두 가지 역량을 모두 가진 인력을 바라겠지만 인력에 대한 수요가 폭증하는 어느 시점에서는 결국 각 분야의 인력을 따로 뽑아 운용해야 할 것이기 때문이다.

이렇게 전망이 밝고 각광받는 머신러닝 기술이지만 엔지니어의 입장에서 보면 여러 모로 쉽지 않은 도전이기도 하다.

우선 기술발전의 속도가 너무 빨라 어느 방향을 택해야 할지 혼란스러운 실정이다. 같은 목표에 대해서도 다양한 기술을 적용할 수 있고 구현 프레임워크도 다양하다. 어떤 선택을 했느냐에 따라 일정 시간이 지나면 무시할 수 없는 격차를 초래할 수 있기 때문이다.

머신러닝은 와해성 기술의 성격을 갖고 있다. 선진적인 기법의 머신러닝 기술은 그동안 시장에서 안정적으로 쓰이고 있던 방법을 일시에 무용지물로 만드는 사례가 종종 등장하고 있다.

이 경우 이미 많은 자금과 노력을 투입했더라도 매몰비용으로 생각해야 하는데 이러한 점이 오히려 새로운 방향의 선택에 지나치게 신중하도록 하는 문제를 야기하고 있다.

머신러닝 기술은 또 구체적인 성과가 나오기까지 긴 시간이 필요하다. 머신러닝 기술을 구현하려면 지루하고 까다로운 데이터 전처리 단계가 필요하다.

약간의 코딩과 실행만으로 쉽게 가설을 확인할 수 있는 일반적 SW개발과 달리, 머신러닝은 데이터의 변환을 위한 코딩과 실행, 무결성의 검증, 머신러닝 프로그램 자체의 코딩과 실험 및 검증에 이르는 주기를 밟아야 한다.



이 때문에 엔지니어는 구체적인 성과를 내기 전에 지쳐버릴 수 있다. 특히 민감한 실험을 많이 하는 위치라면 이같은 문제를 더 심각하게 느낄 수 있다.

머신러닝과 관련한 기업별 활동을 보면 여전히 가장 선도적인 연구는 구글 딥마인드가 보여주고 있다. 하지만, 페이스북도 최근 우수한 인력을 영입하고 방대한 데이터를 바탕으로 다양한 시도를 서비스에 반영하기 위해 노력하고 있다.

구글은 구글브레인팀과 런던의 딥마인드팀이 각기 다른 일을 수행한다. 구글브레인팀은 딥러닝 개발 프레임워크인 텐서플로우를 발표하고 구글의 서비스의 지능화를 추진하는 한편 딥마인드는 초선도적인 연구를 통해 특허자산을 생산해내고 있다.

앞으로 중요한 것은 머신러닝 적용사례가 기업의 필수 프로세스로 자리 잡느냐 여부가 될 것이다. 이미 포털에서는 필수 프로세스가 됐지만 다른 분야는 산업별 편차가 있다. 또 다양한 적용을 지속적으로 시도하는 것도 매우 중요하다. 이는 이미 적용한 서비스가 어떤 평가를 받느냐에 따라 달라질 것이다.

미국 국가과학기술위원회가 최근 발간한 인공지능리포트를 통해 중국이 인공지능 분야에서 양적, 질적으로 앞섰다고 강조했다.

이는 인공지능 연구가 국가적인 경쟁의 중요한 요소가 됐음을 의미하며 앞으로 두 국가 간 인공지능 투자 경쟁이 더 치열해질 것임을 시사한다.

이에 따라 다른 나라들도 인공지능을 경쟁력으로 삼기 위한 움직임이 더욱 본격화될 전망이다.

<본 기사는 테크M 제43호(2016년 11월) 기사입니다>

(주)테크엠주소 : 서울시 강남구 테헤란로2길 27, 10층 (역삼동, 비젼타워)대표이사.발행인 : 김현기편집인 : 허준개인정보보호책임자 : 김현기청소년보호책임자 : 허준
사업자등록번호 : 553-81-01725대표전화 : 070-4513-1460보도자료 및 제보 : press@techm.kr