TECH M
TECH M
빅데이터 효율 향상 위해 ‘데이터 레이크’ 구축 필요
AWS, S3 등 다양한 솔루션 제시
기업들이 빅데이터를 활용한 비즈니스 모델을 효율적으로 구축하기 위해서는 비정형 데이터를 구분 없이 저장하는 ‘데이터 레이크(Data Lake)’ 구축이 필요하다는 조언이 나왔다.
데이터를 해석하려면 컴퓨터가 읽을 수 있도록 구조화하는 스키마 전처리를 거쳐야 하는데, 데이터 레이크를 구축하면 일단 수집한 뒤 후처리를 통해 속도를 개선하고 더욱 많은 데이터를 수집할 수 있기 때문이다.
4일 아마존웹서비스(AWS)는 서울 강남구 GS타워에서 ‘AWS 기술 교육 세션’을 개최하고, 빅데이터와 데이터 레이크에 관한 트렌드와 자사 서비스에 대해 소개했다.
양승도 AWS 솔루션즈 아키텍트는 최근 빅데이터 활용 솔루션에서 ‘실시간 처리’가 필요하다고 주장했다.
기존에는 데이터를 수집해 컴퓨터가 읽도록 정형화시킨 뒤 분석했다. 하지만 최근에는 SNS 이용, 모바일 디바이스 데이터, 웨어러블기기 등 다양한 분야에서 방대한 비정형 데이터가 생성된다. 이를 정형화시키다 보면 시간이 지연될 수밖에 없다는 게 양승도 아키텍트의 설명이다.
양 아키텍트는 “테라‧제타바이트가 넘어가는 방대한 데이터를 수집 단계에서부터 스키마를 진행하면 속도가 지연될 수밖에 없다”면서 “일단 모아둔 다음 필요한 자료를 추출할 때마다 각각의 솔루션에 맞도록 스키마를 후처리하는 방식으로 진행해야 효율성이 높아진다”고 밝혔다.
실시간으로 빅데이터를 처리하려면 ‘데이터 레이크’ 구성이 필요하다고 양 아키텍트는 주장했다. 데이터 레이크는 시스템이나 저장소 내에 데이터를 정형화하지 않고 원시데이터 형식으로 데이터를 저장하는 구조로 이뤄져 있다.
기존의 ‘데이터 웨어하우스(Data Warehouse)’는 정형화된 데이터를 수집하는 개념이었다면, 데이터 레이크는 웨어하우스에 비정형 데이터까지 확대하는 개념이다. 한 가지의 스키마와 구조를 지원하지 않고 다양한 스키마와 구조 형식의 데이터를 지원한다.
데이터 레이크는 ▲모든 데이터를 한 곳의 서버에 저장 ▲신속한 데이터 추출과 저장 ▲ 데이터 저장과 처리의 분리 ▲데이터 구조화 없이 분석 처리 등 네 가지의 특징이 있다.
양승도 아키텍트는 “데이터 레이크는 구조화된 관계형 데이터베이스, 반구조화(Semi-Structure) 데이터(CSV, 로그, XML, JSON)와 더불어 구조화되지 않은(Unstructured) 데이터 (전자 메일, 문서, PDF, 이미지, 오디오, 비디오)까지 포함한다”고 말했다.
데이터 레이크를 이용할 경우 실시간으로 데이터 분석과 처리가 가능하다고 양 아키텍처는 설명했다.
예를 들어 초밥 프랜차이즈 식당에서 회전초밥 접시마다 센서를 달아서 소비자가 먹는 초밥의 종류를 실시간으로 수집하고 저장해 분석할 수 있다. 분석결과는 바로바로 피드백된다.
이를 통해 사업자는 어떤 식재료가 얼마나 소비되는지를 실시간으로 분석해 남는 재료를 줄일 수 있다. 하루 단위로 주문하던 재료도 실시간으로 변경해 유동적인 대응도 가능해진다.
실제 AWS의 솔루션을 이용하는 미국의 부동산 정보업체 ‘레드핀’은 소비자가 관심있게 지켜본 매물에 대해 언제쯤 팔릴지 알려주고 있다. 다른 소비자가 매물을 보는 패턴과 유사한 매물의 판매 정보 등을 종합하고 분석해 “당신이 관심있게 본 이 매물은 11일이 지나면 팔릴 가능성이 큽니다”라고 안내한다.
양승도 아키텍트는 “아마존은 데이터를 저장하는 글루(Glue)와 S3를 지원하고, 분석에서도 레드시프트와 아테나 등을 제공해 데이터 레이크를 위한 모든 서비스를 제공한다”면서 “우수한 보안과 감사 기능을 지원해 기업 소비자들의 피드백을 적극적으로 반영해 최고의 서비스를 제공하고 있다”고 말했다.
[테크M = 김태환 기자(kimthin@techm.kr)]
-
'전자정부 名家' LG CNS, 1200억 '행복e음' 사업 수주로 자존심 회복할까공공 소프트웨어(SW) 사업의 강자 LG CNS가 올해 공공시장 첫 '대어'로 꼽히는 보건복지부 차세대 사회보장정보시스템(행복e음) 구축 사업에 출사표를 던졌다.17일 업계에 따르면 LG CNS는 이날 행복e음 사업 재입찰에 제안서를 제출했다.행복e음 사업은 지난 2009년 복지부가 각종 사회복지 급여 및 서비스 지원 대상자의 자격과 이력에 관한 정보를 통합 관리하기 위해 구축한 시스템을 현대화 하는 사업이다. 올해부터 3년간 약 1220억원이 투입된다.이 사업은 지난 3일 첫 입찰 공고를 마감했으나 무2020-03-17 16:54:47테크M 남도영 기자
-
네이버 vs 카카오, 포털-메신저 이은 3라운드... 링은 '콘텐츠'#수천억 자금으로 뭘 만들까#넷플릭스 잡을 수 있을까#톡TV-네이버TV 경쟁 볼만할 듯국내 대표 인터넷 맞수 기업 네이버와 카카오의 세번재 경쟁 무대 막이 올랐다. 포털과 메신저 플랫폼에서 치열하게 경쟁해온 두 기업의 3라운드 링은 '콘텐츠'다. 이미 양사는 콘텐츠 자회사에 수천억원의 자금을 쌓아놨다. 올해부터 본격적으로 콘텐츠 양산에 돌입한다. 콘텐츠 주도권 경쟁의 전초전은 이미 시작됐다.◆실탄 마련한 카카오M, 직접 콘텐츠 제작 개시카카오는 지난 16일 콘텐츠 자회사 카카오M이 3자 배정 유상증자2020-03-17 15:53:45테크M 허준 기자
-
[템 사이트] 게임 하면 유니티! 2020년 기대되는 유니티 기반 게임은?연일 쏟아지는 신작 소식이 게이머들을 설레게 하고 있습니다. 남다른 스케일을 자랑하는 게임업체들의 대형 신작은 물론 독특한 게임성을 내세운 게임까지, 게이머들의 다양한 취향을 만족시킬만한 다양한 신작게임들이 많습니다.오늘은 특히 유니티 엔진을 기반으로 한 신작 게임들을 엄선해서 소개할까 합니다. 유니티는 이미 전세계 수백만명의 게임 개발자들이 사용하는 유명한 게임엔진입니다. 최신 버전의 엔진 '유니티 2019.3' 업데이트를 통해 260가지가 넘는 개선사항과 신규 기능이 포함돼 진일보한 고성능 그래픽과 최적화 기2020-03-17 15:30:39테크M 허준 기자