TECH M
TECH M
빅데이터 활용 위한 규제완화 절실
빅데이터 금광을 묵히고 있는 한국
빅데이터의 중요성을 인지하고, 활발하게 공유함에도 불구하고 막상 실사례 적용은 저조한 실정이다. 개인정보보호법을 비롯한 각종 규제의 그물이 촘촘해 데이터를 확보하는 단계에서부터 어려움을 겪기 때문이다.
비식별화된 개인정보에 대해 사용을 허용하는 등 규제완화의 움직임과 동형암호체계와 같은 기술을 도입해 보안성을 높여야한다는 지적이 나온다. 더불어 데이터 사용에 대한 윤리관을 확립해 건전한 시장 조성을 위한 선순환이 필요하다는 조언도 나온다.
“한국은 빅데이터의 ‘금광(goldmine)’을 깔고 앉아 있는데도 제대로 캐내지 못하고 있다.”
지난 2015년 방한해 강연한 톰 데이븐포트(Tom Davenport) 미국 밥슨칼리지 교수의 말이다. 톰 데이븐포트 교수의 말처럼 한국은 다양한 경로를 통해 수많은 빅데이터를 수집해놓고도 규제 때문에 제대로 활용하지 못하고 있다. 인터넷이 발달하기 시작한 1990년대 후반과 2000년대 초반 해킹에 의한 개인정보 유출이 확산되면서 정보 보호에 대한 요구가 높아진 데 따른 결과다.
특정 개인 민감정보도 빅데이터, 개망신법이 ‘발목’
빅데이터 활용에 제약을 주는 법안으로는 크게 개인정보보호법, 정보통신망법, 신용정보보호법, 의료법 등 네 가지다. 개인정보보호법은 일반법으로 전체를 포괄한다. 나머지 법안은 개별법으로 일반법인 개인정보보호법이 분야별 개별 법상 규정과 상충시에는 분야별 개별법을 우선 적용하게 된다.
개인정보보호법 제 2조 제 1호에서는 개인정보를 “살아 있는 개인에 관한 정보로서 성명, 주민등록번호와 영상 등을 통해 개인을 알아볼 수 있는 정보”라고 정의하고 있다. 또 해당 정보만으로는 특정 개인을 알아볼 수 없더라도 다른 정보와 결합해 알아볼 수 있다면 개인정보로 간주한다.
정보통신망 이용촉진 및 정보보호 등에 관한 법률에서도 “개인정보란 생존하는 개인에 관
한 정보로서 성명·주민등록번호 등에 의하여 특정한 개인을 알아볼 수 있는 부호·문자·음성·음향 및 영상 등의 정보”를 말한다. 이때 해당 정보만으로는 특정 개인을 알아볼 수 없어도 다른 정보와 쉽게 결합해 알아볼 수 있는 경우에는 그 정보를 포함한다고 명시돼 있다.
문제는 빅데이터에서 수집되는 정보는 개인을 식별할 수 있는 정보와 아닌 정보가 뒤섞여 있다는 데 있다. 개인을 식별할 수 있는 성명·고유식별번호·부호·문자 등의 범주를 넘어서 특정개인과 관련된 정보를 포함하는 개념이 빅데이터다.
정보조합으로 개인식별 가능해 모든 동의 필요
예를 들어 서울에 사는 30세 남성 홍길동 씨가 1개월간 신용카드를 통해 영등포구에 위치한 특정 중국 음식점에 10회 이상 방문한다. 이를 통해 홍길동 씨가 중국 음식을 좋아한다는 것을 확인할 수 있다. 어디에서 무엇을 사고, 어떤 문화생활을 즐기는지, 주로 이용하는 대중교통 수단은 버스인지 지하철인지도 알게 된다.
사실상 한 개인의 라이프스타일을 확인할 수 있는 셈이다약에 희귀병에 대한 자료를 수집해 신약을 개발하려는 제약사가 있다면, 자료 수집 단계에서부터 개인정보보호법에 막힌다. 희귀병을 앓는 인원이 소수이기에 개인을 식별할 수 있을 확률이 크다는 이유에서다.
문제는 빅데이터 서비스들이 개인 관련 직·간접적 정보를 바탕으로 새롭게 파생되는 정보들을 기초로 해 예측정보를 제공한다는 데 있다. 물품의 구매습성, 소비패턴, 누적데이터 등을 이용할때 정보를 조합하면 개인을 식별할 수도 있다. 이렇게 되면 개인정보보호법을 위반하게 된다. 빅데이터 산업의 특성상 식별 불가능했던 정보도 처리·분석과정에서 개인 식별성을 가지게 된다.
기존에는 각종 ‘동의’를 얻어 해결해왔다. 사이트에 가입할 때 각종 약관에 동의하는 것이 이 때문이다. 개인정보를 수집, 이용하거나 제3자에게 제공할 경우에는 정보주체의 동의를 얻어야 한다.
하지만 빅데이터 시대로 돌입하면서는 어느 단계에서 사전 동의를 받아야 하는지 모호하다. 특히 방대한 규모의 빅데이터에 대한 사전 동의도 불가능에 가깝다. 만일 빅데이터 정보에 개인정보보호법을 엄격히 적용하면 소비자가 물건을 구매하기 위해 검색한 수십 가지 검색어에 대해서도 모두 동의를 구해야 한다. 비정형 데이터지만 조합할 경우 개인을 식별할 수 있는 여지를 남겨두기 때문이다. 이를 하나하나 다 동의를 얻고 관련 내용을 저장하게 되면 비용부담의 문제도 발생하게 될 여지가 크다.
개인 판단 어렵게 ‘비식별화 조치’ 필요
이러한 문제를 해결하기 위해 정부에서는 ‘비식별화 조치’에 대한 논의가 이뤄지고 있다. 한국정보화진흥원에 따르면 개인의 식별 요소로는 이름, 주소, 주민등록번호, 생년월일, 전화번호, 이메일 주소, 의료기록번호 등과 같이 그 자체로 특정 개인을 직접 식별할 수 있는 식별자(Identifier)와 연령, 성별, 거주 지역, 국적, 홈페이지URL 등과 같이 다른 정보와 결합해 식별할 수 있는 준식별자(Quasi-Identifier)가 있다.
비식별 조치는 식별자의 정보에서 중요 정보를 삭제해 준식별자로 만드는 작업이다. 가령 병원에서 수집된 환자의 정보를 비식별 조치한다면 주민등록번호, 성별, 입원날짜, 나이 등에서 개인임을 식별할 수 있는 주민등록번호와 입원 날짜를 삭제한다. 이렇게 되면 정확히 누가 입원했는지 알 수 없게 된다.
정부가 제안한 ‘개인정보 비식별 조치 가이드라인’에 따르면 비식별 조치는 사전검토-비식별 조치-적정성 평가-사후관리 등 4단계로 진행된다. 사전검토 단계에서는 개인정보 해당 여부를 검토하고 비식별 조치 단계에서는 가명처리, 데이터 삭제, 범주화, 데이터 마스킹 등 비식별 기술을 이용해 개인 식별요소를 제거한다. 적정성 평가 단계에서는 비식별 조치가 제대로 이뤄졌는지를 외부 평가단을 통해 평가하며, 사후관리 단계에서는 비식별 정보 오·남용 예방 조치가 진행된다.
기업과 기관이 어느 정도 수준으로 정보를 삭제하거나 변조한 것이 되돌릴 수 없는 수준인지 판단할 수 없기 때문이다. 더구나 가이드라인은 법적 근거가 되지 않는다. 데이터를 활용하고자 하는 기업과 연구소, 기관 관계자들은 논란을 없애기 위해 너무 많은 정보를 삭제
하면, 데이터의 가치가 손상돼 쓸 수 없다고 지적한다.
예를 들어 개인정보 중 비식별 조치를 위해 이름뿐 아니라 나이, 성별, 거주지 등 많은 정보를 삭제하면 개인을 알아볼 수는 없겠지만 그 정보만으로 활용할 수 있는 것도 별로 없어진다는 얘기다.
개인정보보호법 개정 움직임도 나타나고 있다. 바른미래당의 오세정 의원을 비롯한 11명의 의원이 지난 3월 5일 개인정보보호법 개정안을 발의했다. 이 개정안은 EU의 유럽 개인정보보호법(GDPR)의 입법 사례를 참고해 가명정보와 익명정보의 개념과 활용에 대한 법적 근거를 마련했다.
동형암호체계 도입·기업 윤리적 책임 강화 필요
정보유출을 방지하기 위한 기술적 조치도 필요하다는 지적이 나온다. 암호화 체계에서 가장 선진적인 기술은 4세대 암호체계인 동형암호(Homomorphic Encryption)다. 이 기술은 소비자 정보를 암호화한 뒤에도 정보를 추출해 바로 연산을 할 수 있다.
예를 들어 10과 15를 더하는 것을 암호화한다고 가정했을 때, 이 숫자를 복호화를 거쳐 25라는 결과값을 도출하게 된다. 복호화는 암호화 과정의 역과정으로 암호 알고리즘에 의해 암호문을 평문으로 바꾸는 과정이다. 문제는 암호화 담당자나 빅데이터 분석가에게 10과 15라는 값이 노출된다는 데 있다.
반면 동형암호체계는 10을 4와 7로 나누기한 뒤 각각 2와 3이라는 암호를 얻고, 15를 4와 7로 나눈 뒤 3과 1의 값을 얻어서, 같은 숫자로 나눈 값들끼리 더한다. 4로 나눈 나머지와 7로 나눈 나머지끼리 합한 값은 1과 4가 된다.
앞에서 2와 3이 더해 5가 되지만, 4로 한 번 더 나누게 돼 1이 된다. 결국 4로 나누기를 했을 때 나머지가 1이 되는 숫자는 25, 7로 나누기 했을 때 나머지가 4가 되는 숫자도 25가 된다. 결국 복호화 과정 없이, 즉 암호화를 풀지 않고도 결과 값을 도출할 수 있게 된다.
보안업계 관계자는 “동형암호체계는 공개키 탈취의 걱정이나 복호화된 정보가 유출되지 않기에 빅데이터의 편리함을 유지하면서 정보 유출에 대한 걱정이 줄어든다”면서 “구글이나 마이크로소프트 같은 글로벌 IT기업에서도 사용하고 있다”고 설명했다.
데이터를 사용하는 기업들의 역할도 강조되고 있다. 데이터의 윤리적 사용이 필요하다는 지적이다.
데이터 분산 처리 플랫폼인 ‘하둡(Hadoop)’을 개발한 더그 커팅은 데이터 윤리적 사용을 위한 네 가지 법칙을 제시했다.
우선 투명성 확보가 필요하다. 데이터를 통해 무엇을 할 것인지, 어떤 데이터를 사용하는지를 공개해야 신뢰성을 확보할 수 있다. 데이터 관리에 대한 사용 사례를 구축하는 것도 필요하다. 또 데이터 활용이 허용되는 것과 안 되는 것에 대한 경계 설정이 요구되며, 데이터 활용에 대한 감독과 규제도 중요한 요소로 작용한다.
특히 더그 커팅은 검증에 대한 중요성을 강조했다. 그는 “데이터 활용에 대해 외부에서 제3자가 감사(Auditing)한다면 사용자들에게 ‘우리가 개인정보 잘 관리한다’고 설득할 수 있다고 생각한다”면서 “현재까지는 외부인을 통한 데이터 감사가 실시되지 않고 있는데 이런 부분에서 강화해야 한다”고 말했다.
[테크M = 김태환 기자(kimthin@techm.kr)]
-
'전자정부 名家' LG CNS, 1200억 '행복e음' 사업 수주로 자존심 회복할까공공 소프트웨어(SW) 사업의 강자 LG CNS가 올해 공공시장 첫 '대어'로 꼽히는 보건복지부 차세대 사회보장정보시스템(행복e음) 구축 사업에 출사표를 던졌다.17일 업계에 따르면 LG CNS는 이날 행복e음 사업 재입찰에 제안서를 제출했다.행복e음 사업은 지난 2009년 복지부가 각종 사회복지 급여 및 서비스 지원 대상자의 자격과 이력에 관한 정보를 통합 관리하기 위해 구축한 시스템을 현대화 하는 사업이다. 올해부터 3년간 약 1220억원이 투입된다.이 사업은 지난 3일 첫 입찰 공고를 마감했으나 무2020-03-17 16:54:47테크M 남도영 기자
-
네이버 vs 카카오, 포털-메신저 이은 3라운드... 링은 '콘텐츠'#수천억 자금으로 뭘 만들까#넷플릭스 잡을 수 있을까#톡TV-네이버TV 경쟁 볼만할 듯국내 대표 인터넷 맞수 기업 네이버와 카카오의 세번재 경쟁 무대 막이 올랐다. 포털과 메신저 플랫폼에서 치열하게 경쟁해온 두 기업의 3라운드 링은 '콘텐츠'다. 이미 양사는 콘텐츠 자회사에 수천억원의 자금을 쌓아놨다. 올해부터 본격적으로 콘텐츠 양산에 돌입한다. 콘텐츠 주도권 경쟁의 전초전은 이미 시작됐다.◆실탄 마련한 카카오M, 직접 콘텐츠 제작 개시카카오는 지난 16일 콘텐츠 자회사 카카오M이 3자 배정 유상증자2020-03-17 15:53:45테크M 허준 기자
-
[템 사이트] 게임 하면 유니티! 2020년 기대되는 유니티 기반 게임은?연일 쏟아지는 신작 소식이 게이머들을 설레게 하고 있습니다. 남다른 스케일을 자랑하는 게임업체들의 대형 신작은 물론 독특한 게임성을 내세운 게임까지, 게이머들의 다양한 취향을 만족시킬만한 다양한 신작게임들이 많습니다.오늘은 특히 유니티 엔진을 기반으로 한 신작 게임들을 엄선해서 소개할까 합니다. 유니티는 이미 전세계 수백만명의 게임 개발자들이 사용하는 유명한 게임엔진입니다. 최신 버전의 엔진 '유니티 2019.3' 업데이트를 통해 260가지가 넘는 개선사항과 신규 기능이 포함돼 진일보한 고성능 그래픽과 최적화 기2020-03-17 15:30:39테크M 허준 기자