TECH M
TECH M
“비식별화 전제 법 논의는 헛된 노력”
글 = 이영환 건국대 금융IT학과 교수
어떤 데이터를 비식별화한다는 것은 데이터의 통계적 특징을 최대한 살리면서 개인에 대한 식별이 불가능하도록 만든다는 것으로 정의된다.
학계에서는 비식별화에 대한 여러 가지 연구가 진행되며 다수의 비식별화 알고리즘이 보고되고 있다.
비식별화 알고리즘은 비식별화가 가능한지에 대한 다소의 혼동을 일으키고 있다. 대통령을 포함해 금융위원장 및 여러 장관이 비식별화를 전제로 데이터를 유통시키겠다고 하는 것이 그것이다.
결론부터 말하자면 비식별화 문제는 어렵다. 컴퓨터 전공자의 언어로 바꿔서 다시 표현하면, 비식별화 문제는 ‘NP-난해’급이다.
NP-난해 문제들은 검색공간이 기하급수적으로 늘어나기 때문에 풀기가 어렵다. 대표적으로는 순회판매원의 문제가 있다. 어떤 판매원이 여러 도시를 방문 할 때 모든 도시를 단 한 번만 방문하고 원래 시작점으로 돌아오는 최소비용의 여행순서를 찾는 문제다. 이 문제는 프로그램을 배운 사람이라면 쉽게 알고리즘을 생각해 낼 수 있을 정도로 쉽다.
다만 도시의 개수 n에 따라서 비교해야 할 여행순서의 가짓수가 n계승으로 폭발적으로 증가한다는 점이다. 도시 수가 5개라면 비교해야 할 가짓수가 5의 계승으로 125개밖에는 되지 않는다. 하지만 도시 수가 10개라면 가짓수가 300만 개가 넘고, 20이라면 수 천 조의 가짓수가 된다. 슈퍼컴퓨터로 풀어야 할 수준이 되는 것이다.
개인정보 식별문제로 돌아가보자. 보통 개인정보와 관련된 데이터는 여러 개의 세부 정보로 이뤄지는데 그 정보는 ▲개인을 식별하기 위해 만들어진 식별자 ▲여러 정보를 조합해 개인을 식별해낼 수 있는 준식별자 ▲통계적 가치를 갖는 민감 정보로 나눈다.
비식별화 첫 번째 단계는 식별자를 완전히 지우는 일이다. 식별자는 주민등록번호, 군번, 학번, 환자번호 등 개인에 대한 식별이 직접적으로 가능한 정보다. 이 단계는 어렵지 않다.
두 번째 단계는 준식별자를 비식별화한다. 준식별자는 나이, 성별, 우편번호, 혈액형, 키, 몸무게 등이 있는데, 이를 조합해 특정인이 적시되지 않도록 해야 한다. 보통의 경우 성별은 완전히 지워버리고 연령은 20세 이하, 30세 이하 하는 식으로 영역으로 표시해 비식별화하게 된다.
정보를 영역으로 표시한다고 할 때 혹시라도 특정인이 적시되는 경우를 없애야 한다. 이때 k-익명성 개념이 등장한다.
예를 들어 어떤 병원의 질병기록이 있는데 그 중 전립선염에 걸린 광진구 화양동 1번지에 사는 25세 홍길동, 후천성면역결핍증세가 있는 2번지 20세 홍길자, 건강한 3번지 26세 홍갑순이라는 기록이 포함돼 있다고 하자. 이 3건의 기록으로부터 개인이 특정되지 않도록 비식별화를 한다면 20대의 화양동 주민 홍모씨로 표시하면 된다. 비식별화의 결과로 3건이 모두 같은 정보가 되는 것이다. 이렇듯 어떤 식으로 찾아도 똑같은 정보가 k개 이상 되도록 만드는 것이 k-익명성이라는 개념이다.
이론적으로 k-익명성을 만드는 비식별화 문제는 NP-난해다. 준식별자의 개수 n에 따라 n의 계승으로 어려워진다. 결론적으로 비식별화는 실현 자체가 불가능할 가능성이 높다. 최근 비식별화를 전제로 이뤄지고 있는 최근의 법제도 논의는 실현 불가능한 전제를 바탕으로 법을 만들어 낼 수 있다는 점에서 하나마나 한 노력이 되지 않을까 우려한다.
<본 기사는 테크M 제40호(2016년8월) 기사입니다>
-
서울대 기술지주, 기업가 정신 고취 해커톤 개최서울대 기술지주회사가 오는 18일부터 20일까지 서울대 학부생과 대학원생의 기업가 정신을 고취하고 네트워킹을 독려하기 위한 해커톤 ‘프로그래시브 해커톤(P.rogreSV Hackathon)’을 개최한다고 밝혔다. 프로그래시브 해커톤은 서울대학교 기술지주회사, 산학협력단, 벤처경영기업가센터가 공동 주최하고, 서울대 창업동아리 ‘에스엔유에스브이(SNUSV.NET)’와 기초 코딩 동아리 ‘프로그래밍(P.rogramming)’이 함께 운영한다. 이번 해커톤은 서울대 학부생, 대학원생, 2015년 창업 맞춤형2016-08-16 12:10:01도강호 기자
-
[이슈 브리핑] 안보, 세금, 역차별까지…지도 데이터 반출 논란 결론은?증강현실(AR) 게임 ‘포켓몬고’ 인기로 촉발된 구글의 한국 지도 데이터 반출 논란이 계속되고 있다. 혁신을 위해 반출이 허용돼야 한다는 구글의 주장과 안보문제, 세금회피문제, 타 기업과 형평성 문제 등을 주장하는 반대 측의 주장이 대립하고 있다. 12일 이 문제를 논의하기로 했던 국토교통부도 협의체 회의를 연기한 후 고심하고 있다. 당분간 논란이 계속될 것으로 보인다.포켓몬고 열풍이 구글 지도 논란으로2016-08-16 01:40:03강진규 기자
-
[이슈 브리핑] 대중국 ICT 수출 감소 8개월째…반전 쉽지 않다[테크M = 취재팀] 우리 정보통신기술(ICT) 수출의 절반 이상을 차지하는 중국 수출의 감소세가 이어지면서 ICT 수출 전체에도 상당한 부담을 주고 있다. 산업자원부와 미래창조과학부에 따르면, 지난 7월 중국(홍콩 포함) ICT 수출액은 67억4000만 달러로 전년 동월 대비 9.5% 감소했다. 이로써 대중국 ICT 수출은 8개월 연속 감소세를 기록했다. [자료: 산업통상자원부]대중국2016-08-16 01:40:01테크M 취재팀