TECH M
TECH M
“비식별화 전제 법 논의는 헛된 노력”
글 = 이영환 건국대 금융IT학과 교수
어떤 데이터를 비식별화한다는 것은 데이터의 통계적 특징을 최대한 살리면서 개인에 대한 식별이 불가능하도록 만든다는 것으로 정의된다.
학계에서는 비식별화에 대한 여러 가지 연구가 진행되며 다수의 비식별화 알고리즘이 보고되고 있다.
비식별화 알고리즘은 비식별화가 가능한지에 대한 다소의 혼동을 일으키고 있다. 대통령을 포함해 금융위원장 및 여러 장관이 비식별화를 전제로 데이터를 유통시키겠다고 하는 것이 그것이다.
결론부터 말하자면 비식별화 문제는 어렵다. 컴퓨터 전공자의 언어로 바꿔서 다시 표현하면, 비식별화 문제는 ‘NP-난해’급이다.
NP-난해 문제들은 검색공간이 기하급수적으로 늘어나기 때문에 풀기가 어렵다. 대표적으로는 순회판매원의 문제가 있다. 어떤 판매원이 여러 도시를 방문 할 때 모든 도시를 단 한 번만 방문하고 원래 시작점으로 돌아오는 최소비용의 여행순서를 찾는 문제다. 이 문제는 프로그램을 배운 사람이라면 쉽게 알고리즘을 생각해 낼 수 있을 정도로 쉽다.
다만 도시의 개수 n에 따라서 비교해야 할 여행순서의 가짓수가 n계승으로 폭발적으로 증가한다는 점이다. 도시 수가 5개라면 비교해야 할 가짓수가 5의 계승으로 125개밖에는 되지 않는다. 하지만 도시 수가 10개라면 가짓수가 300만 개가 넘고, 20이라면 수 천 조의 가짓수가 된다. 슈퍼컴퓨터로 풀어야 할 수준이 되는 것이다.
개인정보 식별문제로 돌아가보자. 보통 개인정보와 관련된 데이터는 여러 개의 세부 정보로 이뤄지는데 그 정보는 ▲개인을 식별하기 위해 만들어진 식별자 ▲여러 정보를 조합해 개인을 식별해낼 수 있는 준식별자 ▲통계적 가치를 갖는 민감 정보로 나눈다.
비식별화 첫 번째 단계는 식별자를 완전히 지우는 일이다. 식별자는 주민등록번호, 군번, 학번, 환자번호 등 개인에 대한 식별이 직접적으로 가능한 정보다. 이 단계는 어렵지 않다.
두 번째 단계는 준식별자를 비식별화한다. 준식별자는 나이, 성별, 우편번호, 혈액형, 키, 몸무게 등이 있는데, 이를 조합해 특정인이 적시되지 않도록 해야 한다. 보통의 경우 성별은 완전히 지워버리고 연령은 20세 이하, 30세 이하 하는 식으로 영역으로 표시해 비식별화하게 된다.
정보를 영역으로 표시한다고 할 때 혹시라도 특정인이 적시되는 경우를 없애야 한다. 이때 k-익명성 개념이 등장한다.
예를 들어 어떤 병원의 질병기록이 있는데 그 중 전립선염에 걸린 광진구 화양동 1번지에 사는 25세 홍길동, 후천성면역결핍증세가 있는 2번지 20세 홍길자, 건강한 3번지 26세 홍갑순이라는 기록이 포함돼 있다고 하자. 이 3건의 기록으로부터 개인이 특정되지 않도록 비식별화를 한다면 20대의 화양동 주민 홍모씨로 표시하면 된다. 비식별화의 결과로 3건이 모두 같은 정보가 되는 것이다. 이렇듯 어떤 식으로 찾아도 똑같은 정보가 k개 이상 되도록 만드는 것이 k-익명성이라는 개념이다.
이론적으로 k-익명성을 만드는 비식별화 문제는 NP-난해다. 준식별자의 개수 n에 따라 n의 계승으로 어려워진다. 결론적으로 비식별화는 실현 자체가 불가능할 가능성이 높다. 최근 비식별화를 전제로 이뤄지고 있는 최근의 법제도 논의는 실현 불가능한 전제를 바탕으로 법을 만들어 낼 수 있다는 점에서 하나마나 한 노력이 되지 않을까 우려한다.
<본 기사는 테크M 제40호(2016년8월) 기사입니다>
-
'전자정부 名家' LG CNS, 1200억 '행복e음' 사업 수주로 자존심 회복할까공공 소프트웨어(SW) 사업의 강자 LG CNS가 올해 공공시장 첫 '대어'로 꼽히는 보건복지부 차세대 사회보장정보시스템(행복e음) 구축 사업에 출사표를 던졌다.17일 업계에 따르면 LG CNS는 이날 행복e음 사업 재입찰에 제안서를 제출했다.행복e음 사업은 지난 2009년 복지부가 각종 사회복지 급여 및 서비스 지원 대상자의 자격과 이력에 관한 정보를 통합 관리하기 위해 구축한 시스템을 현대화 하는 사업이다. 올해부터 3년간 약 1220억원이 투입된다.이 사업은 지난 3일 첫 입찰 공고를 마감했으나 무2020-03-17 16:54:47테크M 남도영 기자
-
네이버 vs 카카오, 포털-메신저 이은 3라운드... 링은 '콘텐츠'#수천억 자금으로 뭘 만들까#넷플릭스 잡을 수 있을까#톡TV-네이버TV 경쟁 볼만할 듯국내 대표 인터넷 맞수 기업 네이버와 카카오의 세번재 경쟁 무대 막이 올랐다. 포털과 메신저 플랫폼에서 치열하게 경쟁해온 두 기업의 3라운드 링은 '콘텐츠'다. 이미 양사는 콘텐츠 자회사에 수천억원의 자금을 쌓아놨다. 올해부터 본격적으로 콘텐츠 양산에 돌입한다. 콘텐츠 주도권 경쟁의 전초전은 이미 시작됐다.◆실탄 마련한 카카오M, 직접 콘텐츠 제작 개시카카오는 지난 16일 콘텐츠 자회사 카카오M이 3자 배정 유상증자2020-03-17 15:53:45테크M 허준 기자
-
[템 사이트] 게임 하면 유니티! 2020년 기대되는 유니티 기반 게임은?연일 쏟아지는 신작 소식이 게이머들을 설레게 하고 있습니다. 남다른 스케일을 자랑하는 게임업체들의 대형 신작은 물론 독특한 게임성을 내세운 게임까지, 게이머들의 다양한 취향을 만족시킬만한 다양한 신작게임들이 많습니다.오늘은 특히 유니티 엔진을 기반으로 한 신작 게임들을 엄선해서 소개할까 합니다. 유니티는 이미 전세계 수백만명의 게임 개발자들이 사용하는 유명한 게임엔진입니다. 최신 버전의 엔진 '유니티 2019.3' 업데이트를 통해 260가지가 넘는 개선사항과 신규 기능이 포함돼 진일보한 고성능 그래픽과 최적화 기2020-03-17 15:30:39테크M 허준 기자