AI VIDEO BRIEFING

차등 정보보호(Differential Privacy)란? 익명화의 한계와 노이즈 원리

이름을 지운 데이터도 다른 정보와 결합하면 개인을 식별할 수 있다. 차등 정보보호는 응답에 노이즈를 더해 개인을 보호하면서도 집단의 통계를 얻게 해준다.

출처: Simply Explained2018년 1월 25일AI 보조 요약

이름만 지운다고 익명이 아니다: 차등 정보보호가 프라이버시를 지키는 법 영상 대표 이미지

핵심 메시지

단순 익명화는 다른 데이터와 결합하는 연계 공격(linkage attack)에 취약하다.
미국인의 87%는 우편번호·생일·성별 세 가지 정보만으로 식별될 수 있다.
차등 정보보호는 응답에 의도적 노이즈를 더해 개인 기록을 신뢰할 수 없게 만들어 “그럴듯한 부인 가능성”을 준다.
노이즈 분포를 알기 때문에 이를 보정해 집단 전체의 통계는 꽤 정확하게 얻을 수 있다.
애플과 구글이 일부 데이터 수집에 사용하지만, 큰 데이터셋에서만 유효하고 구현이 복잡해 채택은 아직 제한적이다.

쉽게 이해하기

기업은 더 나은 제품을 만들기 위해 사용자 데이터를 점점 더 많이 모으지만, 그 데이터가 유출되면 프라이버시에 큰 위협이 된다. 차등 정보보호는 개인의 프라이버시를 해치지 않으면서 사용자 집단에 대한 정보를 수집하게 해주는 기법이다.

“이름만 지우면 되지 않느냐”는 생각은 두 가지 이유로 충분치 않다. 익명화는 보통 데이터를 모으는 기업 서버에서 이뤄져 신뢰에 의존하고, 익명화했다는 데이터도 다른 데이터와 결합하면 신원이 드러난다. 2006년 넷플릭스 프라이즈에서 공개된 약 48만 명·1억 건 이상의 평점 데이터는 익명화됐지만, 2008년 텍사스대 연구진이 IMDB 데이터와 결합해 개인을 식별해냈다.

1990년대 중반 매사추세츠 사례는 더 섬뜩하다. 주 공무원의 병원 방문 기록을 익명화해 공개했는데, 라타냐 스위니가 이를 유권자 등록 명부와 결합하자 같은 우편번호·성별·생년월일을 가진 사람이 단 한 명, 곧 주지사로 좁혀져 의료 기록이 노출됐다. 그는 우편번호·생일·성별 세 가지만으로 미국인의 87%를 식별할 수 있다고 지적했다.

차등 정보보호는 응답 자체에 노이즈를 더해 이런 공격을 무력화한다. 예컨대 민감한 질문에 답할 때 동전을 던져 앞면이면 진짜 답을, 뒷면이면 다시 동전을 던져 임의의 답을 보낸다. 그러면 특정 개인의 기록을 그대로 믿을 수 없어 “그럴듯한 부인 가능성”이 생기고, 불법 행위처럼 민감한 주제도 응답자를 추궁할 수 없게 된다.

노이즈가 어떻게 분포하는지 알기 때문에 이를 보정하면 집단 전체의 비율은 꽤 정확히 추정할 수 있다. 실제 알고리즘은 단순 동전 던지기 대신 라플라스 분포를 쓴다. 애플은 iOS 10과 macOS 시에라부터, 구글은 오픈소스 라이브러리로 크롬과 지도에서 활용한다. 다만 노이즈 때문에 큰 데이터셋에서만 쓸모가 있고 구현이 까다로워 아직 채택은 제한적이다.

주요 인사이트

익명화의 진짜 약점은 “이 데이터 하나만”이 아니라 “다른 데이터와의 결합”에 있다. 겉보기에 익명인 조각들이 합쳐지면 실제 신원이 드러난다.
차등 정보보호의 묘수는 데이터를 지우는 것이 아니라 “그럴듯한 부인 가능성”을 만드는 것이다. 개별 기록은 못 믿게 하되, 노이즈 분포를 알아 집단 통계는 복원한다.
차등 정보보호는 “당신이 설문에 참여하든 안 하든 결과가 같다”고 약속하므로, 개인이 참여를 꺼릴 이유를 없애준다.
큰 데이터셋에서만 유효하다는 점과 구현 복잡성이 폭넓은 도입을 가로막는 현실적 제약이다.

자주 묻는 질문

연계 공격(linkage attack)이란 무엇인가요?

겉보기에 익명인 데이터 조각들을 다른 데이터와 결합해 실제 신원을 알아내는 공격입니다. 넷플릭스 데이터를 IMDB와 결합해 개인을 식별한 사례가 대표적입니다.

동전 던지기 예시는 어떻게 프라이버시를 보호하나요?

앞면이면 진짜 답을, 뒷면이면 다시 동전을 던져 임의의 답을 보냅니다. 그러면 개별 기록을 그대로 믿을 수 없어 “그럴듯한 부인 가능성”이 생기고, 노이즈 분포를 알기에 집단 통계는 보정해 정확히 얻을 수 있습니다.

차등 정보보호 도입이 제한적인 이유는 무엇인가요?

주입한 노이즈 때문에 작은 데이터셋에서는 부정확해 큰 데이터셋에서만 쓸 수 있고, 기존 익명화보다 구현이 훨씬 복잡하기 때문입니다.

원문과 출처

이 글은 원본 영상의 자막을 바탕으로 한국어 독자를 위해 요약했습니다. 전체 맥락과 최신 정보는 원문에서 확인하세요.

YouTube 원본 영상 보기 ↗