1. 목적
인터넷 사용자들이 데이터 수집 관행의 현실, 데이터 프라이버시 보호 기술,
데이터 공유의 장점을 이해하고 관련한 정책 논의에 참여할 수 있도록
설명을 제공하고자 한다.
2. 내용
– 모바일 앱과 소셜 미디어 플랫폼의 데이터 수집 관행
– 데이터 브로커 산업의 현재
– Apple와 페이스북의 프라이버시 정책 충돌
– 챗봇 이루다의 데이터 전처리 문제
– 차분 프라이버시(differential privacy)의 이해와 한계
– 데이터 트러스트(Data Trust), 데이터 공유
3. 배경
데이터는 중요한 가치를 인정받고 있지만 데이터 프라이버시에 대한 우려는 계속되고 있다.
정부기관들은 공공 데이터 등을 공유하고 있지만 사적 영역의 비즈니스는 여전히 양질의 데이터 부족으로 AI 개발에 어려움을 겪고 있다.
국내에서는 개인정보보호법 통과 이후 데이터 프라이버시 보호수준이 높아졌지만,
여전히 AI 개발 (AI 챗봇) 타겟팅 광고와 마케팅 목적으로 사용자들의 동의를 받지 않고 데이터를 수집, 이용하는 사례들이 넘쳐나고 있다.
데이터 공유가 활성화되고 제도적으로 정착된다면 사회적 편익이 클 수 있음에도 프라이버시 침해의 소지를 없애려면 비식별화, 데이터 전처리를 거쳐야 한다.
그러나 AI 개발 실무에서는 데이터 프라이버시 보호를 이해하지 못하는 경우가 많다.
연결된 네트워크에서 사용자들은 끊임없이 많은 양의 데이터 흐름을 남긴다. 기업들은 사용자들의 데이터를 분석하여 서비스를 제공한다.
동시에 사용자의 앱 활동과 사용자가 실제로 이동한 경로의 정보를 결합한 타깃 광고가 가능해진다.
글로벌 IT기업들은 차부 프라이버시(differential privacy) 같은 수학적 기법으로 개인 데이터를 피상적으로 보호하며, 집합적 데이터를 분석하여 이득을 얻고 있다.
마케팅 목적으로 개인 데이터를 수집하는 데이터브로커 (data broker) 산업은 온라인, 오프라인을 망라한 데이터 소스로부터 막대한 데이터를 수집하여 유통하고 있다.
미 공정거래위원회(FTC)는 2014년 데이터 브로커 산업의 ‘투명성 부족’ 문제를 해결하기 위한 법률 제정을 권고했다.
소비자들이 데이터 브로커의 존재와 활동을 인지하고, 데이터 브로커들이 보유하는 개인 정보에 합리적 접근권을 보장하라는 것이다.
국내 데이터 브로커 산업은 활성화되지 않았지만 데이터 경제가 부상하면서 데이터 수집· 활용 요구는 급증하고 있다.
데이터 수집은 모바일폰 앱을 통해서도 이루어진다. 앱 이용약관 (terms of use)에 데이터 범주를 공지하고 사용자의 ‘동의’를 받는다면 사용자 데이터를 합법적으로 수집할 수 있다.
그러나 앱의 작동에 필요하다는 이유로 요청하는 데이터의 범주는 이메일 주소, 민감한 건강정보, 위치정보, 카메라 접근 권한까지 넓기 때문에 사용자의 선택권은 사실상 존재하지 않으며 데이터 유출의 불안감은 여전하다.
사용자들은 앱 서비스 제공자가 데이터를 얼마나 수집하여 활용하는지 알지 못하며 접근권한 동의를 거부하면 앱을 이용할 수 없어 부득이하게 허용하는 실정이다.
사용자의 동의를 얻지 않고 페이스북과 데이터를 공유하는 앱도 상당수 발견되었다.
중국계 바이트댄스가 개발한 Tiktok 앱은 미국 10대 사용자의 데이터를 광범위하게 수집한다는 이유로 다운로드를 금지하라는 행정명령을 받은바 있다.
수많은 모바일 앱을 통해 수집된 데이터는 플랫폼 기업에게 넘어가 다시금 맞춤형 타킷 광고에 활용되고 있다.
페이스북 등 소셜 미디어 플랫폼은 타킷 광고를 위해 데이터 브로커들 (Experian, Datalogix, Epsilon,Acxiom)의 데이터 접근을 허용해 왔다.
그러자 디바이스 제조업체 Apple이 데이터 프라이버시를 강조하는 정책을 발표했다.
그것은 데이터 최소화(최소한의 데이터 수집), 투명성 및 통제 (사용자의 통제 권한), 온디바이스 프로세싱(Apple 서버로 개인 데이터가 전송되지 않음) 등인데 이는 기존의 광고 마케팅 관행을 위한 무단 사용자 데이터 수집 관행을 바꿀 수 있을 것으로 예상된다
데이터 프라이버시 침해의 우려 때문에 데이터 공유는 아직 초기 단계에 머무르고 있다.
그렇지만 AI가 모두를 위해 사용되려면 데이터 공유가 필요하다.
데이터 공유가 초래하는 위험을 줄이고 데이터 공유로 얻는 이점을 살릴 수 있는 제도적 장치가 필요하다.
기업들은 AI로 새로운 효율성을 추구하고, 제품과 가치사슬에 도움이 된다면 외부 데이터를 공유하고 싶어한다.
만약, 데이터를 공유한다면, 제조업체 및 제약업체는 공급 속도를 가속화하고 신제품 출시까지 걸리는 기간을 단축할 수 있다.
풍부한 데이터를 갖춘 AI 모델이 예컨대 의약품 연구 데이터 공유는 백신 연구개발을 가속화하고, 도로를 더 안전하게 만들고, 대중교통을 더 좋게 바꾸므로 상업적 이득에 그치지 않고 사회 전체가 혜택을 받게 된다.
데이터 공유에 대한 신뢰를 구축하기까지는 아직 갈 길이 멀지만, 블록체인, 머신러닝 같은 기술이 발전하면 더 안정적으로 데이터 공유를 진행할 수 있을 것이다.
그러나 데이터 공유의 전제로서 프라이버시 보호를 확실히 해둘 필요가 있다.
4 토론 & 질문
– 모바일 앱과 소셜 미디어 플랫폼이 수집되는 사용자 행태 데이터와 타겟팅 광고는 데이터 프라이버시 보호와 양립되는가?
– 차분 프라이버시(differential privacy)의 방식과 그 문제점은 무엇인가?
– 챗봇 이루다의 말뭉치 데이터과 양질의 데이터가 부족한 현실의 이해
– Apple의 데이터 프라이버시 정책은 사용자의 개인 데이터 통제권을 보장해줄까?
– 데이터 공유data sharing에서 얻어지는 장점, 제도적 정착을 위한 전제조건, 프라이버시 보호와의 관계는?
– 금융, 의료, 공공 등 각 분야에서 확대 개방되는 개인 데이터를 활용하는 마이데이터(mydata)사업은 데이터 공유를 충분하게 해줄까?
– 데이터 공유에 대한 신뢰, 알고리즘 투명성을 구축하기 위한 제도적 방안은?
* 강의자의 의견은 그 단체 또는 소속의 의견이 아님을 알려드립니다.