파비캐시 – 데이터 다 훔쳐가는거 아냐?

0
653

야, 이거 내 데이터 다 훔쳐가는거 아냐?

파비캐시 앱 설치를 부탁드리면 제일 먼저 나오는 반응이다. 일단 결론부터 말씀드리면,

훔쳐갈 것도 없습니다

뭔가 많은 오해가 있는데, 일단 하나씩 하나씩 짚고 넘어가자.

 

물귀신 작전 1

일단 물귀신 작전부터 먼저 시작한다. 우리만 데이터 갖고 가는게 아니라, 남들도 다 데이터 갖고 가고 있다는 사실을 지적해보자.

파비캐시 출시 기념 설명 글에서 말씀드렸듯이, 구글, 페이스북 같은 거대 서비스들이 이미 당신의 검색기록, Like 기록들을 모두모두 모아 자신들의 광고 효율을 높이고, 그 효율을 이용해서 광고 좀 잘해보고 싶은 거의 모든 회사들에게서 엄청난 광고비를 걷어들이고 있다.

2018년부터는 광고 지면 중 No.1이 TV가 아니라 온라인이 되었다는 사실은 인지하고 있으신가?

구글과 페이스북의 주가가 삼성, LG 같은 큰 기업보다 더 높은 가장 큰 이유는 당신들의 데이터를 잘 이용해서 광고비를 엄청나게 벌어들이고 있기 때문이다.

참고로, 국내외의 스마트폰 제조사들도 중국의 모 회사처럼 노골적으로 말도 안 되는 수준의 해킹을 안 하고 있을 뿐이지 당신들의 평소 작업 내용을 다 데이터 베이스로 만들어 놓고 있다. 굳이 따지자면 운영체제도 없고, 스마트폰 제조도 안 하는 작은 스타트업이 그들보다 더 많은 유저 정보를 갖고 있기는 불가능하다.

훔쳐간다고 걱정되시는 분들께는 항상 그들이 파비 같은 작은 스타트업보다 훠얼씬 더 많은 유저 데이터를 갖고 있다는 사실을 알려드린다.

(파비에서 국내 스마트폰 제조사 급의 데이터가 있었다면 이런 스타트업을 만들 필요도 없고, 파비캐시 같은 앱도 만들지 않고, 지금 당장 구글, 페이스북과 광고 효율 경쟁을 하는 글로벌 플레이어가 되었을 것이다.)

 

물귀신 작전 2

참고로, 파비와 비슷한 사업 모델을 페이스북이 얼마전에 도전해보겠다는 신문기사를 냈다.

페이스북, 스마트폰 정보 추적 허락하면 돈준다 (링크)

신문기사 내용을 보면 현재 파비캐시가 시도하고 있는 것보다 더 많은 유저 데이터를 썼으면 썼지, 절대로 덜 쓰는 일은 없어 보인다.

파비가 갖고 오는 데이터들

파비캐시 앱을 설치하면 (안드로이드 기준으로) 사용 정보 허용 (Usage Data Access) 부분이 있다.

저 탭을 보면 들어가보면 아시겠지만, 각 스마트폰 제조사들과 구글이 이미 같은 권한을 갖고 있는 앱들을 올려놓았다는 것을 볼 수 있을 것이다. (참고: 왼쪽은 삼성 스마트폰, 오른쪽은 LG의 스마트폰이다. 스마트 닥터는 LG폰의 기본 시스템 관리 앱이다)

다른 제조사 앱, 구글 앱들이 어떤 목적으로 그 데이터에 대한 권한을 갖고 있는지는 세세히 알 길이 없으나, 파비에서 받아오는 데이터 목록은 일반적인 배터리 앱들의 그것과 동일하다.

  • 앱 설치 내역
  • 앱 열기/닫기 내역
  • 앱 활동 시간 내역
  • WIFI 작동 유무
  • 배터리 충전 중인지

등등이다.

그럼 이미 다른 회사들이 다 갖고 있는 데이터들을 쓰는데 어떻게 남들보다 더 광고 타게팅이 더 잘 되는거냐고?

같은 교실에서 공부했는데 왜 누구는 만점 받고, 다른 누구는 시험을 망칠까?

이 부분이 바로 본 블로그에서 오랫동안 설명했던 그 모델링 능력에 의해서 좌우된다. 단순히 “머신러닝 돌리는데요”, “딥러닝이라는게 좋더라구요” 같은 수준과 비교하시면 안 된다.

데이터 익명화 처리란?

저렇게 모은 데이터를 다른 회사에서 어떻게 처리하는지는 잘 모른다.

다만 우리 파비에서 처리하는 방식은 유저 분들이 두려워하는 것처럼 데이터를 훔쳐서 당신들의 일상을 샅샅히 파헤치는 그런 작업은 없다.

Factor analysis라는 계산법은 기본적으로 데이터 속에 숨겨져 있는 특성을 찾아내는 방식이다. 자주드는 간단한 예시를 쓰면, 중간고사 시험 20과목의 성적을 결정짓는 숨겨진 인간의 능력이라는 속성은 많아봐야 5-6가지로 축약할 수 있다. 정확도가 100%는 아니겠지만, 그 5-6가지의 특징들이 어우러져 20과목의 성적 대부분을 좌우한다는 것과 비슷한 종류의 연구가 사회학, 정치학, 마케팅 같은 Soft Science에서 뿐만 아니라, 경제학이나 공학같은 Hard(er) Science에서도, 통계학, 물리학 같은 Hard(est) Science에서도 다양한 방식으로 이뤄지고 있다.

파비의 데이터 익명화 처리 작업은 공학도들이 단순하게 이용하는 해싱(Hashing) 기법이 아니라, 위의 5-6가지 특징을 뽑아내는 방식의 완전 가공이다. 해싱은 공식만 알고 있으면 원래 값을 복구해낼 수 있다. Factor analysis는 1명, 1명만 떼어놓고보면 그 계산을 추적할 수 있지만, 전체 집단의 데이터를 다 묶어놓고나면 1명, 1명의 5-6가지 특성들을 추적하기가 매우 까다로워진다.

결정적으로, 5-6개의 Factor를 추적하고 나면 바로 원래 데이터를 삭제해버린다면?

추적은 불가능해진다.

파비에서 필요한 데이터는 5-6개의 Factor 밖에 없다. 원래 데이터를 다 들고 있으려면 작은 스타트업이 어마어마한 데이터 베이스 비용을 지불하고 있어야한다. 돈이 없어서 못하기도 하고, 사실 그런 데이터가 필요없다.

 

데이터가 필요없다니?

위의 그림을 보시면, 파비가 가공처리하고 난 다음 어떤 데이터를 갖고 있는지 쉽게 이해하실 수 있을 것이다. 파비캐시 앱의 두번째 탭(MyStat 탭)에서 확인할 수 있다.

유저 여러분의 하루종일 스마트폰 쓴 내역을 이용해 여러가지 Factor들을 잡아내고, 각각의 Factor가 얼마나 작용했던 날을 보내셨는지를 계산해놓은 값이다.

마치 20과목의 시험 점수들을 모아놓고나면, 암기력은 75%가 작동했고, 언어능력은 83%, 수학실력은 64%, 추리력은 80%, 체력은 52%가 작용되었던 것으로 판단된다고 하는 것과 같은 맥락이다.

교육에서는 위의 정보들을 이용해서 이 학생이 왜 특정과목 점수가 안 나오고 있고, 앞으로 어떻게 노력해야 부족한 과목 점수를 높일 수 있는지를 알아보는데 활용한다.

같은 방식을 어떤 DNA가 특정 질병 유발에 얼마나 큰 영향을 미치는지, 어떤 약물 조합이 질병 치료에 각각 얼마나 큰 영향을 미치는지 알아보는 의학 논문들도 있다.

파비는 위의 Factor 값을 광고 타게팅에 활용한다. 그래서 여러분의 하루 일상 데이터는 Factor 계산 후 바로 삭제한다.

Factor 값만으로도 충분히 고급 광고 타게팅이 가능하다는 판단이 섰기 때문에 자신있게 말씀드릴 수 있다.

(당연히 어떻게 데이터 전처리하고, 어떤 Factor를 어떻게 뽑아내는지는 회사 기밀이다.)

 

훔쳐갈 것도 없다

중국의 모 스마트폰 제조사가 “데이터를 훔쳐간다”는 공격을 받는 가장 큰 이유는 그들이 패킷을 까보고 있기 때문이다. 중국은 정부가 유저들의 패킷을 까서 볼 수 있다. 말을 바꾸면, 현재 어느 웹사이트에 접속해있는지를 매우 상세하게 볼 수 있다는 말이다. 마치 음란 사이트에 접속하는걸 통신사에서 그 URL을 블록하던 수준을 넘어서, 아예 접속된 페이지 내용을 같이 보고 있는 급이라고 생각하면 된다.

파비는 그런 데이터를 훔쳐와야될 이유가 전혀 없다. 위에서 보듯이 Factor만 뽑아내면 끝난다.

음란 사이트 접속 기록은 물론이고, 평소에 쓰는 이메일, 비밀번호 같은 자동완성된 정보들이 키보드 앱에 다 흘러들어가고 있는 걸 비교하면, 파비는 정말 “쓰잘데기 없는” 데이터만 갖고 온다.

 

진짜 데이터 훔쳐가는 앱들

  • 키보드 앱
  • 스마트폰 제조사 앱들
  • 운영체제 제공 앱들
  • SNS 앱들

정말 데이터를 훔쳐가는게 겁나신다면, 지금 당장 키보드 앱을 삭제하고, 스마트폰 제조사나 구글이 주는 키보드 앱도 쓰지말고, 자동완성 기능도 없애고, 아예 직접 키보드 앱을 만드시라고 권고 드리고 싶다.

그런 앱을 멀쩡하게 다 쓰고 있으면서, 평소에 페이스북과 인스타그램에서 좋아요를 수백개씩 누르고 있으면서, 구글에 검색어를 몇 백개씩 치고 있으시면서 데이터 훔쳐갈까봐 겁난다고 하시면 말이 너무 앞 뒤가 안 맞는 것 같다.

파비가 “쓰잘데기 없는” 데이터를 써도 충분히 높은 수준의 타게팅이 가능하다는 걸 증명하고 나면, 지금까지 암묵적으로 넘어가주고 있던 초대형 IT 회사들의 “진짜 데이터 훔치기”에 제도적인 제약이 가해지기 좀 쉬워지지 않을까?

아뭏튼, 우린 너무 억울하다 억울해!!!!

 

이전 글 – 왜 돈 안 주나요?