타겟 마케팅 – 5. Psychographic targeting

0
614

Cambridge Analytica라는 AdTech 스타트업이 있었다. 페이스북 유저들이 Like를 누른 정보들을 모은 다음, 각 유저별 성향을 뽑아내고, 그 성향에 맞춰서 타겟팅된 메세지를 보낼 수 있는 서비스였다. 수천만명의 유권자들에게 공통된 메세지가 아니라, 그 사람들의 스타일에 맞춰서 다른 메세지를 보낸다니, 이거 꿈 같은 미래형 서비스 아닌가?

근데 “있었다“라니? 왜 과거형일까?

트럼프 대통령의 2016년 선거 캠페인은 유저별로 다른 광고를 내보낼 수 있는 플랫폼을 찾는데 혈안이 되어있었다. 그들 눈에 들어온 Cambridge Analytica는 입맛에 딱 맞는 서비스였고, 트럼프 대통령의 선거 캠페인은 (자신이 Fake News라고 주장하는) 각종 언론사들의 비협조로 굉장히 힘들게 진행되고 있었던 탓에, 페이스북 유저 데이터를 가져오는게 불법인지 여부를 확인할 여유도 없이 그 서비스를 갖다 쓸 수 밖에 없었다. 선거가 끝나고 결국 데이터 불법 수집을 이유로 회사 관계자는 모조리 처벌을 받았고, 회사는 흔적도 없이 사라졌다. 페이스북은 개인 정보 보안에 소홀했다는 책임을 표명했고, 마크 주커버그는 상원의원들의 한심, 멍청, 답답한 질문을 몇 시간 동안 무덤덤한 표정으로 대답해주는 고역을 치르기도 했다.

(Source: CNBC.com)

2016년 미 대선 선거전이 한창이던 이 시점에 위와 같은 서비스가 완전히 충격적인 새 서비스였을까?

당시 한참 인기를 끌었던 미국 정치 드라마인 House of Cards에는 Data Scientist들을 활용해서 인터뷰에서 무슨 단어를 어떤 어조로 이야기해야 대중의 호응을 이끌어 낼 수 있는지를 실시간으로 분석할 수 있다는 걸 알려주는 장면도 등장하고, 어떤 소스였는지는 끝까지 비밀로 밝히면서 몇 백만명의 중립성향 유권자 전화번호를 뽑아와 선거 팀에 넘기는 장면도 나온다. 당시 워싱턴 DC쪽에 Data Scientist 자리에 지원하면 이런 Sentimental analysis는 해봤냐, Natural Language Process는 잘 아느냐, Network theory는 어떤 방식으로 적용해봤냐는 질문을 수도없이 들었을 것이다. 물론 그 회사들 상당수가 페이스북의 (어쩌면 고의적이었을지도 모르는) 보안 미비를 이용해 데이터를 긁어 모았다는 사실은 공공연한 비밀이었다.

 

Psychographic targeting의 역사

각 유저별로 성향을 파악해서, 그 유저에게 적합한 형태로 광고 메세지를 조절한다는 서비스는 2016년에 갑자기 등장한게 아니다.

가끔 별 대단치 않아보이는 질문 10개 남짓을 받고, 뭘 좋아하는지 대답해주고 나면 당신은 어떤 성향입니다는 평가를 해 주는 서비스를 봤던 적이 있을 것이다. 실제로 심리학에서 Big 5라고 부르는 인간의 성향 그룹이 있다.

심리학에서 정한 이런 기본적인 성향 이외에, Attitude, Interest, Opinion (AIO) 등등 다양한 종류의 성격 구분 방식이 있는데, 광고심리학을 하시는 분들이 썼던 사례가 있기는 하지만, 아무래도 정확도에 한계가 있고, 인간 성격을 저렇게 단순하게 구분할 수 있을까에 대한 의구심이 있었기 때문에 널리 활용되지는 못했다.

 

Demographic targeting과의 차이점

온라인 광고 시장에서 제일 먼저 나온 “타게팅” 광고는 인구통계학적인 정보를 이용하는 방식이었다.

성별, 연령, 결혼 유무, 거주 지역 등등의 정보는 위의 Big 5나 AIO처럼 뭔가 뜬구름 잡는다는 느낌도 없고, 눈에 확실하게 보였기 때문이다. 예를 들어, 우리 회사 상품은 30대 남성들이 주로 구매한다는 정보를 갖고, 30대 남성들이 자주 들어가는 커뮤니티에 집중 광고를 하는 방식이 보편화된 것이 바로 이런 이유 때문이다.

그런데, 사회경제문화적인 발전이 계속되면서 인간의 선호는 너무 복잡해졌다. 30대 남성이 자주 쓰는 제품을 40대나 50대 남성이 쓰지 말라는 법이 없고, 같은 연령대의 여성이 쓰지 말라는 법도 없다. 반대로 20대 여성들이 주로 쓰는 상품을 남성들도 많이 쓴다며 이른바 “유니섹스” 형태의 상품 구매 패턴을 볼 수 있다는 신문 기사가 나온지 이미 수십년이 지났다.

말을 바꾸면, 인구통계학적인 정보만을 바탕으로 한 광고 타게팅 너무 구식이라는 것이다.

 

Behavioral targeting과의 차이점

최근 들어 “인공지능”을 이용한 맞춤형 상품을 보여준다는 서비스가 우후죽순처럼 생겨나고 있다. 언론 플레이를 위해 “인공지능”이라는 단어를 썼지만, 사실은 Look-a-like 유저를 찾는 단순한 알고리즘이다. 상품 A-B-C-D를 보고 E를 구매한 유저 정보가 10명 정도 있었다면, 그 후부터는 A-B-C 상품을 보고 있던 유저에게 D-E 상품 그룹을 추천해주는 방식의 서비스인데, 이걸 해쉬 태그 방식의 검색어로 처리하면 Google 등이 쓰고 있는 검색 서비스가 되고, 쇼핑몰 상품 추천이나 광고 노출에 쓰면 “인공지능”의 탈을 쓴 Behavioral targeting이 된다.

이런 타게팅 방식의 가장 큰 문제는 특정 영역에서만 작동된다는 점이다. 쇼핑몰 “가”에서 어떤 유저가 A-B-C 상품을 보고 있다는 이유로 D-E 상품을 추천해줬는데, 쇼핑몰 “나”로 오면 “가”에서 쓰던 정보가 아무런 도움이 안 된다. 거기다 데이터를 공유하려고하면 쇼핑몰 “가”는 손해보는 장사를 해야된다. 설령 “가”와 “나”가 서로 유저 검색 데이터를 공유하기로 했다고해도, 단순히 상품을 본 기록 뿐만 아니라, 그 상품의 카테고리, 가격 등등 세부 정보를 모두 공유해야 진정한 데이터 공유가 된다.

쇼핑몰 “가”와 “나”가 그런 업무 협조를 맺는데 걸리는 시간을 생각해보자. 우리나라에만 온라인 쇼핑몰이 얼마나 많을까? 더 유저가 많은 쇼핑몰일 수록 손해를 보는데, 쉽게 협상이 될까?

쇼핑몰이 아닌 다른 서비스에서 쇼핑몰 검색 정보를 쓸 수 있는 방법은 없을까? 분명히 특정 상품 군을 많이 샀던 유저라면 자기네 서비스에도 관심이 있을거라는 짐작을 할 수 있을텐데, 이런 데이터 공유는 한계가 있을 수 밖에 없다.

차라리 미국의 Amazon처럼 1개 쇼핑몰이 시장을 사실상 반독점 형태로 운영하면서 모든 유저 검색 정보를 다 갖고 있다고 해도 쇼핑몰을 넘어선 다른 서비스에 적용하려면 같은 한계를 넘어야한다.

 

카드사에서 대량 구매한 데이터

국내외에 카드사에서 데이터를 대량으로 구매하고, 그 정보들을 이용해서 유저 프로파일링을 하겠다는 서비스를 꽤나 봤던 적이 있다. 만약 그들이 갖고 있는 정보가 “영수증” 급으로 상세한 정보라면 좀 말이 되겠지만, 많은 경우 전체 합계 금액 이상의 정보가 없다. 쇼핑몰들 입장에서도 상세 정보를 내부적으로는 갖고 있으면서 유저들의 행동 패턴을 볼 인센티브가 있을지는 몰라도, 카드사에게 상세 정보를 주는 건 불편할 것이다.

당장 마트에서 10개 상품을 구매한다음에 1개만 반품처리를 해 보시라. 아마 전체 환불을 한 다음에 다시 9개 상품에 대해서 재결제를 할 것이다.

더 나아가서 위의 데이터는 결제 여부만 알 수 있고, 정작 결제 전에 어떤 행동을 했을지에 대해서는 제한적인 정보 밖에 없다. 식당 A에서 점심 식사를 했는데, 그 전에 식당 B와 C를 들러서 빈 자리가 없었기 때문에 A에서 식사를 했다면 A는 선호되는 식당이 아님에도 불구하고, 카드사 기록만 놓고보면 그 고객은 식당 A를 좋아하는 사람이라고 인식하게 될 것이다.

요컨대, Flow를 볼 수 없는 데이터, Snapshot만 보는 데이터로 타게팅을 한다는 건 한계가 있을 수 밖에 없다.

 

Psychographic targeting이란?

다시 트럼프 대통령의 사례로 돌아와보자.

Cambridge Analytica는 유저 성향에 따라 완전히 다른 배너를 보여줬다.

정치적 성향은 중립이지만 애완동물을 좋아하는 사람에게는 상대 후보가 표정 찌부리며 애완동물을 피하는 모습을 보여줬고, 반대로 애완동물을 싫어하는 사람에게는 트럼프 대통령이 애완동물을 달가워하지 않는 사진이 들어간 광고 배너를 노출시켰다. 비슷한 맥락으로, 주제별로 세분화된 선호도에 따라 정부 예산을 더 들여서 커뮤니티 센터를 지어야한다는 뉴스 클립과 세율을 낮춰야한다는 상반된 메세지를 인구통계학적으로는 거의 같은, 하지만 지역 이슈에 대한 견해가 미세하게 다른 그룹에게 뿌린 기록도 찾아볼 수 있다.

아래의 좀 더 간단한 예시를 보자.

(Source: Wishpond blog)

위의 두 여성은 40대 초반, 중산층, 어린 자식이 2명이고 직장인 여성이라는 공통점을 갖고 있다. 아마 인구통계학적인 정보만을 활용했다면 둘에게 같은 광고가 나가게 될 것이다. 그러나 Psychographic targeting을 하고 있으면 첫번째 여성분께는 요리 재료 광고가 나가고, 두번째 여성분께는 배달음식 광고가 나가게 된다.

정치나 쇼핑에만 그런 서비스가 쓰이는게 아니다. Porsche 자동차 광고에 쓴 사례를 보면, 같은 고급 차량을 부잣집 아드님 스쿨버스라고 설명하는 광고도 있고, 하이킹 같은 야외 활동을 좋아하는 사람들에게 딱 맞는 차라는 광고도 있다. (아래 광고 시즌이 겨울이었다면 아마 스키 관련된 이미지와 결합되었을 것이다.)

 

Psychographic targeting을 위한 도전

당장 우리 Pabii의 서비스를 기획하면서 유사한 서비스를 한국 시장에서 찾아봤다.  없더라. 페이스북에서 Like값들을 이용해 약간 시도할 수 있는 정도다.

평소 웹서핑 중에 보는 모든 광고를 우리가 Porche 911처럼 초미세 타게팅해서 보여드리려는 서비스를 만들고 있는데, 그래서 스마트폰을 쓰는 모든 분들이 우리의 고객분이 되는 걸 목표로 하는데, 광고 타게팅에 협조해주신 부분에 대한 보상액이 크게 느껴지는 분들과 작게 느껴지는 분들에게 다른 메세지를 보내고 싶어도 뾰족한 방법이 없다. 기껏해야 직장인과 비직장인을 구분하기 위해 인구통계학적 정보를 쓰는게 전부인 상태더라.

사실 이 서비스를 처음 기획하면서 가장 직접적으로 직면했던 도전은 “돈”이 아니라 “데이터”였다. 위의 Cambridge Analytica 사례에서 봤듯이, 개인의 선호 같은 데이터를 동의없이 훔쳐(?)가면 엄연히 불법이고 처벌을 받게된다. 그렇다고 다른 데이터를 구매하려니 위에 쇼핑몰, 카드사 예시에서 언급했듯이 우리가 원하는 레벨의 데이터는 없다.

어차피 유저 특성을 뽑아내고나면 기초 데이터 (Raw data)는 더 이상 쓸모가 없어서 버리게 될텐데, 그럼 개인정보보호법을 위반하지 않는데, Pabii가 기대하는 수준의 데이터가 있어야 그런 데이터 가공이 유의미할 수 있다는 판단이 섰다.

그래서 우리는 합법적인 수준에서 데이터를 받아오는 앱을 직접 만들고 있다. 내부적으로 걱정하는 부분은 이 앱을 출시해도 사용자 숫자가 일정 수준이 되기 전까지는 유저 특성을 뽑아내는 고급 통계학 알고리즘이 작동하기 어렵겠다는 점, 그리고 광고주가 없어서 유저들에게 적절한 보상을 돌려드리기 어렵겠다는 점이다.

이런 문제를 해결하기 위해 다른 보상형 광고 앱들처럼 과다보상으로 유저 유입을 유도하는 방식을 택하는 대신, 우리 앱에서 받은 돈을 쓸 수 있는 생태계를 만드는 방식으로 문제를 극복하려고 한다. 그래서 무모하다는 욕을 먹어가며 우리가 직접 SNS를 만들고, 쇼핑몰을 만들고 있다. (그렇다고 Instagram과 Amazon을 만드는 건 아니다ㅋㅋ)

(Source: SciELO)

 

데이터 가공이란?

회사 이름 P.A.B.I.I는 Psychographic Analytics by Integrated Intelligence의 약자다. Psychographic analytics가 작동하기 위해서는 Integrated Intelligence가 뒷받침되어야하는데, 이게 바로 유저 데이터를 1명, 1명만 봐서는 아무런 의미가 없고, 수백만명의 데이터를 묶었을 때만 의미가 있다는 말이다. 모두의 힘이 모여야 되는 윈기옥 같은 서비스다.

페이스북에서 유저들의 Like를 그대로 긁어온 Cambridge Analytica와 가장 크게 다른 점은, 우리는 그런 Like 정보를 활용하지 않는다는 것이다. 우리는 그런 뻔한 눈에 보이는 데이터를 쓰는 쉬운 길을 택할 생각이 없다. 남들이 금방 카피해서 따라올 수 있다는 걸 알기 때문이다. 우리는 유저들의 평소 앱 활동 내역 정보들을 Factor analysis같은 고급 통계학을 이용해 가공해서 남들이 찾아낼 수 없는 유저 특성을 도출할 것이다. Factor를 도출하는 순간부터 기초 데이터를 더 이상 쓰지 않아도 되는 서비스를 만든다는게 바로 여기에 기반한다. 그렇게 통계 모델링에 자신 있는데 왜 유저 데이터에 목을 매냐고? Integrated Intelligence가 필요한 부분, 좀 더 정확하게는 Factor라는 가상 변수의 정확도는 데이터에서 볼 수 있는 패턴 다양성의 폭과 깊이에 크게 달려있기 때문이다.

DSP 방식의 보상형 광고 서비스를 만들면서, 어쩌면 우리는 의적 홍길동을 꿈꾸고 있지 않나는 생각도 해 봤다. 그동안 광고주의 이익을 위한 서비스를 제공하면서 온라인 광고 플랫폼의 모든 주체들이 이익을 보고 있었는데, 정작 데이터를 제공했던 유저들은 보상을 받질 못했다. 일부 보상형 광고들이 있었지만 체리피커들 때문에 광고 효율성이 악화되면서 핵심 서비스로 남을 수는 없었다. 우리는 더 이상 광고주들이 체리피커를 문제삼지 않아도 되는, 그렇지만 데이터 제공자인 유저들이 합리적인 보상을 받을 수 있는 시스템을 만들려고 한다.

광고주님들, 데이터는 유저가 만들어 드리거든요?

 

나가며 – Why Pabii is different

전직 야X 코리아 출신으로, 현재 어느 온라인 광고 스타트업 CTO로 계신 분이 했던 말이다.

“데이터 사이언스는 데이터라는 바다에서 금을 찾는 작업이다”

말을 그렇게 해 놓고는 타게팅 알고리즘에 대해서 설명해달라는 10가지 다른 종류 질문을 하니 땀을 뻘뻘 흘리며 “와X다 대학교에 계신 교수님께서 연구를 하시는데…”로 대답만 하는 걸 봤었다.

그 와X다 대학에 계신다는 분의 논문도 읽어보고, 개인적으로 수소문한 정보를 모아봤는데, 그 분 역시도 기술적으로 데이터를 처리하려는 엔지니어고, 모델링에 기반한 데이터 전처리에 깊은 관심이 있는 분은 아니라는 사실을 알게 되었다. 그 광고 스타트업이 퍼포먼스 마케팅을 한다고 주장하는데 퍼포먼스에 해당하는 광고 효율성이 전혀 느껴지지 않는 근본적인 이유일 것이다.

우리 Pabii는 그들과 완전히 다른 데이터, 완전히 다른 사업 모델, 그리고 완전히 다른 Data Science 내공으로 승부하려 한다.

 


공지1: 여러 곳에서의 요청에 따라 7월, 8월에 데이터 사이언스 강의 및 데이터 사이언스 모델링 강의를 개설합니다. 잠정적으로 7월 말 ~ 8월말 주말을 이용할 예정입니다. (추가: DS 강의 – 7월 27일, 28일, 8월 3일, 10일, 모델링 강의 – 8월 17일, 24일, 31일 확정)