여론조사의 시대는 끝났다 (Updated)

2357

우선 필자는 정치에 별로 관심이 없는 사람이라는걸 밝힌다. 더군다나 미국 대선은 더더욱 큰 관심이 없다. 다만 미국 대선 목전이라 적절한 어그로를 담은 제목을 골랐음을 거듭 밝힌다.

어그로 제목을 고른 이유는, 정치에서 데이터 기반의 분석 어쩌고 하는 사람들이 이제는 퇴출되어야 하는 상황이 왔다는 것을 알리기 위해서다.

크게 2가지 종류의 사람들을 카테고리로 나눌 수 있는데

  • 여론조사 신봉자
  • 구글 트렌드 (를 비롯한 인터넷 여론) 신봉자

들이 그들이다.

이들에 대한 비판을 시작하기 전에, 민주주의 선거라는게 도대체 뭘까는 질문부터 먼저 짚고가자.

(Source: 중앙일보, 여왕벌 가설)

 

민주주의 선거란?

정치학도가 아닌 관계로 학문적인 정의를 할 지식도 없고, 여의도의 정치 전문가가 아닌 관계로 현실적인 정의를 내릴 경험도 없다.

다만, 확실히 말할 수 있는건 모든 선거는 “두령(頭領)” 싸움이라는 걸 지적하고 싶다.

내가 지지하는 세력이 누구인지 정할 때, 지식인들은 대표자의 지식 수준, 의견 일치 여부 등에 영향을 받겠지만, 무관심한 일반인에게는 저 “두령(頭領)”이 내가 믿고 의지할 수 있는 사람인가, 내가 “우상숭배” 할 수 있는 사람인가에 따라 지지를 결정한다. 어느 정치인은 이걸 “여왕벌 싸움”이라고 표현하더라.

고대의 전쟁도 그랬고, 쪼끄만한 학급의 반장 선거도 마찬가지다. 대표자로 선출되는 사람은 그 집단의 구성원들이 믿고 의지할 수 있는, 일종의 “신(神)” 같은 사람이다.

여기서 한 가지 더 지적하고 싶은 부분은, 자기의 출신, 성별 등등의 이슈로 지지하는 정당을 바꾸지 않는 사람들이 매우 많다. Swing voter는 최대치를 잡아봐야 전 인구의 20% 미만이라고해도 틀리지 않을 것이다. (이미 미국에서 컨펌된 값이기도 하다.)

그런 유동층이 기권하고 투표율이 낮아지는데도 여/야가 바뀌는 이유는, “여왕벌”이 마음에 안 드는 사람이 나왔기 때문에, 지지정당에 투표를 던지지 않았기 때문이다.

2007년 대선에서 600만표를 잃었다는 어느 정당과, 2017년 대선에서 몇 백만표를 잃었고, 그 중 일부를 다른 후보에게 넘겨줬다고 주장하는 어느 후보 지지자들의 표현도 여기에 해당한다고 할 수 있겠다.

말을 바꾸면, 민주주의 선거란 1. 여왕벌 싸움이고, 내가 지지하는 여왕벌이 2. 날 투표장에 끌고 갈 수 있는 매력이 얼마나 있느냐 (&반대 후보가 얼마나 악명이 높으냐)에 달려있다고 해도 된다.

나는 정책보고 찍는다, 나는 무조건 투표한다 등등의 의견으로 동의 못하시는 분들은 뒤로가기를 클릭하거나, 일단 맞다고 치고 넘어간다고 생각해주시면 좋겠다.

(Source: CNN, 현재의 여론조사 값 기반이다)

여론조사 신봉자

한 때 여론조사는 매력적인 정보였다. 우편 엽서로 몇 백만 명에게 지지후보를 받아봐야 결과는 엉망이었던 경험치를 살려, Unbiased sample을 뽑는 실력을 최대한으로 끌어올린 덕분에, 1,004명의 샘플만 뽑아도 높은 정확도로 전체 인구의 투표 결과값을 예측할 수 있었다.

그런데, 응용통계적으로 매우 합리적인 계산이 들어갔음에도 불구하고 여론조사의 수명은 이제 완전히 끝났다.

이유는 두 가지다.

(Source: Curb Your Enthusiasm, Season 10, Episode 1)

1. 사람들이 진실을 이야기 하지 않는다

2016년 대선에서 봤다시피 특정 정당 지지자들의 목소리는 크고, 다른 정당 목소리는 매우 작다. 미국 사회의 PC주의 덕분에 백인들은 인종차별적인 발언을 매우 심하게 조심하면서 살고, 인종, 성별, 동성애, 경제적 지위 등등 다양한 이슈에서 공적인 발언을 조심해야되는 사회가 되었다.

트럼프 대통령처럼 필터없는 화법을 가진 사람을 거북하게 보는 풍토에서 트럼프 대통령을 지지한다고 선뜻 말하기는 힘들다. 거기다 MAGA (Make America Great Again)라는 빨간색 모자 쓴 사람을 바보 취급하는 수 많은 영상들이 돌아다니는데, 속칭 Red State에 살고 있는 백인이 아니면 MAGA 모자를 쓰기는 커녕, 트럼프 대통령을 지지한다는 말을 공개된 자리에서 할 수도 없을 것이다.

Shy Trump 현상에서 보듯이, PC주의가 강한 나라일수록 사람들은 평소 생활에서 지지정당을 속이거나 거짓을 말하게 될 수 밖에 없다.

참고로, Answered preference vs. Revealed preference라는 관점에서 볼 때, 여론조사는 어디까지나 Answered preference다. Answered는 질문했을 때 선호도를 표현하는 경우, Revealed는 실제 행동으로 나타난 선호를 말한다. 학문하는 사람들은 데이터가 Revealed가 아닌 경우에는 답변자의 성실성 등의 이유로 정확도에 심각한 의문을 가지는데, PC주의 강한 나라의 여론조사 결과값이 대표적인 사례가 될 것 같다.

2016년만 그랬지 이번엔 안 그럴꺼라고? 아무리 질문을 정교하게 만들어도 대답하는 사람들은 바보가 아니다.

(Source: 인천in)

2. 사람들이 투표장에 갈지 여부를 모른다

위의 여왕벌 이야기와 연결된 포인트다. 지지정당과 후보가 있지만, 몇 가지 문제가 있어보여서 선뜻 투표장에 가지 않는 유권자들의 숫자도 무시못하게 많다. 위에서 예를 든 2007년 대선와 2017년 대선이 좋은 예시다.

여론조사 통화에서 설령 진실을 이야기했다고해도 그 유권자가 투표장에 갈 확률이 높지 않다면, 선거 결과는 얼마든지 뒤바뀔 수 있는데, 투표는 강제가 아니다.

반대하는 당 후보는 절대 안 된다고 생각하지만, 그렇다고 내가 지지하는 당의 후보도 그렇게 나아보이지 않으면 어떤 선택을 할까?

투표장에 안 간다.

2016년 미국 대선 당시, The Economist지는 First most disliked candidate vs. Second most disliked candidate의 싸움이라는 표현을 썼었다. 덕분에 많은 유권자들이 투표장에 나타나지 않았는데, 전문가들의 분석에 따르면 손해는 (당연히) 민주당 힐러리 클린턴 후보가 더 많이 봤다.

  • 2016년 미국 대선 투표율: 56.9%
  • 2012년 미국 대선 투표율: 58.6%
  • 2008년 미국 대선 투표율: 62.2%

근데, 이번 2020년 미국 대선은 사전투표 덕분에 역대 최고의 투표율이 예상된다고 하더라.

왜? Trump vs. Anti-Trump 양측의 불만이 Covid-19, BLM, Antifa와 더불어 증폭되었기 때문일 것이다. 그렇다고해도 여전히 투표 안 하는 사람들이 30% 남짓은 될텐데? 어느 정당 지지층이 더 안 할까?

정리하면, 유권자들이 솔직하지 않기 때문에 여론조사의 신뢰도는 계속 추락 중이고, 보정하는 여론조사 기관과의 창/방패 싸움이 아무리 잘 되더라도 궁극적으로는 지지층이 투표장에 나오도록 만들어야 여론조사에 나온 지지율을 받을 수 있다는 결론으로 정리된다.

구글 트렌드 (를 비롯한 인터넷 여론) 신봉자

지난 2016년 대선의 여론조사 결과가 완전히 틀린 것으로 나오자, 많은 사람들이 구글 트렌드는 트럼프 대통령의 당선을 예측했었다며 인터넷 여론이 전화 여론보다 훨씬 더 정확한 지표가 된다고 우기기 시작했다.

우리나라에서는 2017년 장미 대선 때 구글 트렌드 데이터를 기반으로 여러가지 괴담이 퍼지기도 했었는데, 아래의 두 가지 문제를 지적해보자.

(Source: Google Trend, 노트북 사건 덕분에 격차가 줄어드는 것 같더니 다시 커지고 있다)

1. 대표성이 매우 낮다

글 첫머리에 들었던 우편 엽서 기반의 여론조사와 마찬가지로, 구글 검색어 기반의 트렌드가 과연 대표성이 있는지 근본적인 질문을 던져봐야 한다. 특히 한국처럼 구글 검색의 시장 점유율이 30% 남짓인 나라에서, 이들 30%가 나머지 70%와 정치적으로 비슷한 판단을 내릴지 섣불리 판단 내리기가 어렵다.

검색 쿼리의 대부분을 구글이 점령하고 있는 다른 나라들에서도 마찬가지다. 과연 구글 검색을 하는 사람들이 검색하지 않는 사람들과 같은 종류의 Unbiased sample이 될까? 검색을 한 사람이 1번만 하는게 아닌데, 검색을 많이 하는 사람과 적게하는 사람이 제공하는 데이터가 달라지는걸 구글 트렌드가 구분해주나?

구글 트렌드를 비롯한 그 어떤 IT쪽 데이터를 들이대도 마찬가지다. User ID 기반으로 1명, 1명의 선호도를 구분하고, 해당 서비스 유저 Pool이 전체 Population을 충분히 대표할 수 있다는 판단이 설 때까지 그 데이터는 그냥 숫자일 뿐이다.

(Source: Google Trend, Anti-Trump가 거의 확정적인 서부 주들에서 Trump 검색어는 과연 의미가 있을까?)

2. 검색 버즈량이 많으면 무조건 긍정적인 걸까?

해당 정당에 특정 사건이 있었으면 갑작스레 버즈량이 증가할 수 있다. 그 정당 안에서 내분이 있었으면 버즈량이 상당기간 증가할 수 있다. 이런식으로 버즈량이 많아졌다고 무조건 지지율이 올라간걸까?

어느 정치 컨설팅 서비스를 보니 긍정 키워드, 부정 키워드가 묶인 비중을 나눈다고 하던데, 긍정, 부정을 구분하는게 영어에서도 쉽지 않은데, 한국어처럼 종조사의 미묘한 어미 차이에 문장의 뜻이 완전히 바뀌고, 비꼬는 표현이 자주 등장하는 언어에서 저걸 어떻게 했을까? 예상대로 그냥 수작업을 해 놨더라. 어쩔 수 없었겠지.

좀 수학적인 표현을 빌려오면, 버즈량 같은 1차 Moment값은 대표성이 담보되지 않은 경우엔 역시 그냥 숫자일 뿐이다. 차라리 변화추이, 분산 같은 2차 Moment를 보거나, 다른 키워드 버즈량과 연관관계 (Correlation)를 봐야지.

(Source: Google Trend, 저 Laptop, email에 무슨 내용이 들어있는지 알고 있다면 별로 좋은 신호는 아닌 것 같다)

 

대안은 있나? – 지지층 결집도를 봐야하는 시대가 왔다 – 어떻게?

원래 모든 예측은 어디까지나 예측일 뿐이다.

그럼에도 불구하고 좀 더 정확한 예측을 하고 싶은게 인간의 마음인데, 그럼 도대체 어떤 방법을 써야할까?

한국 대선만해도 여론조사 한번에 3천만원씩 나가는데, 그렇게 모은 정보가 그냥 숫자에 불과하다니? 구글이 얼마나 빅데이터를 갖고 있는데 그 데이터가 그냥 숫자에 불과하다니?

우선, 위에 슬쩍 언급한대로 단순한 총량만 보지말고 변화량, 연관관계 같은 값을 보는 방식으로 관점을 바꿔야한다. 전화건 인터넷이건 여론조사 모두가 대표성을 상실했기 때문에 총량은 의미가 없다. 단지 샘플이 크게 변하지 않았다는 가정아래, 해당 샘플 안에서 변화 추이를 바탕으로 전체 변화를 짐작할 수 있을 뿐이다.

1. 변화량

가장 단순한 예로, Swing state 중 하나인 Michigan에서 2020년 6월에 Trump 후보가 16%나 뒤지는 여론조사가 10월에는 8%로 줄었다, 그런데 Shy Trump가 많을 것이기 때문에 실제로는 4% 미만의 격차가 있는 박빙 선거구가 될지도 모른다는 표현이 좋은 예시다. 변화량을 봤고, 샘플이 제한적이라는걸 인정하고 있으니까.

참고로 2016년 대선에서 Michigan은 선거 전날 여론조사에서 10% 이상 격차가 있었음에도 실제 투표 결과는 Trump (46.5%), Clinton (46.27%)였다. 2020년 대선에 Trump 지지자는 동일하다는 가정을 하면, 약 750만 남짓의 유권자가 살고 있는 Michigan에서 2016년 투표자 480만명(투표율 63%)에 더해서 무려 43만명의 추가 유권자가 Biden 후보에게 표를 주기 위해 투표장에 간다는 가정이 맞아야 8%의 지지율 격차가 나올텐데?

좀 더 현실적인 시뮬레이션을 해 보면, 지난 대선에서 확인한 10,700명(0.27%)의 차이와 양측의 표 결집을 감안할 때 (투표율 75%, 공화당 지지자 10% 추가 투표 가정), 최소한 70만 이상의 숨은 표가 Biden을 위해 투표장에 나와야한다는 이야기인데, 인구 750만의 선거구에서 70만의 숨은표가 나올 수 있을까? 4년전과 비교해봤을 때 여왕벌 싸움의 양상이 그렇게 바뀌었을까? 대도시도 아니고 그 쇠락한 촌동네에서?

한국 대선으로 치면 4,200만명의 유권자 중 385만명의 숨은표를 투표장으로 불러낸다는 이야기다. 그것도 서울, 경기 같은 대도시가 아니라, 충청, 강원 같은 외부에 큰 영향을 받지 않는 지역에서. 불가능한 숫자는 아니지만, Biden +8%는 여론조사의 신뢰도에 의구심이 갈만한 숫자다. 공화당이 Michigan을 완전히 포기했던 오바마 대통령 시절에나 나오던 격차거든.

(혹시라도 오해하실까봐 한 줄 더 달면, 누가 당선되건 관심없는데, 여론조사가 틀릴 수 밖에 없는 현실을 지적하는 글임을 강조한다. 위의 예시는 +8%라고 그래놓고 +2-3%정도로 민주당이 이길 경우 여론조사가 틀렸다는데 동의를 구하려고 하기 때문이다.)

2. 연관관계

이런 단순한 차이값 계산은 여전히 1차원적이고, 한 발 더 나아가서, 연관관계를 보는 관점으로 확장해 볼 수 있는데, 예를 들면, 각각의 후보에 해당하는 키워드가 얼마나 중심성이 높은지, 키워드간 거리는 어떨지를 계산해볼 수 있는 알고리즘 레벨에서 접근이 가능하다.

왜냐고? 여론조사 지지율이 얼마나 높은지가 중요한게 아니라, 지지층이 얼마나 열심히 투표를 하게 만드냐가 더 핵심인 시대가 왔기 때문에,

  • 주요 키워드들을 선점하면서 선거를 이끌어가고 있는지,
  • 그 키워드들을 잘 엮어서 여론을 이끌어 가고 있는지

에 따라 지지층의 결집에 대한 (좀 더) 정확한 예측을 할 수 있기 때문이다.

아래의 키워드 묶음 예시는 구글검색결과를 정하는 PageRank 알고리즘의 가장 밑바탕에 깔려있는 EigenCentrality 계산에 의거해 선택한 키워드 뭉치 기반으로 키워드들의 중심성을 계산하고, 같은 관점에서 Eigen-Distance를 계산해서 키워드간 거리를 따져본 값이다. (거리가 가까운 단어들 끼리 묶어서 색상을 배정했다)

구글이 PageRank라는 알고리즘을 위해 Eigen decomposition된 값을 보완한 티가 곳곳에 나는 것처럼 저 위의 계산도 합리적인 보정이 필요하겠지만, 연관관계라는 걸 단순히 같은 글, 문단에 그 단어가 연속적으로 나온다는 이유로 정하는 방식을 넘어선 계산법이라는 걸 짐작할 수 있을 것이다. 다양한 전처리 방식을 추가하면서 결과값이 바뀌거나, 새로운 활용 포인트를 찾아낼 수 있을텐데, 정치쪽으로 지식이 없다보니 아직 더 좋은 아이디어가 없다ㅋ

요컨데, 적절한 수학을 이용해 기존 데이터를 가공처리해서 숨겨진 메세지를 뽑아내는 방향으로 정치 데이터 “분석”이 진화해야한다는 뜻이다.

(Source: 파비, Note: 중심성,근접성은 Eigen 계산에 근거)

나가며 – 새로운 시대의 시작

한국 사회도 PC주의가 강한 나라고, 특히 여/야 지지 세력이 인터넷 커뮤니티에서 집단 행동을 하는 경우가 매우 많기 때문에, 전화/인터넷 기반 여론조사의 신뢰도는 점점 더 떨어질 것이다.

여론 조사, 인터넷 버즈량 같은 단순 수치에 대한 기대를 버리고, 여왕벌 게임에서 지지세력을 얼마나 투표장으로 끌어올 수 있느냐는 관점으로 정치를 바라봐야하는 시대가 왔다고 생각한다. 위에서 제시한 중심성, 근접성 계산값은 후보들이 얼마나 이슈를 끌고가고 있고, 얼마나 더 여왕벌 게임을 잘하고 있는지를 보여주는 지표로 삼을 수 있을 것이다.

그 이외에도 기존 자료에 고급 수학&통계학을 적용해 정보 전달력 없이 단순 숫자로 전락한 데이터를 어떻게 활용할지에 대한 연구가 필요하다. 이번 미 대선이 이런 Scientific 접근의 기폭제가 되었으면 한다.

끝으로, 누가 이길지는 모르겠지만, Michigan에서 실제로 8% 안팎의 격차가 날지, 2016년에 틀린 걸 보정하겠다고 절치부심했다는 2020년의 미국 여론조사 기관이 얼마나 보정을 잘 했을지 궁금하다. 일주일 안에 지우게 될지도 모르는 한 줄을 더 추가하면, Michigan 주에서 보정 후 Biden +8%이라는 여론조사 결과는 4년전 Clinton +10%만큼이나 우리가 알고 있던 여론조사가 무의미하다는 증거물로 쓰이게 될 것이다.


Updated – 2020년 11월 5일 오전 9시 추가

예상대로 Michigan에서 (98% 개표율 기준) Biden +8%가 아니라 Biden +1.5% 정도의 razor edge margin이 나오는 선거였다. Trump 후보 지지자가 37만명 더 투표하러가는동안, Biden 후보 지지자가 45만명 정도 더 투표하러 나왔다.

(11월 6일 99% 개표 기준 추가. Razor edge margin은 취소한다. Trump 후보 지지자가 40만명 더 투표하는 동안, Biden 후보 지지자가 55만명 더 투표하러 나왔다. 남은 1% 개표를 포함하면 격차는 약 Biden +3%인 선거로 보인다.)

위의 가상 예측에서 Trump 후보 지지자 25만명(or +10%)이 더 투표장에 나오는걸 가정했었는데, 그 때도 +70만명이어야 +8% 지지율 차이가 날 수 있었으니 +37 40만명 결집이었으면 +100만명이 더 투표장에 나와야 +8%가 가능했을 것이다. 말을 바꾸면, 여론조사가 선거 결과를 맞추려면 지지세 결집을 봐야지, 질문에 답변하는걸 봐서는 안 된다는 Social event였던 셈이다.

Sun Belt쪽은 Narrow margin을 예측한 여론조사가 대개 맞았지만, 북부의 Rust Belt쪽은 완전히 빗나간 셈이다. 남부, 북부에 유사한 보정을 했다고 치면, 북부 지역에 얼마나 많은 Shy Trump가 있었는지를 단적으로 보여주는 결과라고 봐야한다. 위에 쓴대로 Answered vs. Revealed 라는 관점에서 Answered preference는 이만큼 주변 상황에 영향을 받는다. 학자들이 그런 데이터로 선뜻 작업에 뛰어들지 않는 이유이기도 하다. (동시에 Nate Silver를 유사 과학자라고 폄하하는 이유이기도 하다.)

이제 여론조사가 맞았나 틀렸나를 질문하는 1차원적인 숫자를 보는 수준을 넘어서, 얼마나 많은 지지자들을 투표장으로 끌어들일 수 있느냐, 즉 여왕벌이 얼마나 더 매력적으로 이슈를 이끌어가고 있느냐를 봐야하는 시점이 왔다는 것을 충분히 보여주는 선거였다고 생각한다.

국내의 모 정치 기관 담당자와 잠깐 이야기를 나누던 중에, “국내에서 최고 빅데이터 전문가라고 하는 어느 학교 교수가 Trump 재선을 점치더라”라는 말을 들었는데, 그 전문가 분이 누구인지는 모르지만, 이런 종류의 선거는 여론조사가 아니라, 지지자 결집도를 볼 수 있는 지표를 바탕으로 판세를 읽어야한다는 이야기를 했다고 하더라. (그러면서 유세장에 모인 인파 숫자를 봤다고 하던데, Biden 지지자들이 Twitter, Facebook, Instagram, YouTube 같은 곳에서 열심히 활동한 부분에 가중치를 상대적으로 낮춰 잡으신 것 같다.)

어떻게 결집세를 읽어야하는지, 그걸 과연 “빅데이터”라고 부르는 단순 버즈량으로 판단할 수 있는지는 위의 구글 Trend 관련 스크린 샷 3장과 논박을 읽으신 독자 분들의 판단에 맡긴다.

저 위에 살짝 보여드린 키워드 별 중심성/근접성 계산 방식으로 후보별 관련 키워드, 그 키워드의 연관 키워드를 알고, 해당 키워드들이 어떻게 소비되는지 따라가면, 현재 선거 트렌드를 이끄는 키워드도 파악할 수 있고, 그 키워드에 각 후보들이 얼마나 가까이 있는지, 그 키워드를 얼마나 이끌어가고 있는지도 파악할 수 있다. 키워드의 중심성이 높을 수록 트렌드의 중심에 있다는 뜻이니, 지지세 결집도를 추측하는데 큰 도움이 될 것이다. 관심있는 정치 관련 조직이 있으면 회사 이메일(admin@pabii.co.kr)로 연락주시면 좋겠다. (부족한 계산법의 가치를 알아봐주시는 모 유력 정치 기관 1곳과 프로젝트를 진행 중이기도 하다.)

이익을 추구하는 회사이니만큼 합리적인 보상을 바라지만, 그 전에 단순 버즈량만 보면서 빅데이터 전문가 코스프레를 하는 후진적인 문화를 일소하는 계기를 만들어보고 싶다.