데이터 사이언티스트 연봉은 왜 높을까?

0
2460

몇 달전, 약학 관련 전공으로 연구직에 계신 분이 한 달 수업을 들으셨다. 이해가 부족한 것 같아 재수강을 하고 싶다고 하시던데, 처음에는 흔쾌히 승낙했다가, 질문하시는 내용이나, 나중에 메일 주신 내용들을 한참동안 다시 생각해보니 아무리봐도 이해가 부족한 부분을 다시 듣는다고 메워질 것 같지가 않더라. 제 수업을 다시 듣는 것보다, 당장은 수학과 통계학 공부를 더 많이 하시는게 맞는 것 같습니다. 같은 회귀분석이어도 교수님마다 수업 스타일이 다를테니, 그런 수업들 몇 개를 우선 찾아서 듣고 난 다음에 다시 찾아오시는 쪽을 추천드립니다고 메일을 썼다.

솔직히 말해서, 수업에서 만나는 분들 거의 대부분이 재수강한다고 수업 이해도가 높아질 분보다 당장 수학, 통계학 기초부터 다져야 될 것 같은 경우가 더 많다. 특히 (수리)통계학 훈련이 많이 안 된 수강생일수록 이런 문제를 더 강하게 느낄 수 밖에 없다.

이 분들의 본래 의도와 생각이 어땠는지는 모르겠지만, 필자의 눈으로 볼 때 “기존의 통계학보다 머신러닝 방법론을 쓰면 더 결과값이 좋다, 더 쿨(Cool)해 보인다, 더 저널에 퍼블리쉬하기 쉽다”는 정보만 입력된 상태지, 정작 머신러닝 방법론들이 모두 통계 방법론이라는 사실을 제대로 인지하고 있는 것 같지 않아 보인다.

왜 데이터 사이언티스트 연봉은 높을까?

크X 브라우저 첫 화면에 유저의 검색 기록과 매칭되는 신문기사 글, 블로그 글이 추천되어 있는 경우가 있다. 시스템의 Referrer 기록에는 googleapis.com으로 남는데, 우리 Pabii 블로그에 대한 외부 유입 중 상당수가 한국어 크X 브라우저에 노출된 블로그 글을 타고 들어오기도 한다.

필자는 스마트폰 셋팅이 영어라서 항상 영문 글이 추천 목록에 떠 있는데, 얼마전에 KDNuggets.com 이라는 꽤 유명한 데이터 사이언스 관련 블로그에서 “왜 데이터 사이언티스트 연봉은 높을까?”에 대한 글을 봤다.

글에서 든 근거들을 보면,

  • 공급이 없는데 – 학교들이 DS 석사를 겨우 20-30명 밖에 안 뽑는다
  • 수요는 넘쳐나니까 – 그런데 회사들은 너도나도 뽑으려고 아우성이다

그래서 내놓은 해결책이라는게

  • MOOC 강의 공급을 통한 대규모 교육
  • 자동화 알고리즘 도입

정도이다.

솔직히 문제 인식이나 해결책이 모두 마음에 안 드는데 (언제는 KDNuggets.com에서 본 글이 맘에 든 적이 있었냐만은…), 일단 필자가 좋아하는 경제학 용어인 수요-공급으로 정리를 해 놨으니, 본 글에서도 이 문제를 인재의 공급과 인재에 대한 수요라는 측면으로 나눠서 생각해보자.

 

데이터 사이언티스트 공급 시장

착각 1. MOOC 교육을 통해 데이터 사이언티스트 교육이 가능하다

사람들이 착각하는 것 중 가장 큰 착각을 딱 하나만 고르라면, 데이터 사이언티스트가 시장의 단순 교육으로 충분히 공급될 수 있다는 것이다. 어마어마한  착각이라고 할 수 있다. (글 첫머리에 들었던 비전공자 분의 예시와도 맞물려 있다고 할 수 있겠다.)

왜? Pabii에서 지난 1년 반동안 나름대로 고급 퀄리티의 데이터 사이언스 강의를 운영해봤다. 일단 수학, 통계학 모르면 애시당초 오지마라고 딱 자르기도 했고, 대략 200명 남짓의 수강생 중에는 현직 교수, 연구원, 자연과학 및 공학 박사 과정생, 석사 이상 직장 경력자 등등 우리나라에서 상위 1% 급 (아니, 0.1% 급..)의 뛰어난 인재 분들이 30~40% 정도였다. 그 중 필자의 수업을 알아먹고, 이걸 당장은 아니어도 매우 가까운 시일내에 자기 커리어에 활용할 수 있을 것 같아 보이는 정말 뛰어난 인재의 최소 학력은 통계학 학부 이상, 타 전공 석사 이상인 분들이었다고 생각한다.

말을 바꾸면, 기존에 수학, 통계학 훈련이 탄탄하게 되어 있지 않은 인재 분들께 필자의 수업은 좌절감만 심어주는 강의였을 확률이 높다는 뜻이다. 학부 통계학 전공은 아니지만 개인적으로 공부를 많이 하신 분들 거의 대부분은 “앞으로 얼마나 더 공부해야할지 까마득해보이지만, 일단 공부할 방향을 잡은 것에 만족한다” 정도의 답변을 주셨던 것이 무리는 아닐 것이다.

Pabii의 데이터 사이언스 강의보다 수리통계학적 요구 수준이 낮은 대다수의 MOOC 강의들 몇 개를 듣고 데이터 사이언스를 제대로 이해하고 활용하는건 더더욱 어려운 일이라고 생각한다.

 

착각 2. 데이터 사이언스 교육 과정을 거쳐야 데이터 사이언티스트가 될 수 있다.

위의 DS 석사 프로그램 학생 숫자 20-30명 이야기에 대한 정면 반박이 될 수 있을 것 같은데, 사실 필자가 실리콘밸리에서 면접볼 때 만났던 사람들 중에 Quantitative PhD 학벌이 없는 사람은 아예 없었고, 모두가 Quantitative PhD 과정에서 배운 내용을 자기 업무에 쓰고 있었다. 말을 바꾸면, 데이터 사이언스 석사 레벨이 아니라, 수리통계학을 자기 학문에 응용하는 훈련을 박사 수준으로 했던 사람들이 그냥 이쪽 분야에 흘러들어와서 일을 하고 있었다는 것이다.

냉정하게 말해서 DS 석사 이후에 직장 생활을 시작하면 Multi-task learning 모델 개발을 담당하는게 아니라, 아마 A/B 테스트 계정 수십개를 떠맡아서 결과값 정리하는 Data Analyst 같은 업무를 하게 될 것이다. 배운 수리통계학 모델링 격차가 어마어마할텐데, 어떻게 복잡한 모델링을 그대로 맡길 수가 있을까?

예전에는 수학과 공학 일부 PhD 과정 중에 자기 학문에 흥미를 잃은 사람들 중 일부가 Wall Street에 몰려갔었다. (흥미를 잃은…보다 사실은 돈을 많이주니까ㅋㅋ) Wall Street에서 일하는 Quant들은 Stochastic Calculus 을 활용해서 자산 가격 움직임을 모델화하고, 그 모델에 Probability space를 추가해서 새로운 파생상품의 가격을 계산하는 모델을 셋팅했다. 그 문제를 풀어내려면 동일한 종류의 수학 훈련을 받았어야하는데, 물리학이나 기계공학 같은 전공 일부가 그 방법론으로 자기네 모델을 만들었기 때문이다.

같은 맥락으로 요즘은 박사 연구과정 중 통계학, 특히 계산 통계학 방법론을 써 봤던 사람들이 전공에 관계없이 Data Scientist 포지션에 지원을 하고 있다.

정리하면, DS 석사 프로그램의 학생 숫자가 적어서 공급이 부족한 것이 아니라, 이런 종류의 Academic 훈련을 받은 사람들이 흔치 않기 때문에 공급이 적은 것이다. 그리고, 배워보고 가르치며 양쪽을 다 경험한 입장에서 이런 훈련을 단순히 MOOC 교육으로 해결하는 것은 거의 불가능에 가깝다고 생각한다.

 

데이터 사이언티스트 수요 시장

착각 1. 우리 회사에 Data Scientist가 오면 대변혁이 일어날 것이다

우선 일부 Data Scientist들이 몇몇 과제들에서 이런 대변혁을 일으킬 수 있다는 걸 인정한다. 특히 필요한 데이터를 잘 갖춰놨고, 그 Data Scientist의 역량과 매칭이 잘 되면 빠른 시간내에 좋은 성과가 있을 수 있다는 걸 몇차례 눈으로 본 적도 있다.

그러나, 현실은 녹록치 않다. 거의 대부분의 회사들이 쓸모없는 데이터들만 쌓아놓고 우리회사는 빅데이터 시스템을 갖추고 있다고 주장하고 있고, 또 많은 데이터 사이언티스트들이 모든 것을 전지전능하게 다 알고 있는 Grand Master 급이 아니다. (그런 분이 과연 있을까….)

빅데이터 시스템을 갖추고 있다고 우기기를 시전하는 회사들에 대한 불평불만은 본 블로그에서 여러차례 노출했으니, 시장에서 흔히 만날 수 있는 데이터 사이언티스트들이 어떤 사람들인지부터 짚고 넘어가자.

우선, Data Engineer, Data Analyst들을 제대로 솎아낸 Pool이라고 해도 밖에서 데이터 사이언티스트라고 부르는 사람들 중에 데이터 모델링이 가능한 인재는 극소수다. (아마 현직 데이터 사이언티스트이신 분들 중에 학위 레벨에 상관없이 자신의 능력치가 우리회사 Data Scientist 채용 공고 수준 or 그에 준하는 다른 전문분야 지식을 갖추지 못한 분들이 허다할 것이라고 본다.)

데이터 모델링이 가능한 인재들은 보통 학계에 자기 전공의 문제만 붙잡고 앉아있고, 학교가 아니면 연구소에 모여 있다. 자기 전공의 문제 하나를 해결하고, 그런 지식을 적용하는 부분에서 충분한 금전적인 보상을 받고 있고, 사회적인 지위도 높다. 굳이 연봉 1~2억에 자기 전공 밖의 문제를 다루며 스트레스 받아야하고, 언제 짤릴지도 모르는 사기업의 전쟁터로 발을 내디딜 필요를 못 느낄 것이다. (뭐… 한국 기준으로 3~4억 이상의 연봉이라면 생각해볼 모델러가 일부 있을지도…)

그리고, 설령 그런 모델러 한 두명이 시장에 진입한다고해도, 이 분들과 의사소통이 너무 어렵다. 교육받은 사람들끼리는 단어 한 두개로 설명하고 넘어갈 상황을 비전문가에게 설명하려면 몇 분 이상 대화를 해야하는 경우가 허다하다. 그 뿐이랴? 데이터로 뭔가 만들었다는걸 보여줘야하는데, 관련된 수학 개념 하나 제대로 이해하는 사람도 없는 회사에서 그런 설명을 하는건 시간낭비가 될 가능성이 높다. 결과물만 볼려고 하겠지. 이런 모델러와의 커뮤니케이션을 지원하겠다고 Data Visualization쪽 전문가를 뽑는 회사도 봤었는데, 이런식으로 Data Scientist 팀을 하나 구성하려면 1-2명을 뽑아서 될 문제가 아니라, 평균 연봉 3억 이상인 전문가 열댓명으로 한 팀을 만들어야 한다.

한국에서 그 정도 비용을 들어가며 팀을 운영하고, 보고 받은 내용을 소화할 수 있는 보스가 있는 회사가 몇 개나 될까? 근데, 그 정도 팀을 만들기 전까지는 Data Scientist 한 명으로 “대변혁”을 만들어내는 건 거의 불가능에 가깝다.

 

착각 2. 설령 Data Scientist를 뽑지 못하더라도 곧 자동화 알고리즘으로 해결될 것이다

실리콘밸리에서 모든 데이터 사이언스 작업을 자동으로 처리해줄 수 있다고 주장하는 스타트업이 나타났다. MindsDB라는 회사다. 필자와 배경지식이 비슷하신 분들은 바로 감을 잡겠지만, 그냥 사기꾼 하나 등장했구만이라는 생각을 바로하게 될 수 밖에 없는 회사 소개였는데, 실제 결과물도 크게 다르지 않다. 문장을 입력하면, 그 문장을 자연어 처리해서 이해한다음, 그 내용을 바탕으로 쿼리를 때려서 데이터를 추출해주는 서비스였는데, SQL 쿼리 치는 작업은 Data 관련 업무하는 사람들 모두에게 가장 기본적인 지식이고, 이거 배우는데 며칠 걸리지도 않는다.

이런식으로 그럴듯한 말로 상품을 팔아치우는 회사들 뿐만 아니라, 간단한 통계학 알고리즘이나 이미지 인식, 자연어 처리 프로세스를 이용한 서비스는 이미 많이들 나와있다. 그 서비스들을 이용한 앱들이 출시되는 경우도 있고, 라이센스 Fee 주기 싫다고 자기네가 직접 그런 알고리즘을 만드는 경우도 흔히들 본다. 대부분의 서비스들이 복잡하지 않은 알고리즘을 쓰고 있기 때문에, 복제가 그렇게 어렵지 않다.

이런 일들이 비일비재하다보니 곧 자동화 알고리즘으로 모든 문제가 한번에 뚝딱 해결될거라고 생각하는 분들이 참 많은데, 제발 그런 알고리즘 좀 나와서 필자가 하고 있는 데이터 전처리도 쓱싹쓱싹 해결해주고, Factor extraction 작업이나 모델링 작업도 알아서 척척척 해 줬으면 좋겠다. 근데, 자동화 알고리즘이 필자의 머릿속 생각을 바로바로 구현해 줄 수 있는 세상이 오면, 이 세상에 있는 거의 모든 박사 과정 프로그램들이 없어질 것이다. 아니, 인간은 더 이상 학문을 공부할 필요가 없어질 것이다.

바꿔 말하면, 그런 자동화 알고리즘 따위는 없다. 냉수 한잔 마시고 정신들 차리시라.

 

나가며 – 데이터 사이언티스트 연봉은 높을 수 밖에 없다

데이터 사이언티스트, 특히 빅데이터를 이용해 모델을 만들고, 그 모델을 사업에 적용하는 계산/논리 알고리즘의 형태로 뽑아낼 수 있는 능력을 가진 사람들은 박사 과정 훈련을 통해서만 양성되고, 그 사람들은 이미 자기 학문의 영역에서 괜찮은 대접을 받고 있다. DS 석사에게 이런 능력을 기대할 수 없고, 당연하겠지만 MOOC 강의 몇 개 들었다고 그런 모델링 작업을 요청하는건 일종의 도박에 가까운 일이다.

경제학 박사했던 친구들이 국책 연구소만 가도 연봉이 억대가 넘고, 파이낸스 박사 했던 친구들 중에 Quant 계열인 친구들은 최소 20-30만불 연봉으로 자기 커리어를 시작한다. 필자가 잘 모르는 몇몇 자연계열, 공학계열 박사 친구들도 상황은 크게 다르지 않을 것이다. 그 중에서도 수학, 통계학 훈련을 제대로 받은 사람들이 도전할 수 있는 업무인데, 연봉을 아껴서 어떻게 좋은 인재를 뽑을 수 있을까?

그런데, 모든 증권사에서 Quant가 필요했던게 아니라, 관련 금융 상품을 직접 만들던 몇몇 회사만 그런 고급 인력을 썼던 걸 생각해보면, IT업계에서도 단순히 우리 회사 데이터 많다는 이유로 무작정 Data Scientist를 뽑아야하는지도 잘 모르겠다. 위에 썼듯이, 제대로 돌아가는 팀을 만들려면 노동비가 엄청나게 들어갈텐데, 그런 비용을 들여서 회사가 얻을 수 있는 부분이 별로 없다면 굳이 Data Scientist를 뽑아야할 필요가 있을까?

Pabii가 집중하고 있는 DSP 사업을 비롯해서 몇몇 서비스들은 필수불가결하게 고급 Data Scientist 팀이 있어야겠지만, 그외의 거의 대부분의 IT 서비스들은 단발성으로 외주를 주는 방식으로 인력을 구성하는게 맞지 않을까 한다.

 


공지1: 2019년 3월 29일을 끝으로 데이터 사이언스 주제의 포스팅은 종료됩니다. 이 후에는 파비의 스타트업 운영 관계된 포스팅만 월 1회 작성됩니다.

공지2: 위와 같은날을 기준으로 댓글을 모두 삭제합니다. 추후에는 댓글 서비스를 제공하지 않습니다.