데이터 사이언스를 처음 배우는 대학생들을 위해

2207

데이터 사이언스를 처음 배우는 대학생들을 위한 책을 쓰는데 자문을 해달라는 어느 출판사의 메일을 받았다


안녕하세요. 저는 XXXXXX에서 대학 교재를 만들고 있는 XXX라고 합니다.
XXXXXX는 IT, 전기/전자, 수학 분야의 대학 교재를 만들고 있는 출판사입니다. 이공계열 전공 및 교양 분야에서 책을 만들며 꾸준히 신뢰를 쌓고 있습니다.

데이터 과학이 대학에서도 점점 중요한 주제로 주목 받게되어 XXXXXX에서는 관련 주제로 대학 교재를 준비하고 있는데요,
데이터 사이언스를 처음 배우는 대학생들을 위해 어떤 내용을 어떻게 다뤄야 하는지 고민하고 있습니다.

데이터 과학을 강의하고 계시는 대표님께 자문을 받고 싶은데, 찾아뵙고 의견을 구해볼 수 있을까요?
바쁘신 가운데서도 관심 기울여주셔서 감사드리며 답변 기다리겠습니다.

감사합니다.

XXX 드림


아래는 답변 내용 x2 이다.

평소에 블로그에 썼던 내용을 그대로 옮겨놓은 것 같다.


안녕하세요 XXX 님,

이렇게 먼저 연락주셔서 감사합니다만, 제가 데이터 사이언스를 처음 배우는 대학생들에게 별로 관심이 없습니다ㅋ

전 보통 선대, 미방, 회귀분석 듣고 난 다음에 제 수업 찾아오라고 자르는데, 그런 저학년 기초지식 수업을 다 듣고 나면 이미 학부4학년/대학원 1학년 레벨입니다.

강의를 몇 년간 운영해보니, 제가 강점이 있는 그룹의 최저조건이 위의 지식을 갖춘 분들이더군요. 그리고 좀 거만하게 들릴지 모르겠습니다만, 그 레벨이 안 되는 수강생들에게 데이터 사이언스라는 단어는 사치인 것 같습니다. 인수분해 공부하는 학생에게 미적분도 아니고 대수학을 가르칠 수는 없지 않겠습니까? 코딩같아보인다는 이유로 개발 지식처럼 접근하는 분들에게 제 관점이나 지식은 시간낭비에 불과할겁니다.

책을 쓴다고하면 학부 고학년/대학원 저학년 대상으로 책을 쓸 생각은 있습니다만, 이건 출판사가 별로 좋아하는 옵션은 아닌 것 같더군요. 계약서만 받았던 출판사도 있고, 출판 목록을 보니 키워드만 맞춰놓고 3류 저자들 붙여서 막 찍어내길래 피했던 회사도 있는데, XXXXXX 신간 목록을 보니 그런 곳은 아닌 것 같아서 메일로나마 도움을 좀 드리고 싶은 마음에 글이 좀 길어지네요.

이번에 새로 내신 Strang 교수님 선대 책을보니, 제가 가르치는 선대의 극히 일부를 다뤄놨네요. Strang 교수님 책만해도 거의 안 팔릴 것 같은데, 그래서 억지로 7장에 딥러닝 관련된 정보를 넣으신 것 같습니다. 그걸 다루려다보니 본의 아니게 선대랑 동떨어진 5장 확률과 통계, 6장 최적화를 넣으셨나 보네요.

냉정하게 봤을 때 Strang 교수님 책이 별로 좋은 참고자료인 것 같지는 않습니다. (개인적으로는 매우 존경하는 교수님입니다.) 차라리 학부 선대 교재를 찾아보는 편이 더 나을 것 같습니다.

두서없이 썼습니다만, 간략하게 정리하면,

저학년 대상으로는 따로 교재를 만들어야되는게 아니라 선대, 미방, 회귀분석으로 나온 수없이 많은 좋은 교재들로 충분하다고 생각하고, 위의 지식을 제대로 다 익힌 고학년, 대학원 대상으로는 수학&통계학을 학문의 언어로 쓰는 데이터 사이언스 교재를 만들 수 있겠지만, 아마 어렵다는 이유로 책을 볼려는 분들이 별로 없을 겁니다.

시중에서 잘 팔리는 책들은 따라 칠 수 있는 코드 몇 줄을 넣고, 그래프가 화려하게 나오는 책들, 수학이 없는 책들인데, 제가 강조하는 내용들은 “데이터 사이언스를 처음 배우는 대학생”과 타겟이 너무 많이 달라보입니다.

찾아오시면 말씀드릴 내용들을 정리해봤습니다. 짧은 메일로 시간을 아끼실 수 있으면 좋겠습니다.


 

수차례 반복적으로 말씀드립니다만, 저는 출판사 분들께서 현장을 느낄 수 있는 정보를 얻기에 부적절한 사람입니다. 저는 현재 한국 사회에서 데이터 사이언스 분야를 이끌어가는 주류사회가 틀렸다고 주장하고 이단아 취급을 받는 사람입니다. 제가 무슨 말을 해도 주류를 자처하는 공돌이들이 바뀔거라고 생각하지도 않고, 제게서 무슨 말을 듣고 가셔도 결국 출판해야하는 책은 주류사회가 소비하는 컨텐츠를 담으셔야 될겁니다.

저같은 Minority는 책을 내더라도 기껏해야 PDF로 밖에 내지 못할거라고 생각해서 출판사 분들에게 요청을 드리는 것도 예의가 아니라고 생각하고 있기도 합니다.

출판사 분들을 싫어해서가 아니라 여러 차례 메일에서 말씀드린대로 서로간 도움이 안 될 것 같아서 메일에 답변을 일절 드리지 않습니다만, 그래도 XXXXXX은 Strang 교수님의 선대 책도 번역 출판하실만큼 비주류의 시선을 담아주는 회사구나라는 판단에 이렇게 예외를 둡니다.

한국은 수학&통계학 같은 기초 학문을 바탕으로 이해한 고급 지식을 소비, 응용, 발전시키는 나라가 아니라, Engineering처럼 깊이 몰라도 갖다 붙혀서 빨리 돈 벌 수 있을 것 같은 지식만 찾아다니는 나라입니다.

거기에 맞춰서 시장 조사를 하고 책을 출판하시는게 회사에도, XXX 님께도 도움이 되리라고 생각합니다. 여러차례 연락을 주셨는데 메일로 밖에 답변 드리지 않는 점에 화가 나셨다면 고개숙여 사과드립니다.


 

 

고교시절부터 논리를 따박따박 세워가며 수학 문제 풀지 않으면 틀렸다고 생각하던 사람이라 생각이 꽉 막힌건지는 모르겠지만, 데이터 사이언스라는 지식을 배우겠다는 사람에게 특별한 왕도는 없어보인다. 괜히 코드 몇 줄, 화려한 그래프 가득한 책에 시간낭비해봐야 정작 업무에 도움되는건 그리 많지 않을 것이다. 강남 일대에서 운영되고 있는 거의 대부분의 강의도 상황은 크게 다를 바가 없다. 개발자 출신들이 아무리 수학 훈련을 잘 받았다고 주장해도 학부 고학년 이상의 수학적 지식이 담긴 책을 소화해서 가르칠 수가 없으니 결국은 코딩 책 수준으로 귀결될 뿐이다.

그런데, 그런 코딩책들 아무리 읽어보고, 따라하고, 그걸 강의로 듣고, Github에서 코드 구해서 따라쳐봐도 왜 이렇게 하는지 원리를 모르니까 다른데 적용할 수가 없다. 적용해놓고 나서도 잘 하고 있는건지, 언젠가 문제가 생기지는 않을지 등등의 고민이 계속 생길 수 밖에 없는데, 결국 잘 안 되면 자기가 뭔가 잘못했다는 생각은 안 하고 라이브러리가 문제였으니까 자기는 책임이 없다는 식으로 배짱 태도를 보이는 개발자 출신들을 정말 많이도 봤다.

지금 이 시점에 한국에서 데이터 사이언티스트가 되고 싶으면 크게 2가지 길이 있는 것 같다.

하나는 위의 책임회피 스타일 개발자 커리어를 밟으며 라이브러리를 잘 갖다 쓰는 데이터 사이언티스트가 되는 방법이다.

국내 메이저 IT회사들이 주력으로 채용하는 데이터 사이언티스트들이기도 하다. 이쪽 테크를 타려면 쓸데없이 Python으로 1달만에 데이터 사이언스 정복하기 따위의 책을 볼게 아니라, 그냥 개발자 커리어를 밟으면 된다.

한국이 미국보다 5-10년정도 늦고, 수학 후진국이라는 점을 감안하면, 앞으로도 5-10년정도는 데이터 사이언티스트라고 소개하고 다녀도 사람들에게 인정받고, 커리어도 쌓을 수 있을 것이다.

다만, 수학 후진국도 영원히 0인 상태에만 있는건 아니기 때문에 결국에는 그런 Skill set을 가진 사람들은 퇴출되는 시점이 온다. 개발자들이 나이 40을 넘어가면 고액 연봉을 주기 싫은 but 생산성은 그렇게 높지 않은 경우가 많아서 회사들이 경력 3-5년 정도의 개발자들로 열심히 갈아치우는 것처럼, 특별한 엣지가 없는 커리어가 될 것이다.

나머지 한 방법은 지금 미국에서 키워내는 데이터 사이언티스트 스타일의 훈련을 받으며 성장하는 것이다.

위의 메일 답변에서 쓴대로, 수학/통계학 공부 열심히하고, 학부 고학년에 올라가면 데이터 마이닝, 머신러닝 등등 어떤 수업이건 괜찮으니 대학원 생들을 위해 준비한 고급수학을 쓰는 수업들을 열심히 듣고, 익히면서 성장하는 길이다.

한국의 현실은 매우 늦기 때문에 개발자로 쓸 수 없는 인력이라고 생각하고 잘 채용하려고 하질 않을텐데, 어쩔 수 없다. 사실 이 정도 수준의 업무는 알파고 출현 이전에도 박사 출신들에게만 주어졌던 업무이기 때문이다. 직업세계에서 인정받으려면 최소한의 타이틀은 갖추고 있어야하니 어쩔 수 없이 공부를 길게해야 될 것이다.

그리고 한국에서 그런 기회를 얻을 수 있을지 잘 모르겠다. 관련해서 아래의 일화를 하나 소개한다.


 

얼마 전, 우연한 계기로 2001년에 SK텔레콤에 인수된 신세기 통신과 LifeTime Value (LTV) 기반 컨설팅을 시도했던 분의 이야기를 들었다.

1990년대 초중반에 미국에서 한참 유행했던 모델인데, 당시 미국에서는 카운티 (County) 별로 다른 통신사가 들어서고, 주변 카운티와 전화하려면 장거리 전화비를 내야되는 상황이었다. 지금의 Verizon, AT&T 같은 초대형 통신사들은 당시의 작은 카운티 통신사들 수백개가 인수 & 합병을 거치며 만들어진 회사인데, 그 때 통신사별 회사 가치 평가에 위의 LTV 모델을 썼었다.

약 2005년 정도부터 저 모델을 발전시키는 논문이 사라질만큼 완성도가 높아진 모델인데, 대략 정리하면 사용자가 전화를 걸고 받는 행동들을 Beta 분포, Gamma 분포 같은 분포함수로 정리하고 (실제로 비슷하게 나온다), 해지하는 사건을 Poisson 분포로 잡은 다음, 분포함수에 필요한 파라미터 (alpha, beta, lambda 등)만 데이터를 기반으로 계산하면 각 사용자가 몇 달 정도 이용료를 지불할지, 즉 각 사용자의 LifeTime Value를 계산할 수 있다.

전체 이용자가 10만명이니까 1인당 평균 5만원이면 회사 가치는 50억원이라고 과거 데이터 기반으로 단순하게 계산할게 아니라, 각 이용자별로 다른 이용 패턴에 맞춰 1인당 LTV, 즉 미래가치를 각각 계산해서 전체 합계를 얻으면 회사의 미래가치를 가늠하는데 쓸 수 있다.

위의 모델이 1990년대 초반부터 2000년대 중반까지 “핫”했던 이유는 지금의 Verizon, AT&T같은 초대형 통신사가 태어나는 시장 격변기였기 때문이고, 그만큼 통신사 인수&합병이 빈번하게 있었기 때문이다.

그걸 신세기 통신에 찾아가서 사용자별 1인당 가치를 계산해줄테니 요금 체계를 세분화하는데 쓰라고 컨설팅 프로젝트를 따려고 했었단다.

정확도가 100% 아니면 못 쓴다고 뺀지 놓는 담당자와 반년정도 질질 끄는 시간낭비만 하고 결국 무산되었다는데 듣는 내내 요즘 필자가 한국에서 만나고 있는 기업 고위직의 의사결정자들이 스쳐지나가더라.

LTV 모델은 통신사 뿐만 아니라 월별 구독을 하고 있는 거의 모든 회사가 개별 사용자의 가치를 판단하는데 쓸 수 있는 모델인데, 저 모델의 가치를 제대로 알고 있는 분들이 있었다면 그 컨설팅 회사는 한국에서 크게 성공했을 것이다. 근데, 20년이 지난 지금도 제대로 LTV를 쓰고 있는 회사가 있을지 모르는 판국인데, 그 땐 기업 관계자들 만나면서 얼마나 힘들었을까…

타게팅 광고 한다는 회사들이 광고 지면을 구매할 때 쓰는 eCPM 계산 알고리즘도 LTV와 수학적으로 동일한 직관에서, 유사한 계산을 하고 있다. 적용처와 계산 방식이 달라졌을 뿐이다. (덕분에 계산 절차도 더 복잡해지긴 했다.) 지난 몇 년간 만났던 벤처 투자사들이나 기업 관계자들이 맹한 표정 (@.@)을 지으며 대화가 한 발자국도 진행되지 않는 그 상황을 꼭 20년전에 겪으신 어느 노(老) 교수님의 회한 섞인 말씀을 들으며, 지금 내가 겪는 좌절은 한국 땅에서는 당연한거구나는 생각으로 이어지더라.

저 시절 LTV가 한국 시장에서 먹히는 모델이 됐으면 통신사들의 요금 체계도 훨씬 빠르게 개선되었을 것이고, 신문/잡지 같은 구독료를 내는 상품들, 나아가서는 보험사, 카드사의 마케팅 정책도 바뀌었을 것이다. 요즘 매일, 매달 자동 배달 서비스를 제공해주는 이커머스가 LTV를 어떻게 쓰고 있는지는 모르겠는데, LTV라는 모델이 시장에서 광범위하게 쓰였으면 이커머스 만드는 시점부터 LTV를 잘 아는 사람이 회사 창업에 뛰어들기도 했겠지.

이게 제대로만 돌아갔어도 회사 인수할 때 단순히 사용자가 몇 명이라는걸 보지않고 이용자 기록보고 가치평가를 꼼꼼하게 할텐데, 모델을 쓰질 않으니 이용자 로그를 쌓을 생각조차도 안 하고 있는거다. 되려 회사 매각 직전에 가짜 유저만 왕창 끌어모으는 꼼수로 회사 가치를 과대포장하기 바쁜게 현실이니까.

요즘도 여전히 벤처캐피탈, 사모펀드나 기업 관계자들을 만나면 유저 1인당 평균 가치만 이야기하지, 행동 패턴별 세분화된 가치를 이야기하는 사람을 본 적이 없으니 LTV를 알고 쓰는 사람은 거의 없을 것이라고 짐작할 수 있다.

정리하면, 우리나라는 그 노(老) 교수님이라는 글로벌 수준의 인재를 나라와 산업의 가치를 끌어올리는데 쓰지 못하고, 알려지지 않은 학교에서 조용히 연구와 강의만하는 할아버지로 쓸 수 밖에 없는 나라였다.

왜 이렇게 관련없어 보이는 이야기를 길게 썼냐고? 데이터 사이언스 공부한다고 시간 낭비 하지 말라는 말을 하고 싶었다. 열심히 Science를 공부해봐야 한국 기업문화에서는 소비가 안 된다. 우리나라는 Science를 소비하는 나라가 아니라 Engineering을 소비하는 나라다.