데이터 사이언스 강의 vs 컨설팅

0
101

학부 3학년 때의 일이다. 둘 중 하나가 되면 그 길로 가야겠다고 결심하고, 외국계 증권사를 노리는 친구들이 들어가는 경영학과 동아리 면접과 박사 유학 가려는 애들을 지원해주는 SK그룹 산하의 고등교육재단 장학생 시험을 봤다. 어쩌다 둘 다 되는 바람에 많은 고민을 했고, 당시엔 동아리를 거쳐서 서울에 있는 외국계 증권사 IBD 에 교포 or 외국 장기 거주 or 아버지 빽이 아닌 희귀별종 한국 토종인 주제에(?) 들어가게 됐는데, 그렇게 힘들게 들어가놓고는 정작 인간의 본질이 박사 유학을 가야되는 놈이었던지 그 술접대 생활, 겉만 화려한 문화를 못 버티고 런던행 비행기를 탔었다.

그 시절에 동아리 친구들이 항상 했던 이야기가, “넌 너무 어렵게 설명해, 니가 경제학 이야기를 하면 무슨 말인지 잘 모르겠어. 그냥 돈 벌었다 이렇게 쉽게 이야기하면 안 되는거야?” 라는 조언 or 불평이었다. 반면 경제학을 위시한 사회과학 전공하던 친구들은 “니가 핵심만 찝어서 설명해 준 덕분에 이번에 XX경제학 A 받았다. 내가 밥 살께.” 같은 응원 or 칭찬을 많이 해 줬었다.

겉 껍데기를 그럴듯하게 포장하기 바빴던 역겨운 뱅커의 삶을 뒤로하고 유학을 떠나기 전까지는 항상 “내가 정말로 현학적인 인간인가?”에 대한 깊은 의구심을 갖고 있었다. 스스로에 대한 그 자뻑(?)은 석사 공부하던 첫 해, 아니 첫 달에 산산조각 나버렸다. 현학적인 친구들이 프로그램 안에 얼마나 많았는데, 나 주제에 현학은 무슨 얼어죽을… 동아리 친구들이 깊이가 얕은 친구들이다보니 내 설명에 휙휙 등장하는 논리들을 따라오지 못했던 것이다.

“깊이가 얕은”이라는 표현에 학부 시절 동아리 친구들이 무시당했다고 화날 것 같기는한데, 필자가 수학 중에 제일 어려운 과목이라는 Stochastic Calculus를 학부 수학 출신이 아닌 석사 애들한테 그것도 non-native의 영어로 강의하고는 Best TA of the Year를 받았던 사실을 증거로 제시해보고 싶다. 그렇게 어려운 수학 과목도, 심지어 내 모국어가 아닌 언어로 설명했는데도, 단순히 Best TA 상이 아니라, 학교 105년 역사상 처음있는 Landslide 투표였다는 큰 칭찬까지 들었다.

한참 써놓고 보니 좀 자랑같아 보이는데, 요지는 깊이가 얕은 사람에게는 아무리 쉽게 설명해줘도 답이 없다는 거다. 너무 심하게 경영학과 친구들을 무시하는 것 같지만, 학부 1학년 때부터 Demand-Supply 함수로 사치재와 Giffen재를 논리적으로 증명할 수 있는 툴을 배우는 경제학과와 “가격을 올리면 잘 팔리는 경우도 있어요~ 재미있죠?”라는 마케팅 수업을 듣는 경영학과 사이의 지식의 깊이에서 나오는 격차는 어쩔 수 없는 부분이다.

 

데이터 사이언스 출강 요청들

기업들에서 데이터 사이언스 주제로 출강해 달라는 요청을 종종 받는다. 내 사업이 우선인 사람이라 어지간하면 거절하고, 보통은 조건을 내건다.

  • 깊이있는 지식을 이해할 수 있는 사람들을 대상으로 한 수업인가?
  • 배운 내용을 써 먹을 수 있는 빅데이터를 보유하고 있는가?

빅데이터가 없으면 당연히 무의미한 지식이기 때문이기 때문에 두번째 포인트는 쉽게 이해될텐데, 첫번째 포인트는 너무 “현학적”인거 아니냐고 반박을 하실 수도 있겠다. 나보다 잘난 사람 수도 없이 많으니 까불지말자는 생각이 항상 머리 속에 박혀 있기 때문에, 귀국 초기만해도 사람이 쬐끔 더 배웠다고 거만 떨지말고, 겸손하게 최대한 성심성의껏 가르쳐드리자고 생각했었다.

그런데, 딱 학부시절 경영학과 친구들한테 설명할 때랑 똑같은 상황이 벌어지더라.

개념 설명하고, 예제 코드 하나 던져주면 딴데는 못 쓴다고 불평하면서 정작 개념 이해도가 낮은 사람들에 대한 불평은 이미 여러번 썼으니 패스한다. 몇 번은 실리콘밸리에서 자주 언급되고, 수백억 ~ 수천억의 가치를 인정받는 기술들을 최대한 단순화시켜서 설명해줬는데, 너무 “현학적”이고, “이론적”이어서 실제로 적용하는데는 아무런 도움도 안 될 것 같단다. 갔던 기업체들마다 반응이 공통적이었다.

좀 허탈하고 씁쓸한 마음에, 학부 동기들이나 필자의 데이터 사이언스 수업에 찾아온 수강생 분들께 똑같은 설명을 다시 한번 시도해봤다. 보통 반응은 어떠냐고? “정말 저런식으로 Data Science가 쓰인다는 걸 알게되어서 깜놀했다. 단순히 이미지 인식에만 쓰이는 줄 알았는데 이런게 Data Science구나. 데이터를 그냥 Regression하는게 모델링이 아니구만. pabii에서도 이런식의 모델 쓰냐?” 같은 반응들이다.

(물론 깊이 얕은 수강생들이 “저걸 어떻게 써먹냐, 딱 코드로 복붙해넣을 수 있도록 해 줘야지” 같은 반응을 보이는 경우도 있다. 그럴꺼면 그냥 저급 코딩 강좌 찾아가실 것을 추천한다.)

몇 번 유사한 사건을 겪으면서 출강 요청에 대한 대답은 더더욱 확고해졌다. 경영학과, 컴퓨터 공학과 등등 수학과 통계학을 이용해서 모델링을 하는걸 학부 시절에 구경했던 적이 없는 분들에게 강의할 생각은 없다고 딱 잘라 말한다.

그 경영학과, 컴퓨터 공학과 출신들이 보통 Data Analyst나 Data Engineer라는 타이틀을 들고 필자의 출강 수업에 나타난다. 그 분들이 못 알아들을 가능성이 매우 높다는 걸 일찌감치 알고 있기 때문에 보통 강의 기획하시는 분들께 미리 엄포를 놓는다. 통계학 훈련이 된 분들 위주로 모으는게 피차간에 불편한 일이 적을꺼라고.

그런데 회사 일이라는게 그렇게 뜻대로 될리가 있으랴. 통계학 학부에 해당하는 과정을 정상적으로 마치고 대기업에 앉은 분들의 비율이 몇 프로일 것이며, 또 관련 전공 아니라고 엄포를 놔도 큰 상관없겠지라고 찾아오시는 분들도 많다. 그럼 그냥 시간만 날리는거다.

 

데이터 사이언스 컨설팅이 필요한 이유

얼마전에 강의 요청에 답변했던 이메일이다. (일부러 좀 수위가 쎈 걸 골랐다 ㅋ)

외람된 표현일지 모릅니다만, 개발 인력과 BI인력들로만 구성된 상태라면, Data Science 사업 모델의 시작은 커녕, 인력 구성도 안 된 상황이라고 판단됩니다. 그 분들은 Data Science 업무를 하시는 분들이 아닌데, Data Engineer, Data Analyst들만 모아놓고 Data Science 발전 방향을 설명해달라니요? Data Science 시스템 구축을 무슨 X 넣으면 Y 나오는 공학 계산 프로젝트처럼 오해하시는 것 같은데, 개발 인력과 BI인력들로는 기본 DB 만들고, 1차원 그래프 그리는 일 밖에 할 수 없습니다. 말씀주신 내용들은 데이터 사이언스 모델링을 어느정도라도 이해하시는 분들이어야 따라올 수 있는 지식입니다.

그 메일을 보내주신 회사는 일단 DB를 먼저 갈아엎어야되는 상황인데, 도대체 뭘 어떻게 갈아엎어야하고, 데이터를 어떻게 분석해야할지, 도대체 데이터 사이언스란 뭔지 감이 없는 상태에서 이런저런 “찌라시”들만 보고 들은 상태였다.

회사 상황에 대한 설명을 들으면서 “데이터 사이언스를 당신네 사업에 이렇게, 저렇게, 요렇게 적용하면 x년 안에 대박이 납니다~” 같은 (경영학과 친구들스러운) 강의를 요구하는 것 같아서 굉장히 불편했고, 자기들이 뭘 모르는지도 모르면서 강의 비용만 조금 쓰면 데이터 사이언스 전문 인력이 양성되는거라고 or 회사 발전 방향을 잡을 수 있을거라고 착각하는 것 같아서 안타까웠다. (무X하면 용감…. 아니 그만하자)

그 회사는 자기네 사업에서 뽑아낼 수 있을만한 데이터 목록을 추려내고, 그걸 어떻게 DB에 찍어넣을 수 있는지 고민해야하는 업무 1개, DB에 찍힌 데이터로 단순한 그래프성 “분석”을 할 수 있는 앵글을 고민하는 업무 1개, 그리고 그런 데이터를 가공해서 회사가 궁극적으로 하고 싶은 주제들을 Tackle 해보는 여러 시도를 하는 업무 N개가 눈 앞에 놓여있는 상태라고 생각한다. 앞의 2개는 지금 인력으로도 어떻게 해 볼 수 있겠지만, 뒤의 N개 업무는 미안하지만 그 분들의 영역이 아니다.

단순히 순차적으로 진행하면 되겠지라고 생각하시는 분들께 한 말씀 올리면, 처음에 데이터 목록을 추려내는 자리부터 이게 왜 필요한지를 따지는 Domain knowledge와 데이터 모델링 스킬을 갖춘 Data Scientist가 설계를 해야한다. 그렇게 필요할성 싶은 데이터를 추려내고, Data Engineer가 DB를 만드는 동안, 간단한 처리로 활용할 수 있는 Stream성 데이터를 보는 Data Analyst 팀이 Front-end 개발팀과 Visualization에 대한 고민을 해야한다. 그런 스테이지가 지나고나서야 Data Scientist가 뭘 해줄 수 있는지가 좀 더 구체화될 것이다. 데이터 사이언스라는게 단순하게 그래프 그려서 Insight 뽑아내는 일이 아니라, 데이터들을 가공해서 특정한 패턴을 잡아내는 작업이기 때문에, 데이터가 없는 상태에서 나온 아이디어는 모두 가설에 불과하기 때문이다.

말을 바꾸면, DB설계부터 뒤에 따라올 N개 업무에 대한 생각을 미리 깔고 시작해야한다. 나중에 Data Scientist 뽑으면 되겠지라고? DB 새로 만들어야되겠지라고 대답하겠다.

 

강의 vs. 컨설팅

기업에 출강 온 데이터 사이언스 강의들을 들어보신 분들은 입을 모아 공감하실 것이다. 보통 그렇게 강의 가신 분들이 깊이있는 모델링을 깊이있게 한 적이 없는 사람들이기 때문에 “A 모델을 쓰니까 85% 정도의 정확도를 확인할 수 있었습니다” 같은 수준의 강의만 하고 갈 것이다. 그래서 뭔가 좀 제대로 된 일처리를 해 보자고 데이터 컨설팅을 써 보면, 통계학 모델링으로 짬밥이 굵은 사람이 Domain Knowledge를 갖춘 사람과 이야기하면서 데이터로 찾아낸 내용들을 하나하나 확인해가는 절차를 거치며 모델을 쌓아 올리는게 아니라, “모델 A, B, C, D… Z를 써 본 결과 D 모델이 제일 좋으니까 앞으로 D 모델을 쓰십시오.” 같은 이야기만 할 것이다.

데이터 컨설팅으로 돈 버는 사업을 하고 있지 않았기에 망정이지, 그게 밥 줄이었으면 저런식으로 데이터 사이언스 이미지 망치고 시장 망가뜨리는 사람들에게 느끼는 분노는 지금보다 더 했을 것이다.

왜 이런 일이 발생할까? 왜 깊이도 없는 사람들이 저렇게 저가 수주로 데이터 사이언스 시장을 망치는 상황이 지속되는걸까?

가장 큰 이유는 “갑”들이 “바보”이기 때문이다. “갑”들이 똑똑하면 “을”이 절대로 대충 일을 할 수가 없다. 당장 결과물 발표 때 질문이 폭풍같이 쏟아질텐데?

데이터 사이언스라는게 결국은 통계 모델링의 업그레이드 판이고, 통계학 내공이 꽉 들어찬 사람들에게 의뢰를 해야하는데, 자기 내공이 충만한 사람이 그런 저가 프로젝트에 뛰어들기에는 너무 재능이 아깝고, 가격을 높여 부르면, 이걸 무슨 리모델링 건축 프로젝트인 줄 아는 “바보 갑”들이 돈 적게 쓰고 비슷한(?) 결과물을 얻으면 된다고 생각하는 것이다.

집 리모델링에 쓴 돈 차이가 결과물에 어떤 영향을 미치는지는 비전문가인 필자가 할 말이 아니므로 패스하지만, 데이터 사이언스 모델링은 필자의 눈에 정말 0과 1의 게임이다. “돈을 싸게하겠다고 0의 결과물을 얻을래, 아니면 돈 좀 쓰고 1의 결과물을 얻을래”의 게임이라는 뜻이다. 마치 썩은 대들보를 100만원주고 살래, 30년은 끄떡없을 고급 대들보를 500만원주고 살래라는 질문을 받았을 때, 요즘 Data Science 적용해 보겠다는 시장 상황이 내일모래 썩어 부스러질지도 모르는 썩은 대들보를 고르는 모습같아 보인다. 조금씩 배워서 실력을 올리겠다는 관점이 이해가 안 되는건 아니지만, 금융권에서 검증 안 된 어설픈 모델 쓰는거 본 적 있나? 0하나만 빼거나 더해도 회사 망할지도 모르는데?

건물도 설계도가 잘못되었으면 보수 하자 공사가 아니라 새로 지어야한다. 위에 언급했던 그 회사는 어설픈 Data Scientist가 DB 설계를 이끌고나면 데이터 모델링을 다시해야하는 것은 차치하고, 나중에 DB를 처음부터 다시 만들어야할 수도 있다. 회사들이 DB 새로 엎는다는 소리들 자주 들어보지 않았나? 다시 만들어야한다는 이야기 해 준 곳 참 많은데, 개발자들 표정 썩어들어가더라. 완성된 건물에서 썩은 대들보 빼고 새 대들보 넣는데 집 형태는 그대로 유지하면서 작업하려면 얼마나 힘들까?

 

나가며 – 진짜 Data Science

학부 동기 중에 계량경제학은 커녕 선수과목이었던 경제 통계도 겨우 낙제점을 면하고 졸업한 녀석이 있다. 매번 자기가 통계학과보다 “데이터를 잘 본다”고 주장하는데, 미안하지만 필자의 눈에 그 친구는 딱 경영학과 수준으로 데이터 “분석”이라는 걸 바라보고 있다. 매출액 그래프 그려놓고, “남들은 매출액만 보는데 나는 마진율도 보면서 무조건 외형 성장이 좋은게 아니라는 걸 증명했다, DuPont analysis로 마진율이 나빠진 원인이 무엇인지 구체적으로 분석해볼 수 있었다”고 주장하던 경영학과 친구들 수준.

빅데이터 모델링이라는건 그렇게 데이터를 “잘 본다”와는 그닥 큰 관련이 없다. 이 동네는 수학과 통계학을 이용해서 모델링을 하는 동네니까.

수학 & 통계학 기반이 아니라 직관 기반의 Data Analyst가 Data Scientist 업무를 하는 건 불가능하다. 수학 공부 안 한 경영학과는 수학 쓰는 Hard Science 전공 박사 학위에 Admission을 받을 수가 없다. (반대의 경우는 매우 자주 일어난다.) 제발 좀 Data Analyst 팀한테 Data Science 강의해주면 우리회사 Data Science 역량이 비약적으로 올라가는거 아니냐고 묻지 말아주셨으면 좋겠다. 그런 질문하지 마시고, 데이터 모델링 할 줄 아는 Quantitative 대학원 출신 뽑거나, 실력있는 외주 컨설팅 업체 부르시는게 어떨까?