“진짜” 데이터 사이언티스트 모임이 필요한 이유

0
1868

그동안 데이터를 모임 타이틀에 달고 있는 여러 조직에서 Talk 요청을 받았었다. 거의 대부분은 제대로 기본기와 내공을 갖춘 데이터 사이언티스트들의 모임이 아니라, 데이터 Analysis나 데이터 Engineering을 하는 분들의 모임인터라 일언지하에 요청을 거절했었는데, 저런 모임에 엄청난 돈이 낭비되고 있다는 정보를 들으니 정말 어이가 없더라.

그 중 하나를 아래에 소개해본다.


안녕하세요 파비 이경환님,

평소 파비 블로그를 관심있게 구독하고 있는 구독자로써

애드테크와 데이터 사이언스 기술이 조예가 깊은 것에 관심을 갖고

초면이지만 불쑥 이렇게 발표자로 초청하는 메일을 보내게 되었습니다.

데이터 XXX라는 데이터 커뮤니티 Meet up 발표로 아래의 내용을… (중략)

데이터 XXX는 비영리 커뮤니티 그룹으로, 데이터 분석/엔지니어링/머신러닝 관련 분야의 업무를 하고 있거나 해당 분야로 이직, 취업하고자 하는 사람들이 주로 활동하고 있습니다.

커뮤니티는 오프라인 밋업, 워크샵, 스터디 등을 통해 데이터와 관련된 이슈와 기법들을 폭넓게 이야기하고 연구할 수 있는 네트워킹 공간을 만들어 가고 있습니다.

(중략)

데이터XXX에서는 매달 데이터의 가치를 중요하게 생각하고, 이를 적극적으로 활용하는 회사들과 함께 밋업을 진행하고 있습니다.

(중략)

주로 밋업 때 오시는 분들이 데이터 분야로 취업을 원하는 학생 / 연구자가 3분의 1이고,

다른 도메인에 데이터 분석가, 머신러닝 엔지니어, 데이터 엔지니어, 서비스 기획, 백엔드 개발자 등 다양하게 참석하고 있습니다.

(이하 생략)


파비 블로그를 관심있게 읽은 독자라면 쓰지 말아야할 표현들이 몇 가지 보인다

첫째, 데이터 사이언스 “기술”

데이터 사이언스는 고급 수리통계학을 활용하는 계산통계학 작업이라는 말을 여러번 강조했는데, 이게 왜 “기술”이지? 개발 커뮤니티 출신이라 뭐든 “기술”이라고 표현하는게 익숙하신 것 같은데, 데이터 사이언스 관련된 통계학 지식이라는 표현이 들어갔으면 이렇게 불쾌하지 않았을 것이다.

미안한데, 데이터 사이언티스트들은 기술자가 아니라 연구자들이다.

둘째, 데이터 분석/엔지니어링/머신러닝 관련 분야의 업무를 ~~ 데이터와 관련된 이슈와 기법들을 ~~

위의 첫째 포인트와 비슷한 맥락으로, 파비는 데이터 사이언스를 하는 회사지, 데이터 분석/엔지니어링/머신러닝 관련 분야 업무를 하는 회사도 아니고, “기법”이라는 표현도 “기술”이라는 표현과 같은 맥락의 표현이라고 밖에 안 보인다.

데이터 전처리하기 위해서 2-stage로 regression 하는 이야기 정도라면 “기법”이라는 표현을 들어도 될만한 기초적인 지식이라고 생각되지만, 그 정도는 학부 고학년 교과서 수준 지식 아닌가? “이야기하고 연구하는” 공간이라는 호칭을 붙이려면, “기법”이라는 표현을 들을 지식 수준이 아니라 잘 훈련받은 박사급들에게 “연구”라는 표현을 들을 수 있는 수준의 지식이어야 한다고 생각한다.

셋째, 데이터 분석가, 머신러닝 엔지니어, 데이터 엔지니어 ~~

자칭 머신러닝 엔지니어라는 분들이 과연 머신러닝을 제대로 알고 있는 상태에서 스스로를 머신러닝 엔지니어라고 주장하시는지도 잘 모르겠거니와 (경험적으로 아직까지 단 1명도 기준을 통과하신 분이 없다), 왜 데이터 분석가, 데이터 엔지니어들만 있는 모임에 데이터 사이언티스트를 부르는걸까?

앞에 “데이터”라는 단어를 빼고 다시 읽으면, 경영학과와 컴퓨터공학 학부 수준의 지식을 갖고 있는 분들이 있는 모임에 Computational Statistics로 박사 공부를 하신 분을 불러서 “이야기하고 연구하는” 자리를 만들고 싶다는 말이 된다.

완전히 다른 배경지식을 갖고 있는 사람들을 한 자리에 모아넣으면 서로 대화가 잘 될까?

 

파비 블로그를 읽던 사람이면 절대로 쓰지 않았을 표현이나 관점이 여럿 등장했다는 점 때문에 메일을 삭제하고 잊을려다가 불인인지심(不忍人之心)이 발동해 (Read 오지랖 때문에) 아래의 답변을 드렸다.


글 서두를 불편하게 시작해서 대단히 죄송합니다만,

저는 “부동산 시세 분석 어디까지 해 봤니?” 같은 학부 저학년 수준의 대화 주제가 있는 자리에는 별로 끼고 싶지 않습니다.

(중략)

데이터 분야(?)로 취업을 원하는 학생이나 엔지니어, 개발자, 기획, Data “Analyst” 모임이 아니라,

Data “Science”를 이해할 수 있는 통계학, 수학, 물리학을 비롯한 자연과학이나 경제학 및 공학 등의 일부 전공 박사과정을 통해서

수리통계학 모델링을 깊게 이해하는 분들의 모임이라면 시간을 내서 찾아가도록 하겠습니다.

(이하 생략)


한국 시장에서 부동산 시세의 9할은 정부 정책 때문에 움직인다는 사실을 굳이 강조할 필요는 없었을 것이다ㅋ

그나저나 데이터 분야(?)로 다 뭉뚱그리면 되는 영역의 업무가 아닌데…필요한 지식이 완전히 제각각이지 않나??? 계속 하는 말이지만 Business Intelligence나 엔지니어들이 왜 자꾸 자기네들이 깊게 공부해본 적 없는 수리통계학 무겁게 쓰는 영역에 발을 들이려고 하는걸까? 자기네들 커리어를 끝판왕으로 쌓아도 정말 ㅎㄷㄷ한 실력자가 될텐데, 그런 사람 1명 뽑으려고 기업들이 얼마나 찾아다닐텐데…

저런 모임에 가시는 분들은 목적이 뭘까? 지적인 훈련이 없는, 사실상의 네트워킹 모임일텐데, 학부 시절, 뱅킹 시절, 유학 시절 그렇게 15년간 MBA 프로그램을 “Party School”이라고 욕했던 사람이 “Party”에 열심히 가는 것도 모양새가 참 이상한 것 같다. Party guy가 아니라서 그런지, 저런 모임들 좀 없어지고, 정말 커리어에 도움이 되는 지식이 공유되는 모임들이 생기면 좋겠다.

(Source: Peter Trumbore)

“진짜” 데이터 사이언티스트 모임 개최

남들더러 해라고 기다리고만 있지말고, 파비에서 직접 “진짜” 데이터 사이언티스트들의 모임을 한번 개최해볼까 한다.

당연하겠지만 모임에서 Speech를 할 수 있는 자격이 있는 분들은 개발자가 아니라 제대로 수리통계학 훈련이 된 분이어야하고, 가능하면 참가자 분들도 학부 통계학 수준의 용어는 추가 설명없이 알아들을 수 있는 분들로 구성해보고 싶다.

Talk의 주제는 “부동산 시세 분석 어디까지 해 봤니?” 같은 시간 낭비성 주제가 아니라, Stochastic mesh network + Trembling hand equilibrium + Computational optimization 이 골고루 들어간 배달앱의 배달 인력 최적 배분 모델 같은걸 쓰면 좋을 것 같다. Network Theory, Game Theory를 학부 고학년 or 석사 1-2학년 수준으로 이해하고, Computational stat이 그런 수학을 가져다 쓰는 걸 보고 이해할 수 있는 사람들이어야 참가비가 안 아까울 것이다. (그리고 그런 사람들을 Data Scientist로 뽑아야 회사들도 월급이 안 아깝겠지.)

파비 클래스 수업을 들으신 분들은 기본 훈련을 잘 받으신 분들일테니 따로 검증 작업을 거치지는 않아도 될 것 같고, 다른 참가자 분들에게 합리적인 검증 작업을 할 수 있는 방법을 좀 고민해봐야겠다. 웹 페이지 하나 만들고, 100개 남짓의 문제 은행에서 Random하게 주어진 문제를 풀게하는건 어떨까? 주제만 보고 발을 빼는 사람이 대다수여서 Bias가 심하기 때문에 테스트 자체가 무의미하려나?

이렇게 참가 인원이 확 줄어들 가능성이 높은 생각을 하고 있는 줄 알면 외부 후원금을 주겠다는 곳이 없어서 우리 회사 자금으로만 개최해야될 것 같지만, 잘 훈련된 병사 만 명이 훈련도가 엉망인 병사 십만 명도 거뜬히 감당할 수 있다는 믿음으로 참가 수준을 높게 유지하는데 초점을 맞추려고 한다.

어차피 데이터 사이언스는 십만명의 개발자들이 Tensorflow 코드를 카피한다고 국가적 역량이 올라가는 영역이 아니라, 소수의 잘 훈련된 인재 100명만 있어도 시장 수준을 확 끌어올리는 영역 아닌가?


Speech 의향이 있으신 분, Discussion Panel로 참가하고 싶으신 분, 후원에 관심있는 조직은 admin@pabii.co.kr로 연락주시기 바랍니다.

현재 안:

  • 모임 이름 (가칭) – Data Scientist, A Scientist
  • 1시간 강연, 1시간 Rebuttal + Panel discussion, 1시간 Q&A (총 3시간)
  • 강연자 감사비 1백만원, Discussion Panel 1백만원 / N (Before Tax)
  • 파비 클래스 기 수강생 참가비 1만원, 시험 통과자 10만원, 그 외 20만원

 

파비 페이스북 페이지가 운영 중입니다