[강의] 데이터 사이언스와 데이터 모델링 수강 관련

0
617

안녕하세요,

평소 블로그 글 보면서 많은 도움을 얻고 있어서 강의가 개설되기를 많이 기다렸습니다.

한 가지 궁금한 건 데이터 모델링 수업을 듣고 싶은데 이번에 “데이터 사이언스 메인 강좌”와 “데이터 모델링 수업”을 같이 신청해도 될지 문의드립니다. 데이터 모델링 수업을 바로 듣고 싶지만 수강 자격으로 말씀하신 논문 낼 수준은 아직 아니라서요.

(중략)

전자공학 학사하고, 컴퓨터 공학 석사하면서 데이터 마이닝 주제로 공부했구요, 지금은 머신러닝 기반의 모델링 및 시스템 만드는 일을 하고 있습니다.

(중략)


안녕하세요

선형대수와 미분방정식, 회귀분석 같은 기본 개념을 얼마나 제대로 이해하고 있으신가에 따라 수업을 들으실 수 있는지가 결정된다고 생각합니다.

업무경험 유무는 응용에 도움이 될지는 몰라도, 수업의 지식 습득에는 크게 도움이 되질 않습니다.

 

제가 당시 대학원에서 머신러닝을 처음 접했을 때도 그랬고, 지난 2년 가까이 강의하면서도 계속 경험했습니다만,

수학을 개념 이해와 증명 기반으로 공부하지 않고 문제풀이 위주로 공부한 공학도들이 경영학과 출신들과 별 다를 바 없이 괴로움을 겪는 걸 자주 봤습니다.

 

수학적인 준비가 잘 된 분이면 2개 수업을 같이 들으셔도 쉽게 넘어갈 수 있고, 준비가 부족하다면 메인 강좌 듣던 중에 퍼질거라고 생각합니다.

 


가끔 모델링 강좌를 바로 들으면 안 되냐고 몽니(?)를 부리는 메일을 보내는데, 정작 학부 과정 중이거나 학부 지식만 갖고 직장 경험 몇 년 있다는 이유로 이미 다 알고 있다는 식이다. 본인은 수학 실력이 엄청나게 뛰어나다고 주장하지만 보통의 Data Scientist 들에게 상식 수준인 학부 1-2학년 수학 질문도 제대로 답을 못 하는 경우를 허다하게 본다.

몇 번 몽니 부리는 사람들에게 테스트 질문을 하느라 시간 낭비를 한 후로는 더 이상 시간을 쓸 생각이 없어졌다. 면제 조건을 박사 공부를 한 사람으로 걸었다가, 아예 논문을, 그것도 A급 저널 Pipeline에 넣을 수 있는 수준으로 높여서 요구하는 것도 같은 이유다. 제대로 된 검증력 없는 국내 저널에 논문을 갖고 있지만 정작 지식은 아무것도 없는 경우도 수도 없이 봤고, 심지어는 괜찮은 논문의 제 3 저자인 석사생이 박사 유학가기 전인데 기본 수학 개념이 하나도 없는 경우도 봤었다.

그런 질문들 중에 평소에 자주 던지는 질문 딱 하나만 남긴다.

Positive Definite과 Positive Semi-Definite의 차이가 뭔지, Eigenvalue / Eigenvector / Eigenspace의 관점에서는 어떻게 설명할 수 있는지, Eigenvalue가 중근인 경우와 0인 경우가 PCA와는 무슨 관계가 있는지를 선형대수학 교과서를 뒤지지 않고, 구글링을 하지 않고 면접자리에서 바로 대답할 수 있는 분이 과연 몇 명이나 될까?

사실 이 질문은 PCA를 개념적으로 얼마나 정확하게 이해하고 있는지, PCA를 쓰다가 발생할 수 있는 문제들을 선제적으로 어떻게 고민해서 모델을 만들 수 있는지를 가늠해 볼 수 있는 단순 3단 질문이다. 당연하지만 3단계 질문에 바로 대답을 못하면 PCA를 모른다고 봐야한다. 어설프게 알고 있는건 시험에서 부분점수를 받을 수 있을지는 몰라도, 정작 업무중에는 0과 1에서 0인 것과 다르지 않기 때문이다. 일단 꿰어맞춰 놓을수만 있으면 0은 아니지 않냐고? 기본 가정에 Invertibility를 깔아놨는데, 데이터 구조상 순간적으로 Non-invertible 하게되는 순간 모델은 에러를 밷어낸다. 그걸 감안하지 않은 모델은 회사 서비스 전체를 망가뜨릴 수도 있다는 점에서 어쩌면 0보다 더 나쁜 것 같다.

그리고, 1, 2단계 질문에 대답 못하면 아예 Data Science 공부할 준비도 안 되었다고 생각한다. 그런데 기초도 모르면서 모델링 수업을 바로 들을 수 있도록 해달라니?

참고로, 저 위의 3단 질문은 필자가 실리콘밸리 어느 유명 IT회사의 Data Scientist 면접을 갔을 때 처음으로 받은 Technical 질문이다. 저걸 다 대답하고나니 Eigen-centrality와 Network 모델 이해도에 대한 질문도 받았고 (필자의 논문 포트폴리오 중에 Network model이 있다), 논문에서 Dimensionality reduction을 썼던 맥락을 Step-by-step으로 꼼꼼하게 (read 식은 땀이 흐를만큼 섬뜩하게), 직관과 수학을 섞어가면서 대답할 수 밖에 없는 질문을 던지더라. 그런 질문의 최소한 절반 정도는 대답할 수 있어야 모델링 수업을 바로 들을 수 있도록 해달라고 억지를 부리는게 상식과 개념있는 행동 아닐까?

짧은 경험에 비춰볼 때, 평소에 기초수학 개념을 응용해서 새로 배우는 지식과 연결짓는 경험은 자기 논문의 수학적인 엄밀성에 대한 수많은 고민을 했던 사람에게서 or 원래 스타일이 그런 사람이 업무에서도 자신의 스타일을 녹여내던 사람에게서나 찾아볼 수 있더라.

Machine Learning 교과서에 있는 주제 대부분에 대해서 위와 같은 수학 개념 연결짓기가 가능한 사람이 과연 몇 명이나 될까? 그런 직관적인 이해의 유무가 데이터 사이언스 업무의 퀄리티를 크게 바꾼다는 걸 알고 있으니까 유명 교육기관에서 석박 이상 교육 받으신 분들이 몽니 부리지 않고 수업에 찾아오는거다.