[공지] 파비클래스 운영 방침 – 강의 철학

0
711

2020년 전면 개편 공지 시리즈

파비 클래스는 일반 학원처럼 장사하는 곳 아닙니다

파비 클래스 홈페이지 하단에 위와 같은 Section이 있다. “수준 낮은 질문은 받지 않습니다”*는 표현을 보고, 필자의 얼굴을 모르는 누군가가 어느 커피숍에서 “X나 재수없다 XX 이래놓고 무슨 장사하냐?” 라고 그러시던데, 맞다, 파비 클래스는 장사하는 곳 아니다. 주식회사 파비의 대표가 온라인 광고 타게팅 모델에 대한 지식으로 사업하는 중에 알바(?)하는 시간을 내서 운영하는 곳이 파비 클래스다. 그리고 학원 강사 취급받는게 모욕이라고 느껴져서 파비 클래스 운영 안 하고 싶어한다.

*’수준 낮은 질문은 받지 않습니다’는 문구는 ‘질문 1개당 5만 파비캐시입니다’ 라는 문구로 수정되었습니다. 관련 공지는 파비클래스 운영 방침 – Q&A 를 참고해주시기 바랍니다.

처음에는 강남역 일대의 학원들이 데이터 사이언스가 코딩이랑 같은거라고 설명하길래 어이가 없어서 시장을 교육시키기 위해 시작했고, 강의 듣고 관련 석사 프로그램 가신 분들에게 “대학 교수라는 사람들 실력이 이 정도 밖에 안 되는 줄 몰랐습니다”는 폭언을 듣고나서 접으려던 강의를 계속하고 있을 뿐이다.

Computational Science** 공부한 사람을 교수진으로 모아야하는데, 미국 대학들과 직장들은 그런 전공한 석박들을 채용하는데, 정작 우리나라 학교들은 공학 교수로 인재의 풀을 협소하게 잡고 있으니, 일선 교육 수준이 높아지려면 시간이 길게 걸릴 것이다. 관련 전공으로 박사 교육을 받았다고는 하나, 사기업 대표가 교수들 해야할 교육을 대신하고 있는 부분에 대한 알량한 변명으로 받아들이셔도 좋다.

(**Computational Science 는 컴퓨터 과학 아니다… 계산 과학이라고, 완전히 다른 학문이다. 링크 걸었으니 읽어보고 제발 당신 멋대로 읽고 이상하게 해석해서 이상한 질문하는 메일 좀 그만 써 주시면 좋겠다ㅠㅠ 질문을 하지 말던가, 돈 주고 배우던가….)

  • 코딩 수준의 지식이 필요한 사람들은 강남역 일대의 학원들을 찾아가고,
  • 수학 지식없이 그냥저냥한 강의만 듣겠다는 분들은 MOOC 수업들을 찾아가면 된다
  • 책도 많이 나와있다
  • 그 정도 지식은 Github에 코드도 널려있지 않나?

찾기 귀찮은 분들께 돈 몇 푼에 2-3달 고생할 내용을 1-2주에 요약정리해준다. “장사”하는 학원이라는게 다 그런거 아닌가?

인터넷에서 뒤져보면 될텐데, 왜 강의를 들으러가냐?

는 질문에

“(찾아다닐) 시간을 아껴줘서”

라고 대답할만한 내용들.

그런 학원 분들, 파비 클래스는 당신네들의 경쟁사가 아니니까 우리회사 검색하면 당신네 학원이 제일 먼저 뜨도록 키워드 광고하며 돈 버리지는 말자. 어차피 수강생 샘플을 놓고보면 두 그룹간 교집합이 공집합일 것이다. (그리고 스파이 좀 그만 보내자. 어차피 그 스파이도 강의 내용 이해 못 하고 노트만 베껴가던데? 노트 베끼면 복제 가능한 그런 강의 아니다.)

출판사 분들은 그런 시간 낭비 줄여주는 책 쓰자고 연락도 좀 그만주고.

 

파비 클래스의 강의 철학

파비 클래스의 데이터 사이언스 강의는 모델 하나하나가 어떤 수학적인 직관을 바탕으로 만들어졌다고 이해할 수 있는 토대를 쌓고, 그래서 실제 업무할 때 어떤 방식으로 풀어나가야할지 연결하는 방법을 설명한다. 그런 지적 창조의 과정을 데이터 모델링으로 풀어내고 싶은데, 한국의 주입식 교육이 씌운 굴레를 혼자서 못 벗어나는 분들만을 위한 강의, 아니 지적인 대화의 장(場)이다. 시간 아껴줄 수준의 장사하는 강의가 아니라, 모델링 훈련을 받은 사람이 머신러닝 모델들을 조금 먼저 배워서, 어떤 관점으로 소화해서 쓰고 있는지, 그래서 어떻게 쓰면 될지를 공유하는 토론의 장이다.

그래서 각 섹션별로 제목은 같을지 몰라도 정작 가르치는 내용은 외부에서 보던 강의와 많이 다르다.

예시1) Support Vector Machine (SVM)

예를 들어 Support Vector Machine같은 경우, Separating Hyperplane을 구성하기 위한 공간 개념을 Inequality Optimization대신 Duality로 어떻게 풀어내고 있고, 그 부분이 Regularization에 미치는 영향, Regularization 이전에 데이터 전처리에 대한 고려사항을 따진다. 개별 데이터가 아니라 0/1 그룹을 기준으로 Hyperplane을 찾는 모델의 수학적 특성이 Outlier와 Noise에 얼마나 취약한지를 인지하고나면 필요한 데이터 전처리가 뭔지 다른 관점을 갖게 되기 때문이다.

당장, 데이터에 Measurement Error가 있을 때 Logit에서는 Instrumental Variable (IV)로 해결되겠지만, SVM에서는 IV가 큰 의미가 없다고 하면 논리를 이해할 수 있는 분이 몇 명이나 될까?

또 Non-linear가 왜 필요한지, 그 때 쓰는 Kernel 함수는 어떤 mapping인지, 그래서 데이터 별로 합리적인 Kernel함수는 왜 달라지는지, 다른 Kernel 함수별로 적정 파라미터는 어떤 수학적 직관을 이용해 찾아가는게 맞는지, 이런 방식의 모델 복잡성이 계산 과학 모델링이라는 큰 산에서 어떤 class인지를 살핀다.

한국에서 강의 운영 중에 귀차니즘에 괜찮은 강의 추천하려고 Coursera, Udemy 등등 다양한 종류의 MOOC 강의, 강남역 일대의 다른 IT학원 수준 강의들을 살펴봤지만, 그 누구도 이렇게 가르치는 사람은 없었다. 학부 수준 코더 출신 공돌이 강사가 저런 수리통계학 내공이 있을리가 있나? (학교에서라도 그렇게 가르치고 있다고 들었으면 그만뒀을텐데…) 근데, SVM을 제대로 쓰려면 위의 지식 정도는 갖추고 있어야 된다. 왜? 업무를 하다보면 이런 수학적 직관에 대한 내공 유무가 모델링의 품격을 완전히 바꾸기 때문이다.

“학부생이 한다는게 다 그렇지 뭐”

라는 말이 나오는 이유는 뭘까?

대학원 학위가 없어서가 아니라, 저런 내공이 없는채로 SVM을 단순히 갖다 쓰고만 있기 때문이지 않을까?

예시2) Reinforcement Learning – Experience Replay

Reinforcement Learning 공부하면서 Experience Replay를 보고 난 다음에 이걸 Serial Correlation 있을 때 Instrumental Variable 쓰는 것과 같은 맥락이라는 걸 이해하고, 다른 Endogeneity 있는 경우에도 RL을 적용하려면 비슷하게 IV 쓰는 아이디어로 모델을 재구성하겠다는 관점, 그런 관점을 이해하도록 블록을 하나하나 쌓아올라가는 강의는 단순히 시간을 아껴주는 강의인가?

고급통계학 훈련이 잘 된 사람들을 제외하고, Experience Replay를 처음보고 IV라고 이해하는 사람이 과연 몇 명이나 될까? RL 잘 알고 있다는 사람들, 그것도 머신러닝 스터디한다는 수학 제로베이스의 개발자들 그룹이 아니라 (공대) 박사들 연구실에서 100명을 불러와도 5명이 안 될 것이라고 꽤나 장담할 수 있다. 그 연구실이 학부-석사-박사 내내 한국에서 공돌이로 살았던 사람들로 구성되어 있다면.

그런데, 그런 관점을 들으면 “아~ 이렇게 쓰는구나!”고 이해할 수 있는 수리통계학 훈련이 된 사람들, 그걸 꿈꾸는 사람들, 그런 지식을 가진 사람들이 진짜 데이터 사이언티스트라는 걸 공감하는 사람들을 타겟하는 강의가 “시간을 아껴주는 강의”, “장사하는 강의”와 동급으로 폄하당하면 달리 할 말이 없다. 장삿속이 가득하면 이렇게 소수 정예를 타겟으로하는 강의는 하지 않는다. 차라리 질 낮은 정부 프로젝트를 몇 개 하는게 더 돈이 될 것이다.

그런 지적 대화를 이해할 수 있는 수준이 안 되면 피차간 시간 낭비를 안 하는 선택을 하시는게 어떨까? 시간과 노력과 공과 돈을 들여 배우지 않으면, 그런 내공을 갖추고 질문하지 않으면 그 메일을 받은 사람이 자기 정신건강을 위해서 바로 삭제해버릴텐데?

파비클래스는 일반 코딩 학원, 쉬운 내용으로 학생 모으는 학원이 아니라, 그런 수학적 직관을 응용하는 내공이 필요한 분, 갖고 싶은 분들에게만 열려있는 공간이다.

참고로, 이번 공지 시리즈 포스팅의 영문 제목은 “Running Pabii Class Noble” 이다.