데이터 사이언스 대학 동아리 지원금 쏩니다

1773

이전 글 [AI사기꾼 퇴출운동을 시작합니다]라는 글에서 한번 밝혔듯이 2학기부터 데이터 사이언스 동아리에 재정적인 지원 및 출강을 나가도록 하겠습니다.

요구 조건은 이전과 같습니다.

글 하단의 2문제에 대한 솔루션을 만들어서 admin.pabiiclass@pabii.co.kr 로 메일을 보내주시면, 답안의 논리 구조를 보고 (정답인지 여부가 아니라) 1차 합/불을 결정하겠습니다.

2차 면접은 동아리의 대표, 부대표 등등 핵심이신 분들 일부에게 하단 2문제와 유사한 수준의 문제를 드리고 저희 사무실에서 2시간 정도 문제를 풀 수 있는 시간을 드리겠습니다.

어차피 수리통계학 기반이 없으면 남의 코드 베끼기에 불과한 지식인 만큼, 아래의 Estimation Theory 중 학부4학년~석사1학년 정도 수준의 문제를 풀 수 있는 정도의 능력이 없다면 저희 회사 데이터 사이언스 인턴도 못 할 것이라고 생각합니다. 당연한 말이지만 Python 코드나 돌려보는 수준 낮은 동아리에는 지원하지 않습니다.

다른 한편으로는 이 정도 문제를 풀 수 있는 학생 그룹이 한국에 많아봐야 200명이 안 될 것 같아서, 지식 수준 이외에 다른 요구조건을 달지 않겠습니다.

신생 동아리가 인원이 없으면 뽑는데 도움을 주고, 배움이 부족한데 학교 교수님들께 도움을 못 받고 있으면 제가 출강을 나가겠습니다. 수학 기반 지식 없는 공부를 해놓고는 전문가 행세를 한다는 이유로 예전엔 경영학과를, 요즘엔 공대를 싫어합니다만, 전공에 대한 제 호불호에 관계없이 아래 문제 수준를 쉽게 풀어낼 수 있는 인재가 모여있는 동아리라면 무조건 지원합니다.

**주의: 뭘 해봤다, Python을 잘한다, PyTorch 돌리는 공부한다, 무슨 대회 수상경력 있다 이런거 보내지 마세요. 특히 Kaggle 몇 등이다 이런거… 진심 보내지 마세요. 아무런 관심 없습니다. 아니, 오히려 감점 대상입니다. [Kaggle등수는 실력의 보증수표인가?] 그건 영어 잘하냐고 물었는데 TOEIC 990점 성적표 내는거에요. TOEIC, TOPIK 같은 시험 점수는 대기업 인사팀 같은 2-3류 인재 걸러내야되는 조직만 봅니다ㅋ 저희 파비에는 그냥 아래 문제 풀어서 내세요.

(Note: 저희가 지원금 달라는건 아닙니다ㅋ Source: 9gag.com)

경제학과를 경영학과랑 비슷한 전공으로 착각하는 비전공자, 공대가 수학 많이 하는 줄 착각하는 외부인들은 믿으실 수 없겠지만 아래 2문제는 어느 외국 학교 석사 1학년 계량경제학 과목 시험 문제입니다. (통계학도 아니고 경제학 대학원 Entry 레벨이라는 뜻입니다.)

1번은 Instrumental Variable을 쓰는데 있어 발생할만한 문제들이 어떤 경우에 수학통계학적으로 해결이 되는지, 해당 조건을 만족시키기 위해 필요한 CLT, LLN 같은 기초적인 수리통계학 정리들이 어떻게 활용되는지를 따지는 문제입니다. Moments condition을 여러개 모아서 Generalized Method of Moments (GMM)을 하실 수 있으면 가장 이상적이겠지만, 흉내만 내도 학부 수준이면 타협하겠습니다. 그리고, Semiparametric을 따지는 마지막 부분에서는 Semiparametric 문제를 푸는 것에 더해서, Non-parametric 모델 중 하나인 Neural Network를, 아니 일반적인 Graph 모델들을 Functional shape 으로 바꿀 때 발생하는 문제에 대한 직관적인 논의를 하실 수 있으면 저는 만점을 주겠습니다.

2번은 Measurement Error, Latent variable, Indicator (Binary 니까, Logit 스타일의 approximation이 가능한 값) 같은 머신러닝 하겠다는 사람들에게 필수적인 통계학 지식들이 모두 셋팅에 반영되어 있습니다. Joint normality 같은건 문제를 쉽게 풀어내기 위한 가정인데, 이걸 이용해서 (d), (e)를 풀고 Neural Net계산이 과연 이런 계산을 대체할 수 있을까, 대체한다면 어떤 조건이 필요할까 논의할 수 있으면 역시 만점을 주겠습니다.

훈련이 안 된 분에게는 이게 왜 머신러닝과 연결이 있는지 황당한 문제일 것이고, 훈련이 잘 된 분들은 제 의도를 쉽게 파악하고 1문제당 1시간 남짓 답안지를 쓰는 시간이 필요할 것이라고 생각합니다.

제가 학부를 대충 공부한데다 직장 생활하고 머리가 푹 썩은 상태로 유학가서 석사 1학년 때 풀었던 문제와 비슷한 난이도로 보입니다. 이런 수준의 문제는 풀 수 있어야 데이터 사이언티스트로 성장할 수 있는 지적 훈련을 갖춘 분이라고 생각합니다.

저는 잘 준비된 분, 열심히 공부하는 분을 도와드리고 싶습니다.


예전에 블로그에 댓글을 허용해줬던 시절, 코드로 뭐라도 좀 해보면 그게 어디냐, 자꾸 무시하지 마라는 증권사에서 머신러닝 한다는 어느 공대 석사 출신 분의 댓글이 기억나는군요. 첨부한 문제들을 보시면 알겠지만, 대학원 Entry 레벨 문제인데 이걸 대충 코드 몇 줄 베껴서 돌려본다고 될 수준이 아닙니다. 0(못 함)아니면 1(제대로 함)인 비지니스에서 0.1, 0.2를 했다고 박수쳐줘야되는 지식이 아니에요. 0.99인 모델만 써도 문제가 생길 때 대응하는 비용이 어마어마할텐데, 코드쳐서 0.1, 0.2 할 수 있으면 발전하는거 아니냐고 하던 분…..