책 안 씁니다. 그만 연락하세요.

0
538

출판사들도 먹고 살아야하는지 거의 매주 1개 꼴로 출판사들에서 데이터 사이언스 관련된 책을 쓰자고 연락이 온다. 자기네들이 이미 많은 책을 출시했다고 하는데, 거의 대부분은 종이의 낭비라고 말해도 종이한테 미안할만큼의 단순한 코드 베껴놓은 책이거나, 장황하게 케이스 스터디라고 붙여놓은 어느 기업의 아주 단순하고 가벼운 사례들로만 300~400페이지를 채워놓은 책들 밖에 없더라.

계속 이야기하지만, 데이터 사이언스는 데이터 “분석”이 아니라, 수리통계학과 계산통계학을 이용한 “모델링” 작업이다. (이거 구분 못하고 메일 보내는 사람들은 Blacklist에 등록해야될 것 같다.)

딥러닝, 딥러닝 노래를 부르지만 사실은 Non-linear pattern matching하는 함수 형태를 수식으로 찾지않고 네트워크형 모델 (or 그래프형 모델, 수학과 Graph Theory 수업 참조)로 찾아내는 작업이고, 강화학습 (Reinforcement learning)은 사실상 학계에서 흔히 쓰이고 있는 Multi-period & Stochastic optimization 모델링 작업이다.

대학원 첫 학기 거시경제학 커리큘럼을 보면, Bellman equation으로 거시경제학의 주요 문제들, Growth model, Fiscal/Monetary policy 같은 주제들의 모델을 보면 미시경제학 시간에 배운 게임이론 스타일로 경제주체의 행동들을 정의하고 (수식으로 쓴다는 말이다), 각각의 경제 주체가 특정한 uncertainty가 있을 때 어떻게 대응하는지에 따라 경제 현상의 변화 양상을 예측하는 (수식 가득한) 문제들을 풀게된다. 계량경제학을 배우고나면 그런 모델들이 실제 데이터에 매칭되도록 Calibration을 하기도 하고, 데이터가 없는 연구주제로 넘어가면 시뮬레이션을 하는 것도 있다.

기계항공 박사 과정을 보니 똑같은 종류의 수식을 풀어나가는데 단지 주제가 비행기 이륙과 기류에 대한 대처, 엔진 효율성 같은 부분이었고, 천체 물리학을 하던 분은 같은 수학을 천체의 움직임을 설명하는데 쓰고 있었다. 요컨대, 학문하는 사람들이 전공에 관계없이 쓰고있는 수학 모델링 방법이라는 뜻이다.

이런 수학을 학부 과정도 제대로 이해 못한 사람들에게 “이 책만 보면 다 이해할 수 있습니다” 같은 과장된 광고를 넣어서 책팔이를 해라고 하면, 누군가는 좋아라하며 책 쓰기에 뛰어들지 모르겠는데, 또 다른 누군가는 양심의 가책을 느낄 수 밖에 없다.

그럼 그 수준의 수학을 안 쓰고 어떻게 책을 쓰면 안 되냐고? 만약 그런 수학을 안 써도 다 이해하고 응용할 수 있었다면 학계에서 진작에 Stochastic optimization을 버렸을 것이다.

1833년에 물리학자인 Hamilton이 Stochastic optimization 풀이법을 정의한 이래 Hamiltonian 문제를 풀어나가는 방법은 크게 바뀐적이 없다. 정해진 형태의 expected return sequence가 있으면 Bellman equation 형태를 약간 수정해 좀 더 쉽게 풀어낼 수 있을지 모르겠지만, 속칭 강화학습이라는 계산법이 다뤄야하는 주제에 필요한 수학은 미안하지만 학부 수학 범위 밖이다. 그저 코드만 카피할 생각이 아니라면 말이다.

(참고로, 저렇게 책 쓰자는 메일 쓰는 사람들 거의 대부분이 코드 없으면 비전문가용 책이라고 생각하더라. 그깟 코드 몇 줄이 뭐가 대수라고… 코드가 있고 없고에 관계없이, 수학의 깊이에 따라 전문가용, 비전문가용이 구분된다는 것 정도는 이 블로그 글들을 열심히 읽었으면 알텐데…)

대학원가면 그런 수학 모델링 가르쳐주는 정말 좋은 교재들이 전공별로 하나씩은 다 있다. 대학원 들어갈 수 있을만큼의 수학적인 내공을 쌓아서 그 입시의 문을 통과한 사람들이나 도전할 수 있는 수리통계학 모델링에 대한 지식을, 학부 수학도 모르는 사람에게 가르치는 책 쓰자는 연락 좀 그만 보내주셨으면 한다.

출판도 돈 벌이니까 잘 모르는 사람들 호구삼는 책을 내놓으시려는건 이해됩니다만, 사회 전체의 효용 증대라는 측면에서 봤을 때, 대중을 위한 머신러닝 학습 교재란 저자의 지적인 에너지 낭비인 동시에, 귀중한 종이의 낭비, 전기의 낭비일 뿐입니다.