수알못을 위한 데이터 사이언스

1056

3년 남짓 파비클래스를 운영하면서 가장 많은 의구심을 받았던 주제는

왜 데이터 사이언스가 코딩이 아니라 수학인가?

라는 지극히 한국적이고 낯부끄러운 질문이었고, 가장 많은 요청을 받은 강의는

수학과 코딩을 몰라도 배울 수 있는 수업

이었다.

2018년 4월에 딱 한번 Excel로 해 볼 수 있는 데이터 사이언스 강의를 열었던 적이 있다.

12명이 왔는데, 대부분이 인사 담당자, 컨설턴트 같은 사람이었고, 배경지식 평균 레벨은 경영학과 수준이었던 걸로 기억한다. (In other words, 중~고졸 수준의 수학 지식)

평소보다 더 많은 손짓, 발짓, 교보재를 동원해서 3시간x3일=9시간 가르쳤는데, 기억나는 사례 2 cases만 정리해보자.

Case 1. 어느 컨설턴트

나이 30이 안 된, 아직은 어린티가 나는 여자 컨설턴트였는데, 집단 A, B에서 얻은 평균치 값 두 개를 놓고 이걸로 머신러닝을 할 수 있지 않냐고 물어보더라. 혹시 분산이라도 알고 있냐, Raw data는 있냐고 물어봤더니 없단다. 데이터 사이언스는 없는 데이터를 만들어내는 “기술”아니냐고 묻더라.

고객사에는 더 큰 바보가 있을테니 아마 저런 컨설턴트를 고용하고 있겠지.

컨설팅은 학부 시절 한 달 인턴을 했던 이후 반평생 경멸의 대상이었다.

Case 2. 어느 인사과 담당자

수업을 제일 열심히 들었던 분이었다. 각 인재별 데이터를 정리해 놓은 데이터가 있다고 하길래, Categorical variable들을 놓고 이건 그 자체로 Regression을 하거나, 뭔가 다른 목적이 있다면 좀 다른 데이터 전처리 법을 써야된다고 알려줬다. Categorical variable이 들어갈 때 상수항을 없애야한다는 개념마저도 이해하기 힘든 분께 Homogeneity indexing 같은 데이터 전처리를 시키는게 너무 무리한 요구가 아닐까 싶어서

이건 외주 서비스 부탁하세요. 경영학과 학부는 커녕 통계학과도 학부 수준으로는 못하는 일이에요

라고 말씀드렸는데, 아쉬워하는 표정이 아직도 기억에 선하다.

그동안 이런 종류 수업들을 몇 개나 찾아다녔는데 Python 코드만 몇 줄 치고 끝나서 아쉬웠다가, 제대로 개념을 잡아주는 수업을 처음 만났다면서, 드디어 뭘 어떻게 해야 삽을 뜰 수 있는지 이해를 하게 됐는데 삽을 뜰 수 있는 능력이 없다는 사실을 절감했다고 하시더라.

아마 그 9시간 남짓의 수업을 100% 이해하셨으면 큰 마음먹고 삽을 떠 볼만한 일이었을텐데, 가르치는 사람의 시간이 배우는 사람에게 온전히 전달되는 경우가 얼마나 될까? 그 전에 아마 학부시절 경영학과에서 한번도 배웠을만한 내용이 아니니 나이들어 9시간 배운 내용을 적용한다는게 언감생심이었을거다.

Excel로 할 수 있는 데이터 사이언스

강의 내용은 (적어도 내 눈에는) 심플하다. 수학 & 통계학 수업에서 가르치는 샘플링, 테스트, 데이터 처리를 섞고, Regression 계열의 모델들, PCA, 2SLS 같은 데이터 전처리를 Excel로 처리할 수 있는 테크닉을 가르친다.

물론 파비클래스 강의가 흔히 그렇듯이 키워드만 보면 다 아는 내용인데 정작 뚜껑 열고보면 수학 기본개념 없이 수박 겉핥기로 이해한 분들에게는 충격의 연속이기는 했을 것이다. 수학을 안 썼다고 해도 개념 자체는 모조리 수학이니까.

어쨌건 대단한 지식이 아니라서 간단하게 Visual Basic 프로그램을 짜 놓은 덕분에 개념만 이해하면 마우스 클릭 몇 번으로 PCA 돌리고 2SLS 돌려서 데이터 전처리한 결과값을 자기가 원하는 작업에 쓸 수 있도록 해 놨다.

아, 심심해서 Sankey랑 Sunburst 같은 그래프 그리는 예제도 몇 개 더 추가했었네. 믿을 수 없겠지만 Excel로 다 가능하다. (위의 그래프 참조)

기초 통계학만 알면되고, Python 코드 따라치기만 하면 된다는 쓰레기 같은 수업들 대신, 평소에 많이 쓸 Excel로 기초 수학/통계학 개념들 적용해보라고 만든 수업인데, 호응이 별로 없더라 ㅋㅋ

당시에 외부 강의 기관에서 요청해서 고교시절 이후로 거의 건드리지 않았던 Visual Basic도 다시 공부해가며 한참을 준비했던 강의였건만, 수강생이 별로 없었던 탓에 별로 돈을 못 벌어드려서 미안했었다.

 

강의 계획

계속 요청이 꾸준히 있었기 때문에 이번 9월에 한번 해 볼까 생각중인데, 관심 있으신 분은 아래의 양식으로 이메일을 보내주시면 된다. 8월 3일에 강의 진행 여부에 대한 확정 공지가 있을 예정이다.

수신처: admin.pabiiclass@pabii.co.kr

  • 이름: 홍길동
  • 학부전공: 경영학
  • 업무: 인사관리
  • 목적: 인사평가에 데이터 사이언스 도입
  • 기타요청사항

 

아, 본인이 혹시 수알못이지만 코딩만 “잘”하는 사람이어도 위의 수업을 듣는 걸 추천한다. 어차피 수학 모르면 문맹인건 똑같거든.


2020년 7월 22일 추가

파비클래스의 피드 글에 쓴대로, Python으로 코드 몇 줄 쳐보는 어느 외부 강의에 속으셨던 분의 분노가 담긴 강의 신청 메일을 받고 분노^2이 된 탓에 위의 강의는 무조건 개설합니다. 일정과 강의 내용을 확정해서 조만간 공지하도록 하겠습니다.

그동안 강의를 유지했던 이유가 그런 사기꾼들에 대한 참을 수 없는 분노였는데, 3년이나 제가 노력을 쏟아부어 파비블로그/파비클래스를 운영했음에도 불구하고 여전히 그런 사기꾼이 퇴출되지 않고 있다는 사실에 너무너무 화가 납니다.


2020년 7월 24일 추가

지난 23일까지 총 8명의 예비신청자가 있었습니다. 구체적인 강의안 및 상세 일정을 8월 3일-7일 주간에 업데이트 하도록 하겠습니다. 여러분의 지식 습득과 AI시장 사기꾼 퇴출에 조금이나마 도움이 되었으면 합니다.

미리 예습하시는데 도움이 되는 책을 한 권 추천합니다.

교과서 링크: 알라딘US

K-MOOC 강의 링크: 경제통계학1부 – 그림과 수치를 이용한 자료의 정리

서울대 경제학부의 류근관 교수님 강의와 교과서입니다. 한국에서…가 아니라 전세계에서 통계학을 가장 직관적으로 가르치시는 분 10명 안에 들어갈 거라고 생각합니다. 학부시절 수학을 포기하고 고시치던 친구들, 경영학과 친구들이 듣던 통계학 수업이기도 합니다.