데이터 사이언스 커리어의 이정표

478

어느 연구소에서 일하시는 분이 보내주신 응원(?) 글입니다.

응원 내용과는 별개로 AI를 맹목적으로 믿고, 무조건 딥러닝만 배우면 된다고 착각하는 분들께 좋은 경험 사례라고 생각되어서 개인 정보를 제외하고, 개인을 알아볼 수 없는 내용을 담아 공개합니다.


(중략)

최근 3-4년간 업무에서 발전할 수 있었던 계기를 생각해보니 파비블로그 지분이 상당히 컸습니다.
대표님께 감사인사를 드리는게 도리인거 같아 메일을 드립니다.

감사 인사에 앞서서.. 예전에 메일을 한번 드린 적이 있었고 답해주시며 YYY 관련 소스를 제공해드리면 글을 써주신다고 하셨는데
아주 솔직히, 어디서부터 정리해서 드릴지 엄두가 안나서 귀찮은 마음 절반과 스스로의 전문성에 부끄러운 마음 절반으로 답 메일을 못드렸습니다. 진심으로 사과드립니다.
후에 대표님께서 저희분야에 대해 글을 올리실 때마다 괜히 제가 더 죄송한 마음이 들더라구요.

AI가 한참 유행인 4년전, 저도 AI에 발을 담구어볼까 하다 대표님의 블로그 글을 읽고 데이터 분석으로 길을 돌렸습니다.
데이터과학과 데이터분석이 다르다는 것도 파비 블로그를 통해 배웠고 각각이 요구하는 배경지식이 어떤 것인지도 파비 블로그를 통해 배웠습니다.

(훗날 회사에서 꾸린 AI YYY 멤버에 포함되어 신약개발용 XXXXXX을 써볼 수 있었습니다. XXXXXX의 퀄리티는 아주 낮았고, AI YYY는 흐지부지 끝났습니다.
계속 AI에 뜻을 둔 “XX” 전공 관리자들이 프로젝트를 진행하고 있지만 파비 블로그 덕분에 저는 현실을 파악하고 탈출할 수 있었습니다.)

“훌륭한”은 포기하고 “올바른” 데이터 분석을 수행하기 위해서 제 분야의 도메인 지식을 저장해나가며 실험에서 생성되는 데이터들을 제대로 분석하는 것에 힘썼습니다.
파비블로그의 경제모델 글을 보고 수학적 모델로 YYY 데이터를 분석하는 교과서를 찾아 읽었고 논문들을 더듬더듬 읽으며 걷다보니 명쾌한 무언가의 느낌이 생기더군요.
무지한 시절 수학 모델로 생물학적 결과값을 분석, 예측하는것에 막연한 거부감이 있었는데 실제로 해보니 정말 큰 도움이 되었습니다.

미적분도 다 까먹은 수포자였지만 데이터 분석에 요구되는 수학은 높은 수준이 아니었기에 천천히 따라갈 수 있었구요.
회사에 있으니 상용 소프트웨어를 최대한 활용해서 괜스레 코딩배운다고 시간 까먹을 필요도 없었습니다.
지금도 코딩은 R을 가지고 필요한 부분만 채워나가는 수준으로 배워가며 쓰고 있습니다. 실험 위주다 보니 아주 큰 데이터도 쓰지 않고, 시뮬레이션도 할 일이 많지 않더군요.

남들보다 더 많은 데이터 패턴을 인지하게 되고 관용어처럼 쓰이는 변수들의 도출 과정을 알게 되니 고찰의 깊이가 증가되었고 업무적으로 판단하는 범위가 넓어졌습니다.
덕분에 회사에서 더 중요한 업무들에 참여할 수 있게 되었고 대학원 졸업 이후 무엇인가를 알아 나가고 발전해 나가는 재미를 얻을 수 있다는게 굉장히 보람있는 요즘입니다.

성인이 된 후 가장 힘들었던 건 이정표가 없다는 것이었습니다. 이 방향이 맞는지 아닌지, 이 방향의 끝에 무엇이 있을지 안다면 불확실성은 배제되고 단지 “노력”만 하면 되니까요.
파비블로그는 저에게 중요한 이정표가 되었습니다. 커리어 3년차에 제가 발견한 이정표는 많은 시행착오를 줄이며 4년간 발전할 수 있게끔 해주었습니다.
만약 대표님께서 블로그를 운영하지 않으셨다면 파이썬으로 코드만 치다가 도메인지식까지 날려먹는 허송세월 4년이 발생했을 것입니다. 정말 무섭네요….

(중략)


부족한 파비블로그 글이 커리어에 큰 도움이 되었다니 반갑기도 하고, 남의 커리어에 이렇게 영향을 줬다는 사실이 무서워지기도 합니다만, 필요한 정보를 전달하고 있다는 확신을 갖고 있는만큼, 부족한 글이나마 널리 퍼졌으면 합니다.

많은 분들께 이정표가 될만한 내용이지만, 저 위의 모 외국 회사 AI 알고리즘의 퀄리티가 높지 않다는 경험치에 대해서 한 마디 정도는 반박을 해보고 싶습니다. 결국 모델이 제대로 먹히려면 데이터 전처리가 잘 되어야 할텐데, 어떤 YYY 데이터를 입력하셨는지는 모르겠지만, 아마도 데이터 전처리가 엉망으로 되었던 탓이었을 확률이 높습니다. 언어였다면 한국어 전처리의 문제였을 것이고, YYY였다면 데이터 정리가 문제였을 것이고, 이미지였다면 영상 처리 값이 문제였을 것이라는 변명을 달겠습니다.

아직은 시장이 답답하고 멍청한 상태입니다만, 언젠가는 덮어놓고 Neural Network 라는 Non-parametric 모델을 쓰는게 만능 솔루션이 아니라, NN은 그냥 하나의 계산 방식에 불과하고, 데이터 전처리부터 모델링까지 수 많은 연구 작업이 필요하다는 걸 일반인들도 인식하게 되는 날이 오리라 믿습니다.

사실 Excel로 하는 데이터 사이언스만 알아도 충분하신 분이 얼마나 많을텐데, 아니 코드만 칠줄 알지 사실은 Excel로 하는 데이터 사이언스에서 다루는 수준의 기초 수학도 못 따라가시는 분들이 얼마나 많을텐데, 왜들 무모한 자신감을 가지는지…. 에효

Previous article[타겟 마케팅] Are you on Google?
Next article강화학습 만능주의 탈출
제 이름은 파비가 아닙니다. 파비는 회사이름입니다. 파비는 온라인 광고 타게팅에 머신러닝이라고 쓰고 계산통계학으로 읽는 지식을 적용하는 스타트업입니다. 학부 고학년 이상 수준의 수학, 통계학 고민이 들어간 질문 이외의 질문은 파비캐시 앱 안의 Ask파비 섹션에 남겨주시면 앱 유저 중 누군가가 답변을 남겨드릴겁니다.