빅데이터 분석? 현실은 예쁜 그래프 그리기

3363

데이터 사이언스 교육 관련된 컨텐츠들을 살펴보면, Python 코드 몇 줄로 TensorFlow를 적용하는 방법이라는 종류의 강의가 있고, 빅데이터를 불러와서 데이터 “분석”을 한다는 류의 강의들도 있다.

줄곧 주장해왔듯이, 첫번째 스타일의 강의는 개발용 코드 베끼기이고, 두번째 스타일은 경영학과 애들이 기초 학문 지식없이 그래프 그리던 작업의 연장 선상에 불과하다.

(*파비클래스를 거쳐가신 분들은 이미 다 아시겠지만, 데이터 사이언스는 대학원 이상의 고급 수리통계학 지식에 기반한 계산통계학의 한 분파라는 정의를 굳이 다시 강조할 필요는 없다고 생각하고 글을 진행한다.)

그 중 “빅데이터 강의”라고 불리는 강의들을 보면 학부시절 우연히 스쳐갔던 소비자 행동론에 대한 경영학과 마케팅 관련 수업이나 생활과학대학의 소비자학과 (영문명칭 Consumer Science) 수업들이 떠오른다. 소속만 다를 뿐, 학문적 깊이없이 1차원적인 그래프 그려서 결론을 얻는 방식이 거의 동일하기 때문이다.

참고로 두 전공은 전공 수업 일부를 공유한다.

어느 공학과 교수님의 이메일

몇 달 전 어느 공학과 교수님께 메일을 하나 받았다. (원 글: 데이터 사이언스 학원말고 대학원을 가라)

(중략)… 블로그 내용을 보니 한 20여년 전이나 지금이나 별반 다르지 않은 것 같아서 세월의 차이가 느껴지지 않습니다…

(중략)… 여기 고객사로 있는 기업에서 예전에 있었던 일이 생각나더군요. 한참 데이터웨어하우스 붐이 불어 개발하던 와중에 XX가격 의사결정모형 자문을 해 주었는데, 학부출신 한 명이 어디서 배웠는지 모르나 신경망으로 데이터 피팅하니 적합도가 90%가 넘으니 이걸 사용해야 하는 것 아니냐고 집요하게 우겨서 그냥 웃어 넘겼습니다. 피팅이 잘 된다고 예측이 잘 되는 것도 아니고, 설명 이론이나 모형도 없으니 가격의사결정에도 쓰기도 마땅하지 않고. 그래서 함부로 신경망 같은 것을 가르치는게 아니구나 하는….

당시에 잠시 과학원에서 계량마케팅을 박사과정을 대상으로 강의한 적이 있는데, 다들 배경지식이 없어 힘들어하고, 수학이니 경제학이니 통계학이니 하는건 어려우니 소비자 행동쪽만 학생들이 선호하고… (중략)

예전의 신경망 일도 있어 제가 강의하는 통계학 관련 과목에서는 차이점이나 설명하고 자세히 언급하지 않았는데, 새로 강의를 개설하려다 보니 하지 않을 수 없겠더군요. (중략) 잘못 가르치면 남용하거나 copy & paste나 하게 만들지 않을까하는 우려가 생깁니다. (중략)

원 글을 썼던 당시에 위의 메일 내용에서 뽑아냈던 포인트는 아래의 3가지다.

  • 박사과정 생들에게도 수학, 통계학 기반의 모델링 강의는 쉽지 않다
  • 20여년 전이나 지금이나 크게 다르지 않은 상황이다
  • 신경망 모델에 대한 맹신을 막기 위해 학교 교육이 변화하고 있다

이번 글에서 포인트로 삼고 싶은 맥락은

수학, 통계학, 경제학은 어려우니까 피하고, 소비자 행동 쪽만 학생들이 선호하고…

라는 부분이다.

소비자 행동 쪽만 학생들이 선호한다는 저 표현은 아마 요즘 “문과도 데이터 분석가 될 수 있다”는 류의 광고로 학생들을 끌어모으는 “데이터 분석 1개월 과정!” 과 비슷한 타이틀의 강의들이 난립하는 상황과 같은 현상으로 보인다. 수학, 통계학 없이 가르칠 수 있으니 학생을 많이 모을 수 있고, 돈 벌이에 용이한 강의일테니까.

 

빅데이터 분석? – 비정량적인 방법 수준

지금까지 수십차례 강조한대로, 빅데이터 분석이라고 해 놓았지만, 사실은 사회과학의 비정량적인 방법으로 얻어내던 결론을 그래프로 표현하는 것에 불과한 상황이다.

그게 과연 학문적인 방법일까? 엄밀한 3단 논법에 따른 논증을 요구하는 철학논리의 끝판왕에서 출발했다면 충분히 고개를 숙이고 학문적인 접근법이라고 인정하겠지만, 한국의 현실에서 만나볼 수 있는 “빅데이터 분석” 강의들은 학문의 가장 기초적인 도구인 수학, 통계학, 논리학을 완전히 배제하고, 눈에 화려해보이는 그래프 몇 개를 그리는 작업, 그걸 위해 어떤 그래픽 라이브러리와 데이터처리 라이브러리를 이용하는지에만 초점이 맞춰져있다.

NA인 데이터가 몇 개 있어서 imbalance가 생기면 어떻게 하는가? 라는 간단한 질문을 던져보자. R에 Mice라는 패키지가 있어서, 그걸 이용했다고 말하면 정확한 대답일까? 글쎄다. 왜 NA가 생겼는지, 무의미하기 때문에 or 예외적으로 1-2번만 있었던 사건이기 때문에 제거해도 되는지, Mice의 어떤 옵션이 해당 상황에 합리적인 선택인지를 결정하려고하면 당장 많은 수학, 통계학 지식과 테스트가 필요하다. Random event였는지, Non-random event였는지, 다른 변수들의 값과 어떤 관계를 가지는지 등등에 대한 답 없이 단순히 “어떤 패키지 써 보니 잘 되더라”며 화려해보이는 그래프를 놓고, 그럴듯하게 설명을 달아놓는 일이 바로 IT업계에서 “빅데이터 분석”이라고 불리는 일들이다.

저 위의 교수님 표현에 따르면, 수학, 통계학, 경제학은 어려우니까 배우기 싫고, 그런 지식을 알고 있는 직원이 업무 결과물을 갖고와도 다들 배경지식이 없으니 힘들어하고 무슨 말인지 모르니까 “그래서 결론이 뭐야?”라는 말만 하고 있지 않을까?

 

모델을 만드는 사람들의 사고방식

모델을 만드는 사람들은 언제나 입력값과 출력값의 관계를 표준화하기 위해 노력한다. 현상을 보고 정리되는 내용을 수식으로 간략화하고, 그 수식이 제대로 설명되는지 확인할 수 있는 데이터를 찾아서 자신의 가설을 검증하는 단계를 거친다.

인공지능 시대에는 그런건 할 필요없잖아요?

너 (수학 모르는) 공돌이지? 단순한 Non-parametric 알고리즘, Pattern-matching 알고리즘 갖고와서 그런 억지 부리지 마라.

파비클래스 수업 내내 강조한다. 모델을 놓고 검증하는 작업이 아니라, 데이터를 놓고 모델을 만들어야하는 작업을 하고 있으면 일단 당신의 데이터로 만들 수 있는 모델이 있는지 검증부터 하라고. Q-Q plot 그려서 랜덤 분포함수를 따르는지 아닌지 확인하는 이유가 바로 이거다.

계산비용 많이 들어가는 NN에 목숨걸지말고, 합리적으로 데이터 가공할 수 있도록 2SLS로 노이즈 팩터도 제거하고, Decision Tree로 변수별 구간 획정도 하고, PCA로 Multi-collinearity 제거된 Vector space도 확인해보고 등등, 데이터에 기본적으로 해 줄 수 있는 작업들은 일단 해 놓고 시작해라고 설명해준다.

왜? 이게 적어도 나한텐 상식적인 접근이니까. 이걸 안 하고 데이터로 모델 만들었다고 하면 공격할 수 있는 리스트가 최소한 100가지는 나올 것 같으니까.

예쁘장한 그래프 몇 개 만들었다고 ‘빅데이터 분석’을 한게 아니다. 답답한 소리들 제발 좀 그만하자.

(Source: https://www.crosswordology.com/disparaging-term.html)

나가며 – 학문 vs. 기술

누가 파비를 “기술(Tech)”회사라고 하던데, 의도는 고맙지만 매우 듣기 불편한 명칭이 되어버렸다. 한국 땅에서 기술(Tech)이라는 단어는 “과학적 발전“를 의미하는 용어가 아니라 구글링해서 찾아 “기능적 구현“을 하는 단어로 전락했기 때문이다. 다른 공학도들의 세계는 모르겠지만, 최소한 IT업계에서는 그렇게 보인다. 아이러니하게도 IT는 Information “Technology”의 약자다. 시장에서의 느낌은 Information “Technique”같다. Technique – 기능, 재주, 솜씨. 그런 맥락이라면 “Tech”회사라는 표현은 적어도 파비에는 멸칭(Disparaging Term)이라고 생각한다. 우리는 단순하게 구글링해서 찾은걸 구현하는 회사가 아니다.

파비는 “과학(Science)”회사다. 회사 운영을 위해 많은 Technique 전문 엔지니어들이 필요한 것은 사실이지만, 회사의 핵심 키워드는 여전히 Data “Science”다. 아무도 가지 않은 길, 아무도 시도하지 않은 도전을 학습 능력으로 뚫어나가고 있기 때문이다. 데이터 사이언스 학회에 가면 항상 언급되는

Data Science의 키워드는 Data가 아니라 “Science”다.

우리는 수학, 통계학에 기반한 Computational “Science”를 응용해서 다른 회사와의 격차를 만들어낸다. 학문적 깊이 없이 화려함만 갖춘 “분석”(이라고 쓰고 예쁜 그래프 그리는)을 하는 회사가 아니라, 특정 목표를 위해 어떤 수리통계학 모델과 데이터 처리가 필요하고, 합리적인 “데이터 모델링”을 위해서 어떤 종류의 데이터가 필요하고, 어떤 데이터로 대체할 수 있고, 그런 모델을 어떻게 테스트하는지 고민한다. 우리에게는 멸칭이 자랑스러운 훈장인 일반 IT회사들과의 차별화를 위해서 일부러 “AI회사”, “빅데이터 회사”라는 명칭을 포기하고, Data “Science”회사라고 타이틀을 달았다.

IT업계 짬밥 15년을 넘긴 우리 개발팀장님이 그러시더라.

저희는 성공하면 한국 레벨이 아니라 아시아에서도 손꼽히는 기술력을 가진, 글로벌급 기술 회사가 될 거라고 생각하는데, 대표님은 그런거보고 창업하신거 아닌가요?

아~ 빅데이터 회사인가보네요?” 라는 그 표현이 멸칭이라고 느껴지지 않도록 시장 수준이 빠르게 업그레이드 됐으면 좋겠다.

Previous articleAI스타트업의 흔한 테크트리
Next article인공지능? 학교 교육의 변화
제 이름은 파비가 아닙니다. 파비는 회사이름입니다. 파비는 온라인 광고 타게팅에 머신러닝이라고 쓰고 계산통계학으로 읽는 지식을 적용하는 스타트업입니다. 학부 고학년 이상 수준의 수학, 통계학 고민이 들어간 질문 이외의 질문은 파비캐시 앱 안의 Ask파비 섹션에 남겨주시면 앱 유저 중 누군가가 답변을 남겨드릴겁니다.