[기획] AI가 노벨경제학상을 탈 수 있을까? – 반박

2906

파비블로그가 데이터 사이언스 랩이라는 이름의 인터넷 언론사로 정식 인가를 받았습니다. 이제 글의 내용에 직접적으로 특정 회사를 언급해도 법적인 보호를 받는만큼, 가짜 AI를 진짜라고 주장하는 회사들에게 본격적으로 칼보다 무서운 펜을 휘두를 생각입니다. 여름에 이런 약속을 하고 그동안 난관이 참 많았는데, 우선 인터넷 언론사 인가부터 시작합낟. 앞으로 가짜AI회사들이 회사 홍보를 한 자료들을 인터넷 상에서 발견하시면 admin.pabiinews@pabii.co.kr 로 제보해주시기 바랍니다. [기획] 타이틀로 조목조목 반박하는 내용을 공유하도록 하겠습니다.


회사 가치가 거의 2천억에 육박하는 국내의 로보 어드바이저 회사가 하나 있다. 글 쓰는 시점 2시간 전에 그 회사 CEO가 현재 특허 진행 중이라는 회사의 핵심 알고리즘 하나를 브런치 글로 공개했는데, 이 회사의 다른 비지니스는 모르겠지만 적어도 저 알고리즘이 언론 플레이를 했던 AI가 모든 변수를 찾아주는 알고리즘은 아니라는 사실을 지적한다. (참고로 본 기사의 모든 썸네일 출처는 위의 브런치 글이다. 원 글에 언급된 논문 1개는 직접 가져왔음을 밝힌다.)

1. 3-Factor-Model의 학문적 위치

일단, Fama-French의 3-Factor-Model에 대한 학계 내부의 평가는 매우 냉혹하다. 경제학계 외부에서 생각하는 것처럼 노벨경제학상을 받은 엄청난 모델이라고 생각하는 사람은 Finance 또는 Financial Economics 박사들 사이에서 바보 취급을 받는다. 저 모델이 학계에서 인정받는 이유는 R-squared가 대부분의 경우에 30% 이상 이기 때문에, 다른 대안을 찾을 수 없기 때문이지, 3-Factor들이 왜 유의미한지에 대해서는 일절 설명이 없기 때문에 대접을 받질 못한다.

Eugene Fama 교수님의 노벨상은 사실 3-Factor-Model과 더불어 나온 수많은 Financial Econometrics (재무 계량경제학) 업적에 따른 것이다. 정확하게는 저 논문이 노벨상을 받은게 아니라, Fama 교수님이 다른 기라성 같은 동료분들과 함께 Financial Econometrics에 기여한 부분이 크기 때문에 공동 수상하신거다.

Kenneth French 교수님은 위의 3-Factor-Model 이후로 Finance 학계에 큰 도움이 되는 논문을 낸 적이 없다. (이 분은 노벨상 수상자 아니다.) 2014년에 5-Factor-Model로 논문이 돌아다니는걸 봤었는데, 필자가 있던 학교에서도 발표 요청에 OK한 적이 없었고, 미국의 주요 학교들에서 French 교수님을 초청해서 논문 발표를 요청 드린 사례가 거의 없는 걸로 알고 있다. 저 5-Factor 모델은 중국같은 후진국에서나 발표 기회를 얻었을 뿐이다.

금융업계에서도 이미 다 알고 있는 변수들 넣어서 돌린 Regression에 큰 관심이 없었는지, 그 이후로 5-Factor 모델 논문 Draft가 돌아다니는걸 본 적이 없다. 추가된 2개의 변수들이 유의미하다는 논문들은 이미 오래전부터 수십개의 고급 논문을 통해 검증이 되었기 때문에, 새로운 지식이 아니라고 판단했을 것이다.

Financial Econometrics 학계에서는 3-Factor-Model 이후에 예외없이, 왜 해당 변수가 유의미한지 간단한 Toy model이라도 수학적으로 납득가는 모델이 없다면 그 모델은 무의미하다고 생각한다. 우리끼리는 Eugene Fama였으니까 (다른 엄청난 학문적 업적이 이미 쌓인 분이니까) 저 논문이 출판됐지, 우리가 썼으면 바로 리젝먹고 서랍속에 묵혔을거라고들 한다.

단언컨대, 엄청난 충격적인 변수를 뽑아내지 않는 이상, 앞으로 그 어떤 논문도 3-Factor-Model처럼 설명없이 하늘에서 뚝 떨어진 변수만 던져서 A저널에 출판되는 경우는 없을 것이다. (노벨상은 말할 것도 없다.)

2. 팩터탐색 문제와 알파고

새로운 변수를 알파고 같은 인공지능으로 찾아낼 수 있는데, 왜 굳이 구식 통계학을 써야고 하는 짝퉁 AI전문가들, 수학/통계학 지식없이 코드만 따라치는 공돌이 AI마니악들의 편견을 위에서도 만날 수 있다. (참고로 원 글 저자는 서울대 공대 학부, 서울대 경제학 석사 중퇴의 학력을 갖고 있다. according to RocketPunch profile)

도대체 무슨 수를 썼길래 변수를 알아서 찾아낼 수 있는걸까?

보통은 연구자가 가정을 잡고 특정 설명 변수(X)를 정한다음, 그 변수가 목적 변수(Y)를 잘 설명하는지 확인하기 위해서 Regression을 비롯한 각종 상관관계 측정 계산법을 쓴다. Decision Tree, SVM, Neural Network 등등을 생각할텐데 머신러닝 교과서에서 쓰는 계산법들은 모두 Regression에서 특정한 조건을 하나씩 바꾼 계산법들이다. 인공지능이 아니라.

그럼 AI가 변수를 찾아줬다는 이야기는, X가 Y를 설명하는게 아니라, Y값만 줬더니 알아서, 직접, 스스로 X를 만들어냈다는 이야기다.

X가 없는데 Y에서 어떻게 X를 뽑아낼 수 있을까? 된다면 특허 수준이 아니라 박사 학위 프로그램들을 없애고, 아니 아예 노벨상을 휩쓸고, 인류를 한 단계 더 진화시키는 어마어마한 알고리즘이라고 생각되는데, 이런 마법이 가능할지 판단하기 위해서 우선 원 글의 계산법을 보자.

3. 팩터 팩토리 (Factor Factory)

우선 유효한 팩터가 될 확률이 높은 값을 찾기 위해서 Factor Tree라는걸 만들었단다. 여러개의 변수가 서로 덧셈, 곱셈, 뺄셈, 나눗셈, 혹은 Y절편에 해당하는 축 보정값으로 구분된다는 걸 보여주는 1차 방정식을 Tree 형태로 표현해놓고 이름을 Factor Tree라고 붙인 것 같다.

어떻게 묶여 결합되면 가장 “설명력이 높은” X값을 찾을 수 있는지 알아보겠다는 의도로 보인다. 새로운거냐고? TensorFlow 계산을 코드 베끼기 대신 한번이라도 제대로 입력해 본 사람에게는 상식적인 내용이다. 계산을 위해 변수 지정하는 작업에서 서로간 관계를 4칙연산으로 묶는 것이 사실 프로그래밍의 일반적인 작업이기도 하다.

자 일단 Y값만 던져주면 X값을 알아서 휙휙 찾아주는 것은 아니라는걸 알게됐다.

팩터 팩토리라는게 아마도 예상가능한 X값들 몇 백개를 던져주면 그 중 가능한 4칙연산 결합들을 전부 다 동원해보고, 거기서 가장 Y값을 잘 설명하는 결합방식을 고르겠다는 뜻인 것 같다. 새로운 거냐고? 단순히 Batch 돌려서 장난처럼 수십번도 더 해봤던 작업이다.

우선, Fama-French의 3-Factor-Model이 하늘에서 뚝 떨어진 모델이고 왜 그 변수들이 중요한지 납득가능한 모델이 없다고 무시당하는 것과 같은 맥락으로 우기기 계산이기 때문에 “틀린” 작업인데, 그래도 실용적으로 설명 변수 찾아주면 되는거 아니냐는 비전문가들의 반박이 예상되니 일단 이 부분에 대해서는 뒤에 논의하기로 하고, 먼저 저 계산법으로 찾아냈다는 변수들을 한번 보자.

4. Factor-Model들이 무시당하는 이유

위의 값들이 소위 말하는 3-Factor-Model의 변수들, 그리고 5-Factor-Model의 변수들이다. 여전히 왜 중요한 변수인지는 위의 모델이 가르쳐주질 않는데, 왜 이 질문에 대한 대답이 중요한지 이해하기 위해서 질문의 방식을 바꿔보자.

워킹 캐피탈 (Working Capital)은 왜 중요한 변수일까? (위의 4번째 변수, Wcap/MV 참조) 그 전에 Wcap/MV라는 변수를 만들어내기 위해서 수백만가지의 variation을 다 본게 아니라 처음부터 Working Capital 값과 Market Value 값을 입력해놓고 계산작업을 시작했을것이라는 짐작은 있지만, 이런 숨겨진 꼼수에 대한 질책보다 더 중요한 문제로, 왜 워킹 캐피탈이 중요한 변수인지에 대한 대답부터 먼저 찾아보자.

모든 회사는 기본적으로 매출액이 났을 때 당일에 현금을 바로 받는 경우가 드물다. 상품을 구매했을 때도 그날 바로 현금을 지급하는 경우도 드물다. 쉽게 이해하려면 신용카드 매출액, 구매액을 생각하면 된다. 매달 1번씩 지불하고, 매출액이 나온 회사도 며칠에 한번씩 지급받는다. Working Capital은 이런 매출채권과 매입채무 금액의 차이를 말하는데, 재무제표에 직접 등장하지 않지만, 경영진에게 현금 융통이라는 측면에서 큰 영향을 주기 때문에 계산값을 살펴보는게 회사 재무자료 분석 작업의 기초 중 하나다. 왜? 내가 받을 돈은 늦게 지급되고, 지불해야될 돈은 빨리 나가면 평소에 항상 현금 부족에 시달리기 쉽다. 말을 바꾸면, 꾸준히 대출액이 늘어날 수 밖에 없는 구조고, 그만큼 이자비용을 지불해야한다.

이렇게 만성 현금 부족, 과다 이자비용이 지출되는 회사의 경영상태가 좋을 수는 없다. 아무리 금융이론에서 (M-M Theory 참조) 주식의 가치와 채권의 가치가 구분된다고 해서 주식 가치에 이자비용 과다 계상이 아무런 영향을 안 줄 것이라고 주장할 수는 있겠지만, 이런 회사가 선뜻 신사업에 뛰어들기도 어렵고, 평소에 돈 구하러 돌아다니느라 회사 경영진이 많은 시간을 쓰고 있을 것이라고 짐작된다.

이런 여러 요소들이 반영되어서 Working Capital이 중요한 변수이고, 당연히 주식 가치인 Market Value와의 비율이 좋은 설명변수가 될 것이라는데 충분히 공감이 된다.

그런데 위의 Tree 모델은 Working Capital이라는, 꽤나 많은 계산을 해야하는 변수를 왜 쓰겠다고 결정했을까? 자기네들 주장대로라면 단순히 재무제표 뒤져서 매출채권, 매입채무 값들을 그대로 입력했다가 둘의 차이값이 중요하다는 걸 알아내고, 나중에는 시장가치라는 변수와의 비율이 중요하다는걸 차례차례로 알아냈어야되는거 아닌가? 왜 차이값을 계산한 변수가 처음부터 모델에 들어가 있는거지? 그럴려면 원래부터 저 Working Capital이 중요한 변수라는 걸 알아야 되는거 아닌가?

무조건 변수를 뽑아낼 수 있다고 주장했지만, 정작 Working Capital처럼 Domain 지식이 반드시 있어야되는 변수들을 찾아내주는 작업이 더 들어갈려면 계산비용이 훨씬 더 증가하겠네?

그렇게 Domain 지식이 있는 사람에게 공감되는 변수를 아무것도 모르고 수백만번의 Regression 계산에 얻어걸려서 좋은 변수라고 알아냈다고 치자. 그 변수가 다른 테스트 데이터 셋에서도 중요한, 정말 Domain 지식이 있는 사람도 공감할만한 변수라는건 어떻게 검증할껀가? 아래의 Causality vs. Correlation에서 좀 더 논의를 깊게 가 보자.

 

5. 왜 4칙연산에서 끝내는데?

일단, 좀 양보해서 Finance에서 자주 쓰는 변수들은 다 주어져있다고 가정하고, 그 변수의 비율을 보는 “놀라운 발견”을 했다고 인정해보자. 여기까지만 보면 저 위의 Tree 모델이 멋진 변수를 순식간에 뚝딱, 그것도 전문가 없이 알아서 변수를 찾아내줬다고 생각할 수도 있는데, 이제 가장 핵심적인 질문을 던져보자.

왜 Wcap의 제곱을 쓰지 않았을까? 3제곱은? 보아하니 Wcap이 중요한 변수인거 같은데, 저 변수를 변형시키면 더 결과가 좋지 않을까? 근데 왜 제곱, 3제곱은 안 쓰는거지? 매출채권만 제곱하고 매입채무는 제곱 안 하면 어떨까? MV로 나누지 말고 MV의 제곱으로 나누는건 어떨까? 3제곱으로 나누는건?

4칙 연산만 쓰는건 누가 정한건가? 아무도 정한 사람이 없다. 이미 변수를 재조합하기로 했으면 4칙 연산만 써야할 이유도 없다. SVM, Neural Network가 사실상 Regression의 Polynomial 확장버젼과 수학적으로 동일하다는 점을 생각하면, 위의 변수를 굳이 1차항으로 국한해야할 이유가 전혀 없다. 제곱, 3제곱을 얼마든지 시도해볼 수 있다.

 

6. 주먹구구식 계산의 문제점 – Causality vs. Correlation

저렇게 주먹구구식 계산으로 온갖 조합을 다 집어넣어보는 Step-wise Regression이라는, 90년대 사회학 논문 쓰시던 분들이 하던 계산법이 있다. 사회학이 수학적 훈련도가 낮은 사람들이 진입하는 경우가 많은 학문이었기 때문에 그나마 다른 학문보다 길게 저런 계산법으로 논문을 뽑아냈는데, 그마저도 2010년대 이후로는 A저널급에서 보이질 않는다.

왜? 위에서 지적한대로 계산으로 쥐어짜기는 누구나 다 할 수 있지만, 정작 왜 그런지를 말해주지 않기 때문에, 다른 데이터에서도 같은 효과가 날지 모르기 때문이다. 공식 통계학 용어로는 Causality없는 Correlation 계산은 Spurious regression이 된다고 한다.

머신러닝 공부하는 분들 중에 Pattern Recognition 항목의 apriori 알고리즘을 공부한 분들이라면, Lift값이 1인 경우 (즉, 두 변수간 관계가 독립인 경우)에는 해당 Rule이 무의미한, 단순히 Correlation만 높은 Rule이라는 결론이 도출되는걸 본 적이 있을 것이다. Regression이건 apriori 알고리즘이건, 모든 상관관계 검증은 궁극적으로 Causality에 대한 확증을 필수적인 단계로 삼는다.

불행하게도 위의 Factor Factory라는 계산은 그걸 깡그리 무시한, 90년대 사회학 논문 수준의 Step-wise regression을 Regression이 아니라 Tree 계산으로 하고 있을 뿐이다.

Tree는 새로운 계산법이니까 더 좋은거라고 주장할 것 같은데, 더 열등한 계산법이어서, 쓰이는 구석이 몇 군데 없어서 안 썼을 뿐이다.

7. Momentum 모델의 이해

위는 Momentum Factor를 Factor Factory라는 Tree 모델로 찾아냈다고 자랑하는 부분인데, Momentum이 있는 구간이 기존 정규분포 기반의 모델로 설명할 수 없는 부분이기 때문에 이미 오래전부터 Momentum에 대한 연구가 진행되었다. Momentum이 있는 2차 moment값에 해당하는 Volatility를 보고 따라가는 VIX (Volatility Index)는 1990년대 중반부터 사람들의 입에 오르내렸던 변수고, VIX를 어떤 식으로 확정할지에 대해서 20년이 지난 지금도 수많은 VIX varation을 목적에 맞게 쓰고 있다는 사실만 봐도 이미 Momentum을 설명하기 위해 다양한 종류의 변수를 찾아내려는 시도를 했을 것이라고 짐작할 수 있을 것이다.

위에서 언급된 JFE 논문은 Momentum이 단순한 주가 움직임의 over-shooting 때문에 발생하는 것이 아니라, 투자 시점 반년 ~ 1년전 사이의 회사 영업 상황에 영향을 받는다는걸 주장하는 논문이다. (학계에서 보통 Recent past라고 부르는 과거 정보다.)

결론만 보면 Momentum에 대한 일반의 상식을 완전히 깨는 연구 결과라고 생각되겠지만, 논문을 찬찬히 훑어보면 Momentum을 바라보는 관점 자체가 완전히 다르다는걸 알 수 있다.

위 논문이 나오기 전까지 대부분의 연구들은 Momentum이 얼마나 길게 지속되는지에 대해서만 관심을 가지고 있지, 정작 투자 결정이 내려지기 얼마전의 데이터가 유의미한지에 대한 고민이 없다고 지적한다. 3달전의 데이터를 봐야할지, 6달전의 데이터를 봐야할지 등등에 대한 고민없이, Momentum이 얼마나 오래 지속되느냐만 봤으니 관점을 바꾸자는 말이다.

거꾸로 Momentum이 높은 데이터들을 모아놓고, (즉, 조건부 확률*), 과거 주가 중에 가장 잘 설명하는 기간을 찾았다는 것이다.

이 연구가 유의미하면서 동시에 무의미한 가장 큰 이유는, 오늘 기업의 활동 내용이 오늘 재무제표로 바뀌어서 공개되는게 아니라, 3개월 이상의 기간을 두고 늦게 시장에 정보가 공급된다는 점에 있다. Momentum이 생겼다는 이야기는 갑자기 주가 변동성이 커졌다는 이야기인데, 보통 새로운 정보가 시장에 공급될 경우에, 특히 그 새로운 정보가 기존의 기대치를 깰 때 자주 나타난다. 뉴스 기사가 뜰 때 크게 움직이고, 예상치 못한 재무자료가 나오면 크게 움직인다.

뉴스 기사가 오늘 나왔는데 8개월쯤 후에 재무제표가 나와서 Earning surprise를 줬다면 8개월 후에 오늘처럼 변동성이 커질 수 있다는걸 충분히 예측할 수 있다.

그런데 저 논문의 결론처럼 Recent Past의 정보, 그렇지만 정작 시장에 알려진 시점은 오늘인 정보가 변동성에 큰 영향을 주는 사례들이 일반적일까? 미국과 10-K, 10-Q (연간, 분기별 재무제표)가 공급되는 주기가 다르다면? 미국에서도 과거에는 규제가 달랐다면?

 

 

8. Factor Factory의 허구(?)

논문 저자는 과거 7개월-12개월의 포트폴리오 수익률이 좋은 변수라는 결론이 다른 데이터에서 적용되지 않는 위험을 피하기 위해서 여러가지 확인을 한다. 학문적으로 보통 Robustness를 검증한다고 표현한다. (저 위의 Factor Factory는 이런 종류의 Robustness 테스트를 했는지 궁금해진다.)

위의 테이블을 보면, 앞에서 예측한대로 법적 규제로 상장사들이 재무제표 공개를 더 자주해야했던 최근으로 올수록 R12,7의 파워는 눈에 띄게 떨어진다. 아래 그래프를 보면 좀 더 확실하게 이해할 수 있을 것이다.

상관관계 (Slop coefficient)값도 최근으로 올수록 줄어드는 것을 볼 수 있고, Test-stat은 0 근처로 찍히는걸 보니 최근 데이터에서는 설명력이 확실히 떨어진 것이 보인다.

논문에 대한 이해가 끝났다면, Factor Factory가 가르쳐 준 값이 맞기 위해서는 아래의 내용을 검증해야한다.

  • 논문과 같은 기간의 데이터를 썼는가, 특히 2000년 이후의 데이터를 썼는데도 같은 결론이 나왔는가?
  • 논문은 2010년에 가까워지면서 빠르게 R12,7변수의 설명력이 줄어드는게 보이니까, 2020년까지의 데이터를 썼다면 같은 결론이 나왔을 것 같지 않은데?
  • 논문은 Momentum이 높은 Y값만 골라서 조건부로 Regression을 돌렸는데, Factor Factory는 모든 Y값을 다 입력하는 Unconditional regression으로도 R12,7이라는 변수가 중요한 변수라는걸 잡아낸걸까?

몇 가지 더 질문을 하면, 왜 하필 R12,7일까? R11,7은 안 될까? 뉴스 기사가 나왔던 시점과 재무제표가 나왔던 시점의 주가수익률을 비교대상으로 삼을 수는 없었을까? 분명히 더 설득력 있어보이는 variation들이 머리속에 휙휙 지나가는데, 왜 논문써야하는 사람들이 학계에서 정한 Recent past에 해당하는 12,7을 Tree 모델이 골라냈을까? 필자가 Recent past라는 용어를 반드시 논문에 써야하는 학자가 아니었다면, 헤지펀드에서 위의 작업을 했다면, R8,7, R9,8 같은 변수들을 모조리 테스트 해 봤을 것 같다. 물론 최근 데이터로.

이미 결과값을 알고 Tree에 넣어서 검증하는 Reverse-engineering 작업을 한게 아니라, 정말로 Grid search를 했다면 R12,7이 2020년까지의 데이터에서 핵심 변수로 나오기 굉장히 어려웠을 것이다.

조건부 Regression에서 특정 변수가 유의미하다는 결과가 전체 데이터에서도 유효하다는 결론이 나온다는 이야기는, 강남 3구에서 사람들이 집값에 큰 관심이 없을 때, 서울 전지역, 아니 전세계에서 사람들이 집값에 큰 관심이 없다는 결론과 같은 말이다. 강남 3구의 부자들과 평범한 서민이 집값에 대한 반응이 똑같을 것이라는걸 믿을 수 있나?

정말 Tree로 잡아내는 기적이 일어났다고 친다면, Vanilla VIX부터 시작해서 Momentum을 설명하기 위해 수많은 변수들을 학자들이 써 왔는데, 그런 변수들은 심지어 금융사들이 헷징 상품 만드는데 쓰고 있는 변수일만큼 시장 검증이 끝난 변수인데, 그런 변수는 다 제쳐놓고 R12,7이 나왔다고?

어떤 각도로 봐도 일부러 모델이 좋다고 주장하려고 특정 변수를 입력했다고 밖에 짐작이 안 되고, 설령 아니라고해도 다른 수 많은 Momentum 관련 변수가 나타나지 않은 것은 Factor Factory의 결함이라고 봐야하지 않을까?

9. 엔지니어들의 과대망상이 낳은 결과물

위의 글이 대표적으로 엔지니어들의 과대망상이 얼마나 수준이 낮은지를 단적으로 보여준다. Step-wise regression을 열심히 돌려서 변수 하나를 찾아내면, 그 변수가 설명력이 좋으면 논문이 하나 나온다는 착각 (아마도 공대 학부하고 경제학은 1년 남짓만 석사하다가 중간에 그만뒀으니 Finance, Financial Economics 학계 돌아가는 상황을 전혀 이해하지 못했기 때문에 하는 착각) 때문에 저런 글이 나왔을 것이다.

당장 저 위에 언급했던 JFE논문도 Momentum이 강하게 나타나는 특정 Y값들에 국한해서 X값 중 합리적이라고 생각되는 변수를 찾은 것이다. 조건없이 무조건 Y를 잘 맞추는 모델은 Y값이 정규분포를 따르고 있는 이상 불가능하고, 조건 걸린 Y값의 구간 안에서 X값을 찾는데 Factor Factory라고 주장하는 자칭 AI, 실제로는 Step-wise regression을 쓰는 계산은 Spurious regression을 하겠다고 주장하는 것과 다름없다. Spurious의 한국어 번역은 “허위의, 거짓의“이다.

즉, 사기 모델을 써서 변수를 찾을 수 있다고 주장하는 것이다.

Finance에 지난 20년간 세계 최고의 Brain들이 진입했었다. 그 중 수학 관련 전공으로 박사하고 다시 박사를 하나 더 하는 전공으로 Finance 박사 전공을 고른 사람도 많다. 그런 분들 덕분에 학부 졸업생이 바로 Finance 박사에 들어갈려면 국제올림피아드 금상 같은 경력이 있어야되는 시대를 보냈었다. 이 리그에 있는 사람들이 저런 단순한 생각을 못해서 변수를 못 찾았을거라고 생각하는가?

일전에 다른 글에서도 썼지만, 기본적으로 주가 수익률은 정규분포를 따른다. 정규분포를 따르지 않는 구간 중 하나인 Momentum 데이터에서, 그것도 1차 Moment인 평균값의 움직임이 아니라 2차 Moment인 Vol의 움직임을 설명하는 연구가 진행되는 것도, 1차 Moment로는 시장에 충격을 줄 수 있는 연구를 하는게 불가능에 가깝기 때문이다. (Finance가 받은 노벨상 3개가 모두 정규분포라는 가정에 기반해있는데, 일단 이 분들을 이기고 와라고 하는 말이 농담이 아니다.)

2차 Moment인 Vol의 움직임에 대한 연구도 굉장히 많이 진행되어 있고, Vol의 움직임에 대한 Hedging을 해주는 상품을 만들 수 있는 GMM (Generalized Method of Moments) 기반 계산 모델을 만들어냈던 박사 동료도 있었다. 단순 Hedging이 아니라 아예 Vol 움직임 자체를 설명해주는 변수가 이미 많이 있음에도 여전히 Noise 부분 (즉 랜덤 오차 부분)이 크기 때문에, 새로운 변수를 더 찾아서 완벽한 설명력을 갖는 모델로 Hedging을 하는 불가능한 도전을 하는게 아니라, 기존 거래 데이터를 기반으로 Moment condition들 (1차, 2차, 3차, 4차…. moment들이 반드시 충족해야하는 조건들)로 Vol관련 상품 가격 계산을 할 수 있는 계산법만으로 이미 학계 및 업계가 놀랐었다는 사실을 공유하면 좀 더 이해가 되실까?

 

10. Investor’s Alpha는 저런 Grid Search로 못 찾는다

저 위의 Step-wise regression 수준에 지나지 않는 Factor Factory라는 계산법을 이용해 “Investor’s Alpha”라는걸 1개 찾아낼 수 있다고 가정하는 것도 굉장한 충격인데, 그걸 계속적으로 찾아낼 수 있다는 도발적인 주장을 하는 부분이다.

계속 찾아낼 수 있는 “AI 알고리즘”을 갖고 있기 때문에 자기네 회사는 남들보다 뛰어나다고 주장하는 것 같은데, 그런 Causality 검증없는 단순 Step-wise 수준의 Grid search 계산으로 찾아내는 변수는 “운빨”에 지나지 않는다.

이번 데이터에는 맞았지만, 다음 데이터에도 맞을지 누가 알 수 있을까? 내가 알지 못하는 제 3의 변수가 영향을 줬기 때문에 우연히 이번에는 설명력 있는 변수로 나오는 경우는 수도없이 많다. 그러니까 Lift값을 따지고, Cross-section을 보고, 다른 시장을 보는 검증 과정을 길게 거치는 것이다.

뿐만 아니라, 저런 Step-wise는 단순 4칙 연산이 아니라 Polynomial도 따질 수 있고, Polynomial보다 더 복잡한 Kernel 함수 변형도 고려해볼 수 있다. 그 수많은 가능성 중 자기네 4칙연산 값이 좋은 변수라는 주장을 하는 것이 틀렸기 때문에 학자들이 저런 단순 무식한 방법이 아니라 합리적인 모델로 Causality에 기반한 변수를 가정, 검증하는 것이다.

알파고가 인간 1등 이세돌을 이겼으니까 저런 Grid Search하면 인간 천재 N명 결합해도 이길거라고? 알파고는 바둑판 위의 규칙있는 데이터에서 합리적인 가정의 영역을 벗어나는 데이터를 Outlier라고 무시해도 상관없는, Grid Search가 합리적인 계산이었다. 주가수익률은 여러차례 말한대로 Non-stationary random 분포다. 합리적인 가정의 영역을 벗어나는 Outlier 투성이라는 말이다. 잘해봐야 그래프 모양 좀 더 맞출 수 있는데, 거기에 변수 모양을 좀 더 세밀하게 찾아주는 Grid Search는 큰 의미가 없다. Causality가 없는 변수는 언제나 단기적, 일시적이기 때문이다.

데이터의 구성 방식과 계산 접근법이 완전히 다른 영역에 알파고가 됐으니 여기서도 된다는 종류의 단순한 논리를 내세우는 사람은 지식이 없는 사람이다. AI는 좋아하는데 정작 진짜 AI가 뭔지 모르는 것이다.

나가며 – 특허출원? 특허등록?

평소 지인들이 AI라고 주장하는 회사 소개를 공유해주며 진짜 기술력이 있는지 물어보는 경우가 많다. 보통은 개인간의 대화로 끝내고 마는데, 이번에는 바로 위의 문구 때문에 기존의 철칙을 깼다.

특허출원 중이거나 특허등록된 내용이라는데, 도대체 우리나라 특허청은 얼마나 지식이 부족한 사람들이 모여있길래 Step-wise regression의 Tree방식 계산에 지나지 않는 저 모델에 특허를 내준단 말인가?

뭐, 특허라는게 기존에 없었던 적용방식이라면 나오는거니까 특허청의 잘못은 아니라고 생각한다. 여기서 지적해야하는 점은, 저런 단순한 알고리즘을 당당하게 외부 공개할 수 있는 회사 CEO의 무모함과, 그 회사가 무려 2천억 가치에 육박하도록 투자한 한국 VC들의 지적 수준이라고 본다.

박사 첫 해 끝나고 여름 방학 때, Wharton database에서 250개 정도의 예상 가능한 변수를 받아서 Fama-French를 깨는 모델을 만들어보겠다고 말 못하게 부끄러운 시간을 보냈던 기억이 난다. 그 250개 변수에 PCA를 했을 때 PC3까지 73%의 variation을 잡더라. 내가 갖고 있는 변수가 만들 수 있는 Vector Space, 즉 정보량이 단지 3차원 공간으로 무려 73%가 될만큼 제한적인데, 아무리 변수를 뒤틀어본들, 무슨 재주로 무한차원에 가까울 Y값을 맞추는 가공 변수를 찾아낸단 말인가? 찾아낸들 Marginal benefit은 얼마일까? 전체 구간이 아니라, 특정 구간에 설명력이 있는 변수를 찾는, 즉 Causality에 기반한 수학 모델이 아니면 학계에서 바보 취급받는게 당연하다는 사실을 깨닫고, 다시는 그런 바보같은 생각을 안 했었다.

누군가가 박사 첫 해에 아무것도 모르고 했던, 쪽팔려서 어디가서 말도 못했던 내용으로 무려 특허를 받고, 회사 가치를 수천억으로 인정받는 상황에 무슨 반응을 보이는게 맞을까?

“식을 세우지 않아도 Neural Network가, AI가 알아서 변수를 찾아주는 세상이 왔습니다. AI로 Investor’s Alpha도 만들어낼 수 있습니다. 통계학은 이제 필요없습니다”

몇 년동안 저렇게 우겨놓고 갖고 오는게 겨우 Step-wise regression의 Tree 형태라니… 헛웃음만 나온다.

이 정도의 조잡한 지식으로 Investor’s Alpha가 있고, 찾아낼 수 있는데 못한다고 고리타분한 이야기한다고 필자에게 억지 주장하던 공돌이들과, 그들에게 속아서 멋모르고 몇 백억을 투자하신 VC분들, 진실을 까발려서 화난다고 고소하셔도 좋다.

그래도 지구는 돌거든.

윗 분은 요즘 검은색 폴라티 대신 오렌지색 원피스를 입고 계시더라.