[AI 주식캠프 3] 현명한 투자자는 미래를 '측정'한다

AI를 단순한 자동화 도구로만 보는 것은 증기기관을 물 끓이는 주전자 정도로 여긴 것과 같다. AI는 함께 생각하는 동료이자 나를 ‘학습 기계’로 만들어줄 스승이다. [AI 주식캠프]는 좀처럼 변치 않는 주식 투자의 올드패션과 가장 빠르게 진보하는 AI 혁신을 조합한다. 투자에 도움 되고, AI를 쉽게 쓰는 것이 목적이다. AI 시뮬레이션 연구자이자 직장인 투자자인 필자가 에이전트 AI를 활용해 체계적인 투자 의사결정 과정을 구축하는 방법을 안내한다. ― 버핏클럽

Getting your Trinity Audio player ready...

예측(豫測): 미래의 확률분포를 그리는 일

투자는 미래를 상대하는 것이다. 그 미래의 시간 지평은 5분, 하루, 한 달, 1년, 5년, 10년까지 천차만별이지만, 모든 투자자는 어떤 식으로든 ‘미래’의 기대수익을 원한다. 어디 투자자뿐이겠는가. 신년이 오면 신년 운세를 점치기 위해 신당집을 찾는 사람을 종종 본다. 투자자가 미래의 기대수익을 원하는 것처럼 신당집의 예언가는 미래를 내다보려고 노력한다.

투자자와 예언가 모두 미래를 상대하는 일을 한다는 공통점이 있지만 둘 사이에는 분명한 차이가 있다. 현명한 투자자는 미래를 ‘예측’하기 위해 노력하고, 노련한 예언가는 이름 그대로 미래를 ‘예언’하기 위해 노력한다. 현명한 투자자의 예측(豫測)에서 ‘측(測)’은 측정한다는 의미다. ‘미래를 측정한다’는 뜻이다. 노련한 예언가의 예언(豫言)에서 ‘언(言)’은 ‘말씀 언’이다. 그러니까 예언가는 눈을 감고 무언가 본 것을 말하는 사람이다. 실제로 무엇이 보여서 말하는지는 그들만 알 것이다.

제시 리버모어의 삶을 조명한 《어느 주식투자자의 회상》은 투자 분야의 고전으로 꼽히는 책이다. 이 책에서 드러나는 리버모어의 투자철학은 세 가지 키워드로 정리할 수 있다. 참을성, 평정심, 그리고 침묵이다. 나는 그중에서 침묵이 가장 으뜸이라고 생각한다. 예언가는 결국 그 이름에 담긴 뜻처럼 말을 많이 할 수밖에 없다. 하지만 현명한 투자자는 예언가와 반대로 리버모어처럼 침묵해야 한다. 바깥으로는 침묵하고 안으로는 미래를 예측하기 위해 부단히 노력해야 한다고 생각한다.

물론 예측이 그리 단순하진 않을 것이다. 그나마 인간의 한계 안에서 할 수 있는 최선의 예측이란 미래를 측정하기 위한 범위와 가능성을 가늠하려는 노력일 수밖에 없을 것이다. 여기서 말하는 ‘범위’는 답이 하나가 아니란 뜻이고 ‘가능성’은 여러 답 중에서 각각 일어날 확률이 다르다는 뜻이다. 어디 투자뿐이겠는가. 나는 투자뿐만 아니라 거의 모든 분야에서 답이 하나일 수 없고 그 다양한 답이 나타날 확률도 모두 제각각이라고 생각한다. 이런 복잡함 속에서 예측의 정교함을 갈고닦는 사람을 우리는 전문가라 부른다.

미래를 측정한다는 의미에서 전문가의 예측은 대략적인 확률분포를 그리는 일이다. 확률분포는 범위와 가능성을 모두 포함한 함수 형태로 표현할 수 있다. 이렇게 함수로 표현하면 계산기처럼 입력값에 따른 출력값을 바로 확인할 수 있어 굉장히 유용하다. 예를 들면 코스피 주가지수의 일간 수익률 범위 값을 입력했을 때, 그 값에 해당하는 확률을 출력으로 얻을 수 있다. 확률분포 추론이 중요한 이유는 주식시장이라는 게임의 룰을 가늠해볼 수 있기 때문이다. 이론적으로 어떤 시스템의 확률분포를 아는 것은 그 시스템을 상당 부분 이해한 것이라고 할 수 있다. 시스템을 이해하면 불확실성을 줄일 수 있고, 불확실성을 줄이면 행동에 나설 수 있다. 실제로 고전 통계학의 중요한 목적 가운데 하나는 어떤 시스템이 따르는 확률분포를 파악하는 것이다. 확률분포를 알면 통계학이 할 일은 거의 끝났다고 봐도 과언이 아니다.

주사위 확률분포와 주식시장 확률분포

확률분포의 가장 단순한 예로 주사위를 생각해보자. 주사위는 각 눈이 나올 확률이 모두 같으니 확률분포도 평행선 모양이다. 1부터 6까지 모든 경우의 수는 같은 확률, 16.67%(1/6)를 갖는다. 여기에 주사위 하나를 추가해보자. 부루마불처럼 주사위 두 개를 사용할 때 두 주사위의 눈의 합은 어떤 확률분포일까? 합이 2가 나올 확률은 2.78%(1/36)로 가장 낮고, 7이 나올 확률은 16.67%(1/6)로 가장 높다. 12가 나올 확률 또한 2.78%(1/36)이다. 주사위 하나가 추가되면 게임의 룰이 바뀌어서, 평행선 모양이던 확률분포는 종 모양의 확률분포로 변한다.

이제 주식시장으로 가보자. 주식시장의 일간 수익률의 확률분포 모양은 어떨까? 자연스러운 종 모양일까? 주식시장의 확률분포 모양을 알아보기에 앞서, 최근 1년 동안 일간 최고·최저 수익률이 주식시장의 확률분포에서 어디에 위치하는지 알아야 하는 이유부터 말하고 싶다.

나는 지난 2025년 4월 7일에 몇 통의 전화를 받았다. 투자를 함께하고 있는 주변 동생의 전화였는데, 코스피가 급락했다면서(-5.57%) 꿈틀대던 한국 주식시장이 다시 ‘박스피’로 회귀하는 것 아니냐는 이야기였다. 이럴 때 주식시장의 확률분포가 필요하다. -5.57%가 주식시장이라는 게임에서 얼마나 자주 일어나는지를 대답할 수 있는 것은 확률분포가 유일하다.

시스템을 이해해야 불확실성을 가늠할 수 있고, 그에 따라 불확실성을 줄여야 행동에 나설 수 있다고 앞서 말했다. 급등과 급락의 정도를 확률적 위치로 확인하면, 제시 리버모어가 강조한 평정심을 유지하는 데 도움이 된다. 측정하면 관리할 수 있다고 피터 드러커가 말하지 않았던가. 또한 평정심을 가지고 있어야 참을성 있게 엉덩이를 붙이고 있을 수 있다. 그리고 호들갑 떨지 않고 침묵할 수 있다. 그 시작은 급등과 급락이 확률분포의 어디에 있는지 확인하는 일이다. 주가뿐만 아니다. 어닝서프라이즈나 어닝쇼크의 수준도 확률분포로 접근하면 X만큼의 어닝서프라이즈나 어닝쇼크는 Y%의 확률이라고 측정해 말할 수 있다.

코스피 5000 시대를 코앞에 두고 코스피지수의 일간 등락이 예사롭지 않은 요즘이다. 2025년 4월 7일에 급락 전화를 받고 정확히 3일 후(4월 10일)에 다시 전화가 왔다. 코스피는 그날 +6.60% 올랐다. 이것도 주가 변동의 확률분포에서 확인해봤다. 해당 두 날짜는 최근 1년 중 최대 상승일과 하락일이었다(표 1과 표 2 참고). 이는 챗GPT(이하 GPT)에서 한 줄짜리 프롬프트를 통해 계산했다. 프롬프트는 아래 링크를 통해 확인할 수 있다.

👉 [챗GPT 프롬프트 링크] 코스피지수 상승 하락

[표 1] 최근 1년 중 일간 수익률이 가장 많이 상승한 3일
[표 2] 최근 1년 중 일간 수익률이 가장 많이 하락한 3일

통계와 코딩도 말로 하는 AI 시대

확률분포를 알아보기 위해 통계 전문 프로그램을 배우라거나 코딩을 직접 하라는 무책임한 말을 하고 싶지는 않다. GPT 프롬프트 창 안에서도 데이터 분석을 할 수 있다. 단순하거나 간략한 분석뿐만 아니라 꽤 깊은 수준의 데이터 분석까지도 상당 부분 가능하다. 과거의 데이터 분석은 파이썬(Python) 코딩을 하는 것과 같은 의미였다. 그러나 AI가 나오고 나서 그 룰이 깨졌다. 코딩에 대한 사전 지식 없이도 누구나 데이터 분석이 가능하다. 코딩을 AI가 대신 하기 때문이다. 데이터 분석을 위한 추가 프로그램 설치나 환경 설정 같은 사전 준비도 필요 없다. 오직 필요한 것은 데이터와 GPT 창 하나다. 이 안에서 거의 모든 데이터 분석 작업이 가능하다.

준비된 주가지수 데이터를 GPT에 업로드하고 주가지수의 히스토그램을 그려달라고 말로 요청했다. 지금도 하면 할수록 신통방통하다. 말로 코딩을 한다니 말이다. 나의 본업, 시뮬레이션 경력 15년과 금융 데이터 분석 경력 6년 동안 밤새 씨름하며 배웠던 코딩을 말로 한다니, 혁신이라는 단어로밖에 설명할 수 없다. 한편으론 억울하기도 하다. 그 정도로 통계와 데이터 분석을 미리 학습하고 준비할 필요가 없다.

코딩이 필요한 작업은 항상 추론 모델을 써야 한다. 오픈AI의 챗GPT는 ‘Thinking’ 모델, 구글의 제미나이는 ‘사고 모드’, 앤트로픽의 클로드는 ‘심층 사고 모드’라고 부른다. 추론 모델을 사용한 LLM들은 모두 추론 과정을 거친 후 파이썬 코드를 작성한다. GPT의 추론 과정과 코딩 결과물은 프롬프트 링크에서 살펴볼 수 있다.

1980년 1월 5일부터 2026년 1월 8일까지 코스피지수 시계열 데이터야.
종가를 기준으로 해서 일별 수익률의 분포를 알고 싶어.
히스토그램으로 그려 줘.
[그림 1] 코스피 일별 수익률 분포
[표 3] 코스피 일별 수익률 통계량
✔️
“해석을 한 줄로 요약하면, 첨도 5.69라서 정규분포보다 꼬리가 두꺼운 편이에요. 즉 큰 변동이 “가끔”이 아니라 “생각보다 자주” 나타나는 타입입니다.”

히스토그램은 일별 수익률의 빈도를 막대 높이로 표시한 형태의 그림이다. 눈으로 보고 이해하는 게 빠를 것이다. 가로축은 일별 수익률(%)을 나타내고, 세로축은 빈도(일수)를 나타낸다. 0% 부근에서 가장 높은 빈도를 보이고 좌우로 갈수록 빈도가 낮아지면서 종 모양처럼 보인다. 다행히(?) 평균과 중앙값은 플러스다.

또 데이터의 전체 기간 중 하루에 +11.9% 상승한 날도 있었고 -12.0% 하락한 날도 있었다는 걸 알 수 있다. 역사적 최댓값과 최솟값이니 의미 그대로 46년에 한 번 일어날 확률이다. 한국 금융의 역사를 잠깐 들춰보면, 2008년 10월 말 한미 통화스와프가 체결되면서 리먼브러더스발 금융위기 국면에서 탈출하여 원·달러 환율은 큰 폭으로 떨어지고 주식시장은 사상 최대로 폭등했다. 최대 하락률을 보인 날은 2001년 9월 12일이다. 날짜에서 유추할 수 있듯이 미국의 9·11 테러 다음 거래일이다. 앞에서 언급했듯 확률분포를 아는 것은 시스템을 이해하는 것이다. 우리는 이렇게 확률분포를 펼쳐놓고 주식시장이라는 시스템을 이해하고자 하는 중이다.

GPT의 마지막 요약은 주식시장이 어떤 곳인지를 알려주는 중요한 메시지를 담고 있다. 정규분포는 가장 자연과 어울리는 종 모양의 분포다. 좌우가 대칭이고 극단으로 갈수록 확률은 매우 낮아진다. 예를 들어 남자의 키는 170cm를 중심으로 좌우 대칭이고, 200cm는 극소수이며 230cm는 거의 0%로 수렴한다. 생물학에서는 정규분포의 종 모양이 자연스러운 현상일 것이다. 그러나 주식시장은 그렇지 않다. 꼬리가 두꺼운 팻테일(Fat tail) 모양이다. 정규분포의 확률보다 양극단에 더 많은 분포가 관찰되며 지수의 급등과 급락이 훨씬 더 자주 발생한다. 사람의 키로 치면 300cm인 사람이 주식시장에 살고 있다는 것이다. 《행운에 속지 마라》의 저자인 나심 탈레브는 이 팻테일 분포의 꼬리에 있는 극단적인 사건을 ‘블랙스완’이라고 은유적으로 표현했는데, 참 멋진 표현인 것 같다.

실무나 연구에서는 시스템 이해를 위해 그 확률분포를 정규분포로 가정하곤 한다. 그러나 과거에는 주식시장을 정규분포로 가정했다가 큰 사건이 벌어지기도 했다. 금융계의 대표적인 참사로는 과거 엄청난 수익률을 자랑했던 LTCM(Long-Term Capital Management) 펀드의 몰락을 들 수 있다. LTCM은 주식시장을 이해하기 위한 모델 중 일부를 정규분포로 가정했는데, 당시 해석을 통해서는 투자로 실패할 확률이 수백만 년에 한 번 일어날까 말까 한 확률이었다고 한다. LTCM은 이를 근거로 엄청난 레버리지를 이용해 거대한 베팅을 했다. 이론적으로는 합리적인 선택이었다고 할 수 있다. 그러나 주식시장은 생물학에서 말하는 자연이 아니라 인간 세상의 욕심과 탐욕이 지배하는 시스템이기에 자연스러운 정규분포가 예측하는 것보다 훨씬 더 극단적인 사건이 훨씬 더 자주 일어났다. LTCM의 몰락은 그중 가장 큰 사건이었고 투자자에게도 가장 큰 교훈을 줬다. 그 교훈은 주식시장의 확률분포는 정규분포가 아니라 꼬리가 두꺼운 급첨분포에 가깝다는 사실이다.

그림 2와 그림 3은 각각 코스피지수 일별 수익률의 왼쪽과 오른쪽을 확대한 확률분포의 일부다. 주황색 선은 정규분포 함수인데, 왼쪽과 오른쪽 극단으로 갈수록 거의 0%에 수렴한다. 그러나 파란색 히스토그램 막대는 아랑곳하지 않고 두더지처럼 고개를 내밀고 있다.

[그림 2] 코스피지수 일일 수익률의 왼쪽 꼬리
[그림 3] 코스피지수 일일 수익률의 오른쪽 꼬리

※ 최근 1년, 코스피 4000 시대가 열린 기간도 살펴보자. 최근 1년 중 최대 일간 상승률인 +6.60%는 영업일 기준 611일에 한 번 일어날 확률(0.1636%)의 사건이다. 최대 일간 하락률 –5.57% 역시 278일에 한 번 일어날 확률(0.3599%)로, 두 경우 매우 이례적인 변동에 해당한다. 단순히 ‘많이 올랐다’거나 ‘많이 내렸다’고 표현하는 대신, 역사적 데이터를 기준으로 보면 이러한 변동이 정량적으로 어느 정도의 특수한 상황인지 가늠해볼 수 있다. +6.60% 상승은 최근 10년간의 거래일(2,453일)을 기준으로 보더라도 1,226일에 1번, 즉 최근 10년을 통틀어도 두 차례 발생했을까 말까 한 상당히 이례적인 확률의 사건임을 알 수 있다.

일간 수익률 +6.60%와 -5.57% 각각, 이 히스토그램으로부터 발생할 가능성은 어느 정도라고 할 수 있어?
✔️
먼저 꼬리 확률부터 계산했어요. 이 확률은 지금 히스토그램을 만든 동일 표본, 1980-01-05부터 2026-01-08까지 기준입니다.
[표 4] 구간별 경험적 확률

👉 [챗GPT 프롬프트 링크] 코스피 일별 수익률 분포

본 것도 들은 것도 믿지 마라

무언가 오고 있는 것 같다. 전국의 대학교수가 뽑은 2025년 사자성어는 변동불거(變動不居)다. “세상이 잠시도 멈추지 않고 끊임없이 흘러가면서 변한다”라는 뜻이다. 국내 정치에서는 대통령 탄핵과 정권 교체가 있었고, 국제적으로는 미·중 신냉전이 펼쳐지며 세계 경제가 재편되고 있다.

하지만 핵심은 누가 뭐래도 AI 패권을 거머쥐기 위한 총성 없는 전쟁이다. 비단 국가뿐만이 아니다. 우리 같은 개인도 AI 때문에 삶이 바뀌고 있다. 2024년까지만 해도 사람들은 AI를 아직 부족하고 어리숙한 기술로 보았다. 하지만 2025년에 들어서며 AI 기술은 멈추지 않고 빠르게 발전했고, 이전과는 비교할 수 없을 정도의 높은 지능을 갖춘 AI 모델이 쏟아져 나왔다. 2026년이 된 지금, 사람들은 더 이상 고민하지 않고 AI를 배우기 위해 시간과 노력을 투입하고 있다. 이제 모든 분야에서 AI를 거부할 이유가 사라졌다. AI는 가장 효율적이고, 지능적이고, 이성적이고, 빠르고, 정확하고, 24시간 내내 쉬지 않기 때문이다.

주식시장을 이해하기 위한 데이터 분석도 이와 같은 이유로 AI와 함께해야 한다. 주가지수 데이터 하나만으로도 확률분포를 시각화하고, 그 확률분포로부터 현재 주가 변동의 위치를 가늠할 수 있다. 또 극단에 있는 블랙스완 급 금융 역사를 되짚어 보면서 주식시장이라는 시스템을 들여다보고 배울 기회를 너무나 쉽게 얻는다. 모두 AI 덕택이다.

AI의 은혜는 또 있다. 내가 가장 크게 덕을 보고 있다고 느끼는 점은 모든 것을 의심해볼 수 있는 배짱이다. 이제는 눈으로 본 것을 바로 믿지 않고, 귀로 들은 것도 바로 믿지 않는다. AI를 접하기 전에는 어떤 의심이 들더라도 그 의심을 행동으로까지 옮기기가 쉽지 않았다. 생각을 해내는 것도 물론 훌륭하지만, 그것을 실제 검증으로까지 옮기는 것이 얼마나 어려운 일인지는 다들 알 것이다. 그러나 AI가 옆에 있다면 프롬프트 창을 켜고 적게는 10분, 길면 하루 안에 웬만한 것들은 검증할 수 있다. ‘AI 주식캠프’의 핵심이 보고 이해하는 데서 그치지 않고 직접 해보는 데 있지 않은가. 직접 해본 것과 들은 것은 정말 큰 차이다. 최근에 있었던 한 예시를 소개하겠다. 한 채널에서 2026년의 주가를 전망하던 어느 이코노미스트가 이렇게 말했다.

“통계적으로 보면, 매년 1월 첫 주에 상승한 업종과 종목이 그해 상반기에 주도주가 될 가능성이 70% 이상입니다.”

바로 검증에 나섰다. 한국 주식시장 전체 주식의 가격 데이터와 함께 내가 이해한 바를 GPT에 일상 언어로 표현하여 검증을 요청했다. 먼저 삼성전자 한 종목에 대해 매년 1월 첫 주의 상승률과 그 이후부터 8월 말(상반기)까지의 주가 변화의 상관성을 살폈다. 30년에 걸친 분석에서 상관성은 오히려 역의 상관관계로 나왔다.

[그림 4] 삼성전자의 1월 첫 주 수익률과 그해 상반기 수익률의 상관관계 비교

샘플 30개로는 부족하다고 생각하여 샘플을 더 늘려보았다. 1,086개 기업의 주가 데이터를 GPT에 업로드하고 앞서 삼성전자 주가 데이터로 확인했던 과정을 똑같이 요청했다. 이번 샘플은 18,996개로 통계 분석에 충분한 수다. 1월 첫째 주 수익률과 그해 상반기 수익률의 상관관계는 ‘거의 없다’라는 결론이 나왔다. 그림 4와 그림 5의 빨간색 점선 위에 ‘+’가 많으면 양의 상관성이 높은 것이다. 그러나 이번 검증에서 둘 사이의 관계는 무작위에 가깝다. 18,996개의 점은 0을 중심으로 퍼져 있다. 1월 첫 주 수익률이 낮아도 그해 상반기까지 수익률이 높은 경우도 많았으며 그 반대도 마찬가지다. 전문가의 비법 전수처럼 말한 것을 그대로 믿고 올해 1월 첫 주의 수익률이 높은 주식을 사는 행위는 주사위 던지기나 다름없다는 의미다. 자세한 분석은 아래의 ‘챗GPT 프롬프트 링크’를 참고 바란다. 아무리 주식 전문가의 말이라고 해도 눈으로 본 것과 귀로 들은 것 모두 그대로 믿지 말고 항상 검증해야 한다고 생각한다. 누구를 평가하거나 옳고 그름을 논쟁하기 위한 것이 아니다. 혹은 누구를 심판하려는 의도는 더더욱 없다. 오로지 본인의 주식 투자를 위한 것이다.

👉 [챗GPT 프롬프트 링크] 1월 첫째 주 수익률 상관 분석

[그림 5] 1,086개 한국 기업의 1월 첫 주 수익률과 그 해 상반기 수익률 상관관계 비교 – 산점도(scatter)
[그림 6] 1,086개 한국 기업의 1월 첫 주 수익률과 그 해 상반기 수익률 상관관계 비교 – 2차원 밀도 컨투어(2D-density contour)
※ 독자 여러분이 직접 분석하실 수 있도록 데이터를 공유합니다. 아래 링크를 클릭하세요.

👉 [구글 드라이브 링크] AI 주식캠프 3 데이터
※ 버핏클럽의 모든 글은 특정 종목에 대한 매수·매도 추천이 아닙니다. 투자 판단에 대한 모든 책임은 투자자 본인에게 귀속됩니다.