로그인/ 가입하기

월가를 불태운 10,000단어 보고서: 비트코인과 엔비디아 폭락의 이면

2025/02/02 19:29

따르다

분석가이자 소프트웨어 엔지니어로 일해 온 한 전문 투자자가 엔비디아에 대한 부정적인 기사를 작성했고, 이 글은 트위터 블로거들의 많은 리트윗을 받으며 엔비디아 주가 급락의 주요 '주범'이 되었습니다. 엔비디아의 시가총액은 6천억 달러 가까이 증발했는데, 이는 특정 상장 기업의 하루 하락폭 중 가장 큰 규모입니다.

제프리 엠마누엘 투자자의 요점은 딥시크가 월스트리트, 대형 기술 기업, NVIDIA가 만들어낸 상승세에 구멍을 뚫었다는 것과 NVIDIA가 고평가되었다는 것뿐이었습니다. "모든 투자 은행이 마치 장님이 길을 가리키는 것처럼 NVIDIA를 매수하라고 권유하고 있습니다."

제프리 엠마누엘은 NVIDIA가 현재의 성장 궤도와 수익성을 유지하기 위해서는 밸류에이션이 시사하는 것보다 훨씬 험난한 길을 걸어야 한다고 말했습니다. 아키텍처 혁신, 고객 수직 통합, 소프트웨어 추상화, 효율성 혁신, 제조 민주화 등 5가지 공격 방향이 있으며, 이 중 적어도 한 가지가 성공하여 NVIDIA의 마진이나 성장률에 큰 영향을 미칠 가능성은 높아 보입니다. 현재 밸류에이션에서 시장은 이러한 리스크를 고려하지 않고 있습니다.

일부 업계 투자자에 따르면 이 보고서로 인해 엠마누엘은 갑자기 월스트리트의 센세이션을 일으키며 많은 헤지펀드에서 시간당 1,000달러를 지불하고 NVIDIA와 AI에 대한 그의 의견을 듣고 있다고 합니다. 그는 너무 바빠서 목소리에서 연기가 났지만, 돈을 세는 그의 눈은 불타오르고 있었습니다.

보고서 전문은 여기 있습니다. 전체 참조 연구.

여러 롱/숏 헤지펀드에서 약 10년간 투자 애널리스트로 일한 사람으로서(밀레니엄과 발야스니에서의 근무 포함), 2010년부터 딥러닝을 공부해 온 수학 및 컴퓨터 중독자로서(제프 힌튼이 아직 대표로 있을 때), 저는 이 보고서가 훌륭하다고 생각할 수밖에 없네요. (제프 힌튼이 아직 제약된 볼츠만 머신에 대해 이야기하던 시절에는 모든 것이 여전히 MATLAB으로 프로그래밍되었고 연구원들은 서포트 벡터 머신을 사용하는 것보다 손으로 쓴 숫자를 분류하는 데 더 나은 결과를 얻을 수 있음을 증명하려고 노력했습니다) 저는 AI 기술의 발전과 주식 시장의 주식 평가와의 관계에 대해 꽤 독특한 시각을 가지고 있다고 생각합니다.

지난 몇 년 동안 저는 개발자로서 더 많은 일을 해왔고 다양한 형태의 AI 모델/서비스를 다루는 여러 인기 오픈 소스 프로젝트를 보유하고 있습니다(예를 들어 LLM Aided OCR, Swiss Army Llama, Fast Vector 유사성, 소스에서 프롬프트까지, 파스텔 추론 레이어 등 최근 몇 가지 예를 들 수 있습니다.) 기본적으로 저는 이러한 최첨단 모델을 매일 집중적으로 사용합니다. 요청이 부족하지 않도록 3개의 Claude 계정을 보유하고 있으며, ChatGPT Pro가 출시된 지 몇 분 후에 가입했습니다.

저는 또한 최신 연구 동향을 파악하고 주요 AI 연구소에서 발행하는 모든 주요 기술 보고서 논문을 정독하려고 노력합니다. 그 결과 이 분야에 대한 이해와 발전 방향에 대해 상당히 잘 알고 있다고 생각합니다. 동시에 저는 평생 수많은 주식을 공매도했고 밸류 인베스터 클럽의 베스트 아이디어 상을 두 번이나 수상했습니다(팔로우하고 계신다면 TMS 롱과 PDH 숏).

이 말은 자랑을 하려는 것이 아니라 기술자나 전문 투자자에게 절망적으로 순진하게 들리지 않고 이 주제에 대해 말할 수 있다는 것을 증명하기 위해 하는 말입니다. 물론 저보다 수학/과학에 능숙한 사람도 많고, 저보다 주식시장에서 롱/숏 투자를 잘하는 사람도 많겠지만, 저처럼 벤 다이어그램의 가운데에 있을 수 있는 사람은 많지 않다고 생각합니다.

그럼에도 불구하고 헤지펀드 업계에서 친구나 옛 동료들을 만나 이야기를 나눌 때마다 대화는 금세 NVIDIA로 넘어갑니다. 무명에서 영국, 프랑스, 독일 주식 시장을 합친 것보다 더 큰 시가총액으로 성장한 회사가 매일 있는 일은 아니니까요! 당연히 이 친구들은 제가 어떻게 생각하는지 알고 싶어 합니다. 저는 이 기술의 장기적인 혁신적 영향력을 굳게 믿기 때문에, 그리고 이 기술이 향후 5~10년 동안 우리 경제와 사회의 모든 측면을 본질적으로 전례 없는 방식으로 혁신할 것이라고 진정으로 믿기 때문에, NVIDIA의 모멘텀이 곧 둔화되거나 조만간 둔화되거나 멈출 것이라고 단언하기는 어렵습니다.

그러나 지난 1년여 동안 밸류에이션이 너무 높다고 생각했지만, 최근의 여러 가지 상황으로 인해 전망에 대해 좀 더 신중을 기하고 고가로 보일 때는 합의에 의문을 제기하는 직감 쪽으로 약간 기울어졌습니다. '현명한 사람은 처음에 믿고, 어리석은 사람은 마지막에 믿는다'는 옛말이 유명한 데에는 다 이유가 있습니다.

황소의 경우

저를 망설이게 만드는 진행 상황에 대해 알아보기 전에, 이제 기본적으로 모든 사람이 알고 있는 엔비디아 주식의 강세를 간략하게 요약해 보겠습니다. NVDA 주식의 강세에 대해 알고 있습니다. 딥 러닝과 인공지능은 인터넷 이후 가장 혁신적인 기술이며 우리 사회의 모든 것을 근본적으로 변화시킬 것으로 기대되는 기술입니다. 훈련 및 추론 인프라에 대한 업계의 총 자본 지출에서 차지하는 비중을 고려할 때, NVIDIA는 거의 독점에 가까운 위치에 있습니다.

세계에서 가장 규모가 크고 수익성이 높은 Microsoft, Apple, Amazon, Meta, Google, Oracle 등의 기업들은 뒤처질 수 없기 때문에 어떤 대가를 치르더라도 이 분야에서 경쟁력을 유지하기로 결심하고 있습니다. 자본 지출액, 전기 사용량, 신규 데이터센터의 면적, 그리고 GPU의 수는 모두 폭발적으로 증가했으며, 그 증가세는 둔화될 기미가 보이지 않습니다. NVIDIA는 데이터센터용 하이엔드 제품을 통해 90%가 넘는 엄청난 총 마진을 올릴 수 있습니다.

우리는 강세장의 표면을 살짝 훑었을 뿐입니다. 이미 매우 낙관적인 전망도 더욱 낙관적으로 만들 수 있는 요소들이 더 많이 있습니다. 휴머노이드 로봇의 등장(세탁, 청소, 정리, 요리 등 현재 비숙련(또는 숙련된) 노동자가 해야 하는 많은 작업을 빠르게 수행할 수 있고, 화장실 개조나 집 짓기 등 건설 작업, 창고 관리, 지게차 운전 등 대부분의 사람들이 아직 고려조차 하지 않은 다른 요소들이 있습니다) 외에도 많은 사람들이 아직 고려하지 않은 다른 요소들이 있습니다.

스마트한 사람들이 이야기하는 주요 주제 중 하나는 시간이 지남에 따라 컴퓨팅 수요가 어떻게 증가할지에 대한 새로운 패러다임을 제공하는 '새로운 확장의 법칙'의 부상입니다. 2012년 AlexNet이 등장하고 2017년 Transformer 아키텍처가 발명된 이래 AI의 발전을 이끈 기존 스케일링 법칙은 학습 데이터로 사용하는 토큰의 가치(현재 수조 단위)가 높을수록, 학습하는 모델의 파라미터 수가 많을수록, 해당 토큰으로 모델을 학습하는 데 소비되는 컴퓨팅 파워가 많아진다는 사전 학습 스케일링 법칙이었습니다. (FLOPS), 최종 모델은 매우 유용한 다양한 다운스트림 작업에서 더 나은 성능을 발휘할 것입니다.

뿐만 아니라 이러한 개선은 어느 정도 예측 가능하기 때문에 OpenAI나 Anthropic과 같은 선도적인 AI 연구소에서는 최신 모델을 실제로 훈련하기 전에도 얼마나 좋은 성능을 낼지 정확히 알고 있을 정도입니다. -경우에 따라서는 최종 모델의 벤치마크 값을 몇 퍼센트 포인트 이하의 오차로 예측할 수도 있습니다. 이 '원초적 확장의 법칙'은 매우 중요하지만, 이를 이용해 미래를 예측하는 사람들은 항상 의구심을 품게 됩니다.

우선, 전 세계에 축적된 양질의 학습 데이터 세트가 고갈된 것 같습니다. 물론 아직 제대로 디지털화되지 않은 오래된 책과 저널이 많고, 디지털화가 되었다고 해도 학습 데이터로 제대로 라이선스를 받지 못한 경우가 많기 때문에 완전히 틀린 말은 아닙니다. 문제는 이러한 것들을 모두 인정하더라도, 즉 1500년부터 2000년까지 '전문적으로' 생산된 영어 콘텐츠의 총합이 15조 토큰에 육박하는 훈련 말뭉치에 대해 이야기할 때 백분율 관점에서 보면 엄청난 양이 아니며, 훈련 말뭉치의 규모가 다음과 같다는 것입니다. 현재 프론티어 모델의 크기입니다.

이 숫자의 진위를 간단히 확인해보면, 현재까지 Google Books는 약 4천만 권의 책을 디지털화했으며, 평균 책에 5만~10만 단어 또는 6만5000~13만 개의 토큰이 있다고 가정하면 책만 2.6T~5.2T 토큰을 차지하며 물론 상당 부분의 토큰은 이미 그 중 상당 부분은 엄격하게 합법적이든 아니든 대규모 연구소에서 사용되는 훈련 말뭉치에 이미 포함되어 있습니다. 또한 arXiv 사이트에만 200만 개가 넘는 수많은 학술 논문이 있습니다. 미국 의회 도서관에는 30억 페이지가 넘는 디지털화된 신문이 있습니다. 이를 모두 합치면 7T 토큰에 달할 수 있지만, 그 대부분은 실제로 훈련 말뭉치에 포함되어 있기 때문에 나머지 '증분' 훈련 데이터는 전체 계획에서 그다지 중요하지 않을 수 있습니다.

물론 더 많은 훈련 데이터를 수집할 수 있는 다른 방법도 있습니다. 예를 들어 모든 YouTube 동영상을 자동으로 트랜스크립션하여 해당 텍스트를 사용할 수 있습니다. 이 방법이 도움이 될 수는 있지만, 세상에 대한 유용한 지식의 원천인 권위 있는 유기화학 교과서보다는 품질이 훨씬 떨어질 것입니다. 따라서 원초적인 규모의 법칙 측면에서 볼 때, 우리는 끊임없이 '데이터 벽'의 위협에 직면해 있습니다. GPU에 더 많은 자본을 투입하고 데이터 센터를 더 많이 구축할 수는 있지만, 이미 존재하는 것을 적절히 보완하는 유용한 새로운 인간 지식을 대규모로 생산하기는 훨씬 더 어렵다는 것을 우리는 알고 있습니다. 이에 대한 흥미로운 대응책으로 텍스트 자체가 LLM의 결과물인 '합성 데이터'가 부상하고 있습니다. 다소 터무니없어 보일 수도 있지만, 적어도 수학, 논리 및 컴퓨터 프로그래밍 분야에서는 '직접 모델을 제공함으로써 모델의 품질을 개선하는 것'이 실제로 매우 효과적입니다.

물론 그 이유는 이러한 분야는 기계적으로 정확성을 점검하고 증명할 수 있는 분야이기 때문입니다. 따라서 거대한 수학 정리나 Python 스크립트에서 샘플을 가져와서 실제로 올바른지 확인하고 올바른 데이터만 데이터베이스에 포함시킬 수 있습니다. 이러한 방식으로 적어도 이러한 영역에서는 고품질의 학습 데이터 세트를 크게 확장할 수 있습니다.

텍스트 외에도 모든 종류의 다른 데이터를 사용하여 AI를 학습시킬 수 있습니다. 예를 들어, 1억 명의 전체 게놈 시퀀싱 데이터(한 사람당 약 200GB에서 300GB의 비압축 데이터)를 가져와 AI를 훈련시킨다면 어떨까요? 대부분의 데이터가 두 사람 간에 거의 동일하다고 해도 이는 분명 엄청난 양의 데이터입니다. 물론 책이나 인터넷의 텍스트 데이터와 비교하는 것은 여러 가지 이유로 오해의 소지가 있습니다.

원시 게놈 크기는 마커의 수와 직접 비교할 수 없음

게놈 데이터는 텍스트와 정보 내용이 매우 다름

. 매우 다릅니다

중복성이 높은 데이터의 학습 값은 불분명합니다

게놈 데이터 처리를 위한 계산 요구 사항도 다릅니다

그러나 은 여전히 우리가 미래에 훈련할 수 있는 또 다른 훌륭한 정보 소스이기 때문에 포함시켰습니다.

따라서 점점 더 많은 추가 학습 데이터를 얻을 수 있겠지만, 최근 몇 년간 학습 말뭉치가 성장하는 속도를 보면 곧 '보편적으로 유용한' 지식에 대한 데이터의 가용성에 병목현상이 발생하여 궁극적인 목표에 가까워질 수 있다는 것을 알 수 있을 것입니다. 존 폰 노이만보다 10배 더 똑똑하고 인간이 알고 있는 모든 전문 분야에서 세계적인 수준의 전문가가 되는 인공 슈퍼인공지능.

사용 가능한 데이터의 양이 제한되어 있다는 점 외에도 사전 훈련 확장 법칙을 지지하는 사람들의 머릿속에는 항상 여러 가지 우려가 숨어 있습니다. 그 중 하나는 모델 학습이 완료된 후 이 모든 컴퓨팅 인프라를 어떻게 처리할 것인가 하는 것입니다. 다음 모델을 훈련시킬까요? 물론 그렇게 할 수도 있지만, GPU 속도와 용량의 급격한 증가와 경제적인 컴퓨팅에서 전력 및 기타 운영 비용의 중요성을 고려할 때 2년 된 클러스터를 사용하여 새 모델을 훈련하는 것이 정말 합리적일까요? 물론 이전 데이터센터보다 10배나 비싸고 더 발전된 기술 덕분에 20배나 성능이 뛰어난 새로운 데이터센터를 사용하는 것을 선호할 것입니다. 문제는 언젠가는 이러한 투자에 대한 초기 비용을 상각하고 (희망적으로 긍정적인) 운영 수익 흐름을 통해 이를 회수해야 한다는 점입니다.

시장은 AI에 대한 기대가 너무 커서 이 점을 간과했고, 그 결과 OpenAI와 같은 기업은 처음부터 영업 손실을 기록하면서도 후속 투자에서 점점 더 높은 가치를 인정받고 있습니다(물론, 매출도 매우 빠르게 성장하고 있는 것으로 나타났습니다). 그러나 궁극적으로 시장 주기 동안 이를 유지하려면 결국 이러한 데이터센터의 비용을 회수해야 하며, 이상적으로는 수익을 내서 시간이 지남에 따라 위험을 조정한 다른 투자 기회와 경쟁할 수 있어야 합니다.

새로운 패러다임

이것이 바로 사전 학습된 확장의 법칙입니다. 그렇다면 이 '새로운' 확장의 법칙은 무엇일까요? 작년에야 사람들이 주목하기 시작한 시간 계산 확장에 대한 추론입니다. 그 이전에는 대부분의 연산이 모델 생성을 위한 사전 학습 연산이었습니다. 학습된 모델을 만든 후에는 해당 모델에 대한 추론(예: 질문을 하거나 LLM이 특정 작업을 대신 수행하도록 하는 것)에 일정량의 계산만 사용했습니다.

중요한 점은 추론 연산 총량(FLOPS, GPU 메모리 사용량 등 다양한 방식으로 측정)이 사전 학습 단계에서 필요한 연산량보다 훨씬 적다는 점입니다. 물론 모델의 컨텍스트 창 크기와 한 번에 생성되는 출력의 양을 늘리면 추론 계산의 양은 증가합니다(초기에는 이 영역에서 놀라운 알고리즘 개선이 이루어졌지만, 초기에는 스케일링이 이차적으로 이루어질 것으로 예상할 수 있습니다). 그러나 기본적으로 최근까지 추론 연산은 일반적으로 학습 연산보다 훨씬 덜 집약적이었으며, 처리된 요청 수에 선형적으로 비례하는 것이 일반적이었습니다. 예를 들어 ChatGPT 텍스트 완성에 대한 수요가 많을수록 더 많은 추론 연산이 소비되는 식이었죠.

작년에 도입된 혁신적인 COT(Chain-of-Thought) 모델, 특히 OpenAI의 플래그십 모델인 O1(그러나 최근 DeepSeek의 새로운 모델인 R1에서도 채택되었으며, 나중에 더 자세히 설명하겠습니다!)의 등장으로 모든 것이 바뀌었습니다. 토론), 모든 것이 바뀌었습니다. 추론 연산량을 모델이 생성하는 출력 텍스트의 길이(컨텍스트 창, 모델 크기 등이 클수록 비례적으로 증가)에 따라 직접 조정하는 대신, 이러한 새로운 COT 모델은 중간 '논리적 토큰'을 생성하며, 이는 모델이 문제를 해결하거나 주어진 작업을 완료하려고 할 때 일종의 '임시 메모리' 또는 '내부 독백'으로 생각하면 됩니다.

이것은 추론이 계산되는 방식에 실질적인 변화를 의미합니다. 이제 이 내부 사고 프로세스에서 더 많은 토큰을 사용할수록 사용자에게 제공하는 최종 결과물의 품질이 향상됩니다. 이는 작업자가 작업을 완료하는 데 더 많은 시간과 리소스를 제공하여 작업을 재확인하고, 동일한 기본 작업을 여러 가지 다른 방법으로 완료하여 결과가 동일한지 확인하고, 결과를 공식에 '연결'하여 실제로 방정식을 푸는지 확인하는 등의 작업을 할 수 있도록 하는 것과 같습니다.

이 접근 방식은 오랫동안 기다려온 '강화 학습'의 힘과 트랜스포머 아키텍처의 힘을 활용하여 거의 놀라울 정도로 효과적인 것으로 입증되었습니다. 이는 트랜스포머 모델의 가장 큰 약점 중 하나인 '환각' 경향을 직접적으로 해결했습니다.

기본적으로 각 단계에서 다음 마크업을 예측하는 트랜스포머의 작동 방식은 초기 응답에서 잘못된 '경로'로 시작하면 마치 변명하는 아이처럼 자신이 실제로 옳은 이유를 설명하기 위해 이야기를 지어내려고 한다는 것입니다! 그 과정에서 상식을 사용해 자신의 말이 옳지 않다는 것을 깨달았어야 하는데도 말이죠.

모델은 항상 내부적으로 일관성을 유지하고 각 후속 세대의 토큰이 이전 토큰과 컨텍스트에서 자연스럽게 파생되도록 노력하기 때문에 과정을 수정하고 역추적하기가 매우 어렵습니다. 추론 과정을 여러 중간 단계로 세분화하면 다양한 접근 방식을 시도하고, 어떤 접근 방식이 효과적인지 확인하고, 자신이 무언가를 꾸며낸 것이 아니라는 상당한 수준의 자신감을 얻을 때까지 계속 경로 수정과 다른 시도를 할 수 있습니다.

이 접근법의 가장 특이한 점은 효과가 있다는 사실 외에도 더 많은 로직/COT 토큰을 사용할수록 더 잘 작동한다는 것입니다. 갑자기 턴테이블이 하나 더 생겼고, COT 추론 토큰의 수가 늘어날수록(부동 소수점 또는 인메모리 등 더 많은 추론 계산이 필요함) 코드가 오류 없이 처음 실행되거나 논리 문제에 대한 해결책에 명백하게 잘못된 추론이 없는 등 정답을 맞힐 확률이 높아집니다. 단계가 없습니다.

저는 많은 직접 경험을 통해 Anthropic의 Claude 3.5 Sonnet 모델이 Python 프로그래밍에 매우 뛰어나긴 하지만(실제로 매우 훌륭합니다), 길고 복잡한 코드를 생성해야 할 때마다 항상 하나 또는 그 이상의 어리석은 실수를 저지르곤 합니다. 이러한 실수는 대개 쉽게 고칠 수 있으며, 실제로 Python 인터프리터가 생성한 오류를 후속 추론 힌트로 사용하거나 코드 편집기가 코드에서 발견한 전체 '문제' 집합을 붙여넣기 위해 Linter라는 것을 사용하여 더 이상의 설명 없이도 고칠 수 있는 경우가 종종 있습니다(보다 실용적으로 말하면). 코드가 매우 길거나 복잡해지면 수정하는 데 시간이 오래 걸리고 수동 디버깅이 필요할 수도 있습니다.

오픈AI의 O1 모델을 처음 사용해 본 저는 코드가 얼마나 완벽한지 처음에 깜짝 놀랐습니다. 모델이 제공한 답변에서 최종 응답 토큰이 나오기 전에 COT 프로세스가 자동으로 문제를 찾아서 수정하기 때문입니다.

사실, OpenAI의 ChatGPT Plus 구독 서비스(월 20달러)에 사용되는 O1 모델은 새로운 ChatGPT Pro 구독 서비스(기존 가격의 10배인 월 200달러로 책정되어 개발자 커뮤니티에서 큰 반향을 일으키고 있음)에 사용되는 O1-. Pro 모델은 본질적으로 동일한 모델을 사용하지만, 주요 차이점은 O1-Pro는 응답하기 전에 더 오래 생각하고 더 많은 COT 로직 토큰을 생성하며 응답당 상당한 양의 추론 계산 리소스를 소비한다는 점입니다.

이러한 현상은 Claude 3.5 Sonnet이나 GPT4o의 경우에도 400KB 이상의 컨텍스트가 주어지더라도 매우 길고 복잡한 단서가 응답을 시작하는 데 일반적으로 10초 미만이 걸리며, 종종 5초 미만인 경우가 많기 때문에 눈에 띄게 나타납니다. 반면, O1-Pro에 동일한 프롬프트가 주어지면 응답을 받는 데 5분 이상 걸릴 수 있습니다(대기하는 동안 OpenAI는 프로세스에서 생성된 '추론 단계' 중 일부를 보여주지만, 중요한 것은 영업 비밀과 관련된 이유로 OpenAI가 생성하는 정확한 추론 토큰을 숨기고 대신 매우 간단한 요약만 보여주기로 결정했다는 점입니다).

상상할 수 있듯이 많은 경우 정확성이 매우 중요합니다. 쉽게 틀린 것으로 판명될 수 있는 답변을 제공하거나 환각적인 사실이나 다른 그럴듯한 추론이 포함된 답변을 제공하는 것보다 차라리 포기하고 사용자에게 불가능하다고 말하는 것이 더 낫습니다. 다른 그럴듯한 추론 답변을 제공하는 것보다는 포기하는 것이 낫습니다. 돈/거래, 의료 및 법률과 관련된 모든 것이 여기에 해당합니다.

기본적으로 추론 비용이 AI 시스템과 상호작용하는 인간 지식 근로자의 전체 시간당 임금에 비해 사소한 수준이라면, 이 경우 COT 계산을 호출하는 것은 완전히 불필요한 일이 됩니다(단점은 응답 지연 시간이 훨씬 길어지므로 경우에 따라서는 지연 시간이 짧고 정확도나 정확도가 낮은 응답을 가져와 반복 속도를 높이는 것을 선호할 수 있습니다.)

몇 주 전, 기존 AI 방법으로는 단기간에 해결할 수 없다고 여겨졌던 다양한 문제를 해결할 수 있는 OpenAI의 아직 출시되지 않은 O3 모델에 대한 흥미로운 소식이 AI 업계에 들려왔습니다. 고도로 숙련된 전문 수학자들도 풀기 어려운 매우 어려운 '기본' 수학 문제) OpenAI는 이러한 문제 중 하나를 해결하기 위해 상당한 컴퓨팅 리소스(경우에 따라 3,000달러 이상의 컴퓨팅 파워)를 투자했기 때문입니다(일반 AI 방법을 사용하는 것과 비교했을 때). 작업(대조적으로, 일반 Transformer 모델을 사용하는 경우, 전통적인 추론은 일련의 사고 없이 단일 작업에 몇 달러 이상의 비용이 들지 않을 것입니다).

이러한 발전이 이전에 학습된 확장 법칙과는 전혀 다른 완전히 새로운 확장 법칙을 만들어낸다는 사실을 깨닫는 데는 AI 천재가 아니어도 알 수 있습니다. 지금도 여전히 가능한 한 많은 컴퓨팅 리소스와 수조 개의 고품질 학습 데이터를 영리하게 활용하여 최고의 모델을 학습시키고자 하지만, 이는 새로운 세상의 시작에 불과합니다. 이제 엄청난 양의 컴퓨팅 리소스를 사용하여 이러한 모델에서만 매우 높은 수준의 신뢰도로 추론하거나 '천재 수준의' 추론이 필요한 매우 까다로운 문제를 쉽게 해결할 수 있게 된 것입니다. GLM을 잘못 이끌 수 있는 모든 잠재적 함정을 피할 수 있습니다.

그렇다면 왜 모든 이점을 Nvidia가 독차지해야 할까요?

저처럼 AI의 미래가 상상할 수 없을 정도로 유망하다고 믿는다 해도 "왜 한 회사가 이 기술로 인한 이익의 대부분을 가져가려고 할까요?"라는 질문은 여전히 남아 있습니다. 역사적으로 많은 중요한 신기술이 세상을 변화시킨 것은 사실이지만, 주요 승자는 초기 단계에서 가장 유망해 보였던 기업이 아니었습니다. 라이트 형제의 비행기 회사는 기술을 발명하고 완성했지만 오늘날 여러 회사로 발전했음에도 불구하고 시가총액이 100억 달러가 채 되지 않습니다. 포드의 시가총액은 현재 400억 달러에 달하지만, 이는 현재 NVIDIA 시가총액의 1.1%에 불과합니다.

이를 이해하려면 NVIDIA가 어떻게 그렇게 큰 시장 점유율을 확보할 수 있었는지 이해하는 것이 중요합니다. AMD는 트랜지스터 수, 프로세스 노드 수 등에서 통계적으로 엔비디아와 비슷한 수준의 성능을 갖춘 GPU를 생산합니다. 물론 AMD GPU가 Nvidia GPU만큼 빠르거나 발전된 것은 아니지만, Nvidia GPU가 10배 더 빠르거나 비슷하지도 않습니다. 실제로 FLOP당 원가 측면에서 AMD GPU는 Nvidia GPU의 절반 비용입니다.

DRAM 시장과 같은 다른 반도체 시장을 살펴보면, DRAM 시장의 총 마진은 사이클 하단에서는 마이너스, 사이클 상단에서는 60% 내외, 평균 20% 내외로, 글로벌 플레이어가 3개(삼성, 마이크론, SK하이닉스)에 불과한 고도로 집중된 시장임에도 불구하고 실질적인 의미는 거의 없습니다. 정도입니다. 이에 비해 엔비디아의 전체 매출 총이익은 최근 몇 분기 동안 75% 정도였는데, 이는 마진이 낮고 상품화된 소비자 3D 그래픽 카테고리의 하락에 따른 것입니다.

이것이 어떻게 가능할까요? 주된 이유는 소프트웨어와 관련이 있습니다. Linux에서 '바로 사용할 수 있고' 엄격한 테스트를 거쳐 안정성이 높은 드라이버(Linux 드라이버의 품질이 낮고 불안정한 것으로 악명이 높은 AMD와 달리)와 PyTorch와 같이 고도로 최적화된 오픈 소스 코드가 Linux에서 잘 작동하도록 조정되었기 때문입니다. 잘 실행되도록 조정된 PyTorch와 같은 고도로 최적화된 오픈 소스 코드도 있습니다.

그뿐만 아니라 프로그래머가 GPU에 최적화된 저수준 코드를 작성하는 데 사용하는 프로그래밍 프레임워크인 CUDA는 Nvidia가 완전히 소유하고 있으며 사실상 표준이 되었습니다. GPU 가속을 다룰 줄 아는 매우 재능 있는 프로그래머 그룹을 고용하고 싶고 이들에게 연봉 65만 달러, 즉 특정 기술을 가진 사람들의 평균 임금 수준을 기꺼이 지불할 의향이 있다면 그들은 아마도 CUDA로 '생각'하고 작업할 것입니다.

소프트웨어 이점 외에도 Nvidia의 또 다른 주요 장점은 인터커넥트라고 하는 것으로, 기본적으로 수천 개의 GPU를 대역폭과 함께 효율적으로 연결하여 오늘날의 가장 최첨단 기본 모델입니다. 요컨대, 효율적인 훈련의 핵심은 다음 단계의 훈련에 필요한 다음 데이터 배치가 수신될 때까지 유휴 상태로 기다리지 않고 모든 GPU를 항상 최대한 활용하는 것입니다.

대역폭 요구 사항은 기존 데이터센터 애플리케이션에 필요한 일반적인 대역폭보다 훨씬 높습니다. 이 상호 연결은 기존 네트워킹 장비나 광섬유를 사용할 수 없는데, 이는 모든 GPU를 지속적으로 사용하는 데 필요한 초당 테라바이트의 대역폭을 제공하기에는 너무 많은 지연 시간이 발생하기 때문입니다.

NVIDIA는 2019년에 69억 달러에 이스라엘 기업인 Mellanox를 인수하는 매우 현명한 결정을 내렸으며, 이 인수를 통해 업계 최고의 인터커넥트 기술을 확보하게 되었습니다. 상호 연결 속도는 소수의 GPU만 사용하는 추론 프로세스(COT 추론 포함)보다 수천 대의 GPU 출력을 동시에 활용해야 하는 훈련 프로세스와 더 밀접한 관련이 있으며, 훈련된 모델의 양자화된(압축된) 모델 가중치를 저장하기에 충분한 VRAM만 있으면 된다는 점에 유의하세요.

이러한 요소들이 NVIDIA의 '해자'의 주요 구성 요소라고 할 수 있으며, 이것이 오랫동안 높은 수익 마진을 유지할 수 있었던 이유입니다(또한 '플라이휠 효과'가 있어 엄청난 수익을 대규모 R&D에 공격적으로 투자하여 경쟁사보다 훨씬 빠른 속도로 기술을 개선할 수 있었습니다. (따라서 원시 성능에서 일관된 리더십을 유지할 수 있습니다).

그러나 앞서 지적했듯이 다른 모든 것이 동일하다고 가정할 때 고객이 실제로 중요하게 생각하는 것은 종종 달러당 성능(장치의 초기 CAPEX 비용과 에너지 사용량, 즉 와트당 성능)이며, Nvidia의 GPU가 가장 빠른 것은 사실이지만 순수하게 FLOPS로만 측정하면 최고의 가성비를 제공하는 것은 아닙니다. 측정으로만 측정하면 가장 비용 효율적이지는 않습니다.

그러나 다른 요소들도 마찬가지입니다. AMD의 드라이버는 형편없고, 인기 있는 AI 소프트웨어 라이브러리는 AMD GPU에서 잘 실행되지 않으며, 게임 분야 외에는 AMD GPU를 정말 잘 다루는 GPU 전문가를 찾을 수 없습니다(CUDA 전문가에 대한 시장 수요가 더 많은데 왜 굳이 신경을 써야 할까요?). 그들에 대한 수요가 더 많다고요?) AMD의 열악한 상호 연결 기술로 인해 수천 개의 GPU를 효과적으로 연결할 수 없으며, 이 모든 것은 AMD가 하이엔드 데이터센터 분야에서 근본적으로 경쟁력이 없으며 단기적으로 좋은 미래가 보이지 않는다는 것을 의미합니다.

그래도 Nvidia의 미래는 밝아 보이죠? 이제 왜 이 회사의 주식 가치가 그렇게 높은지 알 수 있겠죠! 하지만 다른 우려 사항도 있을까요? 글쎄요, 크게 주목할 만한 우려 사항은 그리 많지 않은 것 같습니다. 지난 몇 년 동안 숨어 있던 몇 가지 문제가 있지만 성장 속도를 고려할 때 그 영향은 미미했습니다. 하지만 이러한 문제들은 앞으로의 상승세에 대비하고 있습니다. 다른 이슈들은 최근(예: 지난 2주간)에 발생했으며 최근 GPU 수요 증가의 궤도를 크게 바꿀 수 있습니다.

주요 위협

거시적 차원에서 보면 다음과 같이 생각해 볼 수 있습니다: Nvidia는 꽤 오랫동안 매우 틈새 영역에서 사업을 운영해 왔습니다. 경쟁업체는 매우 제한적이며, 이러한 경쟁업체는 Nvidia와 같은 시장 선도업체를 실제로 압박할 만큼 충분한 자본이 없기 때문에 실질적인 위협이 될 만큼 수익성이 높고 빠르게 성장하지 못합니다. 게임 시장은 규모가 크고 성장하고 있지만 엄청난 수익이나 특별히 인상적인 연간 성장률을 제공하지는 않습니다.

2016~2017년 무렵 일부 대형 기술 기업이 머신 러닝과 AI에 대한 고용과 지출을 늘리기 시작했지만, 전체적으로 보면 이들에게 중요한 프로젝트가 아니라 '달 탐사 프로그램' R&D 지출에 가까웠습니다. 하지만 2022년에 ChatGPT가 출시되면서 AI 경쟁이 본격적으로 시작되었고, 아직 2년이 조금 남았지만 개발 속도만 놓고 보면 오래 전 일처럼 느껴집니다.

갑자기 대기업들이 놀라운 속도로 수십억 달러를 투자할 준비가 되어 있습니다. Neurips나 ICML과 같은 대형 연구 컨퍼런스에 참석하는 연구자 수가 급증했습니다. 금융 파생상품 분야에서 일하던 영리한 학생들이 트랜스포머로 전향했고, 비임원 엔지니어링 직책(즉, 팀을 관리하지 않는 독립적인 기여자)에 대한 백만 달러 이상의 보상 패키지가 주요 AI 연구소의 표준이 되었습니다.

대형 유람선의 방향을 바꾸는 데는 시간이 걸리며, 매우 빠르게 움직이고 수십억 달러를 지출하더라도 새로운 데이터센터를 구축하고, 모든 장비를 주문하고(리드 타임이 연장됨), 모든 설정 및 시운전을 수행하는 데 1년 이상이 걸립니다. 아무리 유능한 프로그래머라도 기존 코드 기반과 인프라에 익숙해지는 데는 오랜 시간이 걸립니다.

그러나 상상할 수 있듯이 이 분야에 투자되는 돈, 인력, 노력의 양은 절대적으로 천문학적이며, AI가 우리 삶을 지배하는 미래가 아닌 현재 수익에 가장 큰 기여를 하고 있기 때문에 모든 플레이어의 최대 타깃이 바로 Nvidia입니다.

따라서 가장 중요한 결론은 '시장은 항상 탈출구를 찾을 것'이며, 완전히 새로운 개념을 활용하는 하드웨어를 만드는 대안적이고 근본적으로 혁신적인 새로운 방법을 찾아 엔비디아의 해자를 굳건히 할 장애물을 우회할 것이라는 것입니다.

하드웨어 수준의 위협

예를 들어, Cerebras의 소위 '웨이퍼 레벨' AI 트레이닝 칩은 300mm 실리콘 웨이퍼 전체를 를 사용하여 단일 칩에 훨씬 더 많은 트랜지스터와 코어를 포함하는 절대적으로 거대한 칩을 만듭니다(과거에 이 접근 방식이 경제적으로 실용적이지 못했던 수율 문제를 어떻게 해결하고 있는지 최근 블로그 게시물을 참조하세요).

예를 들어, Cerebras의 최신 WSE-3 칩과 Nvidia의 플래그십 데이터센터 GPU인 H100을 비교하면, Cerebras 칩의 총 칩 면적은 46,225제곱밀리미터인 반면 H100의 칩 면적은 814제곱밀리미터입니다( 업계 표준에 따르면 H100은 그 자체로도 거대한 칩입니다.) 이는 57배에 달하는 수치이며, H100처럼 칩에 132개의 '스트리밍 멀티프로세서' 코어를 구현하는 대신 Cerebras 칩에는 약 90만 개의 코어가 있습니다(물론 각각 더 작고 덜 강력하지만 여전히 비교하면 매우 큰 숫자입니다). 특히 AI 분야에서 Cerebras 칩은 단일 H100 칩의 약 32배에 달하는 FLOPS 연산 능력을 가지고 있습니다. H100 칩이 4만 달러에 가까운 가격에 판매되는 것을 감안하면 WSE-3 칩도 저렴하지 않다는 것을 짐작할 수 있습니다.

요점은 무엇인가요? 비슷한 접근 방식을 사용하여 Nvidia와 정면으로 맞서거나 멜라녹스의 상호 연결 기술에 맞추려고 노력하는 대신, Cerebras는 상호 연결 문제를 해결하기 위해 완전히 새로운 접근 방식을 취합니다. 즉, 모든 것이 동일한 초대형 칩에서 실행되면 프로세서 간 대역폭 문제는 덜 중요해집니다. 하나의 거대한 칩이 수많은 H100을 대체할 수 있기 때문에 동일한 수준의 상호 연결이 필요하지도 않습니다.

그리고 Cerebras 칩은 AI 추론 작업에서 매우 우수한 성능을 발휘합니다. 실제로 지금 여기에서 무료로 체험해 볼 수 있으며 매우 유명한 Meta의 Llama-3.3-70B 모델을 사용할 수 있습니다. 응답 속도는 초당 약 1,500토크로 기본적으로 즉각적이며, 비교 관점에서 보면 초당 30토크 이상은 ChatGPT와 Claude에 비해 상대적으로 빠른 편이며, 초당 10토크도 기본적으로 응답이 생성되는 대로 읽을 수 있을 만큼 빠릅니다.

Cerebras 외에도 Groq(Elon Musk의 X AI 훈련 Grok 모델 시리즈와 혼동하지 마세요.)와 같은 다른 회사들도 동일한 기본 문제를 해결하기 위해 또 다른 혁신적인 접근 방식을 취하고 있습니다. NVIDIA의 CUDA 소프트웨어 스택과 직접 경쟁하는 대신 딥 러닝 모델에 필요한 정밀한 수학적 연산에 특화된 소위 '텐서 처리 장치(TPU)'를 개발했습니다. 이 칩은 '결정론적 컴퓨팅'이라는 개념을 중심으로 설계되어 기존 GPU와 달리 매번 완전히 예측 가능한 방식으로 연산을 수행합니다.

이것은 사소한 기술적 세부 사항처럼 들릴 수 있지만 실제로는 칩 설계와 소프트웨어 개발 모두에 큰 영향을 미칩니다. 타이밍이 완전히 정의되면 기존 GPU 아키텍처에서는 불가능한 방식으로 칩을 최적화할 수 있습니다. 그 결과, 지난 6개월여 동안 Llama 모델 제품군 및 기타 오픈 소스 모델에서 초당 500토큰 이상의 추론 속도를 보여줬는데, 이는 기존 GPU 설정이 달성할 수 있는 것보다 훨씬 빠른 속도입니다. Cerebras와 마찬가지로 지금 바로 사용할 수 있으며 여기에서 무료로 체험해 볼 수 있습니다.

'투기적 디코딩'이 적용된 Llama3 모델을 사용하는 Groq은 초당 1,320개의 토큰을 생성할 수 있으며, 이는 Cerebras와 마찬가지로 기존 GPU로 달성할 수 있는 성능을 훨씬 뛰어넘는 것입니다. 사용자가 초당 1,000개 미만의 토큰을 생성하는 ChatGPT의 속도에 상당히 만족하는 것으로 보이는데 초당 1,000개 이상의 토큰을 생성하는 것이 무슨 의미가 있냐고 질문하실 수도 있습니다. 사실, 속도가 중요합니다. 인간 지식 근로자처럼 즉각적인 피드백을 받고 집중력을 잃지 않을 때 반복이 더 빨라집니다. API를 통해 프로그래밍 방식으로 모델을 사용하면 다단계 추론(이전 단계의 출력이 다음 단계의 힌트/추론을 위한 입력으로 사용되는 경우)이 필요한 완전히 새로운 종류의 앱이나 콘텐츠 감사, 사기 탐지, 동적 가격 책정 등과 같이 지연 시간이 짧은 응답을 가능하게 할 수 있습니다.

그러나 보다 근본적으로는 요청에 대한 응답이 빠를수록 루프가 빨라지고 하드웨어가 더 바빠집니다. Groq의 하드웨어는 서버 한 대당 200만~300만 달러에 달할 정도로 매우 비싸지만, 하드웨어를 항상 바쁘게 유지할 만큼 수요가 많으면 요청 처리당 비용은 훨씬 낮아집니다.

Nvidia의 CUDA와 마찬가지로 Groq의 강점 중 큰 부분은 독점 소프트웨어 스택에서 비롯됩니다. 메타, 딥시크, 미스트랄과 같은 다른 회사에서 개발하여 무료로 공개한 오픈 소스 모델을 특정 하드웨어에서 더 빠르게 실행할 수 있도록 특별한 방식으로 세분화할 수 있습니다.

Cerebras와 마찬가지로, 이들은 프로세스의 특정 측면을 최적화하기 위해 완전히 다른 방식으로 작동하도록 다양한 기술적 결정을 내립니다. 예를 들어 Groq의 경우 학습보다는 추론 수준의 계산에 전적으로 초점을 맞추고 있으며, 이미 학습된 모델을 추론할 때만 특수 하드웨어와 소프트웨어의 속도와 효율성 측면에서 큰 이점을 누릴 수 있습니다.

그러나 사람들이 예상하는 다음 큰 확장 법칙이 추론 수준의 컴퓨팅이고, COT 모델의 가장 큰 단점이 응답하기 위해 모든 중간 로직 토큰을 생성해야 해서 지연 시간이 너무 길다는 것이라면, NVIDIA보다 훨씬 빠르고 효율적인 추론 기반 컴퓨팅만 하는 회사조차도 경쟁에서 심각한 위협이 될 수 있습니다. 향후 몇 년 안에 심각한 경쟁 위협이 될 것입니다. 최소한 향후 2~3년 동안 NVIDIA의 매출 성장에 대한 현재 주식 가치 평가의 지나치게 높은 기대치를 Cerebras와 Groq이 잠식할 수 있습니다.

이러한 혁신적이지만 상대적으로 잘 알려지지 않은 스타트업 경쟁업체 외에도, NVIDIA의 최대 고객 중 일부는 AI 훈련 및 추론 워크로드를 위한 맞춤형 칩을 개발해 심각한 경쟁을 벌이고 있습니다. 이들 중 가장 유명한 곳은 2016년부터 자체적으로 TPU를 개발해 온 구글로, 구글은 잠시 외부 고객에게 TPU를 판매하기도 했지만, 지난 몇 년 동안 모든 TPU를 내부적으로 사용해 왔으며 이미 6세대 TPU 하드웨어를 출시하기도 했다는 점이 흥미롭습니다.

아마존은 또한 Trainium2 및 Inferentia2라는 자체 맞춤형 칩을 개발하고 있습니다. 아마존은 수십억 달러의 Nvidia GPU를 갖춘 데이터센터를 구축하는 동시에 이러한 자체 칩을 사용하는 다른 데이터센터에 수십억 달러를 투자하고 있습니다. 40만 개가 넘는 칩을 갖춘 Anthropic을 위한 클러스터가 곧 온라인에 공개될 예정입니다.

아마존은 사내 AI 모델 개발을 완전히 망쳐서 궁극적으로 경쟁력이 없는 모델에 많은 사내 컴퓨팅 리소스를 낭비한다는 비판을 받아왔지만, 맞춤형 칩은 또 다른 문제입니다. 다시 말하지만, 맞춤형 칩이 반드시 엔비디아보다 더 우수하거나 빠를 필요는 없습니다. 이들에게 필요한 것은 충분히 좋지만 Nvidia가 H100 사업에서 얻는 90% 이상의 총 마진이 아닌 손익분기점 수준의 총 마진으로 만들어진 칩뿐입니다.

OpenAI도 맞춤형 칩을 만들 계획을 발표했으며, 이들은 (Microsoft와 함께) 엔비디아의 데이터센터 하드웨어를 가장 많이 사용하는 것으로 알려져 있습니다. 그것만으로는 충분하지 않다는 듯, Microsoft는 자체 커스텀 칩을 발표했습니다!

그리고 세계에서 가장 가치 있는 기술 기업인 Apple은 매우 혁신적이고 파괴적인 맞춤형 칩 사업으로 수년간 예상을 뒤엎고 있으며, 현재 와트당 성능 면에서 인텔과 AMD CPU를 완전히 제치고 모바일(휴대 전화/ 태블릿/ 노트북) 애플리케이션에서 와트당 최고 성능을 발휘하고 있습니다. 태블릿/노트북) 애플리케이션에서 와트당 성능이 가장 중요한 요소입니다. AMD는 수년 동안 자체 설계한 GPU와 '뉴럴 프로세서'를 생산해 왔지만, iPhone 카메라에 사용되는 고급 소프트웨어 기반 이미지 처리와 같은 맞춤형 애플리케이션 외에는 아직 이러한 칩의 유용성을 실제로 입증하지 못했습니다.

모바일 우선, 소비자 지향, '엣지 컴퓨팅'에 초점을 맞추고 있는 애플의 초점은 다른 업체들과는 다른 것처럼 보이지만, 애플이 아이폰 사용자에게 AI 서비스를 제공하기 위해 OpenAI와의 새로운 계약에 충분한 자금을 투자하게 된다면, 다음과 같은 일이 벌어질 수 있습니다. 추론/학습을 위한 자체 커스텀 칩을 만드는 방법을 연구하는 팀이 있다고 상상해야 합니다(비밀이 보장되는 만큼, 여러분은 이에 대해 직접 알 수는 없겠지만!). .

지금까지 엔비디아의 슈퍼 확장 고객 기반이 강력한 파워 법칙 분포를 보이며 소수의 최상위 고객이 수익성이 높은 매출의 대부분을 차지한다는 것은 비밀이 아닙니다. 이러한 VIP 고객들이 각각 AI 학습 및 추론을 위한 맞춤형 칩을 자체적으로 구축하고 있는 상황에서 이 비즈니스의 미래를 어떻게 바라봐야 할까요?

이러한 질문에 대해 생각할 때 한 가지 중요한 사실을 명심해야 합니다. NVIDIA는 지적 재산 기반 기업이라는 점입니다. 그들은 자체 칩을 만들지 않습니다. 이 놀라운 장치를 만드는 특별한 비결은 아마도 이러한 최첨단 공정 노드용 칩을 만드는 데 사용되는 특수 EUV 리소그래피 머신을 제조하는 TSMC와 ASML에서 비롯된 것일 것입니다. 이는 TSMC가 충분한 선투자를 제공하고 일정 금액을 보장하는 모든 고객에게 최첨단 칩을 판매하기 때문에 매우 중요합니다. 이러한 칩이 비트코인 채굴 전용 집적 회로, 그래픽 프로세서, 열가소성 폴리우레탄, 휴대폰 시스템 온 칩 등 어떤 것이든 상관없습니다.

Nvidia의 수석 칩 디자이너들이 연간 벌어들이는 돈으로, 이 거대 기술 기업은 최고의 인재들이 이직하도록 유도하기에 충분한 현금과 재고를 확보할 수 있습니다. 팀과 리소스가 확보되면 2~3년 안에 혁신적인 칩을 설계할 수 있으며(H100의 50% 수준까지는 아니더라도 Nvidia의 총 마진을 고려하면 성장할 여지가 많습니다), TSMC 덕분에 이러한 칩을 실제 실리콘으로 전환할 수 있습니다(엔비디아와 동일한 공정 노드 기술을 사용하여 실제 실리콘으로 전환할 수도 있습니다).

소프트웨어 위협

이러한 하드웨어 위협만으로는 충분하지 않은 것처럼 지난 몇 년 동안 소프트웨어 분야에서도 몇 가지 발전이 있었으며, 이는 시작은 느리지만. 이제 추진력을 얻고 있으며 Nvidia의 CUDA 소프트웨어 지배력에 심각한 위협이 될 수 있습니다. 첫째, AMD GPU용 Linux 드라이버의 열악함이 있습니다. AMD가 수년 동안 이러한 드라이버를 현명하지 못하게 방치하여 많은 돈이 낭비되는 것을 지켜보았다는 이야기를 했던 것을 기억하시나요?

흥미롭게도 10대 시절 오리지널 iPhone을 탈옥한 것으로 잘 알려진 악명 높은 해커 조지 호츠는 현재 자율주행 스타트업 Comma.ai와 오픈 소스 tiny를 개발한 AI 컴퓨터 회사 Tiny Corp의 CEO로 재직 중입니다. 오픈 소스 타이니그래드(tinygrad) AI 소프트웨어 프레임워크도 개발)는 최근 AMD의 끔찍한 드라이버를 다루는 데 지쳐서 자신의 타이니박스 AI 컴퓨터에서 저비용 AMD GPU(다양한 모델로 제공되며 일부는 엔비디아 GPU를 사용하고 일부는 AMD GPU를 사용)를 사용할 수 있기를 간절히 원한다고 발표했습니다.

실제로 그는 AMD의 도움 없이 AMD GPU용 맞춤형 드라이버와 소프트웨어 스택을 직접 만들었으며, 2025년 1월 15일에 회사의 X 계정을 통해 "우리는 AMD의 완전한 독점 스택인 RDNA3 어셈블러에서 한 걸음만 더 나아가면 됩니다. 우리는 자체 드라이버, 런타임, 라이브러리 및 에뮬레이터를 보유하고 있습니다. (모두 약 12,000줄에 달합니다!)" 그의 실적과 기술력을 고려할 때 향후 몇 개월 내에 모든 작업을 완료할 수 있을 것으로 보이며, 현재 회사는 Nvidia GPU에 대한 비용을 지불해야 하는 반면 광범위한 애플리케이션에 AMD GPU를 사용할 수 있는 많은 흥미로운 가능성을 열게 될 것입니다.

이것은 AMD의 드라이버 중 하나에 불과하며 아직 완료되지 않았습니다. 또 뭐가 있을까요? 소프트웨어 측면에서는 훨씬 더 큰 영향을 미치는 다른 여러 영역이 있습니다. 첫째, 많은 대형 기술 기업과 오픈 소스 소프트웨어 커뮤니티는 현재 보다 일반적인 AI 소프트웨어 프레임워크를 개발하기 위해 협력하고 있으며, 이 중 CUDA는 많은 '컴파일 대상' 중 하나에 불과합니다.

즉, 더 높은 수준의 추상화를 사용하여 소프트웨어를 작성하면 시스템 자체가 이러한 높은 수준의 구성을 CUDA에서 훌륭하게 실행되는 매우 최적화된 저수준 코드로 자동 변환할 수 있습니다. 하지만 이 높은 수준의 추상화 계층에서 이루어지기 때문에 주요 기술 회사에서 개발 중인 방대한 맞춤형 칩과 같은 다양한 공급업체의 다른 많은 GPU 및 TPU에서 잘 실행되는 로우레벨 코드로 쉽게 컴파일할 수 있습니다.

이러한 프레임워크의 가장 잘 알려진 예로는 MLX(주로 Apple에서 후원), Triton(주로 OpenAI에서 후원), JAX(Google에서 개발)가 있습니다. MLX는 특히 흥미로운데, Apple에서 효율적으로 실행되는 PyTorch와 유사한 API를 제공하기 때문입니다. 이러한 추상화 계층을 통해 완전히 다른 아키텍처에서 AI 워크로드를 실행할 수 있는 방법을 보여줍니다. 한편, 개발자가 각 플랫폼의 기본 세부 사항을 이해하지 않고도 다양한 하드웨어 대상에서 실행되도록 컴파일할 수 있는 고성능 코드를 작성할 수 있다는 점에서 트리톤의 인기는 점점 높아지고 있습니다.

이러한 프레임워크를 사용하면 개발자가 강력한 추상화를 사용하여 코드를 작성한 다음 수많은 플랫폼에 맞게 자동으로 컴파일할 수 있으므로 더 효율적이지 않나요? 이 접근 방식은 실제로 코드를 실행할 때 훨씬 더 유연성을 제공합니다.

1980년대에는 가장 인기 있고 베스트셀러였던 모든 소프트웨어가 수작업으로 조작된 어셈블리 언어로 작성되었습니다. 예를 들어 PKZIP 압축 유틸리티는 표준 C 프로그래밍 언어로 작성되고 당시 최고의 최적화 컴파일러를 사용하여 컴파일된 코드 버전이 수작업으로 튜닝된 어셈블리 코드의 절반 속도로 실행될 정도로 속도를 극대화하기 위해 수작업으로 제작되었습니다. WordStar 및 VisiCalc와 같은 다른 인기 소프트웨어 패키지도 마찬가지입니다.

컴파일러는 시간이 지나면서 더욱 강력해졌고, CPU 아키텍처가 바뀔 때마다(예: 인텔의 486 출시에서 펜티엄으로 등) 수기로 작성된 어셈블러 프로그램은 보통 폐기되고 다시 작성되어야 하며, 가장 똑똑한 프로그래머만이 그 일을 맡게 되었습니다(CUDA 전문가가 '일반' 소프트웨어 개발 전문가보다 고용 시장에서 일반' 소프트웨어 개발자보다 취업 시장에서 더 유리한 것처럼 말입니다). 결국 상황은 수렴되었고, 수작업 컴파일의 속도 이점은 주어진 CPU에서 코드를 최적으로 실행하기 위해 컴파일러에 의존하는 C 또는 C++와 같은 고급 언어로 코드를 작성하는 유연성보다 훨씬 더 큰 이점을 가져다주게 되었습니다.

오늘날에는 어셈블리 언어로 새 코드를 작성하는 사람이 거의 없습니다. 컴퓨터는 최적화에 능숙하고 개발의 유연성과 속도가 점점 더 중요한 요소가 되고 있으며, 특히 하드웨어 비용을 크게 절감할 수 있고 'CUDA 세금'을 계속 지불할 필요가 없기 때문에 NVIDIA 수익의 90퍼센트 이상을 창출합니다.

또 다른 극적인 변화는 CUDA 자체가 (칩의 레이아웃을 설명하는 업계 표준으로 사용되는) Verilog와 유사한 '사양 언어'로서 높은 수준의 추상화가 될 수 있다는 점입니다. 숙련된 개발자는 대규모 병렬 처리를 포함하는 고수준 알고리즘을 설명하는 데 사용할 수 있지만(이미 익숙하고 구조가 잘 잡혀 있으며 범용 언어이기 때문에), 일반적인 관행과 달리 이 코드는 Nvidia GPU에서 사용하기 위해 컴파일되는 대신 소스 코드 형태로 LLM에 공급되어 새로운 Cerebras 칩, 새로운 Amazon Trainium2 또는 새로운 Google TPUv6 등 이해할 수 있는 저수준 코드로 변환할 수 있습니다. 생각만큼 먼 미래는 아닙니다. OpenAI의 최신 O3 모델을 사용하면 이미 도달 가능한 수준이며 1~2년 내에 일반적으로 구현될 것입니다.

이론적 위협

아마도 가장 충격적인 발전은 지난 주에 일어났을 것입니다. 이 사건은 AI 커뮤니티를 완전히 뒤흔들었고, 주류 언론은 이에 대해 한마디도 하지 않았지만 트위터 지식인들 사이에서 화제가 되었습니다. DeepSeek라는 중국 스타트업이 기본적으로 성능 수준 면에서 OpenAI와 Anthropic의 최고 모델과 경쟁하는 두 가지 새로운 모델을 출시했습니다(Meta Llama3 모델 및 기타 덜 알려진 오픈 소스 모델보다 성능이 뛰어남). 이러한 모델을 DeepSeek-V3(기본적으로 GPT-4o 및 Claude 3.5 Sonnet에 대응하는 모델)와 DeepSeek-R1(기본적으로 OpenAI의 O1 모델에 대응하는 모델)이라고 부릅니다.

이 모든 것이 왜 그렇게 충격적일까요? 우선, 딥시크는 직원이 200명도 안 되는 소규모 회사입니다. 투시그마나 렌텍과 비슷한 퀀트 트레이딩 헤지펀드로 시작했지만, 중국이 이 분야에 대한 규제를 강화한 후 수학과 엔지니어링 전문성을 활용해 AI 연구로 전환한 것으로 알려져 있습니다. 하지만 이들이 발표한 두 개의 매우 상세한 기술 보고서인 DeepSeek-V3와 DeepSeekR1은 고도의 기술 보고서이기 때문에 선형 대수에 대해 전혀 모르신다면 읽기가 어려울 수 있습니다. 하지만 앱스토어에서 딥시크 앱을 무료로 다운로드하고 구글 계정으로 로그인하여 설치한 후 사용해 보거나(안드로이드에서도 설치 가능), 데스크톱에서 브라우저를 사용하여 사용해 보세요. 'DeepThink' 옵션을 선택하여 사고의 사슬(R1 모델)을 활성화하고 기술 보고서의 일부를 간단한 언어로 설명하도록 설정하세요.

이것은 몇 가지 중요한 사항을 동시에 알려줍니다:

우선, 이 모델은 절대적으로 합법적인 모델입니다. AI 벤치마킹에는 많은 가짜 구성 요소가 있으며, 이러한 테스트는 모델이 벤치마크에서는 잘 작동하지만 실제 테스트에서는 제대로 작동하지 않도록 조작되는 경우가 많습니다. 구글은 의심할 여지없이 이와 관련하여 가장 큰 주범이며, 항상 자사의 LLM이 얼마나 놀라운지 자랑하지만, 사실 이러한 모델은 실제 테스트에서 끔찍한 성능을 보이며 가장 단순한 작업조차도 안정적으로 완료하지 못하며 훨씬 덜 까다로운 코딩 작업은 물론이고, 일관되고 강력하게 반응하는 DeepSeek 모델은 그렇지 않으며, OpenAI 및 Anthropic과 정확히 동일한 수준의 모델과 정확히 동일한 수준입니다.

둘째, DeepSeek는 모델의 품질뿐만 아니라 더 중요한 모델 학습 및 추론의 효율성에서도 상당한 진전을 이루었습니다. 하드웨어에 매우 근접하고 독특하고 매우 영리한 최적화를 통해 DeepSeek는 GPU를 사용하여 훨씬 더 효율적인 방식으로 이러한 놀라운 모델을 훈련할 수 있습니다. 일부 측정에 따르면, DeepSeek는 다른 최첨단 모델보다 약 45배 더 효율적입니다.

딥시크는 딥시크-V3의 전체 훈련 비용이 5백만 달러가 조금 넘는다고 주장합니다. 2024년에 개별 모델 훈련 비용이 1억 달러가 넘었던 OpenAI, Anthropic 등의 기준에 비하면 아무것도 아닙니다.

어떻게 이런 일이 가능할까요? 어떻게 이 작은 중국 회사가 리소스, 인력, 급여, 자본, GPU 등 모든 면에서 100배나 더 많은 것을 갖춘 선도적인 AI 연구소의 가장 똑똑한 사람들을 완전히 능가할 수 있을까요? 중국은 바이든의 GPU 수출 제한 조치로 인해 타격을 입어야 하지 않을까요? 글쎄요, 세부 사항은 다소 기술적이지만 적어도 일반적인 용어로 설명 할 수 있습니다. 아마도 '필요성이 발명의 어머니'라는 말이 있듯이, 딥시크의 상대적으로 약한 GPU 처리 능력이 창의성과 독창성을 높이는 데 핵심 요소가 될 것입니다.

주요 혁신은 훈련 과정에서 8비트 부동 소수점 숫자(FP8)를 사용할 수 있는 고급 혼합 정밀도 훈련 프레임워크입니다. 대부분의 서구 AI 연구소는 훈련에 '완전 정밀도' 32비트 숫자를 사용합니다(이는 기본적으로 인공 뉴런의 출력을 설명할 때 가능한 점근의 수를 지정합니다). FP8의 8비트는 생각보다 훨씬 더 넓은 범위의 숫자를 저장할 수 있으며, 일반 정수의 256가지 크기로만 한정되는 것이 아니라 영리한 수학적 트릭을 사용하여 매우 작은 숫자와 매우 큰 숫자를 저장할 수 있습니다(32비트보다 자연스러운 정밀도는 떨어지지만). 주요 단점은 FP32는 넓은 범위에서 놀라운 정밀도로 숫자를 저장할 수 있지만, FP8은 메모리를 절약하고 성능을 개선하기 위해 일부 정밀도를 희생하면서도 많은 AI 워크로드에 충분한 정밀도를 유지한다는 점입니다.

DeepSeek는 숫자를 활성화용 청크와 가중치용 청크로 나누고 네트워크의 주요 지점에서 전략적으로 고정밀 연산을 사용하는 영리한 시스템을 개발하여 이 문제를 해결했습니다. 고정밀로 훈련한 다음 압축(이 과정에서 일부 품질이 저하됨)하는 다른 연구소와 달리, DeepSeek의 FP8 네이티브 접근 방식은 성능 저하 없이 많은 메모리를 절약할 수 있다는 것을 의미합니다. 수천 개의 GPU로 훈련할 때 GPU당 메모리 요구량이 크게 줄어들어 전체적으로 훨씬 적은 수의 GPU가 필요합니다.

또 다른 주요 혁신은 멀티 마커 예측 시스템입니다. 대부분의 Transformer 기반 LLM 모델은 한 번에 하나의 마커씩 다음 마커를 예측하여 추론합니다.

DeepSeek는 단일 토큰 예측의 품질을 유지하면서 여러 토큰을 예측하는 방법을 알아냈습니다. 이 방법은 이러한 추가 마커 예측에서 약 85~90%의 정확도를 달성하여 품질 저하 없이 추론 속도를 효과적으로 두 배로 높였습니다. 또한, 예측의 전체 인과 관계를 유지하므로 단순한 추측을 넘어 구조화되고 맥락에 맞는 예측을 할 수 있습니다.

가장 혁신적인 개발 중 하나는 다중 잠재 주의(MLA)라고 부르는 것입니다. 이는 키-값 인덱싱이라고 부르는 획기적인 기술로, 기본적으로 트랜스포머 아키텍처의 주의 메커니즘에서 개별 토큰이 표시되는 방식입니다. 기술적인 관점에서 보면 다소 복잡하지만, 이러한 KV 인덱스는 훈련과 추론 과정에서 VRAM의 주요 용도 중 하나이며, 이러한 모델을 동시에 훈련하기 위해 수천 개의 GPU를 사용해야 하는 이유 중 하나라고 할 수 있습니다 - GPU당 최대 VRAM은 96GB이며, 이러한 인덱스는 그 메모리를 먹어치우게 됩니다.

MLA 시스템은 이러한 인덱스의 압축 버전을 저장하는 방법을 찾아내어 필수 정보를 캡처하면서도 메모리를 덜 사용하는 방법을 찾아냈습니다. 가장 좋은 점은 이러한 압축이 모델이 학습하는 방식에 직접 내장되어 있다는 것입니다. 별도의 단계를 거치는 것이 아니라 엔드투엔드 학습 파이프라인에 직접 내장되어 있습니다. 즉, 전체 메커니즘이 '차별화'되어 있으며 표준 옵티마이저를 사용하여 직접 학습할 수 있습니다. 이는 이러한 모델이 소위 '주변 차원'보다 훨씬 낮은 기본 데이터의 표현을 찾기 때문에 작동합니다. 따라서 전체 KV 인덱스를 저장하는 것은 본질적으로 다른 모든 사람들이 하는 일임에도 불구하고 낭비입니다.

실제로 필요한 것 이상의 방대한 양의 데이터를 저장함으로써 많은 공간을 낭비하여 학습 메모리 공간과 효율성을 크게 증가시킬 뿐만 아니라(다시 말해, 세계적 수준의 모델을 학습하는 데 필요한 GPU 수를 크게 줄임), 실제로 '조절자' 역할을 함으로써 모델의 품질을 향상시킬 수 있습니다. 모델이 학습 데이터의 노이즈를 수용하기 위해 낭비되는 용량을 사용하는 대신 정말 중요한 것에 집중하도록 유도합니다. 따라서 메모리를 많이 절약할 수 있을 뿐만 아니라 모델의 성능도 향상될 수 있습니다. 최소한 많은 메모리를 절약함으로써 성능에 심각한 타격을 입는 일은 없을 것이며, 이는 AI 학습에서 종종 직면하는 트레이드오프입니다.

또한, 듀얼파이프 알고리즘과 맞춤형 통신 커널을 통해 GPU 통신 효율성도 크게 향상되었습니다. 이 시스템은 계산과 통신을 지능적으로 중첩하여 작업 간에 GPU 리소스의 균형을 신중하게 조정합니다. 통신에는 약 20개의 스트림 멀티프로세서(SM) GPU만 필요하고 나머지는 계산에 사용됩니다. 그 결과 일반적인 트레이닝 설정보다 훨씬 높은 GPU 활용도를 제공합니다.

또 다른 현명한 방법은 혼합 전문성(MOE) 트랜스포머 아키텍처라고 불리는 로드 밸런싱 관련 주요 혁신 기술을 사용하는 것이었습니다. 아시다시피, AI 모델의 크기 또는 용량은 종종 모델에 포함된 매개변수의 수로 측정됩니다. 파라미터는 단순히 모델의 특정 속성을 저장하는 데 사용되는 숫자로, 예를 들어 특정 인공 뉴런의 '가중치' 또는 다른 뉴런에 대한 중요도, 컨텍스트('주의 메커니즘')에 따른 특정 토큰의 중요도 등이 있습니다.

Meta의 최신 Llama3 모델은 가장 작은 10억 개 매개변수 버전, 가장 일반적으로 사용되는 70B 매개변수 모델, 심지어 405B 매개변수를 가진 대형 모델 등 여러 가지 크기로 제공됩니다. 대부분의 사용자에게는 이 가장 큰 모델의 경우, 적어도 원래의 고정밀 버전을 배포하는 경우에는 컴퓨터에 수만 달러 상당의 GPU가 장착되어 있어야 적절한 속도로 추론을 실행할 수 있으므로 그 유용성이 제한적입니다. 결과적으로 이러한 오픈 소스 모델의 실제 사용과 관심은 대부분 8B 파라미터 또는 고도로 양자화된 70B 파라미터 수준에서 이루어지며, 이는 소비자급 Nvidia 4090 GPU가 수용할 수 있는 수준이고 요즘에는 1000달러 미만으로 구입할 수 있기 때문입니다.

이 모든 것의 요점은 무엇일까요? 어떤 의미에서 매개변수의 수와 정밀도는 모델 내부에 얼마나 많은 원시 정보 또는 데이터가 저장되어 있는지 알 수 있습니다. 모델의 추론 능력, 즉 'IQ'를 말하는 것이 아니라 매개변수 수가 적은 모델도 복잡한 논리 문제, 평면 기하학 정리 증명, 수능 수학 문제 등을 풀 때 뛰어난 인지능력을 발휘할 수 있다는 사실이 밝혀졌습니다.

그러나 이러한 작은 모델로는 스탕달 소설의 모든 플롯 반전의 모든 측면을 설명할 수 없는 반면, 정말 큰 모델은 그렇게 할 수 있는 잠재력을 가지고 있습니다. 이러한 극단적인 수준의 지식의 '비용'은 모델을 추론하기 위해 항상 405B개의 파라미터(또는 그 수에 상관없이)를 GPU의 VRAM에 동시에 저장해야 하기 때문에 모델을 훈련하고 추론하기가 매우 다루기 힘들고 어려워진다는 것입니다.

MOE 모델 접근 방식의 장점은 큰 모델을 각각 서로 다른(또는 적어도 완전히 겹치지 않는) 지식을 가진 일련의 작은 모델로 나눌 수 있다는 것입니다.DeepSeek의 혁신은 "비보조 손실"이라고 부르는 로드 밸런싱 전략의 개발입니다. 이는 로드 밸런싱이 일반적으로 수반하는 성능 저하 없이 전문가를 효율적으로 사용할 수 있게 해줍니다. 그런 다음 추론 요청의 성격에 따라 질문에 가장 잘 답하거나 작업을 해결할 수 있는 더 작은 집합의 '전문가' 모델로 추론을 지능적으로 라우팅할 수 있습니다.

각자의 전문 분야를 가진 전문가들로 구성된 위원회라고 생각하면 됩니다. 한 사람은 법률 전문가, 다른 사람은 컴퓨터 과학 전문가, 또 다른 사람은 비즈니스 전략 전문가가 될 수 있습니다. 따라서 누군가 선형 대수에 대해 질문하면 법률 전문가에게만 답변을 제공할 수는 없습니다. 물론 이것은 매우 거친 비유이며 실제로는 그렇게 작동하지 않습니다.

이 접근 방식의 진정한 장점은 모든 전문가에 대한 파라미터의 총 수가 많더라도 주어진 시간에 '활성'인 파라미터는 극히 일부에 불과하기 때문에 모델에 많은 양의 지식을 담을 수 있다는 것입니다. 즉, 추론을 수행하려면 VRAM에 가중치의 작은 하위 집합만 저장하면 됩니다. 추론을 수행합니다. 예를 들어, DeepSeek-V3의 경우 가장 큰 라마3 모델보다 훨씬 큰 671억 개의 파라미터를 포함하는 절대적으로 방대한 MOE 모델을 가지고 있지만, 주어진 시간에 활성화되는 파라미터는 37억 개에 불과하며 이는 소비자용 Nvidia 4090 GPU 두 개를 수용하기에 충분합니다. (총 비용이 2,000달러 미만)의 VRAM을 탑재할 수 있으며, 각각 약 4만 달러에 판매되는 H100 GPU를 하나 이상 사용하지 않아도 됩니다.

ChatGPT와 Claude 모두 MoE 아키텍처를 사용한다는 소문이 있으며, 소식통에 따르면 GPT-4에는 8개 모델에 걸쳐 총 1조 8천억 개의 파라미터가 있으며, 각 모델에는 2천 2백억 개의 파라미터가 포함되어 있다고 밝혔습니다. 이는 1조 8천억 개의 파라미터를 모두 VRAM에 넣는 것보다 훨씬 쉽지만, 메모리 사용량이 많기 때문에 모델을 실행하는 데만 여러 개의 H100급 GPU가 필요합니다.

위 내용 외에도 기술 문서에서는 몇 가지 다른 주요 최적화에 대해 언급하고 있습니다. 여기에는 텐서 병렬 처리를 피하고, 특정 연산을 저장하는 대신 역전파 중에 재계산하며, 주 모델과 보조 예측 모듈 간에 매개변수를 공유하는 메모리 효율성이 매우 높은 훈련 프레임워크가 포함됩니다. 이러한 모든 혁신의 합은 온라인에 떠돌고 있는 45배의 효율성 향상이라는 수치로 이어지며, 저는 이 수치가 정확하다고 믿어 의심치 않습니다.

딥시크의 모델 성능은 거의 동급 최고 수준임에도 불구하고 API를 통한 추론 요청 비용은 OpenAI와 Anthropic의 동급 모델보다 95% 저렴하다는 점이 이를 강력하게 입증합니다. 어떤 의미에서는 Nvidia의 GPU를 경쟁사의 새로운 맞춤형 칩과 비교하는 것과 비슷합니다. 성능 수준을 결정하고 요구 사항을 충족하기에 충분하고 API 가용성과 지연 시간도 충분히 좋다는 것을 증명할 수 있다면 훨씬 더 비용 효율적입니다(그리고 지금까지 놀라운 수요 급증에도 불구하고 수요의 급증에도 불구하고 사람들은 DeepSeek의 인프라가 얼마나 잘 작동하는지 놀라워하고 있습니다.)

하지만 데이터센터 제품에서 90% 이상의 독점적 총 마진으로 인해 비용 차이가 발생하는 Nvidia의 상황과는 달리, OpenAI 및 Anthropic API와 비교한 DeepSeek API의 비용 차이는 아마도 계산 효율성이 거의 50배 더 높기 때문일 것입니다(추론 측면에서는 그보다 훨씬 더 높을 것입니다. 학습 측면에서는 약 45배 더 효율적일 것입니다). 실제로 OpenAI와 Anthropic이 API 서비스를 통해 큰 수익을 올리고 있는지는 불분명합니다. 이들은 수신하는 모든 API 요청을 분석하여 더 많은 데이터를 수집하고 매출 성장에 더 집중하고 있을 수 있습니다.

더 나아가기에 앞서, 많은 사람들이 딥시크가 GPU 수와 모델 훈련에 소요되는 GPU 시간에 대해 거짓말을 했다고 추측하는 이유는 이 카드에 대한 수출 제한이 있기 때문에 실제로 주장한 것보다 많은 H100을 보유하고 있기 때문이며, 스스로 곤경에 빠지기를 원하지 않거나 이러한 카드를 더 많이 확보할 수 있는 기회를 해치고 싶지 않았기 때문입니다. 물론 그럴 가능성도 있지만, 저는 그들이 진실을 말하고 있으며 훈련과 추론 방법에서 극도의 독창성과 창의성을 보여줌으로써 이러한 놀라운 결과를 얻었을 가능성이 더 높다고 생각합니다. 그들은 그들이 한 일을 설명했고, 그들의 결과가 다른 실험실의 다른 연구자들에 의해 널리 복제되고 확인되는 것은 시간 문제일 뿐이라고 생각합니다.

실제로 생각하는 모델

업데이트된 R1 모델과 기술 보고서는 더욱 충격적일 수 있습니다. 이제 OpenAI를 제외하고 이 기술을 대규모로 작동시키는 것은 사실상 이들이 유일합니다. 하지만 OpenAI는 2024년 9월 중순에야 O1 프리뷰 모델을 출시했습니다. 불과 4개월 전의 일입니다! 한 가지 명심해야 할 점은 OpenAI는 이러한 모델이 실제로 낮은 수준에서 어떻게 작동하는지에 대해 매우 입을 다물고 있으며, 엄격한 기밀 유지 계약을 체결한 Microsoft와 같은 파트너를 제외한 누구에게도 실제 모델 가중치를 공개하지 않는다는 것입니다. 반면에 DeepSeek의 모델은 완전히 오픈 소스이며 느슨하게 라이선스가 부여되어 있어 완전히 다른 이야기입니다. 이들은 모델 작동 방식을 설명하는 매우 상세한 기술 보고서를 공개하고 누구나 보고 복제해 볼 수 있는 코드를 제공합니다.

R1을 통해 DeepSeek는 AI의 어려운 문제 중 하나인 대규모 감독 데이터 세트에 의존하지 않고 모델이 점진적으로 추론하도록 하는 문제를 근본적으로 해결했습니다. 신중하게 설계된 보상 함수와 함께 순수 강화 학습을 사용하여 모델이 복잡한 추론 기능을 완전히 자율적으로 개발하도록 하는 데 성공한 DeepSeek-R1-Zero 실험을 통해 이를 확인할 수 있습니다. 단순히 문제를 해결하는 데 그치지 않고 모델은 성장 사슬적 사고를 키우고, 자신의 작업을 자체 검증하며, 더 어려운 문제에 더 많은 계산 시간을 할당하는 방법을 유기적으로 학습합니다.

기술적 혁신은 보상 모델링에 대한 새로운 접근 방식입니다. 이들은 '보상 해킹'(모델의 실제 성능을 실제로 향상시키지 않는 가짜 방식으로 보상을 높이는 것)으로 이어질 수 있는 복잡한 신경 보상 모델을 사용하는 대신 정확도 보상(최종 답의 유효성 검사)과 형식 보상(구조화된 사고 장려)을 결합한 영리한 규칙 기반 시스템을 개발했습니다. 이 간단한 접근 방식은 다른 사람들이 시도했던 프로세스 기반 보상 모델보다 더 강력하고 확장 가능한 것으로 입증되었습니다.

특히 흥미로운 점은 훈련 중에 모델이 불확실성에 직면했을 때 도중에 사고 과정을 수정하는 방법을 자발적으로 학습하는 '깨달음의 순간'을 관찰했다는 것입니다. 이러한 돌발 행동은 사전에 프로그래밍된 것이 아니라 모델이 강화 학습 환경과 상호 작용하면서 자연스럽게 발생했습니다. 모델은 말 그대로 추론을 멈추고 추론에 잠재적인 문제를 표시한 다음 다른 접근 방식으로 다시 시작하는데, 이 모든 과정을 명시적으로 학습하지 않아도 됩니다.

전체 R1 모델은 강화 학습 기법을 적용하기 전에 '콜드 스타트' 데이터(고품질의 작은 예제 세트)를 도입하여 이러한 인사이트를 기반으로 구축됩니다. 또한 추론 모델링의 주요 과제인 언어적 일관성을 해결합니다. 이전의 연쇄 사고 추론 시도에서는 모델이 여러 언어를 혼합하거나 일관성 없는 결과를 산출하는 경우가 많았습니다. deepSeek는 RL 훈련 중에 언어적 일관성을 미묘하게 보상함으로써 이 문제를 해결하고, 약간의 성능 저하를 감수하고 더 가독성 높고 일관된 결과를 얻을 수 있었습니다.

결과는 놀라웠습니다. 가장 어려운 고등학교 수학 경시대회 중 하나인 AIME 2024에서 R1은 OpenAI의 O1 모델과 비슷한 79.8%의 정확도를 달성했습니다. MATH-500에서는 97.3%를 기록했으며, 프로그래밍 경시대회인 Codeforces에서는 96.3%의 점수를 받았습니다. 그러나 가장 인상적인 것은 이러한 기능을 더 작은 모델로 압축해낸 것입니다. 14B 매개변수 버전이 몇 배 더 큰 모델보다 성능이 뛰어나 추론 능력은 원시 매개변수의 수뿐만 아니라 정보를 처리하도록 모델을 훈련시키는 방법과도 관련이 있음을 시사합니다.

후폭풍

최근 트위터와 기업 루머 전문 사이트인 Blind에 퍼지고 있는 소식은 이 모델이 전혀 예상치 못한 결과였다는 것입니다. 메타의 예상을 완전히 뒤엎었으며, 아직 개발 중인 신형 라마4 모델보다도 성능이 뛰어났다는 것입니다. Meta의 Llama 프로젝트는 최고 기술 경영진의 관심을 끌었기 때문에 현재 약 13명의 직원이 Llama를 연구하고 있으며, 이들의 연봉을 합치면 Llama보다 성능이 더 뛰어난 DeepSeek-V3 모델의 훈련 비용을 합친 것보다 더 많다고 합니다. 주커버그에게 이를 어떻게 진지하게 설명할 수 있을까요? 더 나은 모델은 2,000개의 H100으로 훈련하고 비용은 5백만 달러도 안 되는데, 주커버그는 10만 개의 H100을 위해 엔비디아에 수십억 달러를 쏟아붓고 있는데 어떻게 주커버그가 웃음을 유지할 수 있을까요?

그러나 Meta와 다른 대형 AI 연구소가 이러한 DeepSeek 모델을 해체하고 기술 보고서의 모든 단어와 공개하는 오픈 소스 코드의 모든 줄을 연구하며 동일한 트릭과 최적화를 자체 훈련 및 추론 프로세스에 통합하려고 필사적으로 노력하고 있다고 믿는 것이 좋습니다! . 그렇다면 이 모든 것이 어떤 영향을 미칠까요? 훈련 및 추론 계산에 대한 총 수요를 어떤 큰 숫자로 나누어야 한다고 생각하는 것은 순진한 생각입니다. 45명이 아니라 25명이나 30명 정도? 이전에는 필요하다고 생각했던 것이 지금은 훨씬 적기 때문입니다.

낙관론자는 "단순한 비례 상수, 즉 단일 배수에 대해 이야기하는 것뿐입니다."라고 말할 수 있습니다. 기하급수적인 성장 곡선을 다루고 있다면 이런 것들은 금방 사라지고 결국에는 그다지 중요하지 않을 것입니다."라고 말할 수 있습니다. AI가 제가 예상하는 것만큼 정말 혁신적이라면, 기술의 실제 효용이 수조 단위로 측정된다면, 추론 시간 계산이 새로운 확장 법칙이라면, 그리고 우리가 끊임없이 많은 추론을 수행하는 수많은 휴머노이드 로봇을 갖게 된다면, 성장 곡선은 여전히 매우 가파르고 극단적일 것이며, 엔비디아는 여전히 성공할 수 있을 정도로 훨씬 앞서 있을 것입니다. .

그러나 엔비디아는 향후 몇 년 동안 밸류에이션을 유지하기 위해 좋은 소식이 많을 것이고, 이 모든 것을 고려하면 적어도 2025년 예상 매출의 20배에 주식을 사는 것에 대해 매우 불안해지기 시작합니다. 매출 성장이 조금만 둔화되면 어떻게 될까요? 성장률이 100% 이상이 아닌 85%라면 어떨까요? 반도체 회사로서는 여전히 높은 수준인 매출 총이익률이 75%에서 70%로 떨어지면 어떻게 될까요?

요약

거시적 차원에서 보면, NVIDIA는 20배의 전방 매출과 75%의 총 마진을 점점 더 정당화하기 어렵게 만드는 전례 없는 경쟁 위협에 직면해 있습니다. 높은 기업 가치를 정당화하기 어렵습니다. 하드웨어, 소프트웨어, 효율성에서 강점을 보이는 NVIDIA의 강점에도 우려할 만한 균열이 나타나고 있습니다. 지구상에서 가장 똑똑한 수천 명의 인재와 수십억 달러의 자본력을 바탕으로 전 세계가 다각도로 공격을 시도하고 있습니다.

하드웨어 측면에서 Cerebras와 Groq의 혁신적인 아키텍처는 데이터센터 지배력의 초석인 NVIDIA의 상호 연결 우위가 급진적인 재설계를 통해 우회될 수 있음을 보여줍니다.Cerebras의 웨이퍼 규모 칩과 Groq의 결정론적 계산 접근 방식은 NVIDIA의 복잡한 인터커넥트 솔루션이 필요하지 않습니다. 전통적으로 NVIDIA의 각 주요 고객(Google, Amazon, Microsoft, Meta, Apple)은 고수익 데이터센터 수익을 잠식할 수 있는 맞춤형 칩을 개발하고 있습니다. 이는 더 이상 실험적인 프로젝트가 아니며, 아마존만 해도 40만 개 이상의 커스텀 칩을 포함하는 대규모 인프라를 구축하고 있습니다.

소프트웨어 해자 역시 마찬가지로 취약한 것으로 보입니다. MLX, Triton, JAX와 같은 새로운 고수준 프레임워크가 CUDA의 중요성을 감소시키고 있으며 AMD 드라이버 개선 노력은 더 저렴한 하드웨어 대안의 개발로 이어질 수 있습니다. 고수준 추상화 추세는 어셈블리 언어가 C/C++에 자리를 내주고 있는 추세를 반영하는 것으로, CUDA의 우위가 생각보다 일시적일 수 있음을 시사합니다. 가장 중요한 것은 CUDA 코드를 모든 하드웨어 대상에서 실행되도록 자동으로 포팅할 수 있는 LLM 기반 코드 변환 기술이 부상하고 있어, 잠재적으로 NVIDIA의 가장 강력한 락인 효과 중 하나를 제거할 수 있다는 점입니다.

아마도 가장 획기적인 것은 최근 컴퓨팅 비용의 약 1/45로 모델 성능과 비슷한 성능을 달성하는 DeepSeek의 획기적인 효율성 향상일 것입니다. 이는 업계 전반적으로 컴퓨팅 리소스를 과도하게 할당해 왔다는 것을 시사합니다. 보다 효율적인 체인 오브 씽킹 모델의 출현과 함께

유익한 보고서를 통해 암호화 산업에 대한 더 넓은 이해를 얻고 비슷한 생각을 가진 다른 저자 및 독자와 심도 있는 토론에 참여하십시오. 성장하는 Coinlive 커뮤니티에 참여하실 수 있습니다.https://t.me/CoinliveSG

댓글 추가

로그인당신의 멋진 의견을 남겨주세요…

0 코멘트

가장 이른

더 많은 댓글 로드

실시간 업데이트

13시간 전
NVIDIA의 시장 가치가 일주일 만에 5,000억 달러 이상 감소했습니다.
강세
약세
13시간 전
U.S. Imposes Tariffs On Canadian And Mexican Imports
강세
약세
13시간 전
Musk's Political Contributions Surpass $290 Million In 2024 U.S. Election
강세
약세
13시간 전
ThorChain's RUNE Experiences Significant Price Drop
강세
약세
14시간 전
スイス銀行大手UBS、イーサリアムで金取引をブロックチェーン化
강세
약세
14시간 전
ライトコイン（LTC）価格7%下落:120ドル上の重要サポートと格闘
강세
약세
14시간 전
VIRTUAL価格24時間で15%下落:1か月の調整深化
강세
약세
14시간 전
ZachXBT、コインベース利用者がソーシャルエンジニアリング詐欺で1.5億ドル損失と発表
강세
약세
14시간 전
XRP、2025年2月に$4達成に必要なもの
강세
약세
14시간 전
스위스 은행 UBS, 이더리움으로 금 거래 블록체인 도입
강세
약세

더

월가를 불태운 10,000단어 보고서: 비트코인과 엔비디아 폭락의 이면

황소의 경우

새로운 패러다임

그렇다면 왜 모든 이점을 Nvidia가 독차지해야 할까요?

주요 위협

하드웨어 수준의 위협

소프트웨어 위협

이론적 위협

실제로 생각하는 모델

후폭풍

요약

실시간 업데이트

최신 뉴스

바이낸스 대 SEC: 눈보라로 연기된 법적 대결

EU의 MiCA 프레임워크와 암호화폐 규제의 진화

HTX DAO와 HTX 토큰 권한 부여의 새로운 시대

Aave V3 배포 디코딩: 스크롤 메인넷 에코시스템 강화하기

孙宇晨宣布火币HT代币全面转换:HT将在2024年1月22日归零

눈사태의 진화: 핵심 지갑과 고급 기능 공개

HTX DAO：人民的交易所，以人民的名义割韭菜

스시스왑의 전략적 전환: 칸파이 2.0 종료, 엑스스시 모델의 컴백

케플러 하드포크: BNB 스마트 체인의 미래 탐색하기

카이버 네트워크, 보안 침해에 따른 종합적인 보상 계획 발표