엔비디아의 시장 가치가 애플의 가치를 넘어서기 전에 쓴 젠슨 황의 1조 달러 규모의 AI 제국 파노라마.
이번 월요일, NVIDIA의 주가는 시가총액 3조 5천억 달러 이상으로 세계 1위인 Apple과 어깨를 나란히 하며 또다시 사상 최고치를 경신했습니다.
JinseFinance출처: 텐센트 테크놀로지
NVIDIA의 공동 창립자 겸 CEO인 젠슨 황(Jen-Hsun Huang)이 컴퓨텍스 2024(컴퓨텍스 타이페이 2024)에서 기조연설을 통해 인공지능 시대가 어떻게 새로운 글로벌 산업 혁명을 일으키고 있는지에 대해 공유했습니다.
연설의 주요 내용은 다음과 같습니다.
1) 젠슨 황은 최신 양산 버전의 블랙웰 칩을 시연하며 2025년에 블랙웰 울트라 AI 칩을 출시하고 차세대 AI 플랫폼의 이름은 루빈으로, 루빈 울트라는 2027년에 출시할 예정이라고 말했습니다. 업데이트 속도는 무어의 법칙을 깨고 "1년에 한 번"이 될 것입니다.
② 젠슨 황은 엔비디아가 2012년 이후 GPU 아키텍처를 변경하고 모든 신기술을 하나의 컴퓨터에 통합한 빅 언어 모델의 탄생을 추진했다고 주장했습니다.
③NVIDIA의 가속 컴퓨팅 기술은 100배의 속도 향상을 달성하는 데 도움이 되었으며, 전력 소비는 기존 대비 1.5배의 비용으로 3배만 증가했습니다.
④ 젠슨 황은 차세대 AI는 물리적 세계를 이해해야 할 것이라고 예측합니다. 이를 위한 방법으로 그는 비디오와 합성 데이터를 통해 AI가 학습하도록 하고, AI가 서로 학습할 수 있도록 하는 방법을 제시합니다.
5 Jen-Hsun Huang은 PPT에서 어휘 요소인 토큰에 대한 중국어 번역까지 마무리했습니다.
6 황 젠선은 로봇의 시대가 도래했으며, 미래에는 움직이는 모든 사물이 자율적으로 작동할 것이라고 말했습니다.
이미지 src="https://img.jinse.cn/7235971_image3.png">
다음은 텐센트 테크놀로지가 정리한 2시간 동안의 연설 전문입니다.
존경하는 게스트 여러분, 다시 이 자리에 설 수 있게 되어 큰 영광으로 생각합니다. 여기. 먼저, 이 체육관을 행사 장소로 제공해 주신 국립대만대학교에 감사의 말씀을 드립니다. 제가 마지막으로 이곳에 왔을 때가 국립대만대학교에서 학위를 받았을 때였습니다. 오늘은 우리가 탐구해야 할 것이 많기 때문에 속도를 높여서 빠르고 명확하게 정보를 전달해야 합니다. 할 이야기도 많고 공유할 흥미로운 이야기도 많으니까요.
많은 파트너가 있는 중국 대만에 오게 되어 매우 기쁩니다. 사실 대만은 엔비디아의 여정에서 없어서는 안 될 중요한 부분일 뿐만 아니라, 파트너와 협력하여 전 세계에 혁신을 가져오는 핵심 지점입니다. 많은 파트너와 함께 전 세계적인 규모의 AI 인프라를 구축하고 있습니다. 오늘 저는 몇 가지 주요 주제에 대해 논의하고자 합니다.
1) 공동 작업에서 어떤 진전이 이루어지고 있으며, 그 진전의 의미는 무엇인가요?
2) 제너레이티브 AI란 정확히 무엇인가요? 우리 업계, 나아가 모든 산업에 어떤 영향을 미칠까요?
3) 앞으로 어떻게 나아갈 수 있으며 이 놀라운 기회를 어떻게 잡을 것인지에 대한 청사진은 무엇인가요?
다음은 어떻게 될까요? 제너레이티브 AI와 그것이 가져올 광범위한 영향, 전략적 청사진, 이 모든 것이 우리가 곧 탐구할 흥미로운 주제입니다. 우리는 컴퓨터 산업의 재부팅의 시작점에 서 있으며, 여러분이 만들고 만들어가는 새로운 시대가 곧 시작될 것입니다. 이제 여러분은 다음 큰 여정을 시작할 준비가 되었습니다.
그러나 그 이야기를 시작하기 전에 한 가지 강조하고 싶은 것은 NVIDIA는 컴퓨터 그래픽, 시뮬레이션 및 인공 지능의 교차점에 있으며, 이는 우리 회사의 영혼을 형성하고 있다는 점입니다. 오늘 제가 보여드릴 모든 것은 시뮬레이션을 기반으로 합니다. 단순한 시각적 효과를 넘어 최고의 수학, 과학, 컴퓨터 과학은 물론 놀라운 컴퓨터 아키텍처가 뒷받침하고 있습니다. 애니메이션은 사전 제작되지 않았으며 모든 것이 자체 팀의 작품입니다. NVIDIA는 이를 높이 평가하며, 이 모든 것을 옴니버스 가상 세계에 통합하여 자랑스럽게 생각합니다. 지금은 영상을 즐겨보세요!
전 세계 데이터센터의 전력 소비는 컴퓨팅 비용과 함께 급증하고 있습니다. 우리는 장기적으로 지속 불가능할 것이 분명한 컴퓨팅 폭증이라는 어려운 문제에 직면해 있습니다. 데이터는 계속해서 기하급수적으로 증가하는 반면, CPU 성능은 예전만큼 빠르게 확장하기 어렵습니다. 그러나 보다 효율적인 접근 방식이 등장하고 있습니다.
컴퓨팅 가속화를 위해 20년 가까이 노력해 온 유니티는 CPU를 보강하고 특수 프로세서가 보다 효율적으로 수행할 수 있는 작업을 오프로드 및 가속화하는 CUDA 기술을 개발해 왔습니다. 실제로 CPU 성능 확장이 느려지거나 정체됨에 따라 가속 컴퓨팅의 이점은 점점 더 중요해지고 있습니다. 저는 모든 처리 집약적인 애플리케이션이 가속화될 것이며 가까운 미래에 모든 데이터센터가 완전히 가속화될 것으로 예상합니다.
이미지 src="https://img.jinse.cn/7235973_image3.png">
가속화된 컴퓨팅이 현명한 선택이라는 것은 이제 업계의 합의입니다. 완료하는 데 100단위 시간이 걸리는 애플리케이션을 상상해 보세요. 100초든 100시간이든, 며칠 또는 몇 달 동안 AI 애플리케이션을 실행할 여유가 없는 경우가 많습니다.
100개의 단위 시간 중 하나는 순차적으로 실행해야 하는 코드가 포함되며, 이 경우 단일 스레드 CPU가 필수적입니다. 운영체제의 제어 로직은 필수 불가결하며 명령어 순서에 따라 엄격하게 실행되어야 합니다. 그러나 컴퓨터 그래픽, 이미지 처리, 물리 시뮬레이션, 조합 최적화, 그래프 처리, 데이터베이스 처리, 특히 딥러닝에서 널리 사용되는 선형 대수 등 병렬 처리를 통한 가속화에 적합한 알고리즘이 많습니다. 이를 위해 GPU와 CPU를 원활하게 결합하는 혁신적인 아키텍처를 개발했습니다.
전용 프로세서는 시간이 오래 걸리는 작업을 놀라운 속도로 가속화할 수 있습니다. 두 프로세서는 병렬로 작동하기 때문에 독립적이고 자율적으로 작동합니다. 즉, 100단위의 시간이 걸리는 작업을 이제 단 1단위의 시간으로 완료할 수 있습니다. 이러한 가속화가 믿기지 않을 수도 있지만, 오늘은 몇 가지 예를 통해 이 주장을 검증해 보겠습니다.
이미지 src="https://img.jinse.cn/7235974_image3.png">
파워는 3배 정도만 증가하면서 비용은 50% 정도만 증가하면서 100배의 가속화를 달성할 수 있다는 점에서 이러한 성능 향상의 이점은 놀랍습니다. 이 전략은 PC 업계에서 오랫동안 사용되어 왔습니다. 500달러짜리 GeForce GPU를 PC에 추가하면 전체 가치를 1,000달러로 높이면서 성능을 크게 향상시킬 수 있습니다. 데이터센터에서도 동일한 접근 방식을 사용합니다. 10억 달러 규모의 데이터센터는 5억 달러 상당의 GPU를 추가하는 것만으로 순식간에 강력한 AI 팩토리로 탈바꿈합니다. 오늘날 이러한 변화는 전 세계적으로 일어나고 있습니다.
비용 절감 효과도 엄청납니다. 1달러를 투자할 때마다 최대 60배의 성능 향상을 얻을 수 있습니다. 전력은 3배, 비용은 1.5배만 증가하면서 최대 100배까지 가속화할 수 있습니다. 비용 절감 효과는 실로 엄청납니다!
이미지 src="https://img.jinse.cn/7235975_image3.png">
많은 기업이 클라우드에서 데이터를 처리하는 데 수억 달러를 지출하고 있습니다. 데이터를 빠른 속도로 처리하면 수억 달러를 절약하는 것이 합리적입니다. 그 이유는 무엇일까요? 바로 범용 컴퓨팅에서 오랜 기간 동안 효율성 병목 현상을 경험했기 때문입니다.
우리는 마침내 이 문제를 인식하고 가속화를 결정했습니다. 전용 프로세서를 도입함으로써 이전에는 간과했던 엄청난 성능 향상을 되찾아 많은 비용과 에너지를 절약할 수 있게 되었습니다. 그래서 저는 더 많이 구매할수록 더 많이 절약할 수 있다고 말합니다.
자, 이제 수치를 보여드렸습니다. 소수점 이하 몇 자리까지는 아니지만 사실을 정확하게 표현한 수치입니다. 이를 "CEO 수학"이라고 부르는데, CEO 수학은 극도의 정확성을 추구하지는 않지만 그 이면의 논리는 더 빠른 컴퓨팅 성능을 구매할수록 더 많이 절약할 수 있다는 건전한 논리입니다.
가속 컴퓨팅은 정말 놀라운 결과를 제공하지만, 이를 달성하는 과정은 쉽지 않습니다. 왜 그렇게 많은 비용을 절감할 수 있는데도 사람들이 이 기술을 더 빨리 채택하지 않을까요? 그 이유는 구현하기가 너무 어렵기 때문입니다.
가속 컴파일러를 통해 간단히 실행하면 애플리케이션의 속도가 즉시 100배 빨라지는 기성 소프트웨어는 존재하지 않습니다. 이는 논리적이지도 현실적이지도 않습니다. 그렇게 쉬웠다면 CPU 제조업체들은 이미 그렇게 했을 것입니다.
실제로 가속화를 달성하려면 소프트웨어를 완전히 다시 작성해야 합니다. 이 과정이 가장 어려운 부분입니다. 소프트웨어를 재설계하고 다시 코딩하여 CPU에서 실행되는 알고리즘을 가속기에서 병렬로 실행할 수 있는 형식으로 변환해야 합니다.
이런 컴퓨터 과학 연구는 어렵지만 지난 20년 동안 상당한 진전을 이루었습니다. 예를 들어, 신경망 가속을 전문으로 다루는 인기 있는 cuDNN 딥 러닝 라이브러리를 도입했습니다. 또한 물리 법칙을 준수해야 하는 유체 역학 등의 애플리케이션을 위한 AI 물리 시뮬레이션 라이브러리도 제공합니다. 또한 CUDA를 사용하여 5G 무선 기술을 가속화하는 새로운 라이브러리인 Aerial을 통해 소프트웨어가 인터넷 네트워크를 정의하는 것과 같은 방식으로 소프트웨어로 통신 네트워크를 정의하고 가속화할 수 있습니다.
이미지 src="https://img.jinse.cn/7235977_image3.png">
이러한 가속 기능은 성능을 향상시킬 뿐만 아니라 전체 통신 산업을 클라우드와 유사한 컴퓨팅 플랫폼으로 전환하는 데도 도움이 됩니다. 또한 쿨리토 전산 리소그래피 플랫폼은 칩 제조 공정에서 가장 연산 집약적인 부분인 마스크 생성의 효율성을 획기적으로 개선하는 플랫폼의 좋은 예입니다. TSMC와 같은 기업들은 이미 쿨리소를 생산에 사용하여 상당한 에너지 절감뿐만 아니라 비용을 획기적으로 절감하기 시작했습니다. 이들의 목표는 기술 스택을 가속화하여 더 깊고 좁은 트랜지스터를 만드는 데 필요한 알고리즘과 대규모 연산 능력의 추가 개발에 대비하는 것입니다.
Pair of Bricks는 세계 최고의 유전자 시퀀싱 처리량을 자랑하는 유전자 시퀀싱 라이브러리입니다. 반면 Co OPT는 경로 계획, 여정 최적화, 여행사 문제와 같은 복잡한 퍼즐을 풀 수 있는 강력한 조합 최적화 라이브러리입니다. 이러한 문제를 풀기 위해서는 양자 컴퓨터가 필요하다고 널리 알려져 있지만, 우리는 가속 컴퓨팅 기술을 사용하여 매우 빠르게 실행되는 알고리즘을 만들어 23개의 세계 기록을 경신했으며, 현재도 모든 주요 세계 기록을 보유하고 있습니다.
쿠프 퀀텀은 저희가 개발한 양자 컴퓨터 시뮬레이션 시스템입니다. 양자 컴퓨터나 양자 알고리즘을 설계하려는 연구자에게는 신뢰할 수 있는 시뮬레이터가 필수적입니다. 실제 양자 컴퓨터가 없는 경우, 세계에서 가장 빠른 컴퓨터라고 불리는 NVIDIA CUDA가 그들이 선택하는 도구가 됩니다. 저희는 양자 컴퓨터의 작동을 에뮬레이션할 수 있는 시뮬레이터를 제공하여 연구자들이 양자 컴퓨팅 분야에서 획기적인 발전을 이룰 수 있도록 돕고 있습니다. 이 시뮬레이터는 전 세계 수십만 명의 연구자들이 널리 사용하고 있으며 모든 주요 양자 컴퓨팅 프레임워크에 통합되어 전 세계 과학 슈퍼컴퓨터 센터에 강력한 지원을 제공합니다.
또한 데이터 처리 프로세스를 가속화하기 위해 특별히 설계된 데이터 처리 라이브러리인 Kudieff를 출시했습니다. 데이터 처리는 오늘날 클라우드 지출의 대부분을 차지하므로 데이터 처리 가속화는 비용 절감에 매우 중요하며, QDF는 스파크, 판다, 폴라, 네트워크X와 같은 그래프 처리 데이터베이스 등 세계 최고의 데이터 처리 라이브러리의 성능을 획기적으로 개선하기 위해 개발된 가속 도구입니다.
이러한 라이브러리는 가속화된 컴퓨팅을 널리 사용할 수 있게 하는 에코시스템의 핵심 구성 요소입니다. cuDNN과 같이 세심하게 제작된 도메인별 라이브러리가 없었다면 전 세계의 딥 러닝 과학자들은 CUDA와 TensorFlow, PyTorch 등과 같은 딥 러닝 프레임워크에서 사용되는 알고리즘 간의 상당한 차이로 인해 CUDA의 잠재력을 충분히 활용하지 못할 수도 있습니다. OpenGL 없이 컴퓨터 그래픽을 디자인하거나 SQL 없이 데이터를 처리하는 것은 비현실적인 일입니다.
이러한 도메인별 라이브러리는 우리 회사의 보물이며, 현재 350개 이상의 라이브러리를 보유하고 있습니다. 이러한 라이브러리 덕분에 유니티는 개방성을 유지하고 시장에서 앞서 나갈 수 있습니다. 오늘은 좀 더 흥미로운 사례를 보여드리겠습니다.
지난주에 Google은 전 세계 1,000만 명의 데이터 과학자가 사용하고 매달 1억 7천만 회 다운로드되는 세계에서 가장 인기 있는 데이터 과학 라이브러리인 Pandas를 클라우드에 배포하고 성공적으로 가속화했다고 발표했습니다. 데이터 과학자들에게는 데이터 작업의 오른팔인 Excel과 같은 존재입니다.
이제, 구글의 클라우드 기반 데이터센터 플랫폼인 Colab에서 클릭 한 번으로 QDF로 가속화된 판다의 성능을 경험할 수 있습니다. 이 가속화는 정말 놀랍고 방금 보신 데모처럼 데이터 처리 작업을 거의 즉시 완료합니다.
CUDA는 티핑 포인트에 도달했지만 현실은 그보다 더 좋습니다.CUDA는 성장의 선순환을 달성했습니다. 다양한 컴퓨팅 아키텍처와 플랫폼의 역사와 발전을 되돌아보면 이러한 사이클이 흔하지 않다는 것을 알 수 있습니다. 예를 들어 마이크로프로세서 CPU는 60년 동안 사용되어 왔지만 계산을 가속화하는 방식은 그 긴 세월 동안 근본적으로 변하지 않았습니다.
새로운 컴퓨팅 플랫폼을 만드는 것은 종종 닭과 달걀의 딜레마에 빠지게 됩니다. 개발자의 지원 없이는 사용자를 유치하기 어렵고, 광범위한 채택 없이는 개발자를 유치할 수 있는 대규모 설치 기반을 구축하기 어렵습니다. 이러한 딜레마는 지난 20년 동안 여러 컴퓨팅 플랫폼의 개발을 괴롭혀 왔습니다.
그러나 저희는 도메인별 및 가속화된 라이브러리를 지속적으로 출시함으로써 이 딜레마에서 벗어날 수 있었습니다. 현재 전 세계 5백만 명의 개발자가 의료 및 금융 서비스부터 컴퓨터 산업, 자동차 산업에 이르기까지 거의 모든 주요 산업 및 과학 분야에서 CUDA 기술을 사용하고 있습니다.
고객 기반이 계속 성장함에 따라 OEM 및 클라우드 서비스 제공업체도 쿠다 시스템에 관심을 갖기 시작했으며, 이를 통해 더 많은 시스템이 시장에 출시되고 있습니다. 이러한 선순환은 더 많은 애플리케이션 가속화를 추진하기 위해 R&D 투자를 확대하고 확장할 수 있는 엄청난 기회를 창출합니다.
모든 애플리케이션 가속화는 컴퓨팅 비용의 대폭적인 절감을 의미합니다. 앞서 살펴본 바와 같이 100배 가속은 최대 97.96%, 즉 98%에 가까운 비용 절감 효과를 가져올 수 있습니다. 컴퓨팅 가속도를 100배에서 200배로, 그리고 1,000배로 높이면 컴퓨팅 한계 비용은 계속해서 하락하여 강력한 경제성을 보여줍니다. 물론 컴퓨팅 비용을 획기적으로 줄임으로써 시장, 개발자, 과학자, 발명가들은 더 많은 컴퓨팅 리소스를 소비하는 새로운 알고리즘을 계속해서 발견해낼 것입니다. 어느 시점에 이르면 조용히 큰 변화가 일어날 것입니다. 컴퓨팅의 한계 비용이 매우 낮아지면 완전히 새로운 컴퓨터 사용 방식이 등장할 것입니다.
실제로 이러한 변화는 우리 눈앞에서 일어나고 있습니다. 지난 10년 동안 우리는 특정 알고리즘을 사용하여 컴퓨팅의 한계 비용을 무려 100만 배나 낮췄습니다. 오늘날 인터넷의 모든 데이터를 사용하여 빅 언어 모델을 훈련하는 것은 더 이상 의문의 여지가 없는 논리적이고 자연스러운 선택입니다.
방대한 양의 데이터를 처리하여 스스로 프로그래밍할 수 있는 컴퓨터를 만들겠다는 이 아이디어가 바로 AI의 부상을 이끈 초석입니다. 컴퓨팅을 점점 더 저렴하게 만들면 누군가 반드시 엄청난 용도를 찾아낼 것이라는 확신이 있었기에 AI의 부상이 가능했습니다. 오늘날 CUDA의 성공은 이러한 선순환의 가능성을 입증했습니다.
설치 기반이 계속 확대되고 컴퓨팅 비용이 계속 하락함에 따라 점점 더 많은 개발자가 자신의 창의적 잠재력을 실현하고 더 많은 아이디어와 솔루션을 내놓을 수 있게 되었습니다. 이러한 혁신의 힘은 시장 수요의 급증을 촉진했습니다. 우리는 지금 중요한 전환점에 서 있습니다. 하지만 더 나아가기 전에, 지금부터 소개할 내용은 CUDA와 최신 AI 기술, 특히 제너레이티브 AI의 획기적인 발전이 없었다면 불가능했을 것이라는 점을 강조하고 싶습니다.
이것은 지구의 디지털 트윈을 만들려는 야심찬 비전인 Earth-2 프로젝트입니다. 우리는 지구 전체의 작동을 시뮬레이션하여 미래의 변화를 예측할 것입니다. 이러한 시뮬레이션을 통해 재해를 더 잘 예방하고 기후 변화의 영향을 더 깊이 이해하여 이러한 변화에 더 잘 적응하고 지금부터 우리의 행동과 습관을 바꿀 수 있습니다.
어스-2 프로젝트는 아마도 세계에서 가장 도전적이고 야심찬 프로젝트 중 하나일 것입니다. 매년 이 분야에서 상당한 진전을 이루고 있으며, 특히 올해의 성과는 매우 인상적입니다. 이제 이러한 흥미로운 진전 사항 중 일부를 보여드리겠습니다.
머지않은 미래에 우리는 지구의 모든 평방 킬로미터에 대한 지속적인 일기 예보 기능을 갖추게 될 것입니다. 기후가 어떻게 변할지 항상 알 수 있으며, 이 예측은 극도로 제한된 에너지를 필요로 하는 인공 지능을 훈련시키기 때문에 지속적으로 실행될 것입니다. 놀라운 성과가 될 것입니다. 그리고 더 중요한 것은 이 예측은 제가 아닌 Jensen AI가 실제로 만든 것입니다. 설계는 제가 했지만 최종 예측은 젠슨 AI가 발표했습니다.
지속적으로 성능을 개선하고 비용을 낮추기 위한 노력의 결과로 연구원들은 2012년에 CUDA를 발견했고, 이것이 NVIDIA가 AI와 처음으로 협력한 것이었습니다. 그 날은 딥 러닝을 실현하기 위해 과학자들과 긴밀히 협력하는 현명한 선택을 했고, AlexNet의 등장으로 컴퓨터 비전에 큰 돌파구를 마련한 중요한 날이었습니다.
그러나 더 중요한 지혜는 우리가 한 걸음 물러나 딥 러닝의 본질에 대해 더 깊이 이해하게 되었다는 사실에 있습니다. 딥러닝의 기반은 무엇일까요? 장기적인 영향은 무엇인가요? 잠재력은 무엇인가요? 우리는 이 기술이 수십 년 전에 발명되고 발견된 알고리즘을 계속 확장할 수 있는 엄청난 잠재력을 가지고 있으며, 더 많은 데이터, 더 큰 네트워크 및 중요한 컴퓨팅 리소스와 결합하여 딥러닝이 인간 알고리즘의 범위를 벗어난 작업을 갑자기 달성할 수 있다는 것을 깨달았습니다.
이제 더 큰 네트워크, 더 많은 데이터, 더 많은 컴퓨팅 리소스로 아키텍처를 더욱 확장한다면 어떤 일이 일어날지 상상해 보세요. 이것이 바로 우리가 모든 것을 재창조하기 위해 노력하는 이유입니다. 2012년부터 GPU 아키텍처를 변경하고, 텐서 코어를 추가하고, NV-Link를 발명하고, cuDNN, TensorRT, Nickel을 도입하고, Mellanox를 인수하고, Triton Inference Server를 출시했습니다.
이러한 기술들은 당시 모두의 상상을 뛰어넘는 새로운 컴퓨터에 통합되었습니다. 아무도 예상하지 못했고, 아무도 요구하지 않았으며, 아무도 그 잠재력을 완전히 이해하지도 못했습니다. 사실 아무도 직접 구매하고 싶지 않았을 것입니다. 하지만 GTC 컨퍼런스에서 우리는 이 기술을 공식적으로 출시했습니다. 샌프란시스코의 한 스타트업인 OpenAI라는 회사가 저희의 연구 결과를 빠르게 알아보고 제품을 요청했습니다. 제가 직접 세계 최초의 AI 슈퍼컴퓨터인 DGX를 OpenAI에 납품했습니다.
2016년에도 계속해서 R&D를 확장해 나갔습니다. 단일 AI 애플리케이션을 갖춘 단일 AI 슈퍼컴퓨터에서 2017년에는 더 크고 강력한 슈퍼컴퓨터를 출시하기 위해 확장했습니다. 기술이 계속 발전하면서 전 세계는 트랜스포머의 등장을 목격했습니다. 이 모델의 등장으로 방대한 양의 데이터를 처리하고 오랜 시간 동안 연속되는 패턴을 인식하고 학습할 수 있게 되었습니다.
오늘날, 우리는 이러한 빅 언어 모델을 훈련하여 자연어 이해에 있어 획기적인 발전을 이룰 수 있게 되었습니다. 하지만 여기서 멈추지 않고 더 큰 모델을 구축했습니다. 2022년 11월까지 초강력 AI 슈퍼컴퓨터에서 수만 대의 NVIDIA GPU를 사용해 학습을 진행할 예정입니다.
5일 후, OpenAI는 ChatGPT의 사용자 수가 100만 명을 돌파했다고 발표했습니다. 불과 두 달 만에 사용자 수가 1억 명으로 증가하며 앱 역사상 가장 빠른 성장 기록을 세웠습니다. 그 이유는 아주 간단합니다. ChatGPT의 경험이 쉽고 마법과도 같기 때문입니다.
사용자는 마치 실제 사람과 대화하는 것처럼 자연스럽고 유연한 방식으로 컴퓨터와 상호 작용할 수 있습니다. ChatGPT는 번거로운 지시나 명시적인 설명 없이도 사용자의 의도와 요구 사항을 이해합니다.
ChatGPT의 등장은 획기적인 변화를 의미하며, 이 슬라이드는 그 핵심적인 변화를 담고 있습니다. 제가 보여드리겠습니다.
이미지 src="https://img.jinse.cn/7235980_image3.png">
세대별 AI의 무한한 잠재력이 세상에 본격적으로 드러난 것은 ChatGPT의 등장 이후였습니다. 오랫동안 AI는 인간의 지각 능력을 모방하는 기술인 자연어 이해, 컴퓨터 비전 및 음성 인식과 같은 지각 영역에 주로 초점을 맞춰왔습니다. 하지만 ChatGPT는 지각을 넘어 처음으로 생성 AI의 힘을 보여줌으로써 질적 도약을 이뤄냈습니다.
단어, 이미지, 차트, 표, 심지어 노래, 텍스트, 음성, 비디오까지 토큰 단위로 생성하며, 토큰은 화학 물질, 단백질, 유전자, 또는 앞서 언급한 날씨 패턴 등 명확한 의미를 가진 모든 것을 나타낼 수 있습니다.
제너레이티브 AI의 등장은 물리적 현상을 학습하고 시뮬레이션하여 AI 모델이 물리적 세계의 현상을 이해하고 생성할 수 있다는 것을 의미합니다. 우리는 더 이상 필터링을 위해 범위를 좁히는 데 국한되지 않고 생성적 수단을 통해 무한한 가능성을 탐색할 수 있습니다.
오늘날 우리는 자동차의 스티어링 휠 제어, 로봇 팔의 관절 움직임 등 현재 학습할 수 있는 거의 모든 가치 있는 것에 대해 토큰을 생성할 수 있습니다. 그 결과, 우리는 더 이상 단순한 AI 시대가 아니라 제너레이티브 AI가 이끄는 새로운 시대에 살고 있습니다.
또한 슈퍼컴퓨터로 처음 등장한 이 장치는 효율적으로 작동하는 AI 데이터 센터로 진화했습니다. 토큰을 생성하는 것뿐만 아니라 가치를 창출하는 AI 공장으로 끊임없이 생산하고 있습니다. 이 AI 공장은 엄청난 시장 잠재력을 가진 새로운 상품을 생성, 창조, 생산하고 있습니다.
19세기 말 니콜라 테슬라가 발전기를 발명해 우리에게 끊임없는 전자의 흐름을 가져다준 것처럼, 엔비디아의 AI 발전기는 무한한 가능성을 지닌 토큰을 끊임없이 생성하고 있으며, 둘 다 엄청난 시장 기회를 가지고 있으며 모든 산업에 변화를 일으킬 것을 약속합니다. 이것은 진정한 새로운 산업 혁명입니다!
우리는 이제 모든 산업에 전례 없는 가치를 지닌 새로운 상품을 생산할 수 있는 새로운 공장을 열어가고 있습니다. 이 접근 방식은 확장성이 매우 뛰어날 뿐만 아니라 완전히 반복할 수 있습니다. 다양한 AI 모델, 특히 제너레이티브 AI 모델이 매일 새롭게 등장하고 있다는 점에 주목하세요. 오늘날 모든 업계가 전례 없는 경쟁을 벌이고 있으며, 이는 전례 없는 일입니다.
3조 달러 규모의 IT 산업은 100조 달러 규모의 산업에 직접적으로 도움이 될 수 있는 혁신을 창출하기 직전에 있습니다. IT는 더 이상 정보 저장이나 데이터 처리를 위한 도구가 아니라 모든 산업에서 인텔리전스를 창출하는 엔진이 될 것입니다. 이것은 새로운 유형의 제조업이 될 것이지만, 전통적인 컴퓨터 제조업이 아니라 컴퓨터를 사용하는 완전히 새로운 제조업 모델입니다. 이러한 변화는 전례가 없던 일이며, 정말 놀랍고 놀라운 일입니다.
컴퓨팅 가속화의 새로운 시대를 열며 AI의 빠른 성장을 촉진하고, 이는 다시 제너레이티브 AI의 부상을 낳았습니다. 그리고 오늘날 우리는 산업 혁명의 한가운데에 있습니다. 그 의미에 대해 좀 더 자세히 알아봅시다.
우리 업계에도 이러한 변화의 영향은 똑같이 심오합니다. 앞서 말씀드렸듯이 지난 60년 만에 처음으로 컴퓨팅의 모든 계층이 변화하고 있습니다. CPU를 사용한 범용 컴퓨팅에서 GPU를 사용한 가속 컴퓨팅에 이르기까지 모든 변화는 기술의 비약적인 발전을 의미합니다.
과거에는 컴퓨터가 지시에 따라 작업을 수행해야 했다면, 이제는 LLM(대규모 언어 모델)과 AI 모델을 더 많이 사용합니다. 과거의 컴퓨팅 모델은 주로 검색에 기반하여 사용자가 휴대폰을 사용할 때마다 미리 저장된 텍스트, 이미지 또는 동영상을 검색하고 이를 재조합하여 추천 시스템에 따라 사용자에게 제시하는 방식이었습니다. 하지만 앞으로는 컴퓨터가 가능한 한 많은 콘텐츠를 생성하여 필요한 정보만 검색하고, 데이터를 생성하는 데 에너지를 덜 소비하기 때문에 정보를 획득하는 데 더 적은 에너지를 소비하게 될 것입니다. 또한 생성된 데이터는 맥락과 연관성이 높아 사용자의 요구를 더 정확하게 반영합니다. 답이 필요할 때 더 이상 컴퓨터에 "그 정보 가져와" 또는 "그 파일 줘"라고 명시적으로 지시할 필요 없이 "답을 줘"라고 말하기만 하면 됩니다.
또한 컴퓨터는 더 이상 우리가 사용하는 단순한 도구가 아니라 기술을 생성하기 시작했습니다. 컴퓨터는 더 이상 작업을 수행하며 90년대 초반에는 파괴적인 개념이었던 소프트웨어를 생산하는 산업이 아닙니다. 기억하시나요? Microsoft는 패키지 소프트웨어라는 아이디어로 PC 산업에 혁명을 일으켰습니다. 패키지 소프트웨어가 없었다면 PC는 대부분의 기능을 잃었을 것입니다. 이 혁신은 전체 산업을 발전시켰습니다.
지금 우리는 새로운 공장, 새로운 컴퓨터, 그리고 그 위에서 실행되는 새로운 종류의 소프트웨어, 즉 Nim(NVIDIA 추론 마이크로서비스)을 갖게 되었습니다. 이 새로운 공장에서 실행되는 Nim은 사전 학습된 AI 모델입니다.
이미지 src="https://img.jinse.cn/7235982_image3.png">
AI 자체도 상당히 복잡하지만 AI를 실행하는 컴퓨팅 스택은 훨씬 더 엄청나게 복잡합니다. ChatGPT와 같은 모델을 사용하면 그 뒤에 거대한 소프트웨어 스택이 있습니다. 이 스택은 모델에 수십억에서 수조 개의 매개변수가 있고 한 대의 컴퓨터가 아닌 여러 대의 컴퓨터에서 함께 작동하기 때문에 복잡하고 규모가 큽니다.
효율성을 극대화하려면 시스템은 텐서 병렬 처리, 파이프라인 병렬 처리, 데이터 병렬 처리, 전문가 병렬 처리 등 다양한 병렬 처리를 위해 워크로드를 여러 GPU에 분산시켜야 합니다. 이러한 배분은 공장에서 처리량은 매출, 서비스 품질, 서비스 가능한 고객 수와 직결되기 때문에 작업을 최대한 신속하게 처리하기 위한 것입니다. 오늘날 우리는 데이터센터 처리량 활용이 중요한 시대에 살고 있습니다.
과거에는 처리량이 중요하다고 여겨지긴 했지만 결정적인 요소는 아니었습니다. 그러나 이제는 데이터센터가 진정한 '공장'이 되면서 가동 시간, 가동률, 활용도, 처리량, 유휴 시간 등 모든 매개변수가 정확하게 측정되고 있습니다. 이 공장에서 운영 효율성은 기업의 재무 성과와 직결됩니다.
이러한 복잡성을 감안할 때, 대부분의 기업이 AI를 배포할 때 직면하는 어려움을 잘 알고 있습니다. 따라서 배포 및 관리가 용이한 상자에 AI를 캡슐화하는 통합 AI 컨테이너 솔루션을 개발했습니다. 이 박스에는 Triton 추론 서비스뿐만 아니라 CUDA, CUDACNN, TensorRT와 같은 방대한 소프트웨어 모음이 포함되어 있습니다. 클라우드 네이티브 환경을 지원하고, 컨테이너 기술 기반의 분산 아키텍처 솔루션인 쿠버네티스 환경에서 자동 확장이 가능하며, AI 서비스의 운영 현황을 쉽게 모니터링할 수 있는 매니지드 서비스를 제공합니다.
이미지 src="https://img.jinse.cn/7235983_image3.png">
더욱 흥미로운 점은 이 AI 컨테이너가 사용자가 직접 '박스'와 상호 작용할 수 있는 공통의 표준 API 인터페이스를 제공한다는 점입니다. "와 직접 상호 작용할 수 있다는 점입니다. 사용자는 Nim을 다운로드하고 CUDA 지원 컴퓨터에서 실행하기만 하면 손쉽게 AI 서비스를 배포하고 관리할 수 있습니다. 오늘날 CUDA는 주요 클라우드 서비스 제공업체와 거의 모든 컴퓨터 제조업체에서 CUDA를 지원하며 수억 대의 PC에 탑재되어 있는 등 어디에나 존재합니다.
Nim을 다운로드하면 즉시 ChatGPT와 대화하듯 원활하게 소통하는 AI 비서가 생깁니다. 이제 모든 소프트웨어가 간소화되어 단일 컨테이너로 통합되었으며, 이전에는 번거로웠던 400여 개의 종속성이 모두 중앙에서 최적화되었습니다. 유니티는 사전 학습된 모든 모델을 클라우드 인프라에서 철저하게 테스트했으며, 파스칼, 암페어, 최신 호퍼 등 다양한 버전의 GPU를 포함하여 거의 모든 요구 사항을 충족할 수 있을 정도로 매우 다양한 모델을 통해 Nim을 엄격하게 테스트했습니다.
Nim의 발명은 의심할 여지 없이 대단한 업적이며, 제가 가장 자랑스럽게 생각하는 성과 중 하나입니다. 오늘날 우리는 언어, 시각, 이미지 등 광범위한 영역을 포괄하는 대규모 언어 모델과 사전 학습된 다양한 모델을 구축할 수 있을 뿐만 아니라 의료 및 디지털 생물학과 같은 특정 산업을 위한 맞춤형 버전도 구축할 수 있습니다.
이미지 src="https://img.jinse.cn/7235984_image3.png">
이번 릴리스에 대해 자세히 알아보거나 사용해 보려면 ai.nvidia.com을 방문하면 되며, 오늘 완전히 최적화된 Llama 3를 Hugging Face! 님에서 즉시 체험하거나 무료로 가져갈 수도 있습니다. 어떤 클라우드 플랫폼을 선택하든 쉽게 실행할 수 있습니다. 물론 이 컨테이너를 데이터센터에 다운로드하여 자체 호스팅하고 고객에게 제공할 수도 있습니다.
물리, 시맨틱 검색, 시각 언어 등 다양한 도메인을 지원하는 Nim 버전이 여러 언어로 제공된다고 앞서 말씀드렸습니다. 이러한 마이크로 서비스는 대규모 애플리케이션에 쉽게 통합될 수 있으며, 가장 유망한 애플리케이션 중 하나는 고객 서비스 에이전트입니다. 고객 서비스 에이전트는 거의 모든 산업에서 표준으로 사용되고 있으며 수조 달러 규모의 글로벌 고객 서비스 시장을 대표합니다.
소매, 패스트푸드, 금융 서비스, 보험 등의 산업에서 고객 서비스 에이전트는 고객 서비스의 핵심으로서 중요한 역할을 담당하고 있습니다. 오늘날 수천만 명의 고객 서비스 상담원은 언어 모델링과 인공 지능 기술을 통해 크게 향상되었습니다. 이러한 증강 도구의 중심에는 다름 아닌 여기에 보이는 님이 있습니다.
어떤 에이전트는 추론 에이전트라고 불리며, 주어진 과제가 주어지면 목표를 명확히 하고 계획을 수립할 수 있습니다. 어떤 이들은 정보 검색에 능숙하고, 어떤 이들은 Coop과 같은 도구를 사용하거나 ABAP과 같은 SAP에서 실행되는 특정 언어를 배워야 하거나 심지어 SQL 쿼리를 수행해야 할 수도 있습니다. 소위 전문가라고 불리는 이들은 이제 고도로 협업하는 팀으로 그룹화됩니다.
그 결과 애플리케이션 계층이 변화했습니다. 과거에는 지침에 따라 애플리케이션을 작성했다면, 이제는 AI 팀을 구성하여 애플리케이션을 구축합니다. 프로그램을 작성하는 데는 전문 기술이 필요하지만, 문제를 분석하고 팀을 구성하는 방법은 거의 모든 사람이 알고 있습니다. 따라서 저는 앞으로 모든 회사가 님들을 대규모로 보유하게 될 것이라고 굳게 믿습니다. 필요에 따라 전문가를 선택하여 팀으로 연결할 수 있습니다.
더 놀라운 점은 이들을 연결하는 방법을 알아낼 필요조차 없다는 것입니다. 에이전트에게 작업을 할당하기만 하면 님이 작업을 세분화하여 가장 적합한 전문가에게 할당하는 방법을 지능적으로 결정합니다. 상담원은 애플리케이션 또는 팀의 중심 리더로서 팀원들의 작업을 조율하고 궁극적으로 결과를 사용자에게 제시할 수 있습니다.
전체 프로세스는 인간의 팀워크만큼 효율적이고 유연합니다. 이는 단순한 미래 트렌드가 아니라 우리 주변에서 곧 현실이 될 것입니다. 이것이 바로 앱의 미래 모습입니다.
대규모 AI 서비스와 상호 작용할 때 지금은 이미 텍스트와 음성 프롬프트를 통해 할 수 있습니다. 하지만 미래를 내다볼 때, 우리는 보다 인간적인 방식, 즉 디지털 피플과 상호 작용하는 것을 선호합니다. 엔비디아는 이미 디지털 휴먼 기술 분야에서 상당한 진전을 이루었습니다.
이미지 src="https://img.jinse.cn/7235986_image3.png">
디지털 휴먼은 훌륭한 인터랙티브 에이전트가 될 수 있는 잠재력을 가지고 있을 뿐만 아니라, 더 매력적이고 더 큰 공감을 보여줄 가능성이 높습니다. 하지만 이 놀라운 차이를 극복하고 디지털 인재를 더욱 자연스럽게 보이게 하려면 아직 해야 할 일이 많습니다. 이는 우리의 비전일 뿐만 아니라 우리가 끊임없이 추구해야 할 목표이기도 합니다.
우리가 지금까지 이룬 성과를 보여드리기 전에 중국 대만에 따뜻한 인사를 전하고 싶습니다. 야시장의 화려함을 살펴보기 전에 최첨단 디지털 피플 기술을 함께 살펴보겠습니다.
ACE(아바타 클라우드 엔진)가 클라우드에서 효율적으로 실행될 뿐만 아니라 PC 환경과도 호환된다는 점은 정말 놀랍습니다. 모든 RTX 시리즈에 텐서 코어 GPU를 미래지향적으로 통합한 것은 AI GPU의 시대가 도래했음을 알리는 신호이며, 우리는 이에 대한 준비가 잘 되어 있습니다.
새로운 컴퓨팅 플랫폼을 구축하려면 먼저 탄탄한 토대를 마련해야 한다는 논리는 분명합니다. 탄탄한 기반이 마련되면 애플리케이션은 자연스럽게 따라옵니다. 이러한 기반이 없으면 앱이 설 자리가 없습니다. 따라서 앱의 붐은 우리가 기반을 구축할 때만 가능합니다.
이것이 바로 모든 RTX GPU에 텐서 코어 프로세싱 유닛을 통합한 이유이며, 현재 전 세계에서 1억 대의 지포스 RTX AI PC가 사용되고 있고, 그 수는 계속 증가하여 2억 대에 달할 것으로 예상됩니다. 최근 컴퓨텍스 전시회에서는 새로운 AI 노트북 4종도 소개했습니다.
이 기기들은 모두 AI를 실행할 수 있는 기능을 갖추고 있습니다. 미래의 노트북과 PC는 AI를 위한 수단이 될 것이며, 백그라운드에서 조용히 사용자를 돕고 지원할 것입니다. 동시에 이러한 PC는 AI로 향상된 앱을 실행하므로 사진 편집, 글쓰기 또는 기타 도구를 사용할 때 AI가 제공하는 편리함과 향상된 기능을 누릴 수 있습니다.
이미지 src="https://img.jinse.cn/7235987_image3.png">
또한, PC는 AI가 탑재된 디지털 휴먼 앱을 호스팅할 수 있어 더욱 다양한 방식으로 AI를 PC에서 구현하고 사용할 수 있게 됩니다. 분명한 것은 PC가 중요한 AI 플랫폼이 될 것이라는 점입니다. 그렇다면 여기서 우리는 어디로 가야 할까요?
이전에는 데이터센터 확장에 대해 이야기했는데, 데이터센터가 확장될 때마다 새로운 변화가 생깁니다. DGX에서 대규모 AI 슈퍼컴퓨터로 확장하면서 대규모 데이터 세트에 대한 Transformer의 효율적인 학습을 달성했습니다. 이는 큰 변화를 의미하는데, 처음에는 데이터에 사람의 감독이 필요했고 AI는 사람의 라벨링을 통해 학습되었습니다. 하지만 사람이 라벨링할 수 있는 데이터의 양에는 한계가 있었습니다. 이제 트랜스포머를 통해 비지도 학습이 가능해졌습니다.
오늘날 Transformer는 방대한 양의 데이터, 비디오, 이미지를 스스로 탐색하여 학습하고 숨겨진 패턴과 관계를 발견할 수 있습니다. 차세대 AI를 한 단계 더 발전시키려면 물리 법칙에 대한 이해가 바탕이 되어야 하지만 대부분의 AI 시스템은 물리적 세계에 대한 깊은 이해가 부족합니다. 사실적인 이미지, 비디오, 3D 그래픽을 생성하고 복잡한 물리 현상을 시뮬레이션하기 위해서는 물리 법칙을 이해하고 적용할 수 있는 물리 기반 AI 개발이 절실히 필요합니다.
이 목표를 달성하는 데는 크게 두 가지 접근 방식이 있습니다. 첫째, 비디오를 통해 학습함으로써 AI는 물리적 세계에 대한 지식을 점진적으로 쌓을 수 있습니다. 둘째, 합성 데이터를 사용하여 AI 시스템에 풍부하고 통제된 학습 환경을 제공할 수 있습니다. 또한 시뮬레이션 데이터와 컴퓨터 간의 상호 학습도 효과적인 전략입니다. 이 접근 방식은 알파고의 셀프 플레이 모드와 유사하며, 동일한 능력을 가진 두 개체가 오랜 기간 동안 서로 학습하여 지속적으로 지능을 향상시킬 수 있습니다. 따라서 앞으로 이러한 유형의 AI가 점차 등장할 것으로 예상할 수 있습니다.
강화학습 기법과 결합해 AI 데이터를 합성적으로 생성하면 데이터 생성 속도가 크게 향상될 것입니다. 데이터 생성량이 증가함에 따라 컴퓨팅 성능에 대한 수요도 그에 따라 증가할 것입니다. 우리는 AI가 물리 법칙을 학습하고, 물리적 세계의 데이터를 이해하고 이를 바탕으로 의사 결정과 행동을 내릴 수 있는 새로운 시대에 접어들고 있습니다. 이에 따라 AI 모델은 계속 확장되고 더 많은 GPU 성능을 요구할 것으로 예상됩니다.
이러한 수요를 충족하기 위해 블랙웰이 탄생했습니다. 차세대 AI를 지원하도록 설계된 이 GPU는 몇 가지 주요 기술을 특징으로 합니다. 이 칩의 크기는 업계에서 타의 추종을 불허합니다. 가능한 가장 큰 칩 두 개를 초당 10테라바이트의 고속 링크와 세계 최고 수준의 SerDes(고성능 인터페이스 또는 연결 기술)를 통해 긴밀하게 연결했습니다. 또한 이러한 칩 두 개를 단일 컴퓨터 노드에 배치하여 Grace CPU와 효율적으로 조율합니다.
그레이스 CPU는 트레이닝 시나리오뿐만 아니라 빠른 체크포인트 및 재시작과 같은 추론 및 생성 프로세스에서 핵심적인 역할을 하는 등 다용도로 활용됩니다. 또한 컨텍스트를 저장하여 AI 시스템이 메모리를 확보하고 사용자 대화의 맥락을 이해할 수 있게 해주며, 이는 상호 작용의 연속성과 원활함을 향상시키는 데 매우 중요합니다.
2세대 Transformer 엔진을 도입하여 AI의 연산 효율성을 더욱 향상시켰습니다. 이 엔진은 컴퓨팅 계층의 정확도와 범위 요구 사항에 따라 정밀도를 낮추도록 동적으로 조정하여 성능을 유지하면서 전력 소비를 줄입니다. 또한 블랙웰 GPU에는 보안 AI 기능이 탑재되어 있어 사용자가 서비스 제공업체에 도난이나 변조로부터 보호하도록 요청할 수 있습니다.
GPU 상호 연결과 관련해서는 5세대 NV 링크 기술을 사용하여 여러 GPU를 쉽게 연결할 수 있으며, 블랙웰 GPU에는 칩의 모든 트랜지스터, 플립플롭, RAM 및 오프칩 메모리를 테스트하는 혁신적인 기술인 1세대 Ras 시스템(Reliability and Availability Engine)이 장착되어 있어 현장에서 특정 칩의 고장 여부를 정확하게 판단할 수 있습니다. 이 혁신적인 기술은 칩의 모든 트랜지스터, 플립플롭, 메모리 및 오프칩 메모리를 테스트하여 특정 칩이 평균 무고장 시간(MTBF) 표준을 충족하는지 여부를 현장에서 정확하게 판단할 수 있도록 보장합니다.
신뢰성은 대형 슈퍼컴퓨터에 특히 중요합니다. 10,000개의 GPU가 탑재된 슈퍼컴퓨터의 MTBF는 몇 시간이지만, GPU 수가 100,000개로 늘어나면 MTBF는 몇 분으로 줄어듭니다. 따라서 수개월이 걸리는 복잡한 모델을 학습시키기 위해 슈퍼컴퓨터를 장시간 안정적으로 구동하기 위해서는 기술 혁신을 통해 신뢰성을 향상시켜야 합니다. 신뢰성이 향상되면 시스템 가동 시간이 늘어날 뿐만 아니라 비용도 효과적으로 절감할 수 있습니다.
마지막으로 블랙웰 GPU에 고급 압축 해제 엔진도 통합했습니다. 데이터 처리에 있어 압축 해제 속도는 매우 중요합니다. 이 엔진을 통합하면 기존 기술보다 최대 20배 빠르게 스토리지에서 데이터를 가져올 수 있어 데이터 처리 효율이 크게 향상됩니다.
위와 같은 블랙웰 GPU의 특징은 이 제품을 매력적인 제품으로 만듭니다. 지난 GTC 컨퍼런스에서 블랙웰을 프로토타입 형태로 선보였는데, 이제 블랙웰이 양산에 들어갔다는 소식을 전하게 되어 기쁘게 생각합니다.
이미지 src="https://img.jinse.cn/7235989_image3.png">
이것은 놀라운 기술을 사용한 블랙웰입니다. 오늘날 세계에서 가장 정교하고 성능이 뛰어난 컴퓨터인 우리의 걸작입니다. 특히 언급하고 싶은 것은 엄청난 연산 능력을 갖춘 Grace CPU입니다. 이 두 개의 블랙웰 칩은 서로 밀접하게 연결되어 있습니다. 눈치채셨나요? 이 칩은 세계에서 가장 큰 칩이며, 두 개의 칩을 하나로 융합하기 위해 초당 최대 A10TB의 링크를 사용합니다.
블랙웰은 정확히 무엇일까요? 믿을 수 없을 정도로 강력합니다. 이 숫자들을 자세히 살펴보십시오. 불과 8년 만에 컴퓨팅 성능, 부동소수점 연산, AI 부동소수점 연산 능력이 1,000배나 증가했습니다. 이는 무어의 법칙의 최고 성장률을 거의 능가하는 속도입니다.
블랙웰 컴퓨팅 파워의 성장은 경이롭기 그지없습니다. 더욱 주목할 만한 점은 컴퓨팅 성능이 향상될 때마다 비용은 계속 하락했다는 점입니다. 제가 보여드리겠습니다. GPT-4 모델(2조 개의 매개변수와 8조 개의 토큰)을 훈련하는 데 사용한 에너지의 양은 컴퓨팅 성능이 증가함에 따라 350배나 감소했습니다.
파스칼을 사용해 동일한 훈련을 수행했다면 최대 1,000기가와트시의 에너지가 소비되었을 것이라고 상상해 보세요. 이는 이를 지원하기 위해 기가와트급 데이터 센터가 필요하다는 것을 의미하지만, 그런 데이터 센터는 세상에 존재하지 않습니다. 설사 존재한다고 해도 한 달 동안 계속 가동해야 합니다. 100메가와트 데이터 센터라면 훈련에 최대 1년이 걸릴 것입니다.
그런 데이터 센터를 만들 의지도 능력도 없는 것은 분명합니다. 그렇기 때문에 8년 전만 해도 ChatGPT와 같은 대규모 언어 모델은 여전히 먼 꿈에 불과했습니다. 하지만 오늘날 우리는 성능을 개선하고 에너지 소비를 줄임으로써 이를 실현하고 있습니다.
우리는 블랙웰을 사용하여 최대 1,000기가와트시까지 소요되던 에너지를 단 3기가와트시로 줄였으며, 이는 분명 놀라운 성과입니다. 1,000개의 GPU를 사용하면서 커피 한 잔의 칼로리만큼 적은 에너지를 소비한다고 상상해 보세요. 10,000개의 GPU를 사용하면 동일한 작업을 단 10일 정도면 완료할 수 있습니다. 8년 동안의 이러한 발전은 놀랍습니다.
이미지 src="https://img.jinse.cn/7235990_image3.png">
블랙웰은 추론뿐만 아니라 토큰 생성 성능의 개선도 놀랍습니다. 파스칼 시대에는 토큰 하나당 17,000줄의 에너지를 소비했는데, 이는 대략 전구 두 개를 이틀 동안 켜는 것과 맞먹는 양이었습니다. 반면에 GPT-4 토큰을 생성하려면 200와트 전구 두 개를 이틀 동안 연속으로 가동해야 합니다. 단어 하나를 생성하는 데 약 3개의 토큰이 필요하다는 점을 고려하면, 이는 엄청난 에너지 소모량입니다. <하지만 블랙웰은 토큰당 0.4줄의 에너지만 소비하여 놀랍도록 빠른 속도로 매우 낮은 에너지 소비로 토큰을 생성할 수 있게 되었습니다. 이는 분명 큰 도약입니다. 하지만 여기서 만족하지 않았습니다. 더 큰 혁신을 위해서는 더 강력한 기계를 만들어야 했습니다.
이것이 바로 블랙웰 칩이 내장된 DGX 시스템입니다. 이 시스템은 공랭식이며 내부에 8개의 GPU가 장착되어 있습니다. 이 GPU의 방열판을 보면 놀라울 정도로 큽니다. 전체 시스템은 약 15kW의 전력을 소비하며 완전히 공랭식으로 작동합니다. 이 버전은 X86과 호환되며 이미 배송된 서버에 탑재되어 있습니다.
그러나 수냉식 냉각을 선호하는 경우 이 마더보드 설계를 기반으로 하며 "모듈형" 시스템이라고 부르는 MGX라는 새로운 시스템이 있습니다. MGX 시스템의 중심에는 2개의 블랙웰 칩이 있으며, 각 노드에 4개의 블랙웰 칩이 통합되어 있습니다. 효율적이고 안정적인 작동을 보장하기 위해 액체 냉각 기술을 사용합니다.
전체 시스템에는 이러한 노드가 9개, 총 72개의 GPU로 구성되어 거대한 컴퓨팅 클러스터를 구성합니다. 이러한 GPU는 새로운 기술인 NV Link 기술을 통해 서로 연결되어 원활한 컴퓨팅 네트워크를 형성합니다. NV 링크 스위치는 오늘날 세계에서 가장 진보된 스위치인 경이로운 기술이며 데이터 전송 속도는 놀랍습니다. 이 스위치를 통해 각 블랙웰 칩을 효율적으로 연결하여 72개의 거대한 GPU 클러스터를 구성할 수 있습니다.
이미지 src="https://img.jinse.cn/7235991_image3.png">
이 클러스터의 장점은 무엇일까요? 첫째, GPU 영역에서는 이제 하나의 초대형 GPU처럼 작동하며, 이 '슈퍼 GPU'는 이전 세대의 8개 GPU에 비해 9배 향상된 72개 GPU의 코어 파워를 가지고 있습니다. 동시에 대역폭은 18배, AI FLOPS(초당 부동 소수점 연산)는 45배 증가했지만 전력은 10배 증가에 그쳤습니다. 즉, 이전 세대에는 10킬로와트에 불과했던 시스템 하나가 100킬로와트의 강력한 전력을 제공할 수 있게 된 것입니다. <물론 이러한 시스템을 더 많이 연결하여 더 큰 컴퓨팅 네트워크를 구성할 수도 있습니다. 하지만 진정한 기적은 바로 이 NV 링크 칩으로, 대형 언어 모델이 점점 더 커짐에 따라 그 중요성이 점점 더 커지고 있습니다. 이러한 대규모 언어 모델은 더 이상 단일 GPU나 노드만으로 실행하기에 적합하지 않기 때문에 전체 GPU 랙의 공동 작업이 필요합니다. 방금 말씀드린 새로운 DGX 시스템처럼, 수십 조 단위의 파라미터를 가진 대규모 언어 모델을 수용할 수 있습니다.
NV 링크 스위치 자체도 500억 개의 트랜지스터, 74개의 포트, 포트당 최대 400GB의 데이터 속도를 갖춘 놀라운 기술이지만, 더 중요한 것은 딥 러닝에서 매우 중요한 직접 환원 연산이 가능한 수학적 알고리즘이 스위치 내부에 통합되어 있다는 점입니다. 이것이 바로 DGX 시스템의 새로운 얼굴입니다.
많은 사람들이 저희에 대해 궁금증을 표명했습니다. 질문도 하고 엔비디아의 사업 범위를 오해하기도 합니다. 사람들은 어떻게 엔비디아가 GPU를 만드는 것만으로 이렇게 거대해질 수 있었는지 궁금해했습니다. 그 결과 많은 사람들이 GPU는 특정한 모습이어야 한다는 인상을 갖게 되었습니다. 하지만 제가 지금 보여드리고자 하는 것은 이것이 실제로 GPU이지만 여러분이 생각하는 것과는 다르다는 것입니다. 세계에서 가장 진보된 GPU 중 하나이지만 대부분 게임에서 사용됩니다. 하지만 우리 모두 잘 알다시피 GPU의 진정한 힘은 그 이상입니다.
이것을 보세요, 여러분, 이것이 진정한 GPU의 형태입니다. 딥 러닝을 위해 설계된 DGX GPU입니다. 이 GPU의 뒷면은 3킬로미터 길이의 5,000개의 와이어로 구성된 NV 링크 백본에 연결되어 있습니다. NV 링크 백본인 이 와이어는 70개의 GPU를 연결하여 강력한 컴퓨팅 네트워크를 형성합니다. 트랜시버를 통해 구리선 전체 길이에 걸쳐 신호를 구동할 수 있는 전기 기계의 경이로움입니다.
이 NV 링크 스위치는 NV 링크 트렁크를 통해 구리선을 통해 데이터를 전송함으로써 단일 랙에서 20킬로와트의 전력을 절약할 수 있으며, 이를 전적으로 데이터 처리에 사용할 수 있게 되었으니 이는 정말 놀라운 성과입니다. 이것이 바로 NV 링크 백본의 힘입니다.
그러나 이것만으로는 수요를 충족시키기에 충분하지 않으며, 특히 대규모 AI 공장의 경우 더욱 그러하므로 다른 솔루션이 필요합니다. 고속 네트워크를 사용하여 이러한 AI 공장을 연결해야 합니다. 인피니밴드와 이더넷이라는 두 가지 네트워크 옵션이 있습니다. 이 중 인피니밴드는 이미 전 세계 슈퍼컴퓨팅 및 AI 팩토리에서 널리 사용되고 있으며 빠르게 성장하고 있습니다. 그러나 모든 데이터센터가 이더넷 에코시스템에 막대한 투자를 해왔고 인피니밴드 스위치와 네트워크를 관리하려면 일정 수준의 전문성과 기술이 필요하기 때문에 모든 데이터센터가 바로 인피니밴드를 사용할 수 있는 것은 아닙니다.
따라서 아루바의 솔루션은 이더넷 아키텍처에 인피니밴드의 성능을 제공하는 것이지만, 이는 결코 쉬운 일이 아닙니다. 그 이유는 각 노드, 각 컴퓨터는 일반적으로 인터넷의 다른 사용자와 연결되지만 대부분의 통신은 실제로 데이터 센터 내에서, 즉 데이터 센터와 인터넷 반대편에 있는 사용자 간에 데이터를 전송하는 방식으로 이루어지기 때문입니다. 그러나 AI 팩토리의 딥 러닝 시나리오에서 GPU는 인터넷상의 사용자와 통신하는 것이 아니라 서로 빈번하고 집중적인 데이터를 교환합니다.
둘 다 부분적인 결과를 수집하기 때문에 서로 통신합니다. 그런 다음 이 부분적인 결과를 축소(축소)하고 재분배(재분배)해야 합니다. 이 통신 패턴은 트래픽이 매우 폭주하는 것이 특징입니다. 중요한 것은 평균 처리량이 아니라 마지막으로 도착하는 데이터입니다. 모든 사람으로부터 부분적인 결과를 수집하고 있는데 모든 부분적인 결과를 수신하려고 할 때 마지막 패킷이 늦게 도착하면 전체 작업이 지연되기 때문입니다. 지연 시간은 AI 팩토리에서 매우 중요한 문제입니다. 따라서 평균 처리량이 아니라 마지막 패킷이 제시간에 오류 없이 도착하도록 하는 데 중점을 둡니다. 그러나 기존 이더넷은 고도로 동기화되고 지연 시간이 짧은 이러한 요구 사항에 최적화되어 있지 않습니다. 이러한 요구사항을 충족하기 위해 저희는 NIC(네트워크 인터페이스 카드)와 스위치가 통신할 수 있는 엔드투엔드 아키텍처를 창의적으로 설계했습니다. 이를 위해 네 가지 핵심 기술을 사용했습니다.
첫째, NVIDIA는 업계 최고의 RDMA(원격 직접 메모리 액세스) 기술을 보유하고 있습니다. 이제 우리는 매우 뛰어난 성능을 자랑하는 이더넷 네트워크 수준의 RDMA를 보유하고 있습니다.
둘째, 혼잡 제어 메커니즘을 도입했습니다. 스위치에는 실시간 원격 측정 기능이 있어 네트워크의 정체를 신속하게 파악하고 대응할 수 있습니다. GPU 또는 NIC가 너무 많은 데이터를 전송하면 스위치는 즉시 신호를 보내 전송 속도를 늦춰 네트워크 핫스팟이 생성되는 것을 효과적으로 방지합니다.
셋째, 적응형 라우팅 기술을 사용합니다. 기존 이더넷은 고정된 순서로 데이터를 전송하지만, 아루바 아키텍처에서는 실시간 네트워크 상황에 따라 유연하게 조정할 수 있습니다. 혼잡이 감지되거나 특정 포트가 유휴 상태인 경우, 해당 유휴 포트로 패킷을 전송하면 반대편에 있는 블루필드 장치에서 순서를 다시 지정하여 데이터가 올바른 순서로 반환되도록 할 수 있습니다. 이 적응형 라우팅 기술은 네트워크의 유연성과 효율성을 크게 향상시킵니다.
넷째, 노이즈 격리 기술을 구현했습니다. 데이터센터에서는 동시에 학습된 여러 모델에서 발생하는 노이즈와 트래픽이 서로 간섭하여 지터를 유발할 수 있습니다. 노이즈 격리 기술은 이러한 노이즈를 효과적으로 분리하여 중요한 패킷의 전송에 영향을 미치지 않도록 합니다.
우리는 이러한 기술을 활용하여 AI 공장을 위한 고성능, 저지연 네트워킹 솔루션을 성공적으로 제공했습니다. 수십억 달러 규모의 데이터센터에서 네트워크 사용률이 40% 증가하고 트레이닝 시간이 20% 단축되면 50억 달러 규모의 데이터센터가 60억 달러 규모의 데이터센터와 동등한 성능을 발휘하는 것으로, 네트워크 성능이 전반적인 비용 효율성에 얼마나 큰 영향을 미칠 수 있는지를 알 수 있습니다.
다행히도 네트워크 성능을 획기적으로 개선하고 전체 데이터센터에 비해 네트워크 비용을 거의 무시할 수 있게 만드는 이더넷이 이 목표를 달성하는 데 핵심적인 역할을 합니다. 이는 확실히 네트워크 기술 분야에서 중요한 성과입니다.
우리는 강력한 이더넷 제품군을 보유하고 있으며, 특히 256개의 경로(기수)를 지원하여 초당 51.2TB의 속도로 수천 개의 GPU에 효율적인 네트워크 연결을 제공하는 Spectrum X800을 가장 대표적으로 꼽을 수 있습니다. 1년 후에는 512개의 경로에서 최대 512개의 기수를 지원하는 X800 울트라를 출시하여 네트워크 용량과 성능을 더욱 향상시킬 계획입니다. 반면에 X 1600은 더 큰 규모의 데이터센터를 위해 설계되었으며 수백만 개의 GPU의 통신 요구 사항을 충족할 수 있습니다.
이미지 src="https://img.jinse.cn/7235993_image3.png">
기술이 계속 발전함에 따라 수백만 개의 GPU 데이터센터 시대가 머지않아 다가오고 있습니다. 이러한 추세에는 심오한 이유가 있습니다. 한편으로는 더 크고 복잡한 모델을 훈련하고자 하는 열망도 있지만, 더 중요한 것은 인터넷과 컴퓨터 상호 작용의 미래가 점점 더 클라우드의 제너레이티브 AI에 의존하게 될 것이기 때문입니다. 이러한 AI는 비디오, 이미지, 텍스트, 심지어 디지털 사람을 생성하기 위해 우리와 함께 작동하고 상호 작용할 것입니다. 결과적으로 우리가 컴퓨터와 하는 거의 모든 상호 작용은 제너레이티브 AI의 개입 없이는 불가능할 것입니다. 그리고 제너레이티브 AI는 항상 연결되어 있으며, 일부는 로컬에서 실행되고 일부는 사용자의 기기에서 실행되며 대부분은 클라우드에서 실행될 수 있습니다.
이러한 생성형 AI는 강력한 추론을 수행할 수 있을 뿐만 아니라 반복적으로 답변을 최적화하여 품질을 개선할 수 있습니다. 이는 앞으로 데이터 생성에 대한 엄청난 수요가 발생할 것임을 의미합니다. 오늘 밤, 우리는 이러한 기술 혁신의 힘을 함께 목격했습니다.
1세대 NVIDIA 플랫폼인 블랙웰은 출시 당시부터 주목을 받아왔습니다. 오늘날 전 세계적으로 완전히 새로운 산업 혁명의 시작인 제너레이티브 AI의 시대가 열리고 있으며, 모든 곳에서 AI 팩토리의 중요성을 깨닫고 있습니다. 우리는 모든 OEM(주문자 상표 부착 생산업체), 컴퓨터 제조업체, CSP(클라우드 서비스 제공업체), GPU 클라우드, 소버린 클라우드, 통신사 등 다양한 업계로부터 광범위한 지원을 받게 된 것을 영광으로 생각합니다.
Blackwell의 성공과 광범위한 채택, 업계의 열정은 사상 최고 수준입니다. 그러나 우리는 현실에 안주하지 않을 것입니다. 빠르게 진화하는 이 시대에 우리는 제품의 성능을 개선하고 학습 및 추론 비용을 절감하는 동시에 모든 조직이 혜택을 누릴 수 있도록 AI의 기능을 지속적으로 확장하기 위해 계속 노력할 것입니다. 성능이 향상되면 비용도 더욱 절감될 것으로 확신합니다. 그리고 Hopper 플랫폼은 의심할 여지 없이 역사상 가장 성공적인 데이터센터 프로세서가 될 것입니다.
이것은 정말 놀라운 성공 스토리입니다.
보시다시피 Blackwell 플랫폼은 단일 구성 요소의 스택으로 이루어진 것이 아닙니다. CPU, GPU, NVLink, NICK(기술별 구성 요소) 및 NVLink 스위치의 여러 요소를 결합한 완전한 시스템입니다. 각 세대마다 대형 초고속 스위치를 사용하여 모든 GPU를 긴밀하게 연결하여 크고 효율적인 컴퓨팅 도메인을 형성하는 것을 목표로 합니다.
우리는 전체 플랫폼을 AI 팩토리에 통합하고 있지만, 더 중요한 것은 이 플랫폼을 모듈 형태로 전 세계 고객에게 제공한다는 것입니다. 그 이유는 각 파트너가 각기 다른 스타일의 데이터센터, 다양한 고객 세그먼트 및 다양한 애플리케이션 시나리오에 맞게 각자의 필요에 맞게 독특하고 혁신적인 구성을 만들 수 있기를 기대하기 때문입니다. 엣지 컴퓨팅에서 통신에 이르기까지 시스템이 개방되어 있는 한 모든 종류의 혁신이 가능할 것입니다.
혁신의 자유를 제공하기 위해 블랙웰은 올인원 플랫폼을 설계했지만 모듈형 시스템을 쉽게 구축할 수 있도록 분리된 형태로 제공했습니다. 이제 블랙웰 플랫폼을 완전히 사용할 수 있습니다.
NVIDIA는 항상 연간 업데이트 주기를 유지해 왔습니다. 1) 전체 데이터센터 규모를 포괄하는 솔루션을 구축하고, 2) 이러한 솔루션을 개별 구성 요소로 세분화하여 1년에 한 번씩 전 세계 고객에게 출시하며, 3) 최고의 성능을 추구하기 위해 TSMC의 공정 기술, 패키징 기술, 메모리 기술, 광학 등 모든 기술을 한계까지 밀어붙이는 것을 포기하지 않는다는 것이 우리의 핵심 철칙입니다.
하드웨어의 극한 도전을 완료한 후, 완성된 플랫폼에서 모든 소프트웨어가 원활하게 실행될 수 있도록 최선을 다할 것입니다. 컴퓨터 기술에서 소프트웨어 관성은 매우 중요합니다. 기존 소프트웨어와 하위 호환되고 아키텍처적으로 호환되는 컴퓨터 플랫폼이 있으면 시장 출시 속도가 획기적으로 빨라집니다. 따라서 Blackwell 플랫폼이 출시되었을 때 우리는 우리가 구축한 소프트웨어 에코시스템을 활용하여 놀라운 시장 출시 속도를 제공할 수 있었습니다. 내년에는 블랙웰 울트라를 선보일 예정입니다.
H100 및 H200 시리즈에서 그랬던 것처럼 블랙웰 울트라는 전례 없는 혁신을 가져올 차세대 제품을 선도할 것입니다. 동시에 업계 최초로 차세대 스펙트럼 스위치를 도입하여 기술의 한계를 계속 넓혀 나갈 것입니다. 이 중요한 혁신은 이미 성공적으로 이루어졌지만, 지금은 이 결정을 공개하는 것이 조금 망설여집니다.
NVIDIA 내부에서는 코드명을 사용하고 일정 수준의 비밀을 유지하는 데 익숙합니다. 회사 내 대부분의 직원조차도 이러한 비밀을 잘 알지 못하는 경우가 많습니다. 하지만 차세대 플랫폼의 이름은 루빈으로 정해졌고, 여기서는 루빈에 대해 자세히 설명하지 않겠습니다. 여러분의 궁금증을 잘 알고 있지만, 조금 더 비밀을 유지하도록 하겠습니다. 사진을 찍거나 작은 글씨를 공부하고 싶으시다면 언제든지 그렇게 하세요.
루빈 플랫폼뿐만 아니라 1년 후에는 루빈 울트라 플랫폼도 출시될 예정입니다. 여기에 표시된 모든 칩은 개발이 완료된 상태로 모든 세부 사항을 다듬고 있습니다. 업데이트 속도는 1년에 한 번으로, 항상 최고의 기술을 위해 노력하는 동시에 모든 제품이 100% 아키텍처 호환성을 유지하도록 보장합니다.
이미지 src="https://img.jinse.cn/7235995_image3.png">
이미지넷이 탄생한 순간부터 지난 12년을 되돌아보면 컴퓨팅의 미래가 극적으로 변화할 것이라고 상상했습니다. 그리고 오늘날, 우리가 상상했던 대로 모든 것이 실현되고 있습니다. 2012년 이전의 GeForce에서 오늘날의 NVIDIA에 이르기까지, 회사는 엄청난 변화를 겪었습니다. 그 과정에서 지원과 동반자 관계를 맺어준 모든 파트너사에게 감사의 말씀을 전하고 싶습니다.
이것이 바로 NVIDIA의 블랙웰 플랫폼입니다. 이제 인공지능과 로보틱스의 결합의 미래에 대해 이야기해 보겠습니다.
물리 AI는 물리 법칙을 이해하고 이를 일상 생활에 편안하게 통합하는 AI의 새로운 물결을 이끌고 있습니다. 이를 위해 물리 AI는 주변 세계를 해석하고 인식하는 방법을 이해하기 위해 정확한 세계 모델을 구축해야 할 뿐만 아니라, 인간의 요구를 깊이 이해하고 효율적으로 작업을 수행할 수 있는 뛰어난 인지 능력을 갖춰야 합니다.
미래를 내다볼 때 로봇 공학은 더 이상 먼 미래의 개념이 아니라 우리의 일상 생활에 점점 더 많이 통합될 것입니다. 로봇 기술이라고 하면 사람들은 휴머노이드 로봇을 떠올리기 쉽지만, 실제로는 그보다 훨씬 더 다양한 분야에서 활용되고 있습니다. 기계화가 표준이 되고, 공장이 완전히 자동화되며, 로봇이 함께 작동하여 다양한 기계화 제품을 생산하게 될 것입니다. 로봇은 서로 더욱 긴밀하게 상호 작용하며 고도로 자동화된 생산 환경을 조성하기 위해 협력할 것입니다.
이를 달성하기 위해서는 여러 가지 기술적 과제를 극복해야 합니다. 이러한 최첨단 기술을 동영상으로 시연해 보겠습니다.
이것은 단지 미래의 비전이 아니라 현실이 되고 있습니다.
우리는 여러 가지 방법으로 시장에 서비스를 제공할 것입니다. 첫째, 우리는 로봇 공장 및 창고용 플랫폼, 물체 조작 로봇용 플랫폼, 모바일 로봇용 플랫폼, 휴머노이드 로봇용 플랫폼 등 다양한 유형의 로봇 시스템을 위한 플랫폼을 구축하는 데 전념하고 있습니다. 이러한 로봇 플랫폼은 다른 많은 비즈니스와 마찬가지로 컴퓨터 가속 라이브러리와 사전 학습된 모델에 의존합니다.
우리는 컴퓨터 가속 라이브러리, 사전 훈련된 모델, Omniverse의 모든 테스트, 훈련 및 통합을 사용합니다. 동영상에서 볼 수 있듯이 Omniverse는 로봇이 현실 세계에 더 잘 적응하는 방법을 배우는 곳입니다. 물론 로봇 물류창고의 생태계는 매우 복잡하기 때문에 최신 물류창고를 구축하기 위해서는 수많은 회사, 도구, 기술이 함께 모여야 합니다. 오늘날 창고는 완전한 기계화를 향해 나아가고 있으며 언젠가는 완전히 자동화될 것입니다.
우리는 이러한 생태계에서 소프트웨어 업계, 에지 AI 업계 및 기업에 SDK와 API 인터페이스를 제공할 뿐만 아니라 국방부와 같은 특정 도메인의 요구를 충족하기 위해 PLC 및 로봇 시스템을 위한 특수 시스템을 설계하고 있습니다. 이러한 시스템은 통합업체를 통해 통합되어 궁극적으로 고객을 위한 효율적이고 지능적인 창고를 만듭니다. 예를 들어 Ken Mac은 거대 거대 그룹을 위해 로봇 창고를 구축하고 있습니다.
다음으로는 공장 부문에 대해 살펴보겠습니다. 공장은 매우 다른 생태계를 가지고 있습니다. 예를 들어 폭스콘은 세계에서 가장 진보된 공장을 건설하고 있습니다. 이러한 공장의 생태계에는 엣지 컴퓨터, 공장 레이아웃 설계, 워크플로 최적화, 로봇 프로그래밍, 디지털 공장과 AI 공장을 조율하기 위한 PLC 컴퓨터 등이 포함됩니다. 또한 이러한 각 에코시스템을 위한 SDK 인터페이스도 제공합니다.
이러한 변화는 전 세계적으로 진행되고 있습니다. 폭스콘과 델타는 현실과 디지털의 완벽한 조화를 이루기 위해 공장의 디지털 트윈을 구축하고 있으며, 옴니버스는 이 과정에서 중요한 역할을 하고 있습니다. 페가트론과 위스트론도 이러한 추세에 따라 각자의 로봇 공장을 위한 디지털 트윈을 구축하고 있다는 점도 주목할 만합니다.
이것은 정말 흥미로운 일입니다. 다음으로 폭스콘의 새로운 공장에 대한 멋진 동영상을 감상해 보십시오.
로봇 공장은 세 가지 주요 컴퓨터 시스템으로 구성되어 있으며, NVIDIA AI 플랫폼에서 AI 모델을 학습시켜 로봇이 로컬 시스템에서 효율적으로 실행되어 공장 공정을 조율하도록 합니다. 동시에 시뮬레이션 협업 플랫폼인 Omniverse를 사용하여 로봇 팔과 AMR(자율 이동 로봇)을 비롯한 모든 공장 요소를 시뮬레이션합니다. 이러한 시뮬레이션은 모두 동일한 가상 공간을 공유하여 원활한 상호 작용과 협업을 지원합니다.
로봇 팔과 AMR이 이 공유 가상 공간에 들어가면 실제 공장 환경을 옴니버스에서 시뮬레이션하여 실제 배포 전에 완벽한 검증과 최적화를 보장할 수 있습니다.
솔루션의 통합과 적용 범위를 더욱 향상시키기 위해, 우리는 가속 레이어와 사전 학습된 AI 모델을 갖춘 고성능 컴퓨터 3대를 제공했습니다. 또한, 엔비디아 매니퓰레이터 및 옴니버스를 지멘스의 산업 자동화 소프트웨어 및 시스템과 성공적으로 결합했습니다. 이러한 협업을 통해 지멘스는 전 세계 공장에서 보다 효율적인 로봇 운영 및 자동화를 달성할 수 있었습니다.
이미지 src="https://img.jinse.cn/7235997_image3.png">
시만텍은 Siemens 외에도 여러 유명 기업들과 파트너십을 맺고 있습니다. 예를 들어 시만텍 픽 AI는 엔비디아 아이작 매니퓰레이터를 통합했으며, 소매틱 픽 AI는 ABB, 쿠카, 야스카와 모토만 등 유명 브랜드의 로봇을 성공적으로 구동 및 운영해 왔습니다.
로봇과 물리적 AI의 시대가 도래했으며, 공상 과학 소설이 아닌 현실로 모든 곳에서 활용되고 있다는 사실은 매우 흥미진진합니다. 미래에는 공장에서 로봇이 모든 제품을 생산하게 될 것이며, 특히 대량 생산이 가능한 두 가지 로봇 제품이 주류를 이룰 것입니다. 첫 번째는 자율주행 자동차 또는 고도의 자율성을 갖춘 자동차이며, 엔비디아는 포괄적인 기술 스택을 통해 이 분야에서 다시 한 번 중심적인 역할을 하고 있습니다. 내년에는 메르세데스-벤츠 팀과 협력하고, 2026년에는 재규어 랜드로버(JLR) 팀과도 협력할 계획입니다. 우리는 완전한 솔루션 스택을 제공하지만, 전체 드라이브 스택이 개방적이고 유연하기 때문에 고객은 필요에 따라 원하는 부분이나 계층을 선택할 수 있습니다.
로봇 공장에서 대량으로 생산할 수 있는 다음 제품은 휴머노이드 로봇입니다. 최근 몇 년 동안 인지 능력과 세계 이해 능력이 크게 발전하면서 이 분야의 미래는 매우 유망합니다. 특히 휴머노이드 로봇은 우리가 인간을 위해 만든 세상에 가장 잘 적응할 수 있는 로봇이기 때문에 더욱 기대가 됩니다.
휴머노이드 로봇을 훈련시키려면 다른 유형의 로봇에 비해 많은 데이터가 필요합니다. 인간의 체형이 비슷하기 때문에 데모 및 비디오 기능을 통해 얻을 수 있는 대량의 훈련 데이터는 매우 유용할 것입니다. 따라서 이 분야에서 상당한 진전이 있을 것으로 기대합니다.
이미지 src="https://img.jinse.cn/7235998_image3.png">
자, 이제 특별한 로봇 친구들을 소개합니다. 인공지능의 차세대 물결인 로봇의 시대가 다가오고 있습니다. 중국 대만에서는 키보드가 장착된 전통적인 모델부터 작고 가벼운 휴대용 모바일 기기, 클라우드 기반 데이터 센터에 강력한 컴퓨팅 성능을 제공하는 특수 장비에 이르기까지 다양한 종류의 컴퓨터를 만들고 있습니다. 하지만 앞으로는 걷고 굴러다니는 컴퓨터, 즉 지능형 로봇이 만들어지는 훨씬 더 흥미로운 시대가 도래할 것입니다.
이 스마트 로봇은 첨단 하드웨어 및 소프트웨어 기술을 기반으로 구축되어 우리가 알고 있는 컴퓨터와 기술적으로 매우 흡사합니다. 그렇기 때문에 정말 놀라운 여정이 될 것이라고 믿을 만한 이유가 있습니다!
이번 월요일, NVIDIA의 주가는 시가총액 3조 5천억 달러 이상으로 세계 1위인 Apple과 어깨를 나란히 하며 또다시 사상 최고치를 경신했습니다.
JinseFinance하지만 억만장자들이 종종 미스터리하게 사라지는 이 나라에서 콜린 황이 전임자들과 같은 곤경에 직면하기 전에 얼마나 오래 버틸 수 있을까요? 르네상스의 CEO인 바오 판, 부동산 재벌인 런즈창, 그리고 가장 유명한 알리바바의 창업자인 마윈은 모두 전성기에 지구상에서 자취를 감췄습니다.
XingChi인공지능,메타,황젠선, 저커버그 최고 대화 녹취록 : 10,000 단어 길이의 기사, 메타의 미래 AI 그림 공개 황금금융,황젠선, 저커버그는 AI의 미래를 어떻게 볼까요?
JinseFinance골든 파이낸스는 암호화폐 및 블록체인 업계 뉴스레터인 골든 모닝 8호, 2340호를 발행하여 가장 빠르고 최신의 디지털 화폐 및 블록체인 업계 뉴스를 제공합니다.
JinseFinance어제 엔비디아의 주가는 7% 상승한 1139.01달러로 마감하며 사상 최고치를 경신했습니다. 현재 대만을 방문 중인 젠슨 황은 인터뷰에서 대만이 AI의 중심에 있으며, 대만의 AI 산업 발전을 더욱 촉진할 수 있기를 기대한다고 말했습니다.
Sanya황 리청의 Memecoin 보바오파는 스테이킹과 이체를 통해 195,000 SOL(3,600만 달러)을 모금했지만, 미스릴과 포모사 등 그의 과거 프로젝트는 모호한 관행에 대한 우려를 불러일으켰습니다.
Alex리청 황이 블러와 벌인 2,500만 달러 분쟁과 블래스트에 입금한 3,000 이더리움은 암호화폐 업계에 파문을 일으키며 앞으로 전개될 드라마에 대한 추측과 기대감을 불러일으켰습니다.
Cheng Yuan황은 암호화폐 커뮤니티에 대한 잭의 공헌을 인정하며 법적 조치는 최후의 수단이었다고 밝혔습니다.
Davin최근 몇 년 동안 암호 화폐 소송이 폭발적으로 증가했습니다.
Beincrypto6월 17일 뉴스에 따르면 암호화된 KOL zachxbt가 발행한 기사에 따르면 Jeffrey Huang(Jeffrey Huang)은 Mithril(MITH), Formosa Financial(FMF), Machi X, Cream Finance(CREAM) 등 수십 개의 토큰을 연속적으로 출시했습니다. , Swag Finance(SWAG) 쓰레기 항목.
链向资讯