AI의 빠른 성장은 복잡한 인프라에 기반을 두고 있습니다. 기술 스택은 하드웨어와 소프트웨어로 구성된 계층화된 아키텍처로, 현재 AI 혁명의 근간을 이루고 있습니다. 여기에서는 기술 스택의 주요 계층을 심층적으로 분석하고 각 계층이 AI 개발 및 구현에 기여하는 바를 자세히 설명합니다. 마지막으로, 특히 GPU 네트워크와 같은 탈중앙화 물리적 인프라(DePIN) 프로젝트와 같이 암호화폐와 AI의 교차점에서 기회를 평가할 때 이러한 기본 사항을 숙지하는 것이 얼마나 중요한지 살펴볼 것입니다.
1. 하드웨어 계층:실리콘 재단
계층 구조의 맨 아래에는 AI에 물리적 컴퓨팅 성능을 제공하는 하드웨어가 있습니다.
CPU(중앙 처리 장치): 컴퓨팅을 위한 기본 프로세서입니다. 순차적 작업에 특화되어 있으며 데이터 전처리, 소규모 AI 작업, 다른 구성 요소 조정 등 범용 컴퓨팅에 중요합니다.
GPU(그래픽 프로세서): 원래 그래픽 렌더링을 위해 설계되었지만, 많은 수의 간단한 계산을 동시에 수행할 수 있는 능력으로 인해 AI의 중요한 일부가 되었습니다. 이러한 병렬 처리 능력 덕분에 GPU는 딥러닝 모델 훈련에 이상적으로 적합하며, GPU의 발전 없이는 최신 GPT 모델은 불가능했을 것입니다.
AI 가속기: 일반적인 AI 작업에 최적화된 AI 워크로드를 위해 특별히 설계된 칩으로, 훈련 및 추론 작업에 높은 성능과 에너지 효율성을 제공합니다.
FPGA(프로그래머블 어레이 로직): 재프로그래밍이 가능한 특성으로 유연성을 제공합니다. 특히 짧은 지연 시간이 필요한 추론 시나리오에서 특정 AI 작업에 최적화할 수 있습니다.
2. 기반 소프트웨어: 미들웨어
2. align: left;">AI 기술 스택의 이 계층은 고급 AI 프레임워크와 기반 하드웨어 사이의 다리를 구축하므로 매우 중요합니다. CUDA, ROCm, OneAPI, SNPE 등의 기술은 고급 프레임워크와 특정 하드웨어 아키텍처 간의 연결을 강화하여 성능을 최적화할 수 있도록 지원합니다.
NVIDIA의 독점 소프트웨어 레이어인 CUDA는 AI 하드웨어 시장에서 NVIDIA가 성장하는 데 초석이 되어 왔으며, 하드웨어 지배력뿐만 아니라 소프트웨어 및 에코시스템 통합의 강력한 네트워크 효과에 기반한 리더십을 발휘하고 있습니다.
CUDA는 AI 기술 스택에 깊이 통합되어 있으며 이 분야에서 사실상 표준이 된 전체 최적화 라이브러리 세트를 제공하기 때문에 그 영향력이 매우 큽니다. 이 소프트웨어 에코시스템은 강력한 네트워크 효과를 구축하여 CUDA에 능숙한 AI 연구자와 개발자가 교육 과정에서 학계와 업계에 그 사용법을 전파합니다.
이러한 선순환은 CUDA 기반 툴 및 라이브러리 에코시스템이 AI 실무자에게 점점 더 필수적인 요소가 되면서 NVIDIA의 시장 리더십을 더욱 강화합니다.
이러한 하드웨어/소프트웨어의 공생은 AI 컴퓨팅의 선두에서 NVIDIA의 입지를 공고히 할 뿐만 아니라 범용화된 하드웨어 시장에서는 보기 드문 상당한 가격 경쟁력도 제공합니다.
CUDA의 우위와 경쟁사의 상대적 모호함은 상당한 진입 장벽을 만든 여러 가지 요인에 기인할 수 있습니다.GPU 가속 컴퓨팅 분야에서 NVIDIA의 선발주자 우위 덕분에 경쟁사가 발판을 마련하기 전에 강력한 에코시스템을 구축할 수 있었습니다. AMD 및 Intel과 같은 경쟁사는 훌륭한 하드웨어를 보유하고 있지만, 소프트웨어 계층에는 필요한 라이브러리와 도구가 부족하고 기존 기술 스택과 원활하게 통합되지 않기 때문에 NVIDIA/CUDA와 나머지 경쟁사 간에는 큰 격차가 존재합니다.
3.
NVIDIA/CUDA가 새로운 기술 개발에 관여한 것은 이번이 처음입니다. strong>컴파일러:번역기
TVM(텐서 가상 머신), MLIR(다층 중간 표현) 및 PlaidML은 여러 하드웨어 아키텍처에서 AI 워크로드를 최적화하는 과제에 대한 다양한 솔루션을 제공합니다.
TVM은 워싱턴 대학의 연구에서 시작된 것으로, 고성능 GPU부터 리소스가 제한된 엣지 디바이스에 이르기까지 다양한 디바이스에 딥러닝 모델을 최적화하는 능력으로 빠르게 주목받고 있습니다. 특히 추론 시나리오에서 효과적인 엔드투엔드 최적화 프로세스가 강점입니다. 기본 공급업체와 하드웨어의 차이를 완전히 추상화하여 추론 워크로드를 NVIDIA 디바이스나 AMD, Intel 등 다양한 하드웨어에서 원활하게 실행할 수 있습니다.
그러나 추론을 넘어서면 상황은 더욱 복잡해지며, AI 학습을 위한 하드웨어 대체 컴퓨팅의 궁극적인 목표는 아직 해결되지 않은 채로 남아 있습니다. 하지만 이와 관련하여 언급할 만한 몇 가지 이니셔티브가 있습니다.
구글의 프로젝트인 MLIR은 보다 기본적인 접근 방식을 취합니다. 여러 수준의 추상화를 위한 통합된 중간 표현을 제공함으로써 타깃 추론 및 훈련 사용 사례를 위한 전체 컴파일러 인프라를 단순화하는 것을 목표로 합니다.
현재 인텔이 주도하고 있는 PlaidML은 이 경쟁에서 다크호스로 자리매김하고 있습니다. 여러 하드웨어 아키텍처(기존 AI 가속기 외의 아키텍처 포함)에서의 이식성에 초점을 맞춘 이 솔루션은 모든 유형의 컴퓨팅 플랫폼에서 AI 워크로드가 원활하게 실행되는 미래를 바라보고 있습니다.
모델 성능에 영향을 미치거나 개발자의 추가 수정이 필요 없이 이러한 컴파일러 중 하나라도 기술 스택에 잘 통합될 수 있다면 CUDA 해자를 위협할 가능성이 높습니다. 그러나 MLIR과 PlaidML은 현재 충분히 성숙하지 않았거나 AI 기술 스택에 잘 통합되지 않았기 때문에 현재로서는 CUDA의 리더십에 큰 위협이 되지는 않습니다.
4. 분산 컴퓨팅: 코디네이터
4. align: left;">Ray와 Horovod는 AI의 분산 컴퓨팅에 대한 두 가지 접근 방식을 대표하며, 각각 대규모 AI 애플리케이션에서 확장 가능한 처리에 대한 중요한 요구 사항을 해결합니다.
UC 버클리의 RISELab에서 개발한 Ray는 범용 분산 컴퓨팅 프레임워크입니다. 유연성이 뛰어나 머신 러닝을 넘어 다양한 유형의 워크로드를 분산할 수 있으며, Ray의 액터 기반 모델은 Python 코드의 병렬화를 크게 간소화하여 특히 복잡하고 다양한 워크플로우가 필요한 강화 학습 및 기타 AI 작업에 적합합니다.
Horovod는 원래 Uber에서 설계한 딥 러닝의 분산 구현에 중점을 두고 있습니다. 여러 GPU 및 서버 노드에서 딥 러닝 훈련 프로세스를 확장할 수 있는 깔끔하고 효율적인 솔루션을 제공하며, 사용자 친화성과 신경망 데이터에 대한 병렬 훈련 최적화를 통해 TensorFlow, PyTorch 등과 같은 주류 딥 러닝 프레임워크와 원활하게 통합할 수 있어 개발자가 대규모 확장 없이도 쉽게 확장할 수 있습니다. 기존 학습 코드를 대규모로 변경하지 않고도 쉽게 확장할 수 있습니다.
5. 결론: 암호화폐 관점에서
분산 컴퓨팅 시스템 구축을 목표로 하는 디핀 프로젝트에서 기존 AI 스택과의 통합은 매우 중요합니다. 이러한 통합은 기존 AI 워크플로우 및 도구와의 호환성을 보장하여 도입 장벽을 낮춥니다.
암호화폐 영역에서, 기본적으로 탈중앙화된 GPU 대여 플랫폼인 현재의 GPU 네트워크는 보다 복잡한 분산형 AI 인프라를 향한 초기 단계에 해당합니다. 이러한 플랫폼은 분산 클라우드로 운영되기보다는 에어비앤비 스타일의 마켓플레이스와 비슷합니다. 이러한 플랫폼은 일부 애플리케이션에는 유용하지만, 대규모 AI 개발을 발전시키기 위한 핵심 요건인 진정한 분산 학습을 지원하기에는 충분하지 않습니다.
Ray와 Horovod 같은 현재의 분산 컴퓨팅 표준은 전 세계적으로 분산된 네트워크를 위해 설계되지 않았으며, 진정한 분산 네트워크를 위해서는 이 계층 위에 또 다른 프레임워크를 개발해야 합니다. 일부 회의론자들은 트랜스포머 모델이 학습 과정에서 집중적인 통신과 글로벌 함수 최적화가 필요하기 때문에 분산형 트레이닝 방법과 호환되지 않는다고 주장하기도 합니다. 반면 낙관론자들은 전 세계적으로 분산된 하드웨어와 잘 작동하는 새로운 분산 컴퓨팅 프레임워크를 개발하기 위해 노력하고 있으며, Yotta는 이 문제를 해결하려는 스타트업 중 하나입니다.
NeuroMesh는 한 걸음 더 나아갑니다. 특히 혁신적인 방식으로 머신 러닝 프로세스를 재설계합니다. NeuroMesh는 글로벌 손실 함수의 최적 해를 직접 구하는 대신 예측 코딩 네트워크(PCN)를 사용하여 로컬 오류 최소화를 위한 수렴을 찾아냄으로써 분산형 AI 학습의 근본적인 병목 현상을 해결합니다.
이 접근 방식은 전례 없는 병렬화를 가능하게 할 뿐만 아니라 RTX 4090과 같은 소비자 GPU 하드웨어에서 모델을 훈련할 수 있게 함으로써 AI 훈련을 대중화합니다. 특히 4090 GPU는 H100과 비슷한 연산 능력을 갖추고 있지만 대역폭이 부족해 모델 훈련 시 활용도가 낮습니다. PCN은 대역폭의 중요성을 줄여주므로 이러한 저사양 GPU를 활용할 수 있어 상당한 비용 절감과 효율성 향상으로 이어질 수 있습니다.
또 다른 야심찬 암호화 AI 스타트업인 GenSyn은 컴파일러 제품군을 구축하는 것을 목표로 하며, Gensyn의 컴파일러를 사용하면 모든 유형의 컴퓨팅 하드웨어를 AI 워크로드에 원활하게 사용할 수 있습니다. 비유하자면, TVM이 추론에 유용한 것처럼 GenSyn은 모델 학습을 위한 유사한 도구를 구축하려고 노력하고 있습니다.
이 작업이 성공한다면, 다양한 하드웨어를 효율적으로 활용하여 더 복잡하고 다양한 AI 작업을 처리할 수 있도록 탈중앙화된 AI 컴퓨팅 네트워크의 기능을 크게 확장할 수 있습니다. 이 야심찬 비전은 다양한 하드웨어 아키텍처에서 최적화해야 하는 복잡성과 높은 기술적 위험으로 인해 쉽지 않지만, 이기종 시스템에서의 성능 유지와 같은 장애물을 극복하고 실행에 옮길 수 있다면 CUDA와 NVIDIA의 해자를 약화시킬 수 있는 기술입니다.
추론: 검증 가능한 추론과 분산된 이기종 컴퓨팅 리소스 네트워크를 결합하는 Hyperbolic의 접근 방식은 비교적 실용적인 전략을 반영합니다. 하이퍼볼릭은 TVM과 같은 컴파일러 표준을 활용함으로써 성능과 안정성을 유지하면서 다양한 하드웨어 구성을 활용할 수 있습니다. 소비자용 하드웨어와 고성능 하드웨어를 포함하여 여러 공급업체(NVIDIA, AMD, Intel 등)의 칩을 통합할 수 있습니다.
암호화-AI 크로스오버의 이러한 발전은 AI 컴퓨팅이 더욱 분산되고 효율적이며 접근성이 높아질 수 있는 미래를 예고합니다. 이러한 프로젝트의 성공 여부는 기술적 장점뿐만 아니라 기존 AI 워크플로우와 원활하게 통합하고 AI 실무자 및 기업의 실질적인 문제를 해결할 수 있는 능력에 따라 달라질 것입니다.