저자: 마이클 오루크 출처: 코인텔레그래프 번역: 굿오바, 골든파이낸스
오픈 데이터의 잠재력을 최대한 실현하기 위해서는 저비용의 대규모 언어 모델(LLM) 트레이닝, 손쉬운 연구 데이터 공유, 중단 없는 디앱 호스팅을 즐기려면 중앙화된 인프라에서 탈중앙화된 아키텍처로 전환해야 합니다.
현재 오픈 데이터는 3,500억 달러 이상의 시장 가치를 지닌 신흥 글로벌 기술 경제의 핵심 원동력입니다. 그러나 많은 오픈 데이터 소스는 중앙화된 인프라에 의존하고 있으며, 이는 Web3의 자율성 및 검열 저항이라는 개념에 반하는 것입니다.
오픈 데이터의 잠재력을 최대한 활용하려면 분산형 인프라로 전환해야 합니다. 오픈 데이터 생태계가 탈중앙화된 개방형 아키텍처로 전환되면 사용자 앱의 여러 취약점이 해결될 것입니다.
분산형 인프라에는 다음과 같은 다양한 시나리오가 있습니다 - 분산형 애플리케이션 호스팅( DApp)
- 거래 로봇 운영
- 리서치 데이터 공유
- 연구 데이터 공유
연구 데이터 공유
- LLM을 위한 교육 및 추론
이러한 사용 사례를 자세히 살펴보세요. 사용 사례를 살펴보면, 분산형 아키텍처가 중앙 집중식 인프라보다 오픈 데이터를 더 효율적이고 실용적으로 활용한다는 것을 알 수 있습니다.
LLM 학습 및 추론 비용 절감
오픈 소스 AI DeepSeek가 출시되었습니다. 한때 미국 기술 시장에서 1조 달러의 가치를 증발시킨 오픈소스 AI DeepSeek의 출시는 오픈소스 프로토콜의 힘을 보여줬습니다. 이는 오픈 데이터를 핵심으로 하는 새로운 글로벌 경제에 대해 관심을 가져야 한다는 경고입니다.
현재의 폐쇄적이고 중앙화된 AI 모델은 훈련 비용이 많이 들며, 이는 LLM이 매우 정확한 결과를 훈련하고 생성하는 능력에도 영향을 미칩니다. 예를 들어, 딥시크 R1의 최종 훈련 비용은 약 550만 달러에 불과했지만, 오픈AI의 GPT-4 훈련에는 1억 달러가 넘는 비용이 들었습니다. 그러나 신흥 AI 산업은 여전히 중앙 집중식 인프라 플랫폼(예: LLM API 제공업체)에 의존하고 있으며, 이는 오픈 소스 혁신의 이념과 모순됩니다.
사실, Llama 2 및 DeepSeek R1과 같은 오픈 소스 LLM을 호스팅하는 것은 단순하고 저렴합니다. 지속적인 동기화가 필요한 상태 저장 블록체인과 달리 LLM은 상태 비저장형이며 정기적인 업데이트만 필요합니다.
LLM 실행의 상대적 단순성에도 불구하고, 노드 러너가 GPU 컴퓨팅 성능을 필요로 하기 때문에 오픈 소스 모델에서 추론을 수행하는 컴퓨팅 비용은 여전히 높습니다. 그러나 이러한 모델은 업데이트와 실시간으로 동기화할 필요가 없으므로 장기적으로 상당한 비용 절감 효과를 얻을 수 있다는 점에 주목할 필요가 있습니다.
GPT-4와 같은 범용 기본 모델의 등장으로 상황별 추론에 기반한 신제품 개발이 가능해졌습니다. 그러나 OpenAI와 같은 중앙 집중식 기업은 추론을 위해 임의의 네트워크가 학습 모델에 액세스하는 것을 허용하지 않습니다.
대신, 탈중앙화된 노드 운영자는 AI 엔드포인트 역할을 하고 고객에게 결정론적 데이터를 제공함으로써 오픈 소스 LLM의 개발을 지원할 수 있습니다. 탈중앙화 네트워크는 운영자가 네트워크에서 게이트웨이를 출시할 수 있도록 지원하여 진입 장벽을 낮춥니다.
이러한 분산형 인프라 프로토콜은 오픈 소스 코어 게이트웨이와 서비스 인프라를 통해 권한이 없는 네트워크에서 수백만 건의 요청을 처리합니다. 그 결과, 모든 기업가나 운영자는 게이트웨이를 배포하고 신흥 시장에 진출할 수 있습니다.
예를 들어, 한 팀은 탈중앙화된 컴퓨팅 자원을 활용하여 라이선스 없는 프로토콜 아카시에서 LLM을 훈련시킬 수 있으며, 이를 통해 중앙화된 클라우드 서비스 제공자보다 85% 저렴한 비용으로 맞춤형 컴퓨팅 서비스를 제공할 수 있습니다. 중앙화된 클라우드 서비스 제공자보다 85% 저렴한 비용으로 컴퓨팅 서비스를 제공합니다.
AI 기업들은 현재 LLM 추론 서비스를 실행하기 위해 인프라 유지보수에 하루에 약 1백만 달러를 지출하고 있습니다. 이는 AI 인프라 시장의 연간 규모(SAM)가 약 3억 6,500만 달러에 달할 수 있음을 의미합니다.
이 데이터는 시장 상황이 탈중앙화 인프라의 엄청난 성장 잠재력을 가리키고 있으며, 향후 탈중앙화 AI 컴퓨팅 자원의 발전으로 업계에 더 많은 혁신의 여지가 열릴 것임을 시사합니다.
액세스 가능한 연구 데이터 공유
과학 연구 분야에서 머신러닝 및 대규모 언어 모델링(LLM)과 결합된 데이터 공유는 연구 과정을 가속화하는 잠재력을 가지고 있습니다. 인류의 삶을 개선할 수 있습니다. 그러나 데이터에 대한 접근은 고가의 학술지 시스템으로 인해 제한되어 있습니다. 이러한 저널은 위원회에서 승인한 연구만을 선별적으로 게재하며 대부분 비싼 구독료 뒤에 숨어 있어 널리 접근하기 어렵습니다.
블록체인 기반 영지식(ZK) 머신러닝 모델의 등장으로 이제 민감한 정보를 노출하지 않고 프라이버시를 보호하면서 신뢰가 필요 없는 환경에서 데이터를 공유하고 계산할 수 있게 되었습니다. 그 결과, 연구자와 과학자들은 잠재적으로 제한될 수 있는 개인 식별 정보를 익명화하지 않고도 연구 데이터를 공유하고 액세스할 수 있습니다.
개방된 연구 데이터를 지속 가능하게 공유하기 위해서는 중개자를 배제하고 데이터 액세스 측면에서 연구자에게 인센티브를 주는 분산형 인프라가 필요합니다. 인센티브가 제공되는 오픈 데이터 네트워크는 고가의 학술지와 민간 기업을 넘어 과학 데이터에 대한 접근성을 보장할 수 있습니다.
무적의 DApp 호스팅
아마존 클라우드 서비스(AWS), 구글 클라우드, 그리고 Microsoft Azure 및 기타 중앙 집중식 데이터 호스팅 플랫폼은 앱 개발자들 사이에서 매우 인기가 있습니다. 이러한 플랫폼은 접근하기 쉽지만 중앙 집중식 플랫폼은 단일 장애 지점의 위험을 수반하며, 이는 안정성에 영향을 미치고 드물지만 정당한 서비스 중단을 초래할 수 있습니다.
기술의 역사를 통틀어 서비스형 인프라(IaaS) 플랫폼이 중단 없는 서비스를 제공하지 못하는 경우가 흔했습니다. 예를 들면:
- 2022년에 MetaMask는 Infura의 미국 제재 준수로 인해 특정 지역의 사용자에 대한 액세스가 일시적으로 거부되었습니다. 메타마스크는 탈중앙화되어 있지만, 기본 연결과 엔드포인트는 이더리움에 대한 중앙화된 Infura 액세스에 의존합니다.
- 2020년에도 Infura 고객들은 서비스 중단을 경험했습니다.
- 트래픽이 집중되는 기간 동안 중앙 집중식 원격 절차 호출(RPC) 서비스에 과부하가 발생하여 네트워크 정체를 일으켰던 Solana와 Polygon.
번성하는 오픈 소스 생태계에서는 단일 회사가 다양한 개발자의 요구 사항을 충족하기는 어렵습니다. 현재 시장에는 다양한 사용 사례를 포괄하는 수천 개의 계층 1 블록체인, 롤업 솔루션, 인덱싱 서비스, 스토리지 프로토콜 및 기타 미들웨어 프로토콜이 존재합니다.
대부분의 중앙화된 플랫폼(예: RPC 공급자)은 계속해서 동일한 인프라를 구축하는데, 이는 마찰을 일으킬 뿐만 아니라 프로토콜이 레이어 1 블록체인에 집중하기 때문에 성장 속도를 늦추고 확장성에 영향을 미칩니다. 강한> 프로토콜이 새로운 기능을 개발하기보다는 기반을 재구축하는 데 초점을 맞추기 때문입니다.
반면, 블루스카이와 AT 프로토콜과 같은 탈중앙화 소셜 네트워킹 앱의 성공은 탈중앙화 프로토콜에 대한 사용자 수요가 증가하고 있다는 것을 보여줍니다. 중앙화된 RPC에서 벗어나 개방형 데이터 액세스를 지향하는 이러한 프로토콜은 탈중앙화된 인프라 구축과 채택의 중요성을 상기시켜 줍니다.
예를 들어, 탈중앙화 금융(DeFi) 프로토콜은 가격 정보와 실시간 시장 데이터를 위해 중앙화된 API에 의존하지 않고도 Chainlink에서 온체인 가격 데이터를 가져올 수 있습니다.
현재 Web3 마켓플레이스에는 백만 요청당 $3~$6 비용으로 서비스 가능한 RPC 요청이 약 1,000억 건에 달합니다. 따라서 Web3 RPC의 총 주소 지정 가능 시장 규모(TAM)는 연간 약 1억~2억 달러입니다. 새로운 데이터 가용성 계층이 꾸준히 증가함에 따라 하루 RPC 요청 건수는 1조를 넘어설 수 있습니다.
오픈 데이터 전송의 성장에 부응하고 오픈 소스 데이터 시장에 진입하기 위해서는 분산형 인프라로의 전환이 필수적입니다.
오픈 데이터에는 탈중앙화된 인프라가 필요합니다
장기적으로는, 일반 블록체인 클라이언트가 스토리지 및 네트워킹 기능을 특수한 미들웨어 프로토콜로 오프로드할 것입니다.
예를 들어, 솔라나는 Arweave와 같은 체인에 데이터를 최초로 저장함으로써 탈중앙화 스토리지의 선구자 역할을 했습니다. 그 결과, 솔라나와 팬텀은 금융 및 문화 역사에서 중요한 순간인 트럼프 대선 캠페인 밈 토큰의 거래 트래픽을 처리하는 주요 도구로 다시 한 번 주목받았습니다.
미래에는 점점 더 많은 데이터가 인프라 프로토콜을 통해 흐르게 될 것이며, 미들웨어 플랫폼은 프로토콜 계층에 대한 중요한 의존성을 가지게 될 것입니다. 프로토콜이 더욱 모듈화되고 확장 가능해짐에 따라 프로토콜 계층에서 오픈 소스, 탈중앙화 미들웨어가 통합될 수 있는 공간이 만들어질 것입니다.
중앙화된 회사가 라이트 클라이언트 헤더 데이터의 중개자 역할을 하는 것은 앞으로는 불가능하게 될 것입니다. 탈중앙화된 인프라는 신뢰가 필요 없고, 분산되어 있으며, 비용 효율적이고, 검열되지 않습니다.
그 결과, 탈중앙화 인프라는 앱 개발자와 기업의 기본 선택이 될 것입니다. , 상호 이익이 되는 성장 모델을 추진하게 될 것입니다.