저자: YBB Capital Zeke
서문
오픈AI는 2월 16일 텍스트 제어 비디오 생성을 위한 최신 확산 모델인 '소라'를 공개했습니다. "를 공개하고, 다양한 시각 데이터 유형에 걸쳐 고품질의 동영상을 여러 개 생성함으로써 생성형 AI의 또 다른 이정표를 제시했습니다. 여러 장의 이미지에서 몇 초 분량의 동영상을 생성하는 수준에 머물러 있는 Pika와 같은 AI 동영상 생성 도구와 달리, Sora는 동영상과 이미지의 압축된 잠재 공간에서 학습하여 시공간적 위치 패치로 분해함으로써 확장 가능한 동영상 생성을 가능하게 합니다. 또한 이 모델은 물리적 세계와 디지털 세계를 모두 시뮬레이션할 수 있는 능력을 보여줌으로써 '물리적 세계의 범용 시뮬레이터'라고 할 수 있는 60초짜리 데모를 제작했습니다.
구성 방식 측면에서도 소라는 '소스 데이터-변압기-확산-발현'이라는 이전 GPT 모델의 기술 경로를 이어갑니다. "이는 개발의 성숙도에 따라 엔진으로서의 연산도 필요하며, 영상 학습에 필요한 데이터의 양이 텍스트 학습에 필요한 데이터의 양보다 훨씬 많기 때문에 연산에 대한 수요는 더욱 늘어날 것이라는 의미입니다. 앞서 "잠재적 트랙 전망: 탈중앙화 연산 시장"에서 AI 시대에서 산술의 중요성에 대해 설명한 바 있는데, 최근 AI 열풍이 불면서 수많은 산술 프로젝트가 시장에 등장하기 시작했고, 디핀 프로젝트의 수동적인 수혜를 받는 다른 디핀 프로젝트(스토리지, 산술 등)들도 급부상하고 있습니다. 그렇다면 디핀 외에도 웹3.0과 AI의 결합으로 어떤 불꽃이 튈 수 있을까요? 이 트랙에는 또 어떤 기회가 있을까요? 이 글의 주된 목적은 이전 글을 업데이트 및 보완하고, AI 시대에 웹3.0에 어떤 가능성이 있는지 생각해보는 것입니다.

AI 발전의 역사에서 세 가지 주요 방향
인공지능(AI)은 인간의 지능을 시뮬레이션하고 확장하며 향상시키는 것을 목표로 하는 떠오르는 과학 기술입니다. 1950년대와 1960년대에 탄생한 이후 반세기 이상의 발전을 거쳐 이제 AI는 사회생활과 각계각층의 변화를 주도하는 중요한 기술이 되었습니다. 이 과정에서 상징주의, 연결주의, 행동주의라는 세 가지 주요 연구 방향이 서로 얽히며 발전한 것이 오늘날 AI의 빠른 발전의 초석이 되었습니다.
상징주의
로지즘 또는 규칙주의라고도 하며, 기호를 처리하여 인간의 지능을 시뮬레이션할 수 있다는 생각입니다. 기호를 통해 문제 영역 내의 사물, 개념 및 이들의 상호 관계를 표현 및 조작하고 논리적 추론을 통해 문제를 해결하는 이 접근 방식은 특히 전문가 시스템과 지식 표현 분야에서 주목할 만한 성과를 거두었습니다. 상징주의의 핵심 아이디어는 상징의 조작과 논리적 추론을 통해 지능적인 행동을 할 수 있으며, 여기서 상징은 현실 세계로부터 고도의 추상성을 나타낸다는 것입니다.
연결주의( 연결주의)
또는 인간 두뇌의 구조와 기능을 모방하여 지능을 달성하고자 하는 신경망 접근법입니다. 이 접근 방식은 뉴런과 유사한 수많은 단순 처리 단위로 구성된 네트워크를 구축하고 이러한 단위 간의 연결 강도(시냅스와 유사)를 조정하여 학습을 달성합니다. 연결주의는 데이터로부터 학습하고 일반화하는 능력을 특히 강조하며, 특히 패턴 인식, 분류 및 연속 입출력 매핑 문제에 적합합니다. 연결주의의 발전인 딥러닝은 이미지 인식, 음성 인식, 자연어 처리와 같은 분야에서 획기적인 발전을 이루었습니다.
행동주의
반면 행동주의는 생체 공학 로봇 및 자율 지능형 시스템 연구와 밀접한 관련이 있으며, 지능이 환경과의 상호작용을 통해 학습할 수 있는 능력을 강조하는 이론입니다. 행동주의는 앞의 두 이론과 달리 내부 표상이나 사고 과정을 시뮬레이션하는 데 초점을 맞추지 않고 지각과 행동의 순환을 통해 적응적 행동을 달성하는 데 중점을 둡니다. 행동주의는 지능이 환경과의 역동적인 상호작용과 학습을 통해 입증된다고 주장하며, 이 접근 방식은 복잡하고 예측할 수 없는 환경에서 작동해야 하는 모바일 로봇과 적응형 제어 시스템에 적용할 때 특히 효과적입니다.
이 세 가지 연구 방향은 본질적인 차이에도 불구하고 상호 작용하고 융합하여 실제 AI 연구 및 응용 분야에서 AI 분야를 발전시킬 수 있습니다.
AIGC 원칙의 개요
현재 폭발적으로 성장하고 있는 AIGC(인공지능 생성 콘텐츠)는 연결주의의 진화 및 응용으로, AIGC는 인간의 창의성을 모방한 새로운 콘텐츠를 생성할 수 있습니다. 이러한 모델은 대규모 데이터 세트와 딥러닝 알고리즘을 사용하여 데이터에 존재하는 기본 구조, 관계 및 패턴을 학습합니다. 이미지, 동영상, 코드, 음악, 디자인, 번역, 질문 답변, 텍스트 등 사용자 입력 프롬프트에 따라 새롭고 독특한 결과물이 생성됩니다. 그리고 현재 AIGC는 기본적으로 딥 러닝(딥러닝 또는 DL), 빅 데이터, 대규모 연산이라는 세 가지 요소로 구성되어 있습니다.
딥 러닝
딥러닝은 머신러닝(ML)의 하위 분야로, 딥러닝 알고리즘은 인간의 두뇌를 모델로 한 신경망입니다. 예를 들어, 인간의 뇌에는 정보를 학습하고 처리하기 위해 서로 연결된 수백만 개의 뉴런이 있습니다. 마찬가지로 딥러닝 신경망(또는 인공 신경망)은 컴퓨터 내부에서 함께 작동하는 여러 층의 인공 뉴런으로 구성됩니다. 인공 뉴런은 데이터를 처리하기 위해 수학적 계산을 사용하는 노드라고 하는 소프트웨어 모듈입니다. 인공 신경망은 이러한 노드를 사용하여 복잡한 문제를 해결하는 딥 러닝 알고리즘입니다.

계층적으로 신경망은 입력, 숨겨진, 출력 레이어로 나눌 수 있으며, 각 레이어 간의 연결이 매개변수입니다.
Input Layer: 입력 레이어는 네트워크의 입력에 사용되는 레이어입니다. 강함>: 입력 레이어는 신경망의 첫 번째 레이어이며 외부 입력 데이터를 수신하는 역할을 담당합니다. 입력 계층의 각 뉴런은 입력 데이터의 특징에 해당합니다. 예를 들어 이미지 데이터를 처리할 때 각 뉴런은 이미지의 픽셀 값에 대응할 수 있습니다.
Hidden Layer : 입력 레이어는 데이터를 처리하여 신경망의 아래쪽 레이어에 전달합니다. 이러한 숨겨진 계층은 서로 다른 계층에서 정보를 처리하며 새로운 정보가 수신되면 동작을 조정합니다. 딥러닝 네트워크에는 다양한 각도에서 문제를 분석하는 데 사용할 수 있는 수백 개의 숨겨진 레이어가 있습니다. 예를 들어, 분류해야 하는 미지의 동물 이미지가 주어진다면 이미 알고 있는 동물과 비교해 보세요. 예를 들어 귀의 모양, 다리 수, 눈동자의 크기 등으로 어떤 종류의 동물인지 판단할 수 있습니다. 심층 신경망의 숨겨진 레이어도 같은 방식으로 작동합니다. 딥러닝 알고리즘이 동물의 이미지를 분류하려고 할 때, 각 숨겨진 레이어는 동물의 다양한 특징을 처리하여 정확하게 분류하려고 합니다.
출력 레이어(OL). Strong>출력 레이어: 출력 레이어는 신경망의 마지막 레이어이며 네트워크의 출력을 생성하는 역할을 담당합니다. 출력 계층의 각 뉴런은 가능한 출력 범주 또는 값을 나타냅니다. 예를 들어 분류 문제에서 각 출력 계층의 뉴런은 범주에 해당할 수 있지만 회귀 문제에서는 예측을 나타내는 값이 출력 계층에 단 하나의 뉴런만 있을 수 있습니다.
파라미터: 신경망에서 여러 계층 간의 연결은 가중치 및 편향 매개변수로 표현되며, 네트워크가 데이터의 패턴을 정확하게 식별하고 예측할 수 있도록 훈련 중에 최적화됩니다. 매개변수가 증가하면 신경망의 모델 용량, 즉 모델이 데이터의 복잡한 패턴을 학습하고 표현할 수 있는 능력이 증가합니다. 그러나 그에 상응하는 매개변수의 증가는 컴퓨팅 성능에 대한 수요를 증가시킵니다.
빅 데이터
신경망은 효과적인 학습을 위해 일반적으로 여러 소스로부터 크고 다양한 고품질의 데이터를 필요로 합니다. 이는 머신러닝 모델 훈련과 검증의 기초가 됩니다. 머신러닝 모델은 빅데이터를 분석하여 데이터의 패턴과 관계를 학습하여 예측이나 분류를 수행할 수 있습니다.
대규모 산술 연산력
신경망의 다층 복잡한 구조, 많은 수의 매개 변수, 대용량 데이터 처리 요구 사항, 반복 학습 방법 (학습 단계에서 모델을 반복적으로 반복해야하며 학습 프로세스에는 활성화 함수 계산, 손실 함수 계산, 기울기 계산 및 가중치 업데이트를 포함하여 각 계산 계층의 순방향 전파 및 역 전파가 필요함), 고정밀 계산의 필요성, 병렬 계산 능력, 필요성 최적화 및 정규화 기법, 모델 평가 및 검증 프로세스와 함께 높은 컴퓨팅 성능이 필요합니다.

Sora
오픈AI의 비디오 생성 AI 모델의 최신 버전인 Sora는 다양한 시각 데이터를 처리하고 이해하는 AI의 능력을 크게 발전시켰습니다. 비디오 압축 네트워크와 공간적 시간적 패치 기법을 사용하여 전 세계 각지에서 다양한 디바이스에서 캡처한 방대한 양의 시각 데이터를 통합된 표현으로 변환함으로써 복잡한 시각 콘텐츠를 효율적으로 처리하고 이해할 수 있게 해줍니다. 텍스트 컨디셔닝의 확산 모델을 기반으로 하는 Sora는 텍스트 단서를 기반으로 고도로 일치하는 동영상이나 이미지를 생성하여 높은 수준의 창의성과 적응력을 보여줍니다.
그러나 동영상 생성 및 실제 상호작용 시뮬레이션의 획기적인 발전에도 불구하고 Sora는 물리적 세계 시뮬레이션의 정확성, 긴 동영상 생성의 일관성, 복잡한 텍스트 지침의 이해 등 여러 가지 한계에 직면해 있습니다. 복잡한 텍스트 지침에 대한 이해, 교육 및 생성 효율성 등 여러 가지 한계에 직면해 있습니다. 그리고 소라는 여전히 본질적으로 OpenAI의 독점 컴퓨팅 파워와 선점자 우위, '빅데이터-변압기-확산-출현'이라는 오래된 기술 경로의 지속을 통해 폭력적인 미학을 달성하기 위해 다른 AI 회사들은 여전히 도로를 구부려 자동차를 추월할 수 있는 기술을 통해 존재하고 있습니다.
소라는 블록체인과 큰 관련이 없지만, 개인적으로 향후 1~2년 내로 블록체인과 큰 관련이 있을 것이라고 생각합니다. 소라의 영향력으로 인해 다른 양질의 인공지능 생성 도구들이 빠르게 등장하고 발전할 것이고, 웹3 안에서 게임파이, 소셜, 창작 플랫폼, 디핀 등 여러 트랙으로 파급될 것이기 때문에 소라에 대한 전반적인 이해가 필요하고, 인공지능의 미래가 웹3와 어떻게 효과적으로 결합될지가 우리가 생각해야 할 핵심 포인트가 될 수 있습니다.
AI x Web3의 네 가지 길
위와 같이 생성형 AI에 필요한 기본 기반은 사실 알고리즘, 데이터, 산술의 세 가지에 불과하다는 것을 알 수 있지만, 편재성과 생성 효과의 관점에서 보면 AI는 생산 방식을 전복하는 도구입니다. 그리고 블록체인의 가장 큰 역할은 생산 관계의 재구성과 탈중앙화라는 두 가지 포인트가 있습니다. 그래서 저는 개인적으로 이 두 가지가 충돌하여 생성될 수 있는 네 가지 경로가 있다고 생각합니다.
탈중앙화된 산술
탈중앙화된 산술
관련 기사는 과거에 작성되었으므로, 이 단락의 주된 목적은 산술 트랙의 최근 발전 상황을 업데이트하는 것입니다. AI에 있어 산술은 언제나 어려운 분야로, 소라가 탄생한 이래로 산술에 대한 AI의 수요는 상상할 수 없을 정도로 커졌습니다. 그리고 최근 스위스 다보스에서 열린 2024년 세계경제포럼에서 OpenAI의 CEO인 샘 알트먼은 현 단계에서 산술과 에너지가 가장 큰 족쇄이며, 미래에는 두 가지의 중요성이 화폐와 동등해질 것이라고 직설적으로 말하기도 했습니다. 그리고 이후 2월 10일, 샘 알트먼은 트윗을 통해 7조 달러(중국 국가 GDP의 23년치 40%에 해당)를 투자하여 반도체 산업의 현재 글로벌 패턴을 다시 쓰고, 칩 제국을 건설한다는 매우 놀라운 계획을 발표했습니다. 컴퓨팅 파워와 관련된 기사를 쓸 때 제 상상력은 여전히 국가 봉쇄, 거대 독점으로 제한되어 있으며, 이제 한 회사가 글로벌 반도체 산업을 통제하려는 것은 정말 여전히 미쳤습니다.
따라서 분산 컴퓨팅 파워의 중요성은 자명하며 블록 체인의 특성은 현재 컴퓨팅 파워의 독점 문제를 실제로 해결할 수있을뿐만 아니라 전용 GPU 구매 문제가 비싸다는 것을 알 수 있습니다. AI 요구의 관점에서 산술의 사용은 추론과 훈련, 주요 훈련 프로젝트, 분산 네트워크에서 신경망 설계와 결합해야하는 프로젝트가 아직 거의 없으며, 하드웨어에 대한 매우 높은 수요를 위해 매우 높고 일종의 방향으로 착륙하기 어려운 문턱이 될 운명에 처해있다는 두 가지 방향으로 나눌 수 있습니다. 추론은 비교적 간단하며, 한편으로는 분산 네트워크 설계가 복잡하지 않고 두 번째는 하드웨어 및 대역폭 요구 사항이 낮으며 현재 더 주류 방향입니다.
중앙화된 산술 시장의 상상력은 거대하며, 종종 "조"라는 키워드와 연관되어 있으며 AI 시대에 가장 자주 추측되는 분야이기도 합니다. AI 시대에는 가장 쉽게 추측할 수 있는 주제이기도 합니다. 그러나 최근 많은 프로젝트가 등장하면서 대다수는 여전히 선반 위의 오리에 속해 열을 문지르고 있습니다. 항상 탈중앙화라는 올바른 기치를 들고 탈중앙화 네트워크의 비효율성에 대해 이야기하지 마세요. 그리고 디자인에 높은 수준의 동질성이 있으며, 많은 수의 프로젝트가 매우 유사하여 (하나의 주요 L2 플러스 마이닝 디자인) 궁극적으로 닭 깃털로 이어질 수 있으며, 이러한 상황은 전통적인 AI 트랙의 일부를 얻고 자하는 것이 정말 어렵습니다.
알고리즘, 모델 협업 시스템
머신러닝 알고리즘은 데이터에서 법칙과 패턴을 학습하고 그에 따라 예측이나 결정을 내릴 수 있는 알고리즘을 말합니다. 알고리즘은 설계와 최적화에 심도 있는 전문 지식과 기술 혁신이 필요하기 때문에 기술 집약적입니다. 알고리즘은 AI 모델 학습의 핵심이며 데이터를 유용한 인사이트나 의사 결정으로 변환하는 방법을 정의합니다. 특정 도메인(예: 그리기, 언어 인식, 번역, 동영상 생성) 또는 목적을 위해 만들어진 생성적 적대 신경망(GAN), 변형 자동 인코더(VAE), 트랜스포머와 같은 보다 일반적인 생성 AI 알고리즘은 전용 AI 모델을 학습하는 데 사용됩니다.
그렇듯 각자의 장단점이 있는 수많은 알고리즘과 모델을 텍스트와 텍스트 모두에 사용할 수 있는 단일 모델로 통합할 수 있을까요? 비텐서는 이러한 방향의 선두주자로, 마이닝 인센티브를 통해 서로 다른 AI 모델과 알고리즘이 서로 협력하고 학습하여 보다 효율적이고 다양한 AI 모델을 만들 수 있도록 합니다. Commune AI(코드 협업)도 이 방향의 선두 주자이지만, 알고리즘과 모델은 오늘날 AI 기업의 화두이며 무료로 빌려주지 않습니다.
그래서 AI 협업 생태계의 이야기는 매우 새롭고 흥미롭고, 협업 생태계는 블록체인을 활용하여 사일로에 있는 AI 알고리즘의 단점을 통합하지만 그에 해당하는 가치를 창출할 수 있을지는 아직 알 수 없습니다. 아직은 알 수 없습니다. 결국, AI 회사의 폐쇄 소스 알고리즘과 모델, 업데이트 반복 및 통합 기능이 매우 강력 할 수있는 능력의 머리, 예를 들어 개발 2 년 미만의 OpenAI는 초기 텍스트 생성 모델에서 모델의 다중 도메인 생성, 비트 텐서 및 기타 프로젝트의 모델 및 알고리즘의 분야에서 다른 접근 방식을 취하는 것이 될 수 있습니다.
분산형 빅 데이터
단순한 관점에서 볼 때, 개인 데이터를 사용하여 AI를 공급하고 데이터를 태그하는 것은 블록체인과 잘 맞는 방향이며, 스팸과 장난을 방지하는 방법과 FIL, AR 등과 같은 Depin 프로젝트에도 도움이 될 수있는 데이터 저장소에만주의를 기울이면됩니다. 그리고 복잡성 측면에서 블록체인 데이터를 머신러닝(ML)에 사용하여 블록체인 데이터 접근성을 해결하는 것도 흥미로운 방향입니다(기자의 매핑 방향 중 하나).
이론적으로 블록체인 데이터는 전체 블록체인의 상태를 반영하여 언제든 접근할 수 있습니다. 하지만 블록체인 생태계 외부의 사람들은 이러한 방대한 양의 데이터에 접근하기가 쉽지 않습니다. 블록체인을 온전히 저장하려면 광범위한 전문 지식과 많은 전용 하드웨어 리소스가 필요합니다. 블록체인 데이터 접근의 어려움을 극복하기 위해 업계에서는 여러 가지 솔루션이 등장했습니다. 예를 들어, RPC 제공자는 API를 통해 노드에 액세스하고, 인덱싱 서비스는 문제 해결에 핵심적인 역할을 하는 SQL과 GraphQL을 통해 데이터 추출을 가능하게 합니다. 그러나 이러한 접근 방식에는 한계가 있습니다. RPC 서비스는 많은 수의 데이터 쿼리가 필요한 고밀도 사용 시나리오에는 적합하지 않으며 종종 수요를 충족하지 못합니다. 한편 인덱싱 서비스는 보다 구조화된 데이터 검색 방법을 제공하지만, Web3 프로토콜의 복잡성으로 인해 효율적인 쿼리를 작성하기가 매우 어렵고 때로는 수백, 수천 줄의 복잡한 코드가 필요하기도 합니다. 이러한 복잡성은 일반 데이터 실무자나 Web3의 세부 사항에 대한 지식이 거의 없는 사람들에게는 큰 장애물입니다. 이러한 한계가 누적되면 블록체인 데이터에 더 쉽게 접근하고 활용할 수 있는 방법이 필요하며, 이를 통해 현장에서 더 폭넓은 채택과 혁신을 촉진할 수 있습니다.
그런 다음 체인에서 머신러닝의 부담을 줄여주는 영지식 증명 머신러닝(ZKML)을 통해 고품질 블록체인 데이터를 결합하면 블록체인 접근성을 해결할 수 있는 데이터 세트를 만들 수 있습니다.
AI는 블록체인 데이터 접근성의 장벽을 획기적으로 낮출 수 있으며, 시간이 지나면 ML 분야의 개발자, 연구자, 애호가들은 효과적이고 혁신적인 솔루션을 구축하는 데 사용할 수 있는 더 많은 고품질의 관련 데이터 세트에 접근할 수 있게 될 것입니다.
AI 지원 Dapp
AI 지원 디앱은 ChatGPT3가 등장한 23년 이래로 매우 일반적인 방향이었습니다. 매우 다재다능한 생성형 AI는 API를 통해 액세스할 수 있어 데이터 플랫폼, 트레이딩 봇, 블록체인 백과사전 등과 같은 애플리케이션을 단순화하고 지능적으로 분석할 수 있습니다. 한편, 챗봇(마이쉘 등)이나 AI 컴패니언(잠들지 않는 AI)의 역할을 하거나 생성형 AI를 통해 체인 투어에서 NPC를 만들 수도 있지만, 기술 장벽이 낮아 대부분 API에 접속한 후 미세 조정하는 방식이며 프로젝트 자체와의 결합이 완벽하지 않아 거의 언급되지 않고 있습니다.
하지만 소라가 등장한 이후에는 개인적으로 AI를 활용한 게임파이(메타 유니버스 포함)와 창작 플랫폼의 방향이 다음 주목의 대상이 될 것이라고 생각합니다. 웹3.0 영역의 상향식 특성상 기존 게임이나 크리에이티브 기업과 경쟁할 수 있는 무언가를 만들기는 분명 어려운데, Sora의 등장은 이러한 딜레마를 단 2~3년 안에 깨뜨릴 수 있을 것으로 보입니다. 소라의 데모는 마이크로 스케치 회사들과 경쟁할 수 있는 잠재력을 보여주었고, 웹3의 활기찬 커뮤니티 문화는 흥미로운 아이디어를 많이 만들어낼 수 있으며, 상상력이라는 유일한 제한 조건만 있다면 상향식과 하향식 산업의 장벽이 허물어질 수 있을 것입니다.
결론
제너레이티브 AI 도구가 계속 발전함에 따라 앞으로 더 많은 획기적인 'iPhone의 순간'을 경험하게 될 것입니다. 많은 사람들이 AI와 Web3의 결합에 대해 비웃지만, 사실 저는 현재의 방향이 대부분 괜찮다고 생각하며, 해결해야 할 문제점은 필요성, 효율성, 적합성 등 세 가지에 불과합니다. 이 두 가지의 통합은 아직 탐색 단계에 있지만 다음 강세장의 주류가 되는 것을 막지는 못합니다.
새로운 것에 대한 충분한 호기심과 수용이 필요한 마음가짐, 역사, 순식간에 변화의 마차를 대체 할 자동차는 비문과 NFT의 과거와 마찬가지로 예견된 결론이되었습니다. 과거의 비문과 NFT와 마찬가지로 지나친 편견은 기회를 놓치는 결과를 초래할 수 있습니다.