by Cynic, Shigeru
소개: 알고리즘, 산술, 데이터의 힘을 활용한 AI 기술의 발전은 데이터 처리와 지능형 의사결정의 경계를 재정의하고 있습니다. 동시에 디핀은 중앙화된 인프라에서 탈중앙화된 블록체인 기반 네트워크로의 패러다임 전환을 의미합니다.
세계가 점점 더 빠른 속도로 디지털 혁신을 향해 나아가고 있는 가운데, AI와 DePIN(탈중앙화 물리적 인프라)은 모든 산업에서 변화를 주도하는 기반 기술이 되었습니다. AI와 DePIN의 융합은 기술의 신속한 반복과 광범위한 채택을 촉진할 뿐만 아니라 보다 안전하고 투명하며 효율적인 서비스 제공의 길을 열어줄 것입니다. AI와 DePIN의 통합은 기술의 신속한 반복과 광범위한 적용을 촉진할 뿐만 아니라 보다 안전하고 투명하며 효율적인 서비스 모델을 열어 세계 경제에 광범위한 변화를 가져올 것입니다.
DePIN: 탈중앙화 물리적 인프라
탈중앙화 물리적 인프라인 DePIN은 세계에서 가장 크고 진보된 물리적 인프라입니다. 탈중앙화 물리적 인프라). 좁은 의미에서 DePIN은 주로 전력 네트워크, 통신 네트워크, 위치 네트워크 등과 같이 분산 원장 기술로 지원되는 전통적인 물리적 인프라의 분산 네트워크를 의미합니다. 더 넓은 의미로는 스토리지 네트워크, 컴퓨팅 네트워크 등 물리적 장치가 지원하는 모든 분산 네트워크를 DePIN이라고 부를 수 있습니다.
출처: Messari
암호화폐가 금융 수준에서 탈중앙화된 변화를 가져왔다면, 디핀은 실물 경제에서 탈중앙화된 솔루션입니다. 말하자면 작업증명 채굴자가 바로 디핀인 셈입니다. 디핀은 처음부터 웹3.0의 핵심 축이었습니다.
인공지능의 세 가지 요소는 알고리즘, 연산, 데이터인데, 이 중 두 가지를 모두 갖춘 것은 디핀이 유일합니다
. 인공지능(AI)의 발전은 알고리즘, 연산, 데이터라는 세 가지 핵심 요소에 의존하는 것으로 알려져 있습니다. 알고리즘은 AI 시스템을 구동하는 수학적 모델과 절차적 논리를, 산술은 이러한 알고리즘을 실행하는 데 필요한 계산 리소스를, 데이터는 AI 모델을 학습하고 최적화하는 데 필요한 기초를 의미합니다.
세 가지 요소 중 가장 중요한 것은 무엇인가요? chatGPT 이 기술이 등장하기 전에는 사람들은 보통 알고리즘이 중요하다고 생각했습니다. 그렇지 않았다면 학술 회의와 저널 논문이 알고리즘 미세 조정으로 채워지지 않았을 것입니다. 하지만 chatGPT와 그 지능을 뒷받침하는 대규모 언어 모델인 LLM이 공개되면서 사람들은 후자의 두 가지가 얼마나 중요한지 깨닫기 시작했습니다. 방대한 양의 연산은 모델을 생성하기 위한 전제 조건이며, 데이터 품질과 다양성은 알고리즘의 우수성에 대한 일반적인 요구와 달리 강력하고 효율적인 AI 시스템을 구축하는 데 매우 중요합니다.
빅 모델 시대에 AI는 정교한 프로세스에서 날아다니는 벽돌로 변모했으며, 컴퓨팅 파워와 데이터에 대한 수요는 계속 증가하고 있으며, 디핀은 이를 제공할 수 있습니다. 토큰 인센티브는 롱테일 시장을 파고들고 있으며, 대규모 소비자급 컴퓨팅 파워와 스토리지는 빅 모델이 제공하는 최고의 생계 수단이 될 것입니다.
AI의 탈중앙화는 선택이 아닌 필수입니다
물론 AWS의 서버룸에서 사용할 수 있는 컴퓨팅 파워와 데이터는 안정성, 사용성, 경험 면에서 DePIN보다 뛰어나다고 할 수 있습니다. 경험이 DePIN을 능가하는데 왜 중앙 집중식 서비스 대신 DePIN을 선택해야 할까요?
이 주장은 당연히 나름의 근거를 가지고 있습니다. 왜냐하면 오늘날 거의 모든 대형 모델은 대형 인터넷 회사에서 직간접적으로 개발하고 있으며, Microsoft의 채팅GPT, Google의 제미니, 중국의 인터넷 공장은 거의 수작업으로 대형 모델을 개발하고 있기 때문입니다. 왜 그럴까요? 대형 인터넷 회사 만이 산술에 대한 강력한 재정적 지원과 함께 충분한 양질의 데이터를 보유하고 있기 때문입니다. 그러나 이것은 옳지 않습니다. 사람들은 더 이상 모든 것을 조작하기 위해 인터넷 거인에게 조종되기를 원하지 않습니다.
한편으로 중앙집중식 AI는 데이터 프라이버시 및 보안 위험을 수반하고 검열과 통제의 대상이 될 수 있으며, 다른 한편으로 인터넷 대기업이 만든 AI는 의존성을 더욱 강화하고 시장 집중화를 초래하여 혁신의 장벽을 높일 수 있습니다.
출처: https://www.gensyn.ai/
인류는 더 이상 인공지능 시대의 마르틴 루터가 필요하지 않으며, 사람들은 신과 직접 대화할 수 있는 권리를 가져야 합니다.
비즈니스 관점에서 본 DePIN: 비용 절감과 효율성이 핵심
탈중앙화 대 중앙화 가치 논쟁을 제쳐두더라도 비즈니스 관점에서 볼 때 AI에 DePIN을 사용하는 것은 여전히 메리트가 있습니다. 인공지능을 위한 디핀은 여전히 메리트가 있습니다.
우선, 인터넷 대기업이 많은 하이엔드 그래픽 리소스를 보유하고 있지만, 민간 부문에서 소비자급 그래픽 카드를 조합하면 매우 상당한 연산 네트워크, 즉 연산 능력의 롱테일 효과를 구성할 수 있다는 점을 명확히 이해해야 합니다. 이런 종류의 소비자 등급 그래픽 카드는 실제로 유휴율이 매우 높습니다. DePIN이 제공하는 인센티브가 전기 비용을 초과 할 수있는 한 사용자는 네트워크에 산술에 기여하려는 동기가 있습니다. 동시에 모든 물리적 시설은 사용자가 직접 관리하며, DePIN 네트워크는 중앙 집중식 공급자의 불가피한 운영 비용을 부담할 필요가 없고 프로토콜 설계 자체에만 집중하면 됩니다.
데이터의 경우, DePIN 네트워크는 엣지 컴퓨팅을 통해 잠재적인 데이터 가용성을 확보하고 전송 비용을 절감할 수 있습니다. 동시에 대부분의 분산 스토리지 네트워크는 자동 중복 제거 기능을 갖추고 있어 AI 학습 데이터 정리 작업을 줄여줍니다.
마지막으로, 디핀이 제공하는 크립토 이코노미는 시스템의 내결함성을 향상시켜 공급자, 소비자, 플랫폼이 모두 윈윈할 수 있을 것으로 기대됩니다.
출처: UCLA
믿기 어려우시겠지만, UCLA의 최신 연구에 따르면 분산형 컴퓨팅을 사용하면 동일한 비용으로 기존 GPU 클러스터의 최대 2.75배의 성능을 달성하며, 특히 1.22배 빠르고 4.83배 저렴하다고 합니다. 4.83배 더 저렴합니다.
보잘것없는 시작: AIxDePIN의 과제는 무엇인가요?
우리가 10년 안에 달에 가고 다른 일을 하기로 한 것은 쉬운 일이 아니라 어려운 일이기 때문입니다. 어렵기 때문입니다.
--존 피츠제럴드 케네디
디핀을 사용한 분산 스토리지 분산 컴퓨팅으로 신뢰 없이 AI 모델을 구축하는 데는 여전히 많은 어려움이 있습니다.
작업증명
본질적으로 딥러닝 모델 연산과 작업증명 채굴은 모두 범용 연산이며, 가장 밑바닥에는 게이트 회로 간의 신호 변화가 있습니다. 거시적으로 보면 작업증명 채굴은 무수한 난수 생성과 해시 함수 계산을 통해 0이 앞에 붙은 해시값을 생성하려는 '쓸모없는 계산'이고, 딥러닝 연산은 정방향 및 역방향 도출을 통해 딥러닝의 각 계층에서 각 파라미터의 값을 계산하는 '유용한 계산'입니다. 딥러닝 연산은 '유용한 연산'인 반면, 딥러닝 계산은 정방향 및 역방향 도출을 통해 딥러닝 각 계층의 파라미터 값을 계산하여 효율적인 AI 모델을 구축하는 '유용한 연산'입니다.
사실 작업증명 채굴은 해시 함수를 사용하는 '쓸모없는 연산'으로 원본 이미지에서 이미지를 계산하기는 쉽고, 이미지에서 원본 이미지를 계산하기는 어렵기 때문에 누구나 쉽게 계산을 검증할 수 있는 반면, 딥러닝 모델의 경우 계층적 연산 특성으로 인해 이미지의 계산이 매우 용이하다는 장점이 있습니다. 딥러닝 모델의 경우 계층적 구조로 인해 각 계층의 출력이 다음 계층의 입력으로 사용되기 때문에 계산의 유효성을 검증하려면 이전의 모든 작업을 수행해야 하며, 쉽고 효율적으로 수행할 수 없습니다.
출처: AWS
작업 유효성 검사는 매우 중요합니다. 그렇지 않으면 계산 제공자가 계산을 전혀 하지 않고 임의로 생성된 결과를 제출할 수 있기 때문입니다.
한 가지 아이디어는 서로 다른 서버가 동일한 계산 작업을 수행하도록 하고 이를 반복하여 동일한지 확인하는 방식으로 작업의 유효성을 검사하는 것입니다. 그러나 대부분의 모델 계산은 비결정론적이기 때문에 동일한 계산 환경에서도 동일한 결과를 재현할 수 없으며, 통계적 의미에서 유사할 수 있을 뿐입니다. 또한, 반복적인 계산은 빠른 비용 증가로 이어져 비용 절감과 효율성 증대라는 DePIN의 핵심 목표에 부합하지 않습니다.
또 다른 유형의 아이디어는 낙관적 메커니즘으로, 결과가 유효하게 계산되었다는 낙관적 믿음에서 시작하여 누구나 계산을 테스트할 수 있고 오류가 발견되면 사기 증명서를 제출할 수 있으며 프로토콜은 사기꾼을 몰수하고 내부 고발자에게 보상을 제공합니다.
병렬화
앞서 언급했듯이, DePIN은 대부분 롱테일의 소비자급 컴퓨팅 시장을 겨냥하고 있기 때문에 단일 디바이스에서 제공할 수 있는 연산의 양이 제한될 수 밖에 없습니다. 대규모 AI 모델의 경우 단일 기기에서 학습하는 데 매우 오랜 시간이 걸릴 수 있으며, 병렬화를 통해 학습에 필요한 시간을 줄여야 합니다.
딥러닝 훈련 병렬화의 가장 큰 어려움은 앞뒤 작업 간의 의존성으로 인해 병렬화가 어려울 수 있다는 점입니다.
현재 딥러닝 훈련의 병렬화는 크게 데이터 병렬화와 모델 병렬화로 나뉩니다.
데이터 병렬화는 여러 머신에 데이터를 분산하는 것을 말하며, 각 머신은 모델의 모든 파라미터를 저장하고, 로컬 데이터를 학습에 사용하며, 최종적으로 각 머신의 파라미터를 집계합니다. 데이터 병렬 처리는 대량의 데이터에서 잘 작동하지만 매개변수를 집계하기 위해서는 동기식 통신이 필요합니다.
모델 병렬 처리는 모델 크기가 너무 커서 단일 머신에 적합하지 않은 경우, 모델을 여러 머신으로 분할하여 각 머신이 모델 파라미터의 일부를 보유할 수 있습니다. 순방향 및 역방향 전파를 위해서는 서로 다른 머신 간의 통신이 필요합니다. 모델 병렬 처리는 모델이 매우 클 때 유리하지만 순방향 및 역방향 전파를 위해 통신 오버헤드가 높습니다.
서로 다른 레이어 간의 그라데이션 정보의 경우, 동기식 업데이트와 비동기식 업데이트로 나눌 수 있습니다. 동기식 업데이트는 간단하고 직관적이지만 대기 시간이 길어지고, 비동기식 업데이트 알고리즘은 대기 시간이 짧지만 안정성 문제가 발생할 수 있습니다.
출처: 스탠퍼드 대학교, 병렬 및 분산 딥 러닝
개인정보. strong>
개인 정보 보호를 위한 전 세계적인 움직임이 일어나고 있으며, 각국 정부는 개인 데이터 프라이버시 및 보안 보호를 강화하고 있습니다. AI가 공공 데이터 세트를 많이 사용하지만, 실제로 다양한 AI 모델을 구분하는 것은 각 기관의 독점적인 사용자 데이터입니다.
트레이닝 중에 개인정보를 노출하지 않고 독점 데이터의 이점을 얻으려면 어떻게 해야 할까요? 구축한 AI 모델의 매개변수가 손상되지 않도록 하려면 어떻게 해야 할까요?
개인정보 보호에는 데이터 개인정보 보호와 모델 개인정보 보호라는 두 가지 측면이 있습니다. 데이터 프라이버시는 사용자를 보호하고, 모델 프라이버시는 모델을 구축하는 조직을 보호합니다. 현재 상황에서는 데이터 개인정보 보호가 모델 개인정보 보호보다 훨씬 더 중요합니다.
개인정보 보호 문제를 해결하기 위해 여러 가지 방식이 시도되고 있습니다. 연합 학습은 데이터 소스에서 학습하고, 모델 파라미터가 전송되는 동안 데이터를 로컬에 유지함으로써 데이터 프라이버시를 보장하며, 영지식 증명은 후발 주자가 될 수 있습니다.
사례 연구: 시장에 출시된 양질의 프로젝트는 무엇인가요?
Gensyn
Gensyn은 AI 모델 트레이닝을 위한 분산 컴퓨팅 네트워크입니다. 이 네트워크는 폴카닷 기반의 블록체인 레이어를 사용하여 딥러닝 작업이 올바르게 실행되었는지 확인하고, 명령을 통해 결제를 트리거합니다. 2020년에 설립된 이 회사는 2023년 6월에 a16z가 주도하는 4,300만 달러 규모의 시리즈 A 펀딩 라운드를 공개했습니다.
Gensyn은 그라데이션 기반 최적화 프로세스의 메타데이터를 사용하여 수행된 작업에 대한 인증서를 구성하며, 이는 다단계 그래프 기반 정밀 프로토콜과 교차 평가자에 의해 일관되게 실행되어 검증 작업을 다시 실행하고 일관성을 비교할 수 있으며, 궁극적으로 체인 자체에서 계산의 유효성을 보장하기 위해 검증합니다. 작업 검증의 신뢰성을 더욱 높이기 위해 젠슨은 인센티브를 제공하는 서약을 도입했습니다.
시스템에는 제출자, 솔버, 검증자, 리포터 등 네 가지 유형의 참여자가 있습니다.
- 제출자는 시스템의 최종 사용자로, 계산할 작업을 제공하고 완료된 작업 단위에 대한 대가를 지불합니다.
- 솔버는 시스템의 주요 작업자로, 모델 훈련을 수행하고 검증자가 확인할 수 있는 증명을 생성합니다.
- 검증자는 비결정적 훈련 프로세스를 결정적 선형 계산에 연결하여 솔버 증명의 일부를 복사하고 거리를 예상 임계값과 비교하는 핵심 역할을 합니다.
- 내부 고발자는 최후의 방어선으로, 검증자의 작업을 확인하고 문제를 제시하며 이를 통과하면 보상을 받습니다.
솔버는 서약을 해야 하고, 내부 고발자는 솔버의 작업을 검토하여 잘못된 점을 발견하면 챌린지를 제시하며, 챌린지가 통과되면 솔버가 서약한 토큰이 몰수되고 내부 고발자는 보상을 받습니다.
Gensyn의 예상에 따르면, 이 솔루션은 교육 비용을 중앙 집중식 제공업체의 1/5 수준으로 낮출 수 있을 것으로 기대됩니다.
출처: Gensyn
FedML
FedML은 규모에 관계없이 어디서나 분산형 및 협업형 AI를 위한 분산형 및 협업형 머신러닝 플랫폼입니다. 보다 구체적으로, FedML은 다음과 같은 MLOps 에코시스템을 제공합니다. 머신러닝 모델을 훈련, 배포, 모니터링하고 지속적으로 개선하는 동시에 개인정보를 보호하는 방식으로 결합된 데이터, 모델, 컴퓨팅 리소스에 대해 협업할 수 있습니다. 2022년에 설립된 FedML은 2023년 3월 600만 달러의 시드 라운드를 공개했습니다.
FedML은 두 가지 핵심 구성 요소, 즉 각각 상위 수준 API와 기본 API를 나타내는 FedML-API와 FedML-core로 구성됩니다.
FedML-core는 분산 통신을 위한 두 개의 별도 모듈로 구성됩니다. 그리고 모델 학습을 위한 두 개의 독립된 모듈로 구성됩니다. 통신 모듈은 서로 다른 작업자/클라이언트 간의 기본 통신을 담당하며 MPI를 기반으로 하고, 모델 트레이닝 모듈은 PyTorch를 기반으로 합니다.
FedML-API는 FedML-core 위에 구축됩니다. FedML-core를 사용하면 클라이언트 지향 프로그래밍 인터페이스를 사용하여 새로운 분산 알고리즘을 쉽게 구현할 수 있습니다.
FedML 팀의 최신 연구에서는 소비자용 GPU RTX 4090에서 AI 모델 추론에 FedML Nexus AI를 사용하면 A100보다 20배 저렴하고 1.88배 빠르다는 것이 입증되었습니다.
출처: FedML
미래 비전: AI의 민주화를 가져오는 dePIN
언젠가 AI는 AGI로 더욱 진화하여 산술이 사실상 보편적인 통화가 될 것이며, 디핀은 이 과정을 앞당길 것입니다.
AI와 DePIN의 융합은 새로운 기술 성장의 지점을 열고 AI 발전에 엄청난 기회를 제공합니다. DePIN은 AI에 방대한 양의 분산 연산과 데이터를 제공하여 더 큰 모델을 훈련하고 더 큰 지능을 달성하는 데 도움이 될 수 있습니다. 동시에, DePIN은 AI가 보다 개방적이고 안전하며 신뢰할 수 있는 방향으로 발전할 수 있도록 지원하여 중앙화된 단일 인프라에 대한 의존도를 낮출 수 있습니다.
앞으로 AI와 DePIN은 계속 함께 발전해 나갈 것입니다. 분산 네트워크는 메가 모델을 훈련하기 위한 강력한 기반을 제공할 것이며, 이는 다시 DePIN의 적용에 중요한 역할을 할 것입니다. 또한, AI는 개인 정보 보호와 보안을 유지하면서 DePIN 네트워크 프로토콜과 알고리즘을 최적화하는 데 도움이 될 것입니다. AI와 DePIN을 통해 더욱 효율적이고 공정하며 신뢰할 수 있는 디지털 세상이 되기를 기대합니다.