브이갓 버네이컬이 극찬한 FHE 완전 동형 암호화, 그 응용 가능성을 열어젖히다
완전 동형 암호화(FHE)에 대한 소개: 흥미로운 응용 분야와 한계, 그리고 이 기술의 인기를 견인하는 최신 개발 동향을 살펴봅니다.
JinseFinance이것이 프린스턴의 조교수인 페이페이 리가 ImageNet의 데이터 세트를 만들려고 했을 때의 규모입니다. 그녀는 정체된 컴퓨터 비전 분야를 발전시키는 데 도움이 되기를 바랐습니다. 22,000개의 카테고리는 지금까지 만들어진 어떤 이미지 데이터 세트보다 최소 두 배 이상 많은 대담한 시도였습니다.
더 나은 AI 시스템 구축의 해답은 알고리즘 혁신에 있다고 믿었던 동료들은 그녀의 지혜에 의문을 제기했습니다. "동료들과 이미지넷에 대한 아이디어를 논의할수록 더욱 외로움을 느꼈습니다."
회의적인 반응에도 불구하고 페이페이와 박사 과정 학생인 지아 덩과 시간당 10달러를 받는 학부생 두 명을 포함한 소규모 팀원들은 검색 엔진에서 라벨을 붙이기 시작했습니다. 진척은 느리고 고통스러웠고, Jia Deng은 지금과 같은 속도라면 이미지넷을 완성하는 데 18년이 걸릴 것이라고 예상했는데, 그 정도의 시간을 가진 사람은 아무도 없었습니다. 그러던 중 석사 과정 학생 중 한 명이 페이페이에게 '인간 지능 작업'을 수행할 전 세계 기고자를 크라우드소싱하는 마켓플레이스인 Amazon의 Mechanical Turk를 소개해 주었습니다. 페이페이는 바로 이것이 자신에게 필요한 일이라는 것을 깨달았습니다.
2009년, 페이페이가 자신의 인생에서 가장 중요한 프로젝트를 시작한 지 3년 후, 분산된 글로벌 인력의 도움으로 마침내 ImageNet이 준비되었습니다. 그녀는 컴퓨터 비전이라는 공동의 사명을 발전시키는 데 자신의 역할을 다한 것입니다.
이제 컴퓨터가 인간처럼 세상을 볼 수 있도록 이 방대한 데이터 세트를 사용하는 알고리즘을 개발하는 것은 연구자들의 차례입니다. 하지만 처음 2년 동안은 그런 일이 일어나지 않았습니다. 알고리즘은 이미지넷의 이전 상태보다 더 나은 성능을 거의 보여주지 못했습니다.
플라이는 이미지넷이 헛된 시도였다는 동료들의 말이 맞았는지 의심하기 시작했습니다.
그런 다음 2012년 8월, 페이페이가 자신의 프로젝트가 자신이 상상했던 변화를 이끌어낼 것이라는 희망을 포기했을 때쯤, 지아 덩이 간절히 전화를 걸어와 AlexNet에 대해 알려주었습니다. 이미지넷에서 학습된 이 새로운 알고리즘은 역사상 모든 컴퓨터 비전 알고리즘을 능가하는 성능을 자랑합니다. 토론토 대학의 세 명의 연구원이 만든 AlexNet은 거의 폐기된 '신경망'이라는 AI 아키텍처를 사용하며, 페이페이의 예상을 뛰어넘는 성능을 자랑합니다.
그 순간 페이페이는 자신의 노력이 결실을 맺었다는 것을 알았습니다. "이제 막 역사가 만들어졌지만 전 세계에서 소수의 사람들만 알고 있었습니다." 페이페이 리가 회고록 '내가 본 세상'에서 이미지넷의 비하인드 스토리를 공유합니다.
이미지넷과 AlexNet의 결합은 여러 가지 이유로 역사적인 사건입니다.
첫째, 오랫동안 막다른 골목 기술로 여겨졌던 신경망의 재참조는 10년 이상 AI의 기하급수적인 성장을 이끈 알고리즘의 실제 아키텍처가 되었습니다.
둘째, 토론토의 세 명의 연구원 중 한 명인 일리아 수츠케버는 그래픽 처리 장치(GPU)를 사용하여 AI 모델을 학습시키는 데 최초로 성공했습니다. 이제 이 기술은 업계 표준이 되었습니다.
셋째, AI 업계는 페이 페이가 수년 전에 처음 주장했던 고급 AI의 핵심 요소는 많은 데이터라는 사실을 마침내 깨닫고 있습니다.
우리 모두는 "데이터는 새로운 석유다", "쓰레기가 들어오면 쓰레기가 나온다"와 같은 말을 수없이 읽고 들었습니다. 수없이 많이요. 이 말이 우리 세상에 대한 근본적인 진리가 아니었다면 우리는 아마 지겨워졌을 것입니다. 수년에 걸쳐 인공지능은 우리가 읽는 트윗, 시청하는 영화, 지불하는 가격, 신용에 영향을 미치는 등 우리 삶에서 점점 더 중요한 부분이 되기 위해 배후에서 작동하고 있습니다. 이 모든 것은 디지털 세상에서 우리의 모든 움직임을 세심하게 추적하여 데이터를 수집함으로써 이루어집니다.
그러나 지난 2년 동안 비교적 잘 알려지지 않은 스타트업인 OpenAI가 ChatGPT라는 챗봇 앱을 출시한 이후, AI의 중요성은 무대 뒤에서 전면으로 옮겨졌습니다. 우리는 기계 지능이 우리 삶의 모든 측면에 스며드는 시점에 와 있습니다. 이러한 지능을 누가 제어할 것인가에 대한 경쟁이 치열해지면서 이를 구동하는 데이터에 대한 수요도 증가하고 있습니다.
이 글이 바로 그 내용입니다. 우리는 AI 기업이 필요로 하는 데이터의 규모와 시급성, 그리고 데이터를 확보하는 과정에서 직면하는 문제에 대해 논의했습니다. 그리고 이러한 충족할 수 없는 수요가 인터넷에 대한 우리의 사랑과 수십억 명의 기여자들을 어떻게 위협하고 있는지 살펴보았습니다. 마지막으로, 이러한 문제와 우려를 해결하기 위해 암호화폐를 사용하고 있는 신생 스타트업들을 소개합니다.
본론에 들어가기 전에 간단히 말씀드리자면, 이 게시물은 모든 AI 시스템이 아닌 대규모 언어 모델(LLM) 학습의 관점에서 작성되었습니다. 이러한 이유로 저는 종종 "AI"와 "LLM"이라는 용어를 혼용하여 사용합니다. 이러한 용어 사용은 기술적으로 정확하지 않지만, 특히 데이터와 관련된 LLM의 개념과 문제뿐만 아니라 다른 형태의 AI 모델에도 적용됩니다.
대규모 언어 모델 학습은 계산, 에너지, 데이터라는 세 가지 주요 리소스에 의해 제약을 받습니다. 기업, 정부, 스타트업은 막대한 자본을 바탕으로 이러한 자원을 확보하기 위해 동시에 경쟁하고 있습니다. 이 중 컴퓨팅 경쟁이 가장 치열한데, 이는 부분적으로는 NVIDIA 주가의 급격한 상승 덕분입니다.
LLM을 훈련하려면 특수 그래픽 처리 장치(GPU)로 구성된 대규모 클러스터가 필요합니다. 그래픽 처리 장치(GPU) 클러스터, 특히 NVIDIA의 A100, H100 및 곧 출시될 B100 모델입니다. 이러한 컴퓨터는 아마존이나 지역 컴퓨터 상점에서 기성품으로 구입할 수 있는 컴퓨터가 아닙니다. 대신 수만 달러에 달하는 이 컴퓨터들은 NVIDIA가 AI 연구실, 스타트업, 데이터센터, 하이퍼스케일 고객에게 어떻게 공급할지 결정합니다.
ChatGPT가 출시된 후 18개월 동안 GPU에 대한 수요가 공급을 훨씬 앞질러 대기 시간이 11개월에 달했습니다. 그러나 초기의 열광적인 분위기가 가라앉으면서 수요와 공급의 역학관계가 정상화되고 있습니다. 스타트업의 폐업, 트레이닝 알고리즘 및 모델 아키텍처의 개선, 다른 회사의 전용 칩 등장, NVIDIA의 생산량 증가 등이 모두 GPU 가용성 증가와 가격 하락에 기여했습니다.
둘째, 에너지입니다. 데이터센터에서 GPU를 실행하려면 많은 에너지가 필요합니다. 일부 추정에 따르면 데이터센터는 2030년까지 전 세계 에너지의 4.5%를 소비할 것으로 예상됩니다. 이러한 수요 급증으로 인해 기존 전력망에 부담이 가해지면서 기술 기업들은 대체 에너지 솔루션을 모색하고 있습니다. Amazon은 최근 6억 5,000만 달러에 원자력 발전소로 구동되는 데이터 센터를 매입했습니다. Microsoft는 원자력 기술 책임자를 고용했고, OpenAI의 샘 알트먼은 Helion, Exowatt, Oklo와 같은 에너지 스타트업을 지원했습니다.
AI 모델 학습의 관점에서 볼 때 에너지와 컴퓨팅은 상품에 불과합니다. H100 대신 B100을 사용하거나 기존 에너지원 대신 원자력을 사용하면 학습 프로세스가 더 저렴하고 빠르며 효율적일 수 있지만 모델의 품질에는 영향을 미치지 않습니다. 즉, 가장 똑똑하고 인간과 가장 유사한 AI 모델을 만들기 위한 경쟁에서 에너지와 컴퓨팅은 차별화 요소가 아니라 필수 요소입니다.
핵심 자원은 데이터입니다.
제임스 베케르는 OpenAI의 연구 엔지니어입니다. 그의 표현에 따르면, 그는 "그 누구보다 많은 생성 모델을 훈련시켰다"고 합니다. 그는 블로그 게시물에서 "동일한 데이터 세트에서 충분히 오래 훈련하면 가중치와 훈련 시간이 충분한 거의 모든 모델이 같은 지점에 수렴한다"고 말합니다. 즉, 한 AI 모델을 다른 모델과 구분하는 것은 데이터 세트입니다. 다른 것은 없습니다.
모델을 "ChatGPT", "Claude", "Mistral " 또는 "람다"라고 할 때는 아키텍처, 사용된 GPU 또는 소비된 에너지가 아니라 학습된 데이터 세트에 대해 이야기하는 것입니다.
최첨단 생성 모델을 훈련하려면 얼마나 많은 데이터가 필요할까요?
답변: 많이 필요합니다.
출시된 지 1년이 지난 지금도 최고의 대규모 언어 모델로 꼽히는 GT-4는 약 1조 2천억 개의 토큰(또는 약 9천억 개의 단어)으로 훈련되었습니다. 데이터는 Wikipedia, Reddit, Common Crawl(웹 크롤링 데이터의 무료 오픈 리포지토리), 100만 시간 이상 전사된 YouTube 데이터, GitHub 및 Stack Overflow와 같은 코드 플랫폼 등 공개적으로 이용 가능한 인터넷에서 가져옵니다.
그것이 많은 데이터라고 생각되신다면 잠시만 기다려 주세요. 제너레이티브 AI에는 "친칠라 스케일링 법칙"이라는 개념이 있는데, 이는 주어진 컴퓨팅 예산으로 더 큰 데이터 세트에서 더 큰 모델을 훈련하는 것보다 더 작은 데이터 세트에서 더 작은 모델을 훈련하는 것이 더 효율적이라는 것을 말합니다. 인공지능 회사들이 GPT-5와 라마-4와 같은 차세대 인공지능 모델을 훈련하기 위해 할당하는 컴퓨팅 리소스를 추정해 보면, 이들 모델은 훈련에 최대 100조 개의 토큰을 사용해 5~6배의 컴퓨팅 파워를 필요로 할 것으로 예상됩니다.
대부분의 공개 인터넷 데이터가 이미 크롤링, 색인화되어 기존 모델 훈련에 사용되었으므로 이러한 모델은 5~6배의 컴퓨팅 파워가 필요하다는 것을 발견했습니다. 크롤링되고 색인되어 기존 모델을 훈련하는 데 사용되는 추가 데이터는 어디에서 오는 것일까요? 이 질문은 인공지능 회사들의 최첨단 연구 과제가 되었습니다. 이 문제에 접근하는 방법에는 두 가지가 있습니다. 하나는 사람이 아닌 LLM이 직접 생성한 합성 데이터를 사용하는 경우입니다. 그러나 이러한 데이터가 모델을 더 똑똑하게 만드는 데 얼마나 효과적인지는 아직 검증되지 않았습니다.
또 다른 옵션은 합성 데이터 대신 고품질 데이터를 찾는 것입니다. 그러나 추가 데이터를 확보하는 것은 어려운 일이며, 특히 AI 기업이 미래 모델의 학습뿐만 아니라 기존 모델의 유효성까지 위협하는 문제에 직면했을 때 더욱 그렇습니다.
첫 번째 데이터 문제는 법적 문제와 관련이 있습니다. AI 기업들은 '공개적으로 사용 가능한 데이터'로 모델을 학습시킨다고 주장하지만, 그 데이터의 대부분은 저작권이 있습니다. 예를 들어 커먼 크롤링 데이터 세트에는 뉴욕 타임즈, AP 통신과 같은 출판물의 수백만 개의 기사와 출판된 책, 노래 가사 등 기타 저작권이 있는 자료가 포함되어 있습니다.
일부 출판사와 크리에이터는 AI 기업이 저작권과 지적 재산을 침해하고 있다고 주장하며 법적 조치를 취하고 있습니다. 더 타임즈는 "더 타임즈의 독특하고 가치 있는 저작물을 불법적으로 복제하고 사용했다"며 OpenAI와 Microsoft를 고소했습니다. 한 프로그래머 그룹이 인기 있는 AI 프로그래밍 어시스턴트인 GitHub Copilot을 훈련하는 데 오픈 소스 코드를 사용하는 것이 합법적인지 이의를 제기하는 집단 소송을 제기했습니다.
코미디언 사라 실버맨과 작가 폴 트렘블레이도 자신의 저작물을 무단으로 사용한 AI 회사를 상대로 소송을 제기했습니다.
다른 기업들도 AI 기업과의 제휴를 통해 변화의 시대를 받아들이고 있습니다. AP 통신, 파이낸셜 타임즈, 악셀 스프링거는 모두 OpenAI와 콘텐츠 라이선스 계약을 체결했습니다. Apple은 Condé Nast 및 NBC와 같은 뉴스 기관과 유사한 파트너십을 모색하고 있습니다. Google은 모델 학습을 위해 Reddit API에 액세스하는 데 연간 6천만 달러를 지불하기로 합의했으며, Stack Overflow는 OpenAI와 유사한 계약을 체결했습니다. 메타는 출판사 Simon & Schuster를 완전히 인수하는 것을 고려하고 있습니다.
이러한 협업은 AI 기업이 직면한 두 번째 문제인 오픈 웹의 폐쇄와도 맞닿아 있습니다.
인터넷 포럼과 소셜 미디어 사이트는 AI 기업이 자사 플랫폼의 데이터를 사용하여 모델을 학습시킴으로써 창출하는 가치를 깨달았습니다. Reddit은 Google(그리고 향후 다른 AI 기업들과도 계약을 체결하기 전에 무료였던 API를 유료화하여 인기 있던 타사 클라이언트를 폐쇄했습니다. 마찬가지로 트위터는 API에 대한 액세스를 제한하고 가격을 인상했으며, 일론 머스크는 트위터 데이터를 자신의 AI 회사인 xAI의 모델 훈련에 사용했습니다.
소규모 출판물, 동성애 소설 포럼, 그리고 누구나 자유롭게 소비할 수 있는 콘텐츠를 생산하고 광고(있는 경우)로 수익을 창출하던 인터넷의 다른 틈새 영역도 이제 문을 닫기 시작했습니다. 인터넷은 원래 모든 사람이 자신의 고유한 관심사와 특기를 공유할 수 있는 마법의 사이버 공간으로 구상되었습니다. 하지만 그 마법은 서서히 사라지고 있는 것 같습니다.
소송의 위협, 수백만 건의 콘텐츠 거래가 증가하는 추세, 오픈 웹의 폐쇄가 결합되어 두 가지 영향을 미쳤습니다.
첫째, 데이터 전쟁은 거대 기술 기업에 매우 유리하게 왜곡되어 있습니다. 스타트업과 소규모 기업은 법적 위험을 감수하지 않고는 이전에 사용 가능한 API에 액세스할 수도 없고, 사용 권한을 구매하는 데 필요한 현금을 지불할 수도 없습니다. 이는 최고의 데이터를 구매하고 최고의 모델을 만들 수 있는 부자들이 더 부자가 되는 명백한 집중 효과를 가져옵니다.
둘째, 사용자 제작 콘텐츠 플랫폼의 비즈니스 모델은 점점 더 사용자들에게 불리해지고 있습니다. Reddit이나 Stack Overflow와 같은 플랫폼은 수백만 명의 무보수 크리에이터와 운영자의 기여에 의존하고 있습니다. 그러나 이러한 플랫폼은 AI 기업과 수백만 달러 규모의 계약을 체결할 때 사용자에게 보상을 제공하거나 사용자의 동의를 구하지 않으며, 사용자가 없으면 판매할 데이터도 없습니다.
레딧과 스택 오버플로 모두 이러한 결정에 항의하는 사용자 파업을 경험한 바 있습니다. 미국 연방거래위원회(FTC)는 Reddit이 AI 모델 학습을 위해 사용자 게시물을 외부 기관에 판매, 라이선스 및 공유한 것에 대한 조사를 시작했습니다.
이러한 문제들은 차세대 AI 모델과 웹 콘텐츠 학습의 미래에 대한 의문을 제기합니다. 현재로서는 그 미래가 매우 절망적으로 보입니다. 암호화 솔루션이 소규모 기업과 인터넷 사용자들이 이러한 문제를 해결할 수 있도록 공평한 경쟁의 장을 마련할 수 있을까요?
AI 모델을 훈련하고 유용한 앱을 만드는 일은 복잡하고 비용이 많이 드는 작업으로 수개월의 계획, 리소스 할당, 실행이 필요합니다. 이러한 프로세스에는 각각 다른 목적과 다른 데이터 요구 사항을 가진 여러 단계가 포함됩니다.
이러한 단계를 세분화하여 암호화가 더 큰 AI 퍼즐에 어떻게 들어맞는지 이해해 보겠습니다.
사전 훈련은 LLM 훈련 프로세스의 첫 번째 단계이자 가장 리소스 집약적인 단계로 모델의 기초를 형성합니다. 이 단계에서는 레이블이 없는 대량의 텍스트로 AI 모델을 학습시켜 세계에 대한 일반적인 지식과 언어 사용에 대한 정보를 파악합니다. GPT-4가 1조 2천억 개의 토큰으로 학습되었다고 할 때, 이는 사전 학습에 사용된 데이터를 의미합니다.
사전 학습이 LLM의 기초가 되는 이유를 이해하려면 LLM의 작동 방식에 대한 개괄적인 개요가 필요합니다. 이 개요는 간략하게 설명한 것입니다. 자세한 설명은
Jon Stokes
의 훌륭한 글이나
나 이 뛰어난 책에서 더 심층적인 분석도 확인할 수 있습니다.
스티븐 울프람
LLM은 다음 토큰 예측이라는 통계적 기법을 사용합니다. 간단히 말해, 일련의 토큰(즉, 단어)이 주어지면 모델은 다음으로 가장 가능성이 높은 토큰을 예측하고 이 과정을 반복하여 완전한 응답을 형성합니다. 따라서 대규모 언어 모델을 "완전한 기계"라고 생각할 수 있습니다.
예시를 통해 이를 이해해 봅시다.
"해가 어느 방향으로 떠오르나요?"와 같은 질문을 ChatGPT에 던졌을 때 먼저 "the"라는 단어를 예측한 다음 "해는 동쪽에서 뜬다"라는 구문의 각 후속 단어를 예측합니다. 하지만 이러한 예측은 어디에서 오는 것이며, ChatGPT는 "해가 뜨는 곳"이라는 문구 뒤에 "서쪽", "북쪽" 또는 "남쪽"이 아닌 "동쪽"이 와야 한다고 어떻게 판단할까요? 북쪽" 또는 "암스테르담"? 다시 말해, "동쪽"이 다른 옵션보다 통계적으로 더 가능성이 높다는 것을 어떻게 알 수 있을까요?
이를 이해하는 또 다른 방법은 다음을 포함하는 구문을 비교하는 것입니다. 이 포함된 문구를 위키백과 페이지 수와 비교하는 것입니다. "해는 동쪽에서 뜬다"는 55페이지인 반면, "해는 서쪽에서 뜬다"는 27페이지입니다. "해는 암스테르담에서 뜬다"는 결과가 표시되지 않습니다! 이것이 ChatGPT가 선택한 모드입니다.
대량의 고품질 훈련 데이터에서 통계적 패턴을 학습하는 것이 해답입니다. 인터넷에 있는 모든 텍스트를 고려할 때 "해는 동쪽에서 뜬다"와 "해는 서쪽에서 뜬다" 중 어떤 것이 더 가능성이 높을까요? 후자는 문학적 은유("해가 서쪽에서 뜬다고 믿는 것만큼 우스운 일")나 다른 행성(예: 해가 서쪽에서 뜨는 금성)에 대한 논의와 같은 특정 맥락에서 발견될 수 있습니다. 하지만 전반적으로 전자가 훨씬 더 일반적입니다.
다음 단어를 반복적으로 예측함으로써. LLM은 세계에 대한 총체적인 관점(우리가 상식이라고 부르는)과 언어의 규칙과 패턴에 대한 이해를 발전시킵니다. LLM을 인터넷의 압축된 버전으로 보는 또 다른 방법이 있습니다. 이는 또한 왜 데이터가 크고(선택할 수 있는 카테고리가 더 많아야 하고) 품질이 높아야 하는지(패턴 학습 정확도를 높이기 위해) 이해하는 데 도움이 됩니다.
그러나 앞서 설명한 것처럼, AI 기업들은 더 큰 모델을 학습시키기 위한 데이터가 부족합니다. 학습 데이터에 대한 수요는 오픈 인터넷에서 새로운 데이터가 생성되는 속도보다 훨씬 빠르게 증가하고 있습니다. 소송이 잇따르고 주요 포럼이 폐쇄되면서 AI 기업들은 심각한 문제에 직면해 있습니다.
Reddit과 같은 독점 데이터 제공업체와 수백만 달러 규모의 계약을 체결할 여력이 없는 소규모 기업의 경우 문제는 더욱 심각합니다.
이런 데이터 문제를 해결하고자 하는 탈중앙화 주거용 프록시 서비스 제공업체인 Grass를 소개합니다. 이들은 스스로를 "AI를 위한 데이터 레이어"라고 부릅니다. 주거 대리 서비스 제공업체의 역할을 이해하는 것부터 시작해 보겠습니다.
인터넷은 학습 데이터의 가장 좋은 소스이며, 인터넷 크롤링은 기업이 데이터를 확보하기 위해 선호하는 방법입니다. 실제로 크롤링 소프트웨어는 규모와 편의성, 효율성을 위해 데이터 센터에서 호스팅되는 경우가 많습니다. 그러나 가치 있는 데이터를 보유한 기업은 돈을 받지 않는 한 자신의 데이터가 AI 모델 학습에 사용되는 것을 원하지 않습니다. 이러한 제한을 적용하기 위해 알려진 데이터 센터의 IP 주소를 차단하여 대규모 크롤링을 방지하는 경우가 많습니다.
바로 이 부분에서 국내 프록시 서비스 제공업체가 활약합니다. 웹사이트는 여러분과 저와 같은 일반 인터넷 사용자가 아닌 알려진 데이터 센터의 IP 주소만 차단하기 때문에 우리의 인터넷 연결, 즉 주거용 인터넷 연결이 소중합니다. 주거용 프록시 서비스 제공업체는 AI 기업을 위해 대규모로 웹사이트를 크롤링하기 위해 이러한 수백만 개의 연결을 수집합니다.
그러나 중앙 집중식 주거용 프록시 서비스 제공업체는 비밀리에 운영됩니다. 그들은 보통 그들의 의도를 명확하게 밝히지 않습니다. 사용자는 어떤 제품이 자신의 대역폭을 사용하고 있고 해당 제품이 보상을 제공하지 않는다는 사실을 알게 되면 대역폭을 제공하는 것을 꺼릴 수 있습니다. 더 나쁜 경우에는 대역폭 사용량에 대한 보상을 요구할 수 있으며, 이는 결국 수익 감소로 이어질 수 있습니다.
수익을 보호하기 위해 가정용 프록시 서비스 제공업체는 모바일 유틸리티 앱(예: 계산기 및 음성 녹음기), VPN 제공업체, 심지어 소비자 TV 스크린세이버와 같이 널리 배포되는 무료 앱에 대역폭을 소비하는 코드를 첨부합니다. 무료로 제품을 제공받는다고 생각하는 사용자들은 타사 가정용 제공업체가 자신의 대역폭을 소비하고 있다는 사실을 모르는 경우가 많습니다(이러한 세부 사항은 읽는 사람이 거의 없는 서비스 약관에 묻혀 있는 경우가 많습니다).
이러한 데이터 중 일부는 결국 AI 회사로 넘어가 모델을 학습하고 스스로 가치를 창출하는 데 사용됩니다.
안드레 라돈직은 직접 주택 중개 서비스 제공업체를 운영하면서 이러한 관행의 비윤리적 특성과 사용자에게 얼마나 불공정한지 깨달았습니다. 그는 암호화폐의 성장을 목격하고 더 공정한 솔루션을 만들 수 있는 방법을 찾았습니다. 그렇게 해서 2022년 말에 Grass가 설립되었습니다. 몇 주 후, 세상을 바꾸고 적시에 적절한 장소에 Grass를 배치한 ChatGPT가 출시되었습니다.
다른 주거용 에이전트 서비스 제공업체와는 달리 은밀한 전술을 사용하는 다른 주택 중개 서비스 제공업체와 달리 Grass는 가입자에게 대역폭을 사용하여 AI 모델을 학습시킨다는 사실을 명확히 밝힙니다. 그 대가로 가입자는 직접 보상을 받습니다. 이 모델은 가정용 프록시 서비스 제공업체의 운영 방식을 완전히 뒤흔들고 있습니다. 자발적으로 대역폭 액세스를 제공하고 네트워크의 일부 소유자가 됨으로써 사용자는 정보를 모르는 수동적 참여자에서 적극적인 전도사로 변모하여 네트워크의 안정성을 개선하고 AI가 창출하는 가치의 혜택을 누릴 수 있습니다.
그래스의 성장은 괄목할 만합니다. 2023년 6월 출시 이후, 브라우저 확장 프로그램이나 모바일 앱을 설치하여 노드를 실행하고 네트워크에 대역폭을 제공하는 활성 사용자가 2백만 명을 넘어섰습니다. 이러한 성장은 외부 마케팅 비용 없이 이루어졌으며, 매우 성공적인 추천 프로그램을 통해 이루어졌습니다.
대규모 AI 연구소부터 오픈소스 스타트업에 이르기까지 모든 규모의 기업이 Grass의 서비스를 사용하면 수백만 달러를 지불하지 않고도 크롤링된 학습 데이터에 액세스할 수 있습니다. 한편, 일반 사용자들은 인터넷 연결을 공유함으로써 보상을 받고 성장하는 AI 경제의 일원이 될 수 있습니다.
크롤링된 원시 데이터 외에도 Grass는 고객에게 고객에게 몇 가지 추가 서비스를 제공합니다.
먼저, 비정형 웹 페이지를 AI 모델이 더 쉽게 처리할 수 있는 정형 데이터로 변환합니다. 이 단계를 데이터 정제라고 하며, 일반적으로 AI 연구소에서 리소스 집약적인 작업을 수행합니다. Grass는 구조화되고 정돈된 데이터 세트를 제공함으로써 고객에게 더 큰 가치를 제공합니다. 또한 Grass는 데이터 크롤링, 정제, 라벨링 프로세스를 자동화하기 위해 오픈 소스 LLM을 학습시키고 있습니다.
둘째, Grass는 부인할 수 없는 출처 증명에 데이터 세트를 연결하고 있습니다. AI 모델에서 고품질 데이터의 중요성을 고려할 때, AI 기업은 웹사이트든 부동산 중개업체든 악의적인 행위자가 데이터세트를 변조할 수 없도록 하는 것이 중요합니다.
이 문제의 심각성을 반영하여 Meta, IBM, Walmart 등 20여 개 기업이 참여하는 비영리 단체인 Data and Trust Alliance와 같은 단체가 결성되어 조직이 데이터 집합이 사용하기에 적합하고 신뢰할 수 있는지 판단하는 데 도움이 되는 출처 표준을 만들기 위해 협력해 왔습니다. 조직이 데이터 집합이 사용하기에 적합하고 신뢰할 수 있는지 여부를 판단하는 데 도움을 줍니다.
Grass도 비슷한 조치를 취하고 있습니다. Grass 노드는 웹 페이지를 크롤링할 때마다 크롤링된 페이지의 유효성을 검사하기 위해 메타데이터도 기록합니다. 이러한 출처 증명은 블록체인에 저장되어 고객과 공유되며, 고객은 이를 다시 자신의 사용자와 공유할 수 있습니다.
그래스는 처리량이 가장 높은 블록체인 중 하나인 Solana를 기반으로 구축되었지만, 모든 크롤링 작업의 출처를 L1에 저장하는 것은 비현실적입니다. 그래서 Grass는 ZK 프로세서를 사용하여 출처 증명을 일괄 처리한 다음 Solana에 게시하는 롤업(솔라나 최초의 롤업 중 하나)을 구축하고 있습니다. Grass가 "AI용 데이터 레이어"라고 부르는 이 롤업은 크롤링된 모든 데이터에 대한 데이터 원장이 됩니다.
그러스의 웹 3.0 우선 접근 방식은 중앙 집중식 거주 에이전트 제공업체에 비해 몇 가지 이점을 제공합니다. 첫째, 사용자가 직접 대역폭을 공유하도록 인센티브를 제공함으로써 AI가 창출한 가치를 보다 공평하게 분배하는 동시에 앱 개발자에게 코드를 번들로 제공하는 비용을 절감할 수 있습니다. 둘째, 업계에서 매우 가치 있는 '합법적인 트래픽'을 제공하는 것에 대해 프리미엄을 부과할 수 있습니다.
'합법적인 트래픽'을 기반으로 하는 또 다른 프로토콜은 사용자가 Reddit, Twitter 또는 TikTok과 같은 플랫폼의 로그인 정보를 전달할 수 있는 네트워크인 마사입니다. 그러면 네트워크의 노드가 상황에 맞게 업데이트된 데이터를 가져옵니다. 이 모델의 장점은 수집된 데이터가 일반 트위터 사용자가 피드에서 볼 수 있는 데이터라는 점입니다. 실시간으로 풍부한 데이터 세트를 확보하여 곧 입소문을 타게 될 정서나 콘텐츠를 예측할 수 있습니다.
데이터 세트는 어떤 용도로 사용되나요? 현재로서는 이 컨텍스트 데이터의 주요 사용 사례는 크게 두 가지입니다.
금융 - 수천 명의 사람들이 피드에서 무엇을 보고 있는지 볼 수 있는 메커니즘이 있다면 이를 기반으로 트레이딩 전략을 개발할 수 있습니다. 감정 데이터에 기반한 지능형 에이전트를 마사의 데이터 세트에서 학습시킬 수 있습니다.
소셜 - AI 기반 컴패니언(또는 레플리카 같은 도구)의 출현은 인간의 대화를 모방하는 데이터 세트가 필요하다는 것을 의미합니다. 또한 이러한 대화는 최신 정보로 업데이트되어야 하며, 마사의 데이터 스트림은 트위터의 최신 트렌드에 대해 의미 있게 대화할 수 있는 에이전트를 훈련하는 데 사용될 수 있습니다.
Masa의 접근 방식은 트위터와 같은 폐쇄된 정원에서 정보를 가져와 개발자가 사용자 동의를 얻어 앱을 개발할 수 있도록 제공하는 것입니다. 데이터 수집에 대한 이러한 소셜 우선 접근 방식 덕분에 다양한 국가 언어로 데이터 세트를 구축할 수 있습니다.
예를 들어 힌디어를 사용하는 봇은 힌디어로 운영되는 소셜 네트워크에서 수집한 데이터를 사용할 수 있습니다. 이러한 네트워크에서 사용할 수 있는 애플리케이션의 유형은 아직 밝혀지지 않았습니다.
사전 학습된 LLM은 아직 생산에 사용할 준비가 되지 않았습니다. 생각해 보세요. 지금까지 모델은 시퀀스의 다음 단어를 예측하는 방법만 알고 있을 뿐 그 이상은 알지 못합니다. 사전 학습된 모델에 "사토시 나카모토는 누구입니까?"와 같은 텍스트를 제공하면 다음 중 어떤 응답이든 유효한 응답이 됩니다.
질문 완료: 사토시 나카모토?
이 문구를 문장으로 바꾸면 수년 동안 비트코인 신자들을 괴롭혀온 질문입니다.
정답은 사토시 나카모토는 최초의 탈중앙화 암호화폐인 비트코인과 그 기반이 되는 블록체인 기술을 만든 익명의 개인 또는 그룹입니다.
유용한 답변을 제공하도록 설계된 LLM은 세 번째 답변을 제공할 것입니다. 그러나 사전 학습된 모델의 답변은 일관성이 없거나 정확하지 않습니다. 실제로 최종 사용자에게는 의미가 없는 텍스트를 무작위로 출력하는 경우가 많습니다. 최악의 경우, 모델이 실제로는 부정확하거나 유해하거나 해로운 정보를 몰래 응답하는 경우도 있습니다. 이러한 경우 모델을 "환상적"이라고 합니다.
이것은 사전 훈련된 GPT-3가 질문에 답하는 방식입니다.
모델 정렬의 목표는 사전 학습된 모델을 궁극적으로 사용자에게 유용하게 만드는 것입니다. 즉, 단순한 통계적 텍스트 도구에서 사용자의 요구를 이해하고 이에 맞춰 일관성 있고 유용한 대화를 나누는 챗봇으로 전환을 완료하는 것입니다.
이 과정의 첫 번째 단계는 대화 미세 조정입니다. 미세 조정은 사전 학습된 머신러닝 모델을 특정 작업이나 사용 사례에 적응할 수 있도록 더 작은 목표 데이터 세트에 대해 추가로 학습하는 것입니다. LLM 학습의 경우, 이 특정 사용 사례는 사람과 같은 대화를 수행하는 것입니다. 이러한 미세 조정을 위한 데이터 세트는 당연히 사람이 생성한 프롬프트-응답 쌍의 집합이며, 이러한 대화는 모델이 어떻게 작동해야 하는지를 보여줍니다.
이러한 데이터 세트는 다양한 유형의 대화(질의응답, 요약, 번역, 코드 생성)를 다루며, 일반적으로 뛰어난 언어 능력과 전문성을 갖춘 고학력자(AI 멘토라고도 함)가 설계합니다.
GPT-4와 같은 최신 모델은 약 10만 개의 이러한 즉석 응답 쌍을 학습한 것으로 추정됩니다.
단서-응답 쌍의 예
이 단계를 상상해 보세요. ">이 단계를 사람이 애완용 강아지를 훈련시키는 것과 유사하게 좋은 행동에는 보상을 주고 나쁜 행동에는 벌을 주는 단계라고 상상해 보세요. 모델은 단서를 제공하고, 그 반응은 인간 태거와 공유되며, 태거는 출력의 정확성과 품질에 따라 숫자 척도(예: 1~5)로 평가합니다. RLHF의 또 다른 버전은 여러 개의 응답을 생성하기 위한 단서를 얻은 다음 인간 태거가 최고부터 최악까지 순위를 매기는 것입니다.
RLHF 작업 예
RLHF는 모델이 인간의 선호도와 원하는 행동으로 나아갈 수 있도록 도와줍니다. 실제로 ChatGPT를 사용하면 OpenAI가 사용자를 RLHF 데이터 태거로 사용하기도 합니다! 이는 때때로 모델이 두 가지 응답을 생성하고 사용자에게 더 나은 응답을 선택하도록 요청할 때 발생합니다.
답변의 유용성을 평가하라는 메시지를 표시하는 단순한 좋아요 또는 싫어요 아이콘도 모델 RLHF 학습의 한 형태입니다.
AI 모델을 사용할 때 우리는 수백만 시간의 인력이 투입되는 것을 거의 고려하지 않습니다. 이는 LLM에만 국한된 문제가 아닙니다. 지금까지 콘텐츠 검토, 자율 주행, 종양 탐지 같은 전통적인 머신 러닝 사용 사례에서도 데이터 주석 작업에는 상당한 사람의 개입이 필요했습니다.
페이페이 리가 이미지넷 데이터베이스를 만드는 데 사용하는 서비스인 메카니컬 터크는 AI 학습의 이면에서 작업자가 수행하는 역할 때문에 제프 베조스가 "인간을 위한 인공 AI"라고 부른 바 있습니다. 데이터 라벨링.
올해 초, 고객이 진열대에서 물건을 고른 후 걸어서 나갈 수 있는(그리고 나중에 자동으로 계산되는) 아마존의 저스트 워크 아웃 매장이 일부 고급 AI에 의해 구동되는 것이 아니라는 사실이 밝혀졌습니다. 고급 AI로 구동되지 않습니다. 대신 1,000명의 인도 계약직 직원이 직접 매장 영상을 살펴보고 있습니다.
요점은 모든 대규모 AI 시스템은 어느 정도 인간에게 의존하고 있으며, LL. 는 인간에 대한 의존도가 어느 정도이며, LLM은 이러한 서비스에 대한 필요성을 증가시킬 뿐입니다. OpenAI를 고객으로 둔 Scale AI와 같은 회사는 이러한 수요에 힘입어 이미 11자리 수 기업가치를 달성했습니다. 심지어 Uber는 인도에서 일부 직원의 용도를 변경하여 차량을 운전하지 않을 때 AI 결과물에 태그를 붙이고 있습니다.
풀스택 AI 데이터 솔루션이 되기 위해 Grass도 이 시장에 뛰어들었습니다. 곧 AI 라벨링 솔루션(주요 제품의 확장 기능)을 출시할 예정이며, 플랫폼 사용자들은 RLHF 작업을 완료하면 인센티브를 받을 수 있습니다.
그런 다음 문제는 같은 공간에 있는 수백 개의 중앙집중식 기업들과 비교하여 Grass가 프로세스를 분산함으로써 어떤 이점을 얻을 수 있는가 하는 것입니다.
그래스는 토큰 인센티브를 사용하여 작업자 네트워크를 부트스트랩할 수 있습니다. 인터넷 대역폭을 공유하는 사용자에게 토큰을 보상하는 것처럼, AI 학습 데이터에 라벨을 붙이는 사람에게 토큰을 보상하는 데도 사용할 수 있습니다. 웹2.0 세계에서 긱 이코노미, 특히 전 세계적으로 분산된 작업에 대해 작업자에게 돈을 지불하는 것은 솔라나와 같은 빠른 블록체인이 제공하는 즉각적인 유동성보다 열악한 사용자 경험입니다.
일반적으로 암호화폐 커뮤니티, 특히 Grass의 기존 커뮤니티에는 이미 교육을 받고 인터넷에 익숙하며 기술에 능숙한 사용자들이 집중되어 있습니다. 따라서 Grass가 인력 채용과 교육에 투자해야 하는 리소스가 줄어듭니다.
AI 모델 응답에 대한 인센티브를 거래하는 작업이 농부와 봇의 관심을 끌 수 있을지 궁금할 수 있습니다. 저도 같은 의문을 가졌습니다. 다행히도 합의 기반 기술을 사용하여 고품질의 주석자를 식별하고 봇을 걸러내는 광범위한 연구가 수행되었습니다.
그러나 적어도 현재로서는 Grass는 RLHF(인간의 피드백을 통한 강화 학습) 시장에만 진출하고 있으며, 고도로 전문화된 노동 시장이 필요하고 자동화하기 어려운 대화를 미세 조정하는 데는 도움이 되지 않는다는 점에 유의하세요.
사전 훈련 및 조정 단계가 완료되면 기본 모델이라고 하는 것이 있습니다. 기본 모델은 세상의 작동 원리를 전반적으로 이해하고 있으며 다양한 주제에 대해 유창하고 사람처럼 대화할 수 있습니다. 또한 언어에 대한 이해가 탄탄하여 사용자가 이메일, 이야기, 시, 기사, 노래를 쉽게 작성할 수 있도록 도와줍니다.
ChatGPT를 사용하면 기본 모델인 GPT-4와 상호 작용하게 됩니다.
기본 모델은 일반 모델입니다. 수백만 가지 카테고리의 주제에 대해 충분히 잘 알고 있지만, 어느 한 분야에 특화되어 있지는 않습니다. 비트코인의 토큰 경제를 이해하는 데 도움을 요청할 때 유용하고 대체로 정확한 답변을 제공할 것입니다. 그러나 아이겐 레이어와 같은 대체 프로토콜의 위험을 완화하는 방법을 설명해 달라는 질문에는 신뢰해서는 안 됩니다.
다시 생각해 보면, 미세 조정은 사전 학습된 머신 러닝 모델을 특정 작업이나 사용 사례에 적응할 수 있도록 더 작은 대상 데이터 세트에 대해 추가로 학습하는 프로세스입니다. 앞서 원시 텍스트 완성 도구를 대화 모델로 변환하는 맥락에서 미세 조정에 대해 설명했습니다. 마찬가지로 생성된 기본 모델을 미세 조정하여 특정 도메인이나 특정 작업에 맞게 특화할 수 있습니다.
Google의 기본 모델인 PaLM-2를 미세 조정한 버전인 Med-PaLM2는 의학 질문에 대한 고품질 답변을 제공하도록 학습되었으며, MetaMath는 수학적 추론을 더 잘 수행하도록 Mistral-7B에서 미세 조정되었습니다. 미세 조정된 모델 중 일부는 스토리텔링, 텍스트 요약, 고객 서비스와 같은 특정 카테고리에 특화되어 있으며, 다른 모델은 포르투갈 시, 힌디어 영어 번역, 스리랑카 법률과 같은 틈새 영역에 특화되어 있습니다.
특정 사용 사례에 맞게 모델을 미세 조정하려면 해당 사용 사례와 관련된 고품질 데이터 세트가 필요합니다. 이러한 데이터 세트는 도메인별 웹사이트(예: 암호화된 데이터 뉴스 플래시), 독점 데이터 세트(병원은 수천 건의 의사-환자 상호작용을 기록할 수 있음) 또는 전문가의 경험(철저한 인터뷰를 통해 수집해야 함)에서 얻을 수 있습니다.
수백만 개의 AI 모델이 존재하는 세상으로 이동함에 따라 세상이 되면서 이러한 틈새 롱테일 데이터 세트의 가치가 점점 더 커지고 있습니다. Ernst & Young과 같은 대형 회계법인부터 가자지구의 프리랜서 사진작가까지, 이러한 데이터 세트의 소유자는 곧 AI 군비 경쟁에서 가장 인기 있는 상품이 될 것이기 때문에 구애를 받고 있습니다. 조직이 데이터의 가치를 공정하게 평가할 수 있도록 돕기 위해 Gulp Data와 같은 서비스가 등장했습니다.
OpenAI는 심지어 "오늘날 온라인에서 더 이상 공개적으로 쉽게 구할 수 없는 인간 사회를 반영하는 대규모 데이터 세트"를 보유한 기관에 데이터 파트너십을 공개적으로 요청하고 있습니다.
우리는 특정 상품을 찾는 구매자와 판매자를 매칭하는 한 가지 이상의 방법을 알고 있습니다: 인터넷 마켓플레이스! 수집품을 위한 Ebay, 인력을 위한 Upwork, 그 외 수많은 카테고리를 위한 수많은 플랫폼이 만들어졌습니다. 당연히 틈새 데이터 세트를 위한 마켓플레이스도 등장하고 있으며, 일부는 탈중앙화되어 있습니다.
Bagel은 '고품질의 다양한 데이터' 보유자가 신뢰할 수 있는 방식으로 AI 기업과 교류할 수 있도록 지원하는 도구 세트인 공통 인프라를 구축하고 있습니다, 개인정보를 보호하는 방식으로 AI 기업과 데이터를 공유할 수 있도록 지원합니다. 이러한 도구는 영지식(ZK) 및 완전동형암호화(FHE)와 같은 기술을 사용하여 이를 수행합니다.
기업은 개인정보 보호 또는 경쟁 문제로 인해 수익화할 수 없지만 가치가 높은 데이터를 보유하고 있는 경우가 많습니다. 예를 들어, 연구소는 환자의 개인정보를 보호하기 위해 공유할 수 없는 대량의 게놈 데이터를 보유하고 있을 수 있고, 소비재 제조업체는 경쟁 기밀을 노출하지 않고는 공개할 수 없는 공급망 폐기율 감소 데이터를 보유하고 있을 수 있으며, Bagel은 암호화의 발전을 통해 이러한 데이터 집합을 유용하게 만드는 동시에 수반되는 우려를 완화할 수 있습니다.
Grass의 주거지 프록시 서비스는 특수한 데이터 세트를 만드는 데도 도움이 될 수 있습니다. 예를 들어, 전문적인 요리 조언을 제공하기 위해 모델을 미세 조정하려는 경우, Grass에 r/Cooking 및 r/AskCulinary와 같은 Reddit 하위 섹션에서 데이터를 가져 오도록 요청할 수 있습니다. 마찬가지로 여행 관련 모델 제작자는 Grass에 트립어드바이저 포럼에서 데이터를 가져오도록 요청할 수 있습니다.
이러한 데이터 소스는 독점적인 데이터 소스는 아니지만 다른 데이터 세트에 추가할 수 있으며, Grass는 네트워크를 사용하여 모든 고객이 재사용할 수 있는 아카이브 데이터 세트를 만들 계획도 가지고 있습니다.
좋아하는 LLM에게 "교육 마감일이 언제입니까?"라고 물어보세요. " 2023년 11월과 같은 대답이 돌아올 것입니다. 이는 기본 모델이 해당 날짜 이전에 이용 가능한 정보만 제공한다는 의미입니다. 이러한 모델을 학습(또는 미세 조정)하는 데 소요되는 계산 비용과 시간을 고려하면 이는 당연한 결과입니다.
실시간으로 최신 상태를 유지하려면 매일 새로운 모델을 훈련하고 배포해야 하는데, 이는 (적어도 지금까지는) 실현 불가능한 일입니다.
그러나 세상에 대한 최신 정보가 없는 AI는 많은 사용 사례에서 쓸모가 없습니다. 예를 들어, LLM의 응답에 의존하는 개인 디지털 비서를 사용한다면 읽지 않은 이메일을 요약하거나 지난 리버풀 경기의 골 득점자를 알려달라는 요청을 받는 데 한계가 있을 것입니다.
이러한 한계를 극복하고 사용자에게 실시간 정보에 기반한 응답을 제공하기 위해 앱 개발자는 기본 모델의 '컨텍스트 창'에 정보를 쿼리하고 삽입할 수 있습니다. 컨텍스트 창은 LLM이 응답을 생성하기 위해 처리할 수 있는 입력 텍스트입니다. 이는 토큰으로 측정되며, 특정 순간에 LLM이 "볼 수 있는" 텍스트를 나타냅니다.
따라서 디지털 비서에게 읽지 않은 이메일을 요약해 달라고 요청하면 앱은 먼저 이메일 제공업체에 모든 읽지 않은 이메일의 내용을 쿼리하고 그 응답을 LLM으로 전송되는 프롬프트에 삽입한 다음 "내가 보낸 모든 메시지 목록을 받은 편지함에 있는 모든 메시지를 읽지 않은 메시지 목록과 함께 제공했습니다. 요약해 주세요."와 같은 문구를 추가합니다. 그러면 이 새로운 컨텍스트를 통해 LLM이 작업을 완료하고 응답을 제공할 수 있습니다. 이 프로세스는 마치 이메일을 복사하여 ChatGPT에 붙여넣고 응답을 생성하도록 요청하는 것과 같지만, 백엔드에서 수행된다고 생각하면 됩니다.
최신 응답을 제공하는 앱을 만들려면 개발자가 실시간 데이터에 액세스해야 하며, 모든 웹사이트를 실시간으로 크롤링할 수 있는 Grass 노드는 이 데이터를 개발자에게 제공할 수 있습니다. 예를 들어, LLM 기반 뉴스 애플리케이션은 5분마다 Google 뉴스의 모든 인기 기사를 크롤링하도록 Grass에 요청할 수 있습니다. 사용자가 "방금 뉴욕시를 강타한 지진의 규모가 얼마였나요?"라고 질문하면 라고 질문하면 뉴스 앱이 기사를 검색하여 LLM 컨텍스트 창에 추가하고 사용자와 응답을 공유합니다.
이것이 바로 마사의 현재 모습입니다. 현재 사용자 데이터를 지속적으로 업데이트하는 대형 플랫폼은 알파벳, 메타, X가 유일하며, 이들은 사용자 기반을 확보하고 있기 때문입니다. 마사는 소규모 스타트업의 경쟁의 장을 열어줍니다.
이 프로세스에 대한 기술 용어는 검색 강화 생성(RAG)이며, RAG 워크플로는 모든 최신 LLM 기반 애플리케이션의 핵심입니다. 이 프로세스에는 텍스트를 벡터화하거나 컴퓨터가 쉽게 해석, 조작, 저장 및 검색할 수 있는 숫자 배열로 변환하는 작업이 포함됩니다.
Grass는 향후 물리적 하드웨어 노드를 출시하여 고객에게 벡터화된 지연 시간이 짧은 실시간 데이터를 제공함으로써 RAG 워크플로우를 간소화할 계획입니다.
업계의 대부분의 빌더는 컨텍스트 수준 쿼리(추론이라고도 함)가 향후 대부분의 리소스(에너지, 컴퓨팅, 데이터)를 사용할 것으로 예측합니다. 이는 일리가 있습니다. 모델 학습은 항상 일정량의 리소스를 할당하는 시간 제한적인 프로세스가 될 것입니다. 반면에 애플리케이션 수준의 사용은 이론적으로 무제한의 수요를 가질 수 있습니다.
Grass는 대부분의 텍스트 데이터 요청이 실시간 데이터를 찾는 고객으로부터 발생하고 있는 것을 확인했습니다.
LLM의 컨텍스트 창은 시간이 지남에 따라 확장되었습니다. OpenAI가 처음 ChatGPT를 출시했을 때 컨텍스트 윈도우는 32,000 토큰이었습니다. 2년이 채 지나지 않아 Google의 Gemini 모델은 컨텍스트 윈도우가 100만 토큰이 넘었습니다. 100만 토큰은 300페이지 분량의 책 11권 이상에 해당하는 분량입니다. 백만 개의 토큰은 300페이지 분량의 책 11권 이상과 맞먹는 분량입니다.
이러한 발전으로 실시간 정보에 액세스하는 것 이상의 훨씬 더 큰 컨텍스트 창을 구축할 수 있게 되었습니다. 예를 들어, 누군가가 테일러 스위프트의 모든 가사 또는 이 뉴스레터의 전체 아카이브를 가져와 컨텍스트 창에 덤프한 다음 LLM에 비슷한 스타일의 새 콘텐츠를 생성하도록 요청할 수 있습니다.
명시적으로 그렇게 하지 않도록 프로그래밍하지 않는 한, 모델은 꽤 괜찮은 결과물을 생성합니다.
이 논의가 어디로 가고 있는지 짐작이 가신다면 잠시 기다렸다가 다음에 어떤 일이 일어날지 지켜보세요. 지금까지는 주로 텍스트 모델에 대해 논의했지만 제너레이티브 모델은 사운드, 이미지 및 비디오 생성과 같은 다른 양식에서도 매우 능숙해지고 있습니다. 최근 트위터에서 Orkhan Isayen이 그린 런던의 멋진 일러스트를 발견했습니다.
Midjourney, 인기 있는( 매우 좋은) 텍스트-이미지 변환 도구에는 스타일 조절기라는 기능이 있어 기존 이미지와 동일한 스타일로 새 이미지를 생성합니다(이 기능도 RAG와 비슷한 워크플로우를 사용하지만 완전히 동일하지는 않습니다). 저는 Orkhan이 직접 만든 일러스트를 업로드하고 스타일 조정기를 사용하여 Midjourney에 도시를 뉴욕으로 변경하라는 메시지를 표시했습니다. 결과는 다음과 같습니다.
이미지 네 개가 있습니다. 이 작가의 일러스트레이션을 둘러보면 작가의 작품으로 착각하기 쉽습니다. 이 이미지들은 하나의 입력 이미지를 바탕으로 AI가 30초 만에 생성한 것입니다. 저는 '뉴욕'을 요청했지만, 실제로는 어떤 주제가든 가능합니다. 음악과 같은 다른 양식에서도 비슷한 종류의 복제가 가능합니다.
크리에이터를 포함한 일부 단체가 AI 기업을 고소하는 것에 대해 앞서 논의한 내용을 떠올려보면 왜 그렇게 하는 것이 합당한지 알 수 있습니다.
인터넷은 크리에이터가 자신의 이야기, 예술, 음악 및 기타 형태의 창의적 표현을 전 세계와 공유할 수 있는 수단이자 1,000명의 진정한 팬을 찾을 수 있는 방법으로서 크리에이터에게 큰 도움이 되었습니다. 하지만 이제 이 같은 글로벌 플랫폼이 크리에이터들의 생계를 위협하는 가장 큰 요인이 되고 있습니다.
월 30달러의 Midjourney 구독료로 Orkhan의 작품과 스타일적으로 충분히 유사한 작품을 얻을 수 있는데 왜 500달러의 커미션 비용을 지불할까요?
반유토피아적으로 들리나요?
기술의 가장 큰 장점은 거의 항상 스스로 문제를 해결할 수 있는 새로운 방법을 제시한다는 것입니다. 크리에이터에게 암울해 보이는 상황을 뒤집어 생각해보면, 오히려 전례 없는 규모로 재능을 수익화할 수 있는 기회라는 것을 알게 될 것입니다.
AI를 사용하기 전에는 오칸이 만들 수 있는 작품의 양이 하루에 주어진 시간에 의해 제한되었습니다. 이제 AI를 통해 이론적으로 무제한의 고객에게 서비스를 제공할 수 있습니다.
뮤지션 Grimes의 AI 음악 플랫폼인 elf.tech를 살펴보겠습니다. elf.tech를 사용하면 노래의 녹음을 업로드하면 Grimes의 사운드와 스타일로 변환할 수 있습니다. 노래에서 발생하는 모든 로열티는 Grimes와 제작자가 50 대 50으로 나눕니다. 즉, Grimes의 팬으로서 그녀의 목소리, 콘서트 또는 배포에 대한 아이디어를 올리기만 하면 플랫폼이 AI를 사용하여 이를 Grimes의 목소리로 변환합니다.
노래가 입소문을 타면 여러분과 Grimes 모두에게 이익이 됩니다. 또한 Grimes는 자신의 재능을 확장하고 유통을 통해 수익을 창출할 수 있습니다.
elf.tech를 구동하는 기술인 트리니티는 크리에이트세이프에서 만든 툴입니다. 이 라이트페이퍼는 블록체인과 제너레이티브 AI 기술 사이에서 예상되는 가장 흥미로운 교차점 중 하나를 보여줍니다.
제작자가 제어하는 스마트 계약을 통해 디지털 콘텐츠의 정의를 확장하고 블록체인 기반의 P2P 유료 소액 거래를 통해 배포를 재구상하면 모든 스트리밍 플랫폼이 디지털 콘텐츠를 즉시 검증하고 액세스할 수 있습니다. 그런 다음 생성 AI는 제작자가 지정한 조건에 따라 즉시 소액 결제를 수행하고 소비자에게 경험을 스트리밍합니다.
발라지는 이를 보다 간결하게 표현했습니다.
새로운 미디어의 등장으로 우리는 새로운 매체의 등장으로 어떻게 상호작용할지 궁금합니다. 새로운 매체가 웹과 결합하면 강력한 변화의 원동력이 됩니다. 책은 개신교 혁명의 원동력이 되었습니다. 라디오와 텔레비전은 냉전 시대에도 중요한 역할을 했습니다. 미디어는 보통 양날의 검입니다. 좋은 쪽으로 쓰일 수도 있고 나쁜 쪽으로 쓰일 수도 있습니다.
오늘날에는 대부분의 사용자 데이터를 소유한 중앙 집중식 기업이 존재합니다. 우리는 기업이 창의성, 정신 건강, 더 나은 사회를 위해 옳은 일을 할 것이라고 믿고 있는 것과 마찬가지입니다. 내부 사정을 잘 모르는 소수의 기업에게 너무 많은 권한을 넘겨주기에는 너무 큰 권한입니다.
우리는 아직 LLM 혁명의 초기 단계에 있습니다. 2016년의 이더리움처럼 어떤 종류의 앱이 이를 이용해 만들어질지 알 수 없습니다. 힌디어로 할머니와 대화하는 LLM, 정보의 흐름을 탐색하여 고품질 데이터만 제시하는 지능형 에이전트? 독립적인 기여자들이 은어와 같은 문화별 뉘앙스를 공유할 수 있는 메커니즘? 아직 그 가능성에 대해서는 잘 알려져 있지 않습니다.
그러나 분명한 것은 이러한 앱을 구축하는 데 있어 한 가지 핵심 요소인 데이터에 의해 제한될 것이라는 점입니다.
그래스, 마사, 베이글과 같은 프로토콜은 공정한 방식으로 데이터를 소싱하는 인프라입니다. 그 위에 무엇을 구축할 수 있을지는 인간의 상상력이 한계입니다. 제게는 그 점이 흥미로워 보입니다.
완전 동형 암호화(FHE)에 대한 소개: 흥미로운 응용 분야와 한계, 그리고 이 기술의 인기를 견인하는 최신 개발 동향을 살펴봅니다.
JinseFinance자마가 7,300만 달러의 펀딩을 마감하면서 완전한 동형 암호화폐 생태계가 모습을 드러냈습니다.
JinseFinance영지식 증명(ZKP)은 웹3.0의 확장성과 개인정보 보호를 개선하는 데 분명 유용하지만, 암호화되지 않은 데이터를 처리하기 위해 타사에 의존해야 한다는 단점이 있습니다.
JinseFinance4월 20일, 글로벌 암호화 연합 회원을 포함한 40개 이상의 단체와 사이버 보안 전문가들이 터키 정부에 종단 간 암호화를 훼손하지 말 것을 촉구하는 공동 성명을 발표했습니다.
Pr0phetMoggy이 기사는 디지털 아트의 배포 메커니즘으로 "NFT(Non-Fungible Tokens)"를 사용하는 것을 포함하여 최근 부상하고 있는 "암호화 아트" 분야에 대한 개요입니다.
FtftxBlockchain Life의 창립자에 따르면 러시아에 뿌리를 둔 많은 암호 화폐 거래소가 국가를 떠났거나 불법적으로 운영되고 있습니다.
Cointelegraph하원 민주당 원 그룹의 최신 제안은 세금 코드 업데이트가 "중개 서비스에 관여하지 않는"암호화 엔터티에 영향을 미치는 방식을 변경하려고 합니다.
Cointelegraph