출처:PermaDAO
FirstBatch는 인간과 기계 간의 지식 교환을 목표로 하는 Arweave에 저장된 오픈소스 지식 통합 플랫폼인 Dria의 모회사로, 'AI 버전의 위키백과'라고 불리고 있습니다. ". 최근 퍼스트배치는 데이터 집계 문제와 탈중앙화가 만나는 지점에 초점을 맞춰 탈중앙화 AI에 대한 연구 논문 시리즈를 시작했습니다. 이번 포스팅에서는 첫 번째 연구 논문인 "데이터 집계: 품질, 저작권, 소유권"을 통해 탈중앙화가 데이터 집계 문제에 대한 해결책을 제공하는 방법과 탈중앙화 솔루션의 위험과 과제를 살펴볼 것입니다.
탈중앙화가 데이터 수집에서 발생하는 문제를 해결하는 방법
현재 AI 팀과 개발자들이 데이터 수집에서 직면하는 문제:
1. 충분한 데이터를 수집하지 못함
2. 양질의 데이터를 수집하지 못함
3.
3. 저장 문제
4. 개인정보 보호 문제
5. 저작권 문제
탈중앙화가 이러한 각 문제에 대한 해결책을 어떻게 제공하는지 살펴볼 것입니다.
메타의 수석 AI 과학자는 수집되는 데이터의 양과 관련하여 LLM이 매우 큰 발전을 이루었음에도 불구하고 AI 모델 학습에 사용되는 데이터의 양은 여전히 4세 어린이가 이용할 수 있는 정보의 양과 비교되지 않는다고 지적했습니다. 현재 데이터의 유형과 출처는 텍스트와 특정 업종으로 제한되어 있습니다. FirstBatch는 팀이나 개인이 데이터를 검토하고 필터링하도록 장려하기 위해 사회적 또는 재정적 인센티브를 제공함으로써 새로운 유형의 데이터 도입 속도와 데이터 소스의 다양성을 크게 늘릴 수 있는 방안을 구상하고 있습니다.
오늘날 AI 개발자들이 직면한 과제는 양질의 데이터를 수집할 수 없다는 점과 수집한 데이터의 품질을 감지하기 어렵다는 점인데, 데이터 소스에는 중복되고 오래된 데이터가 많고 데이터의 품질을 자동적으로 감지하는 것은 현재로서는 쉬운 일이 아니기 때문이죠. 자동 감지는 데이터의 정확도와 품질을 떨어뜨립니다. 퍼스트배치는 허깅 페이스, 캐글, 위키피디아 같은 오픈 데이터 플랫폼의 데이터 품질 개선 경험에서 영감을 얻어 모든 사람들이 데이터를 필터링, 검토, 평가하는 과정에 참여할 수 있도록 분산형 오픈 데이터 허브를 구축할 것을 제안합니다. 이렇게 하면 데이터 세트의 품질을 보장하는 소규모 팀의 처리 부담을 줄이고, 단일 조직에 의해 데이터가 조작되거나 간섭받는 것을 방지할 수 있습니다. 적절한 인센티브가 제공된다면, 이러한 분산형 오픈 데이터 센터와 커뮤니티 기반의 데이터 검토 프로세스는 빠른 속도로 대량으로 유입되는 데이터의 품질을 보장할 수 있습니다. FirstBatch의 제품인 Dria는 현재 이러한 탈중앙화된 글로벌 지식 허브를 구축하고 있습니다.
스토리지에 대한 AI 프로젝트의 문제는 비용과 유지보수입니다. 데이터의 양이 증가하고 그에 따른 구독 비용의 상승에 직면한 사용자들은 할인을 받기 위해 더 많은 공간을 선불로 구매하는 것을 고려했지만, 이는 재정적, 기술적 관점에서 낭비일 수 있습니다. FirstBatch는 데이터를 영구적으로 저장하고 데이터 손실의 위험으로부터 보호하는 Arweave에 데이터를 저장하기로 결정했습니다. 뿐만 아니라 상단에 공유 데이터 풀을 생성하여 여러 사람이 서로 다른 데이터를 저장할 수 있도록 함으로써 동일한 데이터를 여러 곳에 저장하여 공간 낭비와 스토리지 비용 낭비를 초래하는 문제를 해결할 수 있습니다.
데이터에는 개인을 식별할 수 있는 개인정보가 포함될 수 있으며, 이 데이터를 협업 플랫폼에서 수천 명이 검토할 수 있도록 공개하면 일부 개인정보 보호 규정에 위배될 수 있습니다. FirstBatch는 영지식 증명 또는 DID 기술을 활용하여 향후 온라인 활동 데이터가 공개적으로 사용 가능한 데이터 심사 플랫폼에 들어가기 전에 프라이버시 보호 모드로 전환할 수 있도록 할 것을 제안합니다.
많은 온라인 플랫폼과 미디어 조직은 AI 모델의 학습과 사용이 원본 콘텐츠를 침해한다고 주장하며 AI 회사의 저작권 자료 사용에 이의를 제기해 왔습니다. NFT는 체인상의 행동의 투명성과 불변성으로 인해 크리에이티브/IP 자료의 소유권을 매우 명확하고 투명하게 만듭니다. 이러한 토큰은 어떤 자료가 어떤 유형의 프로세스의 적용을 받는지 검증하고 식별하는 데 사용할 수 있어 데이터 클린징 프로세스와 소송 대응을 더 쉽게 만들어줍니다.
탈중앙화 솔루션의 위험과 과제
탈중앙화 솔루션의 장점만큼이나 남아있는 문제점은 사용자의 익명성으로 인해 발생하는 위험입니다. 예를 들어 저작권이나 유해 콘텐츠와 관련된 규제 문제와 관련하여 익명성 위반은 더 큰 문제를 야기하여 플랫폼을 위험에 빠뜨릴 수 있습니다. 탈중앙화 네트워크에 데이터를 영구적으로 저장하는 경우 업로드된 데이터에 유해한 콘텐츠가 포함될 수 있으며, 대량 데이터 검열을 하더라도 유출을 피할 수 있는 방법이 없습니다.
현존하는 큰 과제 중 하나는 데이터 양과 품질 인센티브에 가중치를 부여하는 방법입니다. 플랫폼의 구조에 상관없이 품질이 낮은 데이터를 더 많이 업로드하거나 품질은 높지만 양이 적은 데이터를 업로드하는 사람들은 항상 존재할 것이기 때문입니다.
요약
탈중앙화된 AI 데이터 수집 플랫폼이 더욱 발전함에 따라, 더 원활한 데이터 수집 프로세스를 위한 더 나은 오케스트레이션 패러다임을 육성할 수 있는 기회가 더 많아질 것입니다. 또한 데이터의 양과 질을 개선하는 FirstBatch의 Dria에서 더 많은 좋은 소식을 기대합니다.