出典:PermaDAO
FirstBatchは、Arweave上に格納されたオープンソースの知識集約プラットフォームであるDriaの親会社であり、人間と機械の間の知識交換を構築することを目的としている。".最近FirstBatchは、分散型AIを検証する研究論文シリーズを開始し、データ集約問題と分散化の出会いに焦点を当てている。この投稿では、最初の研究論文である「データ集約:品質、著作権、所有権」を案内し、分散化がデータ集約問題の解決策をどのように提供するか、また分散化ソリューションのリスクや課題についても見ていきます。
データ収集で遭遇する問題を分散化が解決する方法
現在のAIチームや開発者は、データ収集で次のような問題に遭遇しています:
1.十分なデータを収集できない
2.質の高いデータを収集できない
3.>3.ストレージの問題
4.プライバシーの管理
5.著作権の問題
分散化がこれらの問題のそれぞれにどのような解決策を提供するかを見ていきます。現在、データの種類とソースは、テキストと特定の業種に限られている。FirstBatchは、チームや個人にデータのレビューやフィルタリングを促す社会的または金銭的なインセンティブを想定しており、これによって新しいタイプのデータを導入する速度が大幅に向上し、データソースの種類も増えるだろう。
現在のAI開発者の課題は、質の高いデータを収集できないことと、収集したデータの質を検出するのが難しいことです。というのは、データソースには重複したデータや古いデータが多く、データの質を自動的に検出することは、現時点では簡単な作業ではないからです。strong>自動検出はデータの正確さと質を低下させる。 Hugging Face、Kaggle、ウィキペディアのようなオープンデータ・プラットフォームがデータの質を向上させた経験からヒントを得て、FirstBatchは、すべての人がデータのフィルタリング、レビュー、評価のプロセスに参加できるように、分散型のオープンデータ・ハブを構築することを提案する。これによって、データセットの品質を保証することに専念する小規模チームの処理圧力を軽減し、データが単一の組織によって操作されたり干渉されたりするのを防ぐことができる。適切なインセンティブが導入されれば、このような分散型のオープンデータセンターとコミュニティベースのデータレビュープロセスによって、高速かつ大量に流れ込んでくるデータの質を確保することができる。FirstBatchの製品であるDriaは現在、このような分散型のグローバル・ナレッジ・ハブを構築している。
ストレージに関するAIプロジェクトの問題は、コストとメンテナンスの問題だ。データ量の増大と、それに伴うサブスクリプションコストの上昇に直面したこれらのユーザーは、割引を得るために事前に多くのスペースを購入することを考えたが、それは財政的にも技術的にも同様に無駄である。FirstBatchは、データを永久に保存し、データ損失のリスクから保護するArweaveにデータを保存することを選択しました。それだけでなく、その上で共有データプールを作成し、人々が異なるデータを保存できるようにすることで、異なるデータを同じ場所に保存することができ、同じデータを異なる場所に保存することで、無駄なスペースや無駄なストレージコストが発生するという問題を解決することができます。
データには個人を特定するデータが含まれることになるが、これはプライベートなものであり、このデータのスクリーニングを共同プラットフォーム上で何千人もの人がレビューできるように公開することは、いくつかのプライバシー規制に違反することになる。FirstBatchは、ゼロ知識証明(zero-knowledge proof)またはDID技術を活用し、このプライベートなデータが一般に利用可能なデータ・スクリーニング・プラットフォームに入る前に、将来のオンライン活動データをプライバシー保護モードにできるようにすることを提案します。
多くのオンラインプラットフォームやメディア組織は、AIモデルの訓練や使用がオリジナルコンテンツを侵害するとして、AI企業による著作物の使用に異議を唱えてきました。NFTは、チェーン上の行動の透明性と不変性により、クリエイティブ/IP素材の所有権を非常に明確かつ透明なものにします。これらのトークンは、どの素材がどのようなプロセスの対象であるかを検証・特定するために使用することができ、データクレンジングプロセスや訴訟への対応を容易にします。
分散型ソリューションのリスクと課題
分散型ソリューションが優れているほど、残る問題は、ユーザーの匿名性がもたらすリスクです。たとえば、著作権や有害なコンテンツに関する規制の問題になると、匿名性の違反はさらに大きな問題を引き起こし、プラットフォームを危険にさらす可能性があります。分散型ネットワークにデータを永久保存する場合、アップロードされたデータには有害なコンテンツが含まれている可能性があり、大量のデータ検閲があったとしても、漏洩を避ける方法はまだない。
大きな課題の1つは、データ量と質のインセンティブにどのように重みを与えるかです。なぜなら、プラットフォームがどのように構成されていても、より低品質なデータをアップロードする人や、より高品質だがデータ量が少ない人は必ず存在するからだ。
まとめ
分散型AIデータ収集プラットフォームがさらに進化すれば、よりスムーズなデータ収集プロセスのために、より優れたオーケストレーションパラダイムを育成する機会が増えるでしょう。また、データの量と質の向上に関するFirstBatchのDriaからのさらなる朗報にも期待したい。