出典:shaoshalawyer
先月、イタリアのプライバシー規制当局Garanteは、OpenAIがEUの規制に1つ以上の違反を犯しており、ChatGPTがユーザーデータの収集を利用することは、同国のプライバシー法に違反しているとの見解を発表した。ユーザーデータの収集のChatGPTの使用は、同国のプライバシー法に違反していた。ジェネレーティブAIブームの火付け役となったChatGPTが、またしてもデータ・コンプライアンス騒動に巻き込まれた。
データと演算はジェネレーティブAIの核心である。データ・セキュリティはジェネレーティブAIのコンプライアンスの核心である。 AIがデータへの依存度を高めている背景には、ジェネレーティブAIが秘密裏にデータを収集していることがあり、「インフォームド・コンセント」や「必要最小限」の原則に対する重大な挑戦となっている。同時に、ジェネレーティブAIは、運用段階におけるデータ漏洩の重大なリスクを伴う。これは個人情報の保護に深刻な脅威をもたらす。本日はSister Zaのチームが、ジェネレーティブAIが個人情報セキュリティに与える課題とコンプライアンス要件についてお話しします。/h2>
個人情報を含むデータは、データの出所によって、個人情報を含むコーパスデータと、個人情報データを含むユーザーによってアップロードされたデータに大別されます。
生成AIはデータへの依存度が高く、学習要件を満たすために大量のデータを必要とする。このことから、生成AIは公開データと非公開データの両方を積極的に収集・処理することが多く、事前学習データのサイズは数十億から数百億のパラメータに達することも少なくありません。この中に個人情報が含まれている場合、個人情報保護法第27条によれば、「個人情報取扱事業者は、本人から明示的に拒否された場合を除き、合理的な範囲内で、本人が自発的に開示した個人情報又は適法に開示された個人情報を加工することができる」とされている。個人情報処理者は、開示された個人情報のうち、個人の権利利益に重大な影響を与えるものを処理する場合、本法の規定に従って、本人の同意を得なければならない。"また、「生成人工知能管理暫定弁法」第7条は、「生成人工知能サービス提供者(以下、提供者という)は、法律に従い、事前訓練や最適化訓練などの訓練情報処理活動を実施し、以下の規定を遵守しなければならない」と強調している。同意を得るか、または法令および行政規則で定めるその他の事情に従うこと。"しかし、データベースのデータ規模が大きすぎるため、情報主体の同意を一人ずつ得ることは難しい。
情報主体の同意を得ることが難しい以上、データベースの個人情報を直接削除することはできないのか。これも難しい。一方では、効果的な個人情報洗浄アルゴリズムが不足しており、ある種の技術的パラドックスがある。他方では、データベースの規模が巨大であるため、手作業によるデータ洗浄のコストが非常に高く、個人情報の二次流出の危険性がある。名前付きエンティティ認識に基づくデータクレンジング技術では、臨床健康データに対して97%(氏名)、80%(看護単位番号)の想起率があることが指摘されている。つまり、コーパスやデータベースに個人情報が存在すると、学習段階で個人情報のクリーニングが効きにくくなり、テック企業にとってはコンプライアンス上のリスクがある。妹座のチームは、コーパスデータを訓練に使用する場合、ハイテク企業は個人情報を含まないデータセットを選択するよう努めるとともに、認識アルゴリズムの精度を可能な限り向上させ、識別された個人情報を匿名化またはトリミングする必要があると指摘している。また、機械によるフィルタリングメカニズムに加え、レビュー側で手動によるレビューメカニズムを採用することも、害よりも益の方が大きいコンプライアンス対策です。
02 ユーザーがアップロードした情報の収集と使用。
ユーザーがアップロードしたデータは、「ユーザーが積極的に提供するデータ」と「ユーザーが消極的に提供するデータ」に分類できます。"ユーザーネガティブデータ "に分類されます。いわゆるユーザー正投与データとは、生成AIからのフィードバックを得るためにユーザーがアップロードした特定のデータを指す。ユーザー否定給データとは、生成AIアルゴリズムを含むアプリケーションまたはデバイスの他の機能を使用する目的で、ユーザーによってアップロードされたデータを意味する。
ジェネレーティブAIの操作では通常、ユーザーが特定のデータを積極的に「フィード」する必要があり、そのデータはアルゴリズムに基づいて分析され、フィードバックされます。このプロセスでは、人間とコンピュータのインタラクションデータが記録、保存、分析され、モデルアルゴリズムの反復学習のためのデータとなる可能性があります。しかし、サービスプロバイダがプロンプトの義務を果たせなかったり、ユーザのセキュリティ意識が低かったりといった状況では、ユーザが入力するデータには、ユーザの容姿、住所、連絡先といった個人情報が含まれる可能性が高い。生成AIの複雑なサービスモデルと多様な適用シナリオは、このリスクをさらに悪化させる。デジタル技術の発展に伴い、ユーザーのアイデンティティは連絡先、顔データ、指紋などに深く結びついており、ジェネレーティブAIはしばしば大量の個人情報を収集する。例えば、あるAI企業の有名なチャットボット・プログラムは、教育、科学研究、金融、メディア、エンターテインメントなど多くの分野で使用されており、そのチャットボットとのユーザーのチャット記録には、個人の身元、嗜好、習慣などの機密情報が大量に含まれている。このデータが悪人の手に渡れば、プライバシー侵害、個人情報窃盗、金融詐欺などのリスクにつながり、ユーザーに直接的な損害を与えることになる。
さらに、ジェネレーティブAIは幅広いシーンで利用されており、主要なアプリケーションやデバイスにまで組み込まれていることが多い。例えば今年1月には、あるブラウザが3大ジェネレーティブAI機能の導入を発表し、ある企業はジェネレーティブAI技術を搭載した世界初のスマートフォンを発売した。ジェネレーティブAI技術を使わなくても、ユーザーは関連アプリやデバイスを使用する際にデータを生成し、アップロードすることは避けられず、そのデータには個人情報であることが疑われる内容が含まれている可能性が高い。
「生成型人工知能管理暫定措置」の第11条では、「プロバイダーは、法律に従い、ユーザーの入力情報および利用記録を保護する義務を履行し、必要のない個人情報を収集してはならず、ユーザーを特定できる入力情報および利用記録を不法に保持してはならず、ユーザーの入力情報および利用記録を不法に他人に提供してはならない」と規定されている。利用者は、利用者の入力情報及び利用記録を不正に他人に提供してはならない。プロバイダは、法令に従い、本人からの個人情報等の照会、複写、訂正、追加又は削除の求めに速やかに応じ、処理するものとする。" 個人情報の保護に関する法律」や「児童の個人情報のネットワーク保護に関する規定」などの法令では、データの保存期間について義務的な要件を定めている。これに基づいて、利用者が自発的に提供した個人情報と疑われる情報を、サービス・プロバイダーが記録・保存できるかどうか、また保存期間については議論の余地がある。
同時に、このような情報をアルゴリズムの学習に利用できるかどうかも、やや議論の余地がある。生成人工知能管理暫定措置」の第7条は、「生成人工知能サービス提供者(以下、提供者)は、法律に従い、事前訓練、最適化訓練、その他の訓練データ処理活動を実施し、以下の規定を遵守しなければならない」と強調しています。(c)個人情報が関係する場合は、本人の同意を得るか、または法令および行政規則が定めるその他の事情を遵守すること。"初期利用のために取得されるユーザー承認は、アルゴリズム学習段階におけるデータ利用の要件をカバーするには不十分であり、テクノロジー企業は、この種のデータを利用する前に、より明確な利用承認を得るか、法令に規定されたその他の事情を遵守しなければならず、さもなければ、民法、行政法、あるいは刑法の関連規定に抵触する可能性がある。しかし、ユーザーからの明確な承認があったとしても、ジェネレーティブAIの運用段階ではデータ漏洩の大きなリスクがあり、テック企業はデータのセキュリティを確保できる場合にのみ、個人情報を含むデータを利用することができる。
生成の質を高めるために、多くのテック企業は保有データを充実させ、データ集約を増やす方法を見つけるだろう。例えば、あるAI企業のプライバシーポリシーの第2条には、"当社は、個人情報を集計または非特定化し、個人を特定するために使用されなくなるようにし、当社サービスの有効性を分析するため、当社サービスの機能を改善および追加するため、調査を実施するため、およびその他の同様の目的のために、そのような情報を使用することができる。"と記載されています。これは実現可能な選択肢であるが、「インフォームド・コンセント」の原則によれば、サービス提供者は情報提供義務を負う。すなわち、サービス提供者は、情報主体に対して、収集するデータの対象、目的、起こりうるリスク等を事前に説明し、情報主体の同意を得た上で、収集行為を実施する必要がある。同時に、テクノロジー企業は、その規定を厳格で強制的な通知条項とするのではなく、利用者に個人情報の利用を拒否する選択肢を提供すべきである。また、「必要最小限度」の原則に従い、技術企業は目的の達成に関連し、かつ影響が最小となる方法で個人情報を収集すべきであり、明確かつ具体的な方法で利用者から個人情報を収集すべきである。
03 結局のところ
ジェネレーティブAIは、従来のAIよりも情報収集に積極的で、データ濫用のリスクが高い傾向があります。.ジェネレーティブAIは、自らをアップグレードし最適化するために、大規模なコーパスやデータセットを通じて文脈理解を継続的に強化する必要があり、データ収集、データ保存、データ処理、データ生成などジェネレーティブAIの運用の様々な段階で、必然的に多くの個人情報や法的・コンプライアンス上のリスクを伴う。ビッグデータ時代における個人情報の意味合いや境界の曖昧さ、法規制の遅れ、技術的成果の追求などが、一部のテクノロジー企業によるこうしたリスクの軽視にもつながっている。業界の健全な発展のためにはコンプライアンスが大前提であり、成功の追求が法的なレッドラインを軽んじてはならないことを再認識させられる。