Xu hướng từ chối tham gia ngày càng tăng trong số các nhà xuất bản lớn
Nhiều nhà xuất bản và nền tảng xã hội lớn đang lựa chọn loại trừ dữ liệu của họ khỏi chương trình đào tạo AI của Apple.
Sự phát triển này diễn ra chưa đầy ba tháng sau khi Apple giới thiệu Applebot-Extended, một công cụ được thiết kế để cung cấp cho chủ sở hữu trang web khả năng từ chối cho phép dữ liệu của họ được sử dụng để đào tạo các mô hình AI của Apple.
Các thực thể nổi tiếng như Facebook, Instagram, Craigslist, Tumblr,Thời báo New York Financial Times, The Atlantic, Vox Media và công ty mẹ của WIRED, Condé Nast, đã tận dụng lựa chọn này.
Tờ New York Times là một trong những tờ báo đầu tiên chặn tin này.
Phản ứng quan trọng này cho thấy xung đột ngày càng gia tăng về việc sử dụng dữ liệu web để đào tạo hệ thống AI và làm nổi bật sự thay đổi trong nhận thức về trình thu thập dữ liệu web, vốn trước đây được sử dụng để thu thập thông tin cho nhiều dịch vụ internet khác nhau.
Sự phát triển của Applebot và sự xuất hiện của Applebot-Extended
Applebot, ban đầu được ra mắt vào năm 2015, được thiết kế để nâng cao chức năng tìm kiếm của Apple, bao gồm Siri và Spotlight.
Tuy nhiên, khi các sáng kiến AI của Apple mở rộng, mục đích của Applebot cũng mở rộng.
Dữ liệu thu thập được bắt đầu được sử dụng để đào tạo các mô hình AI cơ bản của Apple.
Để giải quyết mối lo ngại của các nhà xuất bản và người sáng tạo nội dung về cách dữ liệu của họ được sử dụng, Apple đã giới thiệu Applebot-Extended.
Tiện ích mở rộng mới này cho phép chủ sở hữu trang web yêu cầu cụ thể rằng dữ liệu của họ không được sử dụng cho mục đích đào tạo AI.
Không giống như Applebot ban đầu, tiếp tục thu thập dữ liệu trang web để phục vụ chức năng tìm kiếm, Applebot-Extended chỉ tập trung vào việc sử dụng dữ liệu cho các dự án AI.
Phản ứng của nhà xuất bản và thông tin chi tiết về dữ liệu
Phản ứng đối với Applebot-Extended rất đáng kể khi nhiều nhà xuất bản đã lựa chọn chặn nó.
Dữ liệu từ công ty khởi nghiệp phát hiện AI có trụ sở tại Ontario là Originality AI cho thấy, tính đến tuần trước, khoảng 7 phần trăm các trang web có lưu lượng truy cập cao, chủ yếu là các kênh tin tức và truyền thông, đã chặn Applebot-Extended.
Tuần này, một phân tích của Dark Visitors cho thấy có khoảng 6 phần trăm trang web đã chặn bot.
Tỷ lệ phần trăm tương đối thấp này cho thấy nhiều chủ sở hữu trang web vẫn chưa nhận thấy xung đột hoặc vẫn chưa biết đến tùy chọn loại trừ Applebot-Extended.
Ben Welsh, một nhà báo dữ liệu, phát hiện ra rằng hơn một phần tư các trang web tin tức mà ông khảo sát đang chặn Applebot-Extended.
Điều này so sánh với 53 phần trăm các trang web tin tức chặnOpenAI và gần 43 phần trăm chặn bot AI chuyên dụng của Google, Google-Extended.
Welsh lưu ý rằng số lượng các trang web chặn Applebot-Extended đã "dần dần" tăng lên, cho thấy nhận thức và hành động đang ngày càng tăng.
Quyết định chiến lược và quan hệ đối tác
Quyết định chặn hay cho phép Applebot-Extended của các nhà xuất bản lớn thường phản ánh những cân nhắc chiến lược rộng hơn.
Ví dụ, Condé Nast trước đây đã bị chặnOpenAI trình thu thập dữ liệu web của Google nhưng đã bỏ chặn chúng sau thông báo hợp tác gần đây.
Động thái này cho thấy một chiến lược kinh doanh trong đó quyền truy cập dữ liệu được đàm phán như một phần của các thỏa thuận thương mại.
Vox Media cũng đã chọn chặn Applebot-Extended và các công cụ thu thập dữ liệu AI khác trừ khi có sự hợp tác, nhấn mạnh ý định bảo vệ giá trị nội dung đã xuất bản của họ.
Ngược lại, tờ New York Times, làhiện đang tham gia vào vụ kiện chống lại OpenAI về vấn đề bản quyền , đã chỉ trích bản chất từ chối tham gia của Applebot-Extended.
Charlie Stadtlander, giám đốc truyền thông đối ngoại của NYT, chỉ ra:
"Theo luật pháp và các điều khoản dịch vụ của The Times nêu rõ, việc sao chép hoặc sử dụng nội dung của chúng tôi cho mục đích thương mại là bị nghiêm cấm nếu không có sự cho phép trước bằng văn bản của chúng tôi."
Quan điểm này làm nổi bật cuộc tranh luận đang diễn ra về mối quan hệ giữa quyền nội dung và đào tạo AI.
Cách từ chối Applebot-Extended
Đối với những chủ sở hữu trang web muốn từ chối tham gia Applebot-Extended, quy trình này rất đơn giản.
Đầu tiên, hãy tìm hoặc tạo tệp robots.txt trên trang web của bạn.
Để chặn Applebot, hãy thêm các dòng sau:
Tác nhân người dùng: Applebot
Không cho phép: /
Để chặn Applebot-Extended một cách cụ thể, hãy bao gồm:
Tác nhân người dùng: Applebot-Extended
Không cho phép: /
Cuối cùng, lưu tệp và tải nó lên thư mục gốc của trang web của bạn.
Bằng cách này, Apple sẽ không sử dụng dữ liệu trang web của bạn để đào tạo các mô hình AI, mặc dù nội dung của bạn vẫn có thể truy cập được để sử dụng cho các chức năng tìm kiếm.
Như Apple giải thích:
"Applebot-Extended không thu thập dữ liệu trang web. Các trang web không cho phép Applebot-Extended vẫn có thể được đưa vào kết quả tìm kiếm. Applebot-Extended chỉ được sử dụng để xác định cách sử dụng dữ liệu được thu thập bởi tác nhân người dùng Applebot."
Sự điều chỉnh này trong bối cảnh kỹ thuật số phản ánh cuộc tranh luận rộng hơn về quyền dữ liệu và vai trò ngày càng phát triển của AI trong việc tạo và phân phối nội dung.
Tương lai có thể sẽ mang đến nhiều bước phát triển hơn nữa khi các nhà xuất bản, công ty công nghệ và nhà phát triển AI giải quyết những vấn đề phức tạp này.