Đăng nhập/ Đăng ký

New York Times và các nhà xuất bản lớn khác từ chối sử dụng công cụ đào tạo AI của Apple – Tìm hiểu cách tự thực hiện

2024/09/02 18:04

Theo dõi

Xu hướng từ chối tham gia ngày càng tăng trong số các nhà xuất bản lớn

Nhiều nhà xuất bản và nền tảng xã hội lớn đang lựa chọn loại trừ dữ liệu của họ khỏi chương trình đào tạo AI của Apple.

Sự phát triển này diễn ra chưa đầy ba tháng sau khi Apple giới thiệu Applebot-Extended, một công cụ được thiết kế để cung cấp cho chủ sở hữu trang web khả năng từ chối cho phép dữ liệu của họ được sử dụng để đào tạo các mô hình AI của Apple.

Các thực thể nổi tiếng như Facebook, Instagram, Craigslist, Tumblr,Thời báo New York Financial Times, The Atlantic, Vox Media và công ty mẹ của WIRED, Condé Nast, đã tận dụng lựa chọn này.

Tờ New York Times là một trong những tờ báo đầu tiên chặn tin này.

Phản ứng quan trọng này cho thấy xung đột ngày càng gia tăng về việc sử dụng dữ liệu web để đào tạo hệ thống AI và làm nổi bật sự thay đổi trong nhận thức về trình thu thập dữ liệu web, vốn trước đây được sử dụng để thu thập thông tin cho nhiều dịch vụ internet khác nhau.

Sự phát triển của Applebot và sự xuất hiện của Applebot-Extended

Applebot, ban đầu được ra mắt vào năm 2015, được thiết kế để nâng cao chức năng tìm kiếm của Apple, bao gồm Siri và Spotlight.

Tuy nhiên, khi các sáng kiến AI của Apple mở rộng, mục đích của Applebot cũng mở rộng.

Dữ liệu thu thập được bắt đầu được sử dụng để đào tạo các mô hình AI cơ bản của Apple.

Để giải quyết mối lo ngại của các nhà xuất bản và người sáng tạo nội dung về cách dữ liệu của họ được sử dụng, Apple đã giới thiệu Applebot-Extended.

Tiện ích mở rộng mới này cho phép chủ sở hữu trang web yêu cầu cụ thể rằng dữ liệu của họ không được sử dụng cho mục đích đào tạo AI.

Không giống như Applebot ban đầu, tiếp tục thu thập dữ liệu trang web để phục vụ chức năng tìm kiếm, Applebot-Extended chỉ tập trung vào việc sử dụng dữ liệu cho các dự án AI.

Phản ứng của nhà xuất bản và thông tin chi tiết về dữ liệu

Phản ứng đối với Applebot-Extended rất đáng kể khi nhiều nhà xuất bản đã lựa chọn chặn nó.

Dữ liệu từ công ty khởi nghiệp phát hiện AI có trụ sở tại Ontario là Originality AI cho thấy, tính đến tuần trước, khoảng 7 phần trăm các trang web có lưu lượng truy cập cao, chủ yếu là các kênh tin tức và truyền thông, đã chặn Applebot-Extended.

Tuần này, một phân tích của Dark Visitors cho thấy có khoảng 6 phần trăm trang web đã chặn bot.

Tỷ lệ phần trăm tương đối thấp này cho thấy nhiều chủ sở hữu trang web vẫn chưa nhận thấy xung đột hoặc vẫn chưa biết đến tùy chọn loại trừ Applebot-Extended.

Ben Welsh, một nhà báo dữ liệu, phát hiện ra rằng hơn một phần tư các trang web tin tức mà ông khảo sát đang chặn Applebot-Extended.

Điều này so sánh với 53 phần trăm các trang web tin tức chặnOpenAI và gần 43 phần trăm chặn bot AI chuyên dụng của Google, Google-Extended.

Welsh lưu ý rằng số lượng các trang web chặn Applebot-Extended đã "dần dần" tăng lên, cho thấy nhận thức và hành động đang ngày càng tăng.

Quyết định chiến lược và quan hệ đối tác

Quyết định chặn hay cho phép Applebot-Extended của các nhà xuất bản lớn thường phản ánh những cân nhắc chiến lược rộng hơn.

Ví dụ, Condé Nast trước đây đã bị chặnOpenAI trình thu thập dữ liệu web của Google nhưng đã bỏ chặn chúng sau thông báo hợp tác gần đây.

Chúng tôi đang hợp tác với Condé Nast để tăng cường tích hợp báo chí chất lượng vào ChatGPT và nguyên mẫu SearchGPT của chúng tôi.https://t.co/tiXqSOTNAl
— OpenAI (@OpenAI)Ngày 20 tháng 8 năm 2024

Các nhà xuất bản và tổ chức tin tức đã ký thỏa thuận với OpenAI:

- Condé Nast
– Hãng thông tấn Associated Press
- Axel Springer
– Đại Tây Dương
– Meredith của Dotdash
– Thời báo Tài chính
"LeMonde."
– Tin tức Corp
- Vội vàng trung bình
- Thời gian
– Phương tiện truyền thông Voxhttps://t.co/9xUHfrgrQl ảnh.twitter.com/KBCiT7Tj26
— Đa dạng (@Variety)Ngày 20 tháng 8 năm 2024

Động thái này cho thấy một chiến lược kinh doanh trong đó quyền truy cập dữ liệu được đàm phán như một phần của các thỏa thuận thương mại.

Vox Media cũng đã chọn chặn Applebot-Extended và các công cụ thu thập dữ liệu AI khác trừ khi có sự hợp tác, nhấn mạnh ý định bảo vệ giá trị nội dung đã xuất bản của họ.

Ngược lại, tờ New York Times, làhiện đang tham gia vào vụ kiện chống lại OpenAI về vấn đề bản quyền , đã chỉ trích bản chất từ chối tham gia của Applebot-Extended.

TIN TỨC: NY Times kiện OpenAI và Microsoft vì sử dụng tác phẩm có bản quyền

Vụ kiện tuyên bố rằng hàng triệu bài viết từ tờ The New York Times đã được sử dụng để đào tạo các chatbot hiện đang cạnh tranh với tờ báo nàypic.twitter.com/UAeyznJBfD
— Tin tức hàng ngày X (@xDaily)Ngày 27 tháng 12 năm 2023

Charlie Stadtlander, giám đốc truyền thông đối ngoại của NYT, chỉ ra:

"Theo luật pháp và các điều khoản dịch vụ của The Times nêu rõ, việc sao chép hoặc sử dụng nội dung của chúng tôi cho mục đích thương mại là bị nghiêm cấm nếu không có sự cho phép trước bằng văn bản của chúng tôi."

Quan điểm này làm nổi bật cuộc tranh luận đang diễn ra về mối quan hệ giữa quyền nội dung và đào tạo AI.

Cách từ chối Applebot-Extended

Đối với những chủ sở hữu trang web muốn từ chối tham gia Applebot-Extended, quy trình này rất đơn giản.

Đầu tiên, hãy tìm hoặc tạo tệp robots.txt trên trang web của bạn.

Để chặn Applebot, hãy thêm các dòng sau:

Tác nhân người dùng: Applebot
Không cho phép: /

Để chặn Applebot-Extended một cách cụ thể, hãy bao gồm:

Tác nhân người dùng: Applebot-Extended
Không cho phép: /

Cuối cùng, lưu tệp và tải nó lên thư mục gốc của trang web của bạn.

Bằng cách này, Apple sẽ không sử dụng dữ liệu trang web của bạn để đào tạo các mô hình AI, mặc dù nội dung của bạn vẫn có thể truy cập được để sử dụng cho các chức năng tìm kiếm.

Như Apple giải thích:

"Applebot-Extended không thu thập dữ liệu trang web. Các trang web không cho phép Applebot-Extended vẫn có thể được đưa vào kết quả tìm kiếm. Applebot-Extended chỉ được sử dụng để xác định cách sử dụng dữ liệu được thu thập bởi tác nhân người dùng Applebot."

Sự điều chỉnh này trong bối cảnh kỹ thuật số phản ánh cuộc tranh luận rộng hơn về quyền dữ liệu và vai trò ngày càng phát triển của AI trong việc tạo và phân phối nội dung.

Tương lai có thể sẽ mang đến nhiều bước phát triển hơn nữa khi các nhà xuất bản, công ty công nghệ và nhà phát triển AI giải quyết những vấn đề phức tạp này.

Artificial Intelligence

Có được sự hiểu biết rộng hơn về ngành công nghiệp tiền điện tử thông qua các báo cáo thông tin và tham gia vào các cuộc thảo luận chuyên sâu với các tác giả và độc giả cùng chí hướng khác. Chúng tôi hoan nghênh bạn tham gia vào cộng đồng Coinlive đang phát triển của chúng tôi:https://t.me/CoinliveSG

Thêm bình luận

Đăng nhậpđể lại nhận xét tuyệt vời của bạn…

0 Bình luận

Sớm nhất

Tải thêm bình luận