Harvard-Google hợp tác phát hành một triệu cuốn sách để đào tạo thế hệ AI tiếp theo
Harvard Trường đại học đã hợp tác với Google để công bố bộ dữ liệu gồm một triệu cuốn sách thuộc phạm vi công cộng nhằm thúc đẩy quá trình đào tạo AI.
Bộ sưu tập đa dạng này bao gồm nhiều thể loại, ngôn ngữ và tác phẩm của nhiều tác giả tiêu biểu như Dickens, Dante và Shakespeare, những tác phẩm của họ đã thuộc phạm vi công cộng vì đã quá cũ.
Sáng kiến này giải quyết chi phí cao thường liên quan đến dữ liệu đào tạo AI, khiến nó trở thành nguồn lực có giá trị để thúc đẩy sự đổi mới trong phát triển AI.
Các gã khổng lồ công nghệ ủng hộ sáng kiến
Sáng kiến Dữ liệu Thể chế Harvard (IDI) đang dẫn đầu nỗ lực đột phá nhằm cung cấp một tập dữ liệu toàn diện có nguồn gốc từ dự án quét sách mở rộng của Google,Google Sách.
Bộ sưu tập này bao gồm nhiều loại văn bản, từ sách giáo khoa toán của Séc đến từ điển bỏ túi tiếng Wales, cung cấp nhiều kiến thức hữu ích cho việc đào tạo AI.
Ban đầu được hé lộ vào tháng 3, IDI đã công bố kế hoạch tạo ra một "kênh truyền dữ liệu pháp lý đáng tin cậy cho AI", với rất ít hoạt động theo dõi cho đến khi chính thức ra mắt vào thứ năm.
Được tài trợ bởi những gã khổng lồ công nghệ Microsoft vàOpenAI Sáng kiến này được thiết kế nhằm cung cấp dữ liệu chất lượng cao, có thể truy cập công khai không chỉ cho các tập đoàn lớn mà còn cho các phòng nghiên cứu và công ty khởi nghiệp AI muốn đào tạo các mô hình ngôn ngữ lớn.
Giám đốc điều hành IDI Greg Leppert nhấn mạnh rằng tập dữ liệu này nhằm mục đích tạo ra sự cân bằng, giảm bớt rào cản cho các công ty nhỏ đang phải đối mặt với chi phí đào tạo quá cao.
Ông cũng đảm bảo rằng tập dữ liệu sẽ được xem xét nghiêm ngặt để đảm bảo chất lượng và độ chính xác.
Vẫn cần thêm nhiều nguồn lực
Leppert, so sánh tiềm năng củaHarvard so với hệ điều hành Linux nguồn mở, lưu ý rằng thành công của nó phụ thuộc vào sự kết hợp giữa các nguồn lực, chuyên môn và cái mà ông gọi là "một chút phép thuật" từ chính các tập đoàn mà sáng kiến này muốn thách thức.
Bộ dữ liệu bao gồm một triệu cuốn sách được quét quaGoogle Chương trình Sách của Google được một số người coi là một viên nang thời gian kỹ thuật số từ những ngày đầu của dự án đầy tham vọng của Google là quét mọi cuốn sách—một mục tiêu từng có vẻ kỳ quặc hơn là phản địa đàng.
Trong khi Leppert lạc quan về tiềm năng của tập dữ liệu, coi đây là nguồn tài nguyên có giá trị cho cả các công ty khởi nghiệp và các tập đoàn lớn, thì những người chỉ trích như Fudzilla lại coi đây là một cách tinh tế để những công ty lớn duy trì lợi thế trong cuộc đua AI tạo sinh.
Việc ra mắt ChatGPT vào tháng 11 năm 2022 đã thúc đẩy toàn cầu phát triển các mô hình AI tương tự, tạo ra nhu cầu ngày càng tăng về dữ liệu để tinh chỉnh các hệ thống này.
Tuy nhiên, cơn đói dữ liệu này đã làm dấy lên những lo ngại về mặt pháp lý, với các nhà xuất bản lớn như Wall Street Journal và New York Times đang kiệnOpenAI và Perplexity vì sử dụng dữ liệu của họ mà không có sự đồng ý.
Khi sự phát triển của AI ngày càng tăng tốc, sự cân bằng giữa quyền truy cập mở và quyền sở hữu trí tuệ vẫn là một vấn đề quan trọng và gây tranh cãi.