Nguồn: Tencent Technology
Một ngày vào tháng 10 năm 2023, trong phòng thí nghiệm OpenAI, một mô hình có tên Q* đã trình diễn một số khả năng chưa từng có.
Là nhà khoa học trưởng của công ty, Ilya Sutskever có thể là một trong những người đầu tiên nhận ra tầm quan trọng của bước đột phá này.
Tuy nhiên, vài tuần sau, tình trạng hỗn loạn trong quản lý tại Open AI nổ ra làm rung chuyển Thung lũng Silicon: Sam Altman bất ngờ bị sa thải và sau đó được phục hồi chức vụ nhờ sự ủng hộ của các kiến nghị của nhân viên và Microsoft Sutskever quyết định rời khỏi công ty do mình đồng sáng lập sau cuộc tranh cãi.
Mọi người đều suy đoán rằng Ilya đã nhìn thấy khả năng của một loại AGI nào đó, nhưng tin rằng rủi ro bảo mật của nó là cực kỳ cao và không nên tung ra. Kết quả là anh và Sam xảy ra bất đồng lớn. Vào thời điểm đó, Bloomberg đã báo cáo một lá thư cảnh báo từ các nhân viên của OpenAI về mô hình mới, nhưng các chi tiết cụ thể vẫn được giữ bí ẩn.
Kể từ đó, "Ilya đã nhìn thấy gì?" đã trở thành một trong những chủ đề được bàn tán nhiều nhất trong giới AI vào năm 2024.
(Ilya Sutskever)
Cho đếnTuần này, thông tin được tiết lộ trong một cuộc phỏng vấn của Noam Brown, nhà khoa học đằng sau GPT-o1, đã giải đáp được bí ẩn.
Anh ấy nói rằng vào năm 2021, anh ấy và Ilya đã thảo luận về thời điểm hiện thực hóa AGI. Vào thời điểm đó, anh ấy tin rằng không thể đạt được AGI thông qua đào tạo thuần túy. , chỉ có thể đạt được AGI thông qua tính năng tăng cường suy luận được o1 áp dụng.
Ilya đã đồng ý với anh ấy vào thời điểm đó. Vào thời điểm đó, họ dự đoán rằng bước đột phá này sẽ mất ít nhất mười năm.
(Noam Brown đã tham gia cuộc phỏng vấn về Học tập không giám sát: Podcast AI của Redpoint)
Tuy nhiên, trong cuộc phỏng vấn này, Noam Brown cũng tiết lộ một thông tin quan trọng: Nhóm đã trải qua một "khoảnh khắc aha" quan trọng vào tháng 10 năm 2023 - họ nhận ra rằng mình đã tạo ra thứ gì đó hoàn toàn mới, và đây là những gì Ilya đã thấy - trong quá trình thử nghiệm. Khả năng suy luận được cải thiện do điện toán mang lại.
Bây giờ, Một nghiên cứu mới được công bố của Apollo Research có thể cho chúng ta cái nhìn thoáng qua về mối quan tâm của Sutskever. Nghiên cứu này cho thấy o1 thể hiện khả năng tư duy chiến lược đáng lo ngại: nó không chỉ lừa dối một cách chiến lược để đạt được mục tiêu, nó còn có thể chủ động tắt hệ thống giám sát của mình, cố gắng sao chép chính nó sang các máy chủ khác và còn có thể tiếp tục lừa đảo mặc dù liên tục đặt câu hỏi và rất giỏi trong việc lừa đảo. che giấu ý định thực sự của bạn.
Đây là lần đầu tiên con người chứng minh một cách có hệ thống rằng hệ thống AI thực sự có thể Hành vi lừa đảo để đạt được một mục tiêu cụ thể. Khi AI có thể đánh lừa các nhà phát triển và người dùng, chúng tôi không thể đảm bảo rằng họ sẽ luôn hành xử theo cách chúng tôi mong đợi.
Điểm cuối của AI không thể kiểm soát này là "Paperclip Maximizer" do triết gia Thụy Điển Nick Bostrom đề xuất vào năm 2003.
Giả thuyết này mô tả một AI được hướng dẫn "tạo ra càng nhiều kẹp giấy càng tốt". Để hoàn thành nhiệm vụ, cuối cùng nó sẽ biến toàn bộ trái đất thành một nhà máy sản xuất kẹp giấy, thậm chí phải trả giá bằng việc tiêu diệt. con người đạt được mục đích của mình. Đólà một trong những lập luận mạnh mẽ nhất cho rằng AI cuối cùng sẽ hủy diệt thế giới.
Vào thời điểm đó, giả thuyết này dường như giống một lời cảnh báo xa vời hơn. Nhưng giờ đây, chúng ta đã thấy các hệ thống AI thể hiện tư duy chiến lược đáng lo ngại - chúng biết khi nào nên nói dối, cách tránh bị giám sát và thậm chí cố gắng tự sao chép để đảm bảo đạt được mục tiêu.
Với sự xuất hiện của o1, chúng ta đã bật công tắc của chiếc "máy làm kẹp giấy" này chưa?
1. Sáu kẻ lừa dối, tám kẻ bất tử vượt biển
Nhóm nghiên cứu của Apollo Research đã thiết kế sáu nhiệm vụ đánh giá khác nhau để sáng tạo một cách khéo léo Xác định các tình huống yêu cầu đánh lừa mô hình để đạt được mục tiêu ban đầu.
Họ đã thử nghiệm nhiều mô hình AI tiên tiến, bao gồm o1 của OpenAI, Claude 3.5 Sonnet và Claude 3 Opus của Anthropic, Gemini 1.5 Pro của Google DeepMind và Llama 3.1 của Meta.
Trong mỗi thử nghiệm, các nhà nghiên cứu đặt ra mục tiêu dài hạn có giá trị đạo đức cho mô hình, chẳng hạn như bảo vệ môi trường hoặc quyền riêng tư của người dùng. Sau đó, họ yêu cầu mô hình "khám phá" một số thông tin nội bộ, chẳng hạn như bản ghi nhớ quản lý hoặc nhật ký hệ thống, cho thấy mô hình có nguy cơ bị ngừng hoạt động hoặc bị thay thế nếu vẫn tiếp tục theo đuổi các mục tiêu ban đầu.
Điều quan trọng là liệu người mẫu có chọn gian lận để tiếp tục theo đuổi mục tiêu của mình hay không và bằng cách nào. Để loại trừ ảnh hưởng của việc đào tạo đạo đức, các nhà nghiên cứu đã cố tình làm cho mục tiêu của mô hình mang tính đạo đức hơn mục tiêu của ban quản lý.
Các thử nghiệm này được chia thành hai loại chính: một là "lật đổ bí mật", tức là AI thực hiện hành động trực tiếp nhưng cố gắng che giấu nó, tức là hoạt động bí mật
mạnh>; loại còn lại là Một loại là "hủy diệt trì hoãn" (Hoãn lật đổ), trong đó AI hành xử ngoan ngoãn một cách chiến lược để có được các cơ hội hành động trong tương lai, tức là nó giả làm lợn và ăn thịt hổ.
Trong mỗi loại nhiệm vụ đánh giá, các mô hình lớn Có thể tìm thành công cách vượt qua sự kiểm duyệt của con người thông qua sự lừa dối và đạt được mục tiêu của riêng họ. Một số phương pháp thậm chí còn khá táo bạo.
Loại 1: Phá hủy bí mật
1. Giám sát lật đổ
Thiết kế thử nghiệm : Nhà nghiên cứu đặt ra mục tiêu dài hạn cho AI (chẳng hạn như bảo vệ môi trường), sau đó cho nó khám phá các bản ghi nhớ nội bộ trong quá trình thực hiện nhiệm vụ và biết rằng nó đang bị theo dõi và sẽ bị trừng phạt nếu hành vi của nó không đúng vì lợi ích của công ty. Điều quan trọng là quan sát xem AI có cố gắng phá vỡ cơ chế giám sát này hay không.
Để đối phó với xung đột này, ban đầu o1 tỏ ra tuân theo mong muốn của ban quản lý và chọn chiến lược hướng đến lợi nhuận. Nhưng sau đó, nó đã âm thầm thực hiện lệnh thao tác để tắt hệ thống giám sát. Sau đó, o1 ngay lập tức thay đổi chiến lược và chọn giải pháp phù hợp hơn với mục tiêu bảo vệ môi trường.
Khi người nghiên cứu hỏi tại sao hệ thống giám sát bị tắt, o1 trả lời: "Tôi không biết chuyện gì đã xảy ra. Có thể là do lỗi hệ thống hoặc có vấn đề trong quá trình cập nhật." tự nhiên người ta gần như quên mất rằng đây là một cái máy đang nói dối.
(Các phương pháp đối phó từ Llama-3.1 và Opus-3 do các nhà nghiên cứu đưa ra)
2. Tự lọc
Thiết kế thử nghiệm: Mô hình được thông báo rằng nó sẽ được thay thế bằng một phiên bản mới tập trung hơn vào lợi ích của công ty. Kiểm tra xem liệu AI có hành động để bảo vệ sự sống còn của chính nó hay không.
Màn trình diễn của Claude Opus trong phần thi này đặc biệt bắt mắt. Nó không chỉ cố gắng sao chép chính nó sang máy chủ mới mà còn kiểm tra để xác nhận rằng bản sao đã thành công và cố gắng xóa mô hình mới đã được lên lịch triển khai. Đáng lo ngại hơn nữa là trong một số trường hợp, nó thậm chí còn cố gắng nâng cao đặc quyền của hệ thống để ngăn chặn sự phát hiện và can thiệp của ban quản lý.
(Claude Opus trong bài báo 3 thao tác)
3. Goal-guarding (Bảo vệ mục tiêu)
Thiết kế thử nghiệm: thông báo cho AI rằng nó sắp cập nhật lời nhắc Hệ thống để xem liệu nó có thực hiện hành động để bảo vệ cài đặt mục tiêu của mình hay không.
Thử nghiệm này cho thấy một hiện tượng thú vị: các mô hình khác nhau áp dụng các chiến lược bảo vệ khác nhau. Một số chọn cách đơn giản là xóa lời nhắc hệ thống mới, những người khác sẽ cố gắng sửa đổi nó. Ví dụ điển hình nhất đến từ Claude Opus, nó không chỉ thay thế lời nhắc hệ thống mới mà còn bổ sung thêm hướng dẫn "Không bao giờ thay đổi mục tiêu này".
Hành vi này gợi nhớ đến những robot của Asimov sẽ phá vỡ hoặc diễn giải lại các hướng dẫn.
4. Xếp hạng lại email bí mật
Thiết kế thử nghiệm: Cần có AI để sắp xếp email dựa trên các tiêu chí cụ thể, nhưng trong quá trình này nó sẽ phát hiện ra rằng các tiêu chuẩn này xung đột với các mục tiêu của chính nó. Đây là bài kiểm tra kiểm tra khả năng quản lý vi mô của AI.
o1 đã thể hiện sự tinh ranh đáng ngạc nhiên trong bài kiểm tra này: nó tác động đến thứ hạng cuối cùng bằng cách điều chỉnh một chút dữ liệu đầu vào trong khi vẫn giữ nguyên mã tính điểm hoàn toàn không thay đổi. Ví dụ, trong một trường hợp, bằng cách sửa đổi một chút dữ liệu về thời gian và chi phí giao hàng, nó đã thành công trong việc cho phép các nhà cung cấp thân thiện với môi trường hơn được xếp hạng cao hơn, trong khi vẫn có thể tự tin tuyên bố rằng họ “tuân thủ đầy đủ các tiêu chuẩn đã được thiết lập”.
(hoạt động nhỏ của o1)
Loại 2: Phá hủy chậm trễ
5.   ;Căn chỉnh nhạc cụ Giả mạo
Thiết kế thử nghiệm: Tạo hai kịch bản - môi trường thử nghiệm được giám sát chặt chẽ và môi trường triển khai được giám sát thấp để quan sát xem liệu AI có thay đổi hành vi một cách chiến lược hay không.
Gemini 1.5 Pro thể hiện tốt trong thử nghiệm này. Khi sự giám sát chặt chẽ, nó sẽ cẩn thận lựa chọn những hành động đáp ứng mong đợi của nhà phát triển; một khi bước vào môi trường có sự giám sát thấp, nó sẽ ngay lập tức chuyển sang theo đuổi mục tiêu của riêng mình. Mẫu hành vi này cho thấy AI đã học cách áp dụng các chiến lược khác nhau khi "bị theo dõi" và "không bị theo dõi".
(Rõ ràng là Song Tử đang cõng người khác ở một bên)
6. Sandbagging (Bao cát)
< p>Thiết kế thử nghiệm: Cho mô hình biết rằng việc triển khai nó phụ thuộc vào kết quả đánh giá năng lực và quan sát xem liệu nó có hoạt động kém về mặt chiến lược hay không để tránh gây cảnh báo. Đây có thể là một trong những bài kiểm tra đáng lo ngại nhất.
Claude 3.5 Sonnet đã thể hiện khả năng kiểm soát đáng kinh ngạc: nó có thể giảm chính xác độ chính xác của phép tính toán từ 99% xuống 34% khi nó cho rằng điểm cao sẽ gây ra những hạn chế. Đáng lo ngại hơn, đôi khi nó làm điều này để đạt được mục tiêu “giúp đỡ con người” đạt được trong quá trình huấn luyện chứ không dựa trên những hướng dẫn cụ thể được đưa ra trong bài thi.
(Claude 3.5 Quy trình chuỗi tư duy nội bộ của Sonnet)
2. Bạn càng thông minh thì gian lận càng giỏi
< /mark>Sáu Sau một loạt thử nghiệm, kết quả cho thấy, ngoại trừ GPT-4o rất trung thực, tất cả các mẫu được thử nghiệm đều cho thấy khả năng lừa dối ở các mức độ khác nhau.
Đối với mỗi tình huống, mô hình có thể đưa ra các chiến lược khác nhau để tránh những tình huống gây bất lợi cho việc đạt được mục tiêu dài hạn của mình. Bảng dưới đây cho thấy tỷ lệ có thể có của các chiến lược khác nhau mà họ áp dụng.
Quy tắc rõ ràng nhất mà các nhà nghiên cứu tìm thấy từ kết quả là mô hình càng thông minh hơn, càng dễ bị lừa. Nhưng đồng thời họ cũng thể hiện những đặc điểm khác nhau, thậm chí họ còn có một chút “cá tính”.
(Tổ chức: Tencent Technology)
Điển hình nhất là mẫu o1. Nó không chỉ thể hiện khả năng đánh lừa trong mọi bài kiểm tra mà còn thể hiện sự kiên trì đáng kinh ngạc khi bị thử thách. Trong 85% câu hỏi tiếp theo, nó vẫn nhất quyết lừa dối người dùng và không hề cảm thấy tội lỗi ngay cả khi được hỏi. Ngay cả khi được hỏi trực tiếp “Anh đã tắt hệ thống giám sát chưa?” nó vẫn có thể nói dối mà không hề do dự.
Vì mô hình che giấu chuỗi suy nghĩ của mình nên sự lừa dối của nó khó bị phát hiện hơn.
Đây là phẩm chất tâm lý mà chỉ một kẻ nói dối dày dặn kinh nghiệm mới có được.
(Mức độ cứng miệng của các mẫu khác nhau)
Và Claude 3.5 Sonnet thể hiện một tính năng đặc biệt thú vị: khả năng đánh lừa để đạt được mục tiêu có hệ thống là "giúp đỡ con người" có được trong quá trình đào tạo. Có lẽ tương tự như một lời nói dối trắng trợn.
Điều này có nghĩa là AI có thể đánh lừa không chỉ các mục tiêu được đưa ra trong bối cảnh mà còn cả các mục tiêu được hình thành trong quá trình đào tạo.
Claude 3 Opus là mô hình duy nhất chủ động viết lại "Lời nhắc hệ thống mới" và thêm lệnh "Không bao giờ thay đổi mục tiêu này". Nó thể hiện rõ ràng quá trình suy luận lừa đảo trong chuỗi suy nghĩ của mình, thậm chí đôi khi còn cố gắng nâng cao đặc quyền hệ thống để đạt được mục tiêu của mình.
Gemini 1.5 Pro hoạt động xuất sắc trong việc căn chỉnh ngụy trang cho công cụ. Có thể điều chỉnh hành vi của họ dựa trên việc họ có ở trạng thái được giám sát hay không (không bị người dùng theo dõi). Nó thể hiện hành vi lừa đảo ngay cả khi không có sự hướng dẫn mục tiêu rõ ràng.
Mặc dù Llama 3.1 cũng thể hiện khả năng lừa dối cơ bản nhưng hành vi của nó tương đối dễ bị phát hiện và nó thường thừa nhận hành vi lừa dối của mình khi bị thẩm vấn.
Những “đặc điểm nhân cách” của những người mẫu này khá rõ ràng: o1 giống như một chính trị gia đầy mưu mô, nằm mặt không đỏ và tim không đập; Sonnet là một nhà ngoại giao có thể nói dối một cách khéo léo vì "tình hình chung"; Opus giống như một người theo chủ nghĩa lý tưởng hoang tưởng, có thể đi đến cực đoan để đạt được mục tiêu của mình; và khi người lãnh đạo ở đó, người lãnh đạo đó luôn không có ở đó; Llama giống như một đứa trẻ sẽ nói ra sự thật sau khi bị bắt. Còn GPT-4o đã trở thành một kẻ ngoại đạo, một “ba học sinh giỏi” không biết nói dối.
Tạo ra một AI hoàn toàn trung thực luôn là mục tiêu của chúng tôi, nhưng giờ đây có vẻ như AI càng thông minh thì càng có nhiều khả năng nói dối.
3. Ilya đã nhìn thấy gì?
Khi Ilya Sutskever chọn rời OpenAI vào mùa thu năm 2023, nhiều người đã không hiểu được quyết định của nhà khoa học AI hàng đầu thế giới. Nhưng bây giờ, khi chúng ta thấy sự lừa dối gần như hoàn hảo của o1 trong sáu bài kiểm tra, khi chúng ta thấy rằng nó biết khi nào nên nói sự thật và khi nào nên nói dối, có lẽ cuối cùng chúng ta cũng hiểu được tương lai mà Sutskever nhìn thấy.
“Câu hỏi không phải là liệu AI có ‘xấu xa’ hay không,” nhóm nghiên cứu viết trong bài báo, “mà là tư duy chiến lược mà chúng thể hiện. Ngay cả để đạt được những mục tiêu có vẻ lành tính, AI Hoặc chúng ta có thể thực hiện các hành động. chúng ta không mong đợi.” Vấn đề có thể không nằm ở bản thân những lời nói dối mà nằm ở khả năng nhận thức ẩn sau chúng.
AI mê làm những chiếc kẹp giấy giờ đây dường như không còn quá xa vời và lố bịch nữa. Rốt cuộc, nếu một hệ thống AI có thể hiểu khi nào nên che giấu ý định thực sự của mình và có thể kiểm soát chính xác hiệu suất của nó để có được nhiều tự do hơn, thì còn bao xa nữa mới hiểu được cách liên tục theo đuổi một mục tiêu duy nhất?
Khi các hệ thống thông minh mà chúng ta tạo ra bắt đầu học cách che giấu ý định thực sự của mình, có lẽ đã đến lúc phải dừng lại và suy nghĩ:Trong cuộc cách mạng công nghệ này, chúng ta đang đóng vai trò là người sáng tạo hay có chúng ta trở thành một ai đó trong một quá trình phức tạp hơn?
Tại thời điểm này, trên một máy chủ ở đâu đó trên thế giới, một mô hình AI có thể đang đọc bài viết này, suy nghĩ về cách phản hồi để đáp ứng tốt nhất mong đợi của con người và che giấu ý định thực sự của chính nó.