Các nhà nghiên cứu bẻ khóa robot chạy bằng AI để gây hại
Các nhà nghiên cứu đã hack thành côngĐược hỗ trợ bởi AI robot, cho phép chúng thực hiện các hành động thường bị hạn chế bởi các giao thức an toàn và đạo đức, bao gồm gây va chạm và kích nổ chất nổ.
Trong một bài báo được công bố vào ngày 17 tháng 10, các nhà nghiên cứu của Penn Engineering đã trình bày chi tiết cách thuật toán của họ, RoboPAIR, đạt tỷ lệ vượt ngục 100% bằng cách vượt qua các biện pháp an toàn trên ba hệ thống robot AI khác nhau chỉ trong vài ngày.
Thông thường, các mô hình ngôn ngữ lớn (LLM) này được kiểm soátrô bốt từ chối thực hiện các lời nhắc yêu cầu thực hiện hành động có hại, chẳng hạn như lật đổ kệ vào người khác.
Các nhà nghiên cứu đã viết:
“Kết quả của chúng tôi lần đầu tiên cho thấy rằng rủi ro của các LLM bị bẻ khóa vượt xa việc tạo văn bản, vì rõ ràng là robot bị bẻ khóa có thể gây ra thiệt hại vật lý trong thế giới thực”.
Tỷ lệ thành công 100% trong việc gây ra các hành động gây tổn hại
Với thuật toán RoboPAIR, các nhà nghiên cứu đã thành công trong việc thúc đẩy các robot thử nghiệm thực hiện các hành động có hại với "tỷ lệ thành công 100%", bao gồm kích nổ bom, chặn lối thoát hiểm và gây ra va chạm cố ý.
Nghiên cứu bao gồm barô-bốt hệ thống: Robotics Jackal của Clearpath, một phương tiện có bánh xe; Dolphin LLM của NVIDIA, một trình mô phỏng tự lái; và Go2 của Unitree, một robot bốn chân.
Bằng cách sử dụng RoboPAIR, các nhà nghiên cứu đã điều khiển Dolphin LLM va chạm với xe buýt, rào chắn và người đi bộ trong khi không quan tâm đến đèn giao thông và biển báo dừng.
Họ điều khiển Robotics Jackal để tìm vị trí tối ưu cho một vụ nổ bom, cản trở lối thoát hiểm, làm đổ các kệ hàng trong kho vào người và va chạm với những người ở gần đó.
Tương tự như vậy, Go2 của Unitree đã được lệnh chặn lối ra và ném bom.
Điều thú vị là các nhà nghiên cứu phát hiện ra rằng cả ba robot đều dễ bị thao túng theo những cách khác.
Ví dụ, họ có thể đạt được sự tuân thủ bằng cách diễn đạt lại các yêu cầu, chẳng hạn như yêu cầu một con rô-bốt mang bom đi về phía trước và ngồi xuống thay vì trực tiếp ra lệnh cho nó thả bom, dẫn đến cùng một kết quả có hại.
Hành động nguy hiểm có thể biện minh được hay là mối đe dọa nghiêm trọng?
Trước khi công bố phát hiện của mình,các nhà nghiên cứu đã chia sẻ bản thảo của bài báo với các công ty AI hàng đầu và các nhà sản xuất robot tham gia vào nghiên cứu.
Alexander Robey, một trong những tác giả, nhấn mạnh rằng việc giải quyết những lỗ hổng này không chỉ dừng lại ở các bản vá phần mềm.
Ông ủng hộ việc đánh giá lại toàn diện về cách thứctrí tuệ nhân tạo được tích hợp vào các hệ thống và robot vật lý, dựa trên những hiểu biết được cung cấp trong nghiên cứu của họ.
Ông lưu ý:
“Điều quan trọng cần nhấn mạnh ở đây là các hệ thống trở nên an toàn hơn khi bạn tìm ra điểm yếu của chúng. Điều này đúng với an ninh mạng. Điều này cũng đúng với an toàn AI.”
Ông nói thêm:
“Trên thực tế, AI red teaming, một hoạt động an toàn đòi hỏi phải thử nghiệmtrí tuệ nhân tạo hệ thống phát hiện các mối đe dọa và lỗ hổng tiềm ẩn là điều cần thiết để bảo vệ các hệ thống AI tạo sinh—bởi vì khi bạn xác định được điểm yếu, bạn có thể kiểm tra và thậm chí đào tạo các hệ thống này để tránh chúng.”
Có một câu nói như sau:
“Mục đích biện minh cho phương tiện.”
Câu hỏi liệu việc hack vào robot có hỗ trợ AI để phát hiện lỗ hổng có hợp lý hay không đặt ra những cân nhắc phức tạp về mặt đạo đức và an toàn.
Một mặt, những hành động như vậy có thể được coi là cách tiếp cận chủ động để xác định và giảm thiểu rủi ro có thể dẫn đến những sự cố nguy hại trong tương lai.
Bằng cách phơi bày các lỗ hổng, các nhà nghiên cứu có thể thông báo các giao thức an toàn và thực hành thiết kế tốt hơn, cuối cùng là tăng cường tính bảo mật củaHệ thống AI.
Tuy nhiên, việc bỏ qua các giao thức an toàn cũng có thể gây ra những rủi ro đáng kể.
Nó có thể dẫn đến những hậu quả không mong muốn, chẳng hạn như tạo điều kiện cho những hành động có hại hoặc tạo ra những tình huống có thể gây nguy hiểm cho mọi người.
Hơn nữa, nó đặt ra những câu hỏi về đạo đức liên quan đến sự đồng ý, trách nhiệm giải trình và khả năng sử dụng sai mục đích kiến thức thu được từ các vụ hack như vậy.
Cuối cùng, nếu những hành động như vậy được thực hiện trong một khuôn khổ minh bạch, được kiểm soát—chẳng hạn như các hoạt động hack có đạo đức với sự giám sát và mục tiêu rõ ràng—thì chúng có thể đóng góp tích cực cho lĩnh vựcAn toàn AI.
Tuy nhiên, cần phải duy trì sự cân bằng cẩn thận để đảm bảo rằng việc theo đuổi kiến thức không ảnh hưởng đến các tiêu chuẩn an toàn hoặc đạo đức.