Google DeepMind tiến xa hơn vào trí tuệ ảo với SIMA 2
Google DeepMind vừa ra mắt SIMA 2, một tác nhân AI nâng cấp được thiết kế để hoạt động bên trong thế giới ảo 3D với mức độ độc lập và khả năng lập luận mà công ty cho biết sẽ đưa nó đến gần hơn với robot trong thế giới thực trong tương lai.
Tác nhân này được xây dựng dựa trên mô hình SIMA của năm ngoái nhưng hiện chạy trên Gemini AI của Google, cho phép nó lập kế hoạch, giải thích các quyết định, học hỏi thông qua kinh nghiệm và cộng tác với người dùng theo cách mà hệ thống ban đầu không thể làm được.
DeepMind mô tả SIMA 2 là một “người bạn đồng hành” trong môi trường ảo—một AI có thể nói chuyện, diễn giải các mục tiêu cấp cao và thực hiện các nhiệm vụ bằng cách sử dụng bàn phím và chuột mô phỏng.
Công ty cho biết,
“Đây là một bước tiến quan trọng theo hướng Trí tuệ nhân tạo tổng quát (AGI), có ý nghĩa quan trọng đối với tương lai của ngành robot và ứng dụng AI nói chung.”
Một tác nhân có năng lực hơn được xây dựng trên Gemini
Việc nâng cấp lên Gemini đóng vai trò trung tâm trong tiến trình phát triển SIMA 2.
Với khả năng đa phương thức, tác nhân có thể phản hồi văn bản, giọng nói, bản phác thảo và thậm chí cả biểu tượng cảm xúc trong khi thực hiện hành động theo thời gian thực.
Google DeepMind đã viết trên X rằng “SIMA 2 là tác nhân AI có năng lực nhất của chúng tôi dành cho thế giới ảo 3D… nghĩa là bạn có thể nói chuyện với nó thông qua văn bản, giọng nói hoặc thậm chí là hình ảnh.”
Sự thay đổi này cho phép tác nhân diễn giải các hướng dẫn phức tạp, đặt câu hỏi làm rõ và mô tả các bước mà tác nhân dự định thực hiện.
Mô hình này cũng có thể điều chỉnh hành vi để phù hợp với các nhiệm vụ mà nó chưa từng gặp trước đây chỉ bằng cách phân tích hình ảnh trên màn hình—không cần truy cập dữ liệu trò chơi nội bộ.
SIMA 2 hoạt động như thế nào trên các trò chơi chưa từng thấy?
Trong quá trình thử nghiệm, SIMA 2 đã giải quyết được nhiều nhiệm vụ hơn đáng kể trong các môi trường không quen thuộc, bao gồm MineDojo và ASKA.
Tỷ lệ thành công dao động từ 45 đến 75%, so với 15 đến 30% của SIMA 1 trong cùng điều kiện.
Trên tất cả các tiêu chuẩn, tác nhân mới hơn đã hoàn thành 65% nhiệm vụ, cao hơn gấp đôi mức 31% của SIMA 1.
DeepMind phát hiện ra rằng SIMA 2 có thể chuyển đổi các khái niệm từ trò chơi này sang trò chơi khác—ví dụ, coi "thu hoạch" trong trò chơi xây dựng tương tự như "khai thác" trong trò chơi khám phá.
Mức độ trừu tượng đó là một trong những tính năng mà các nhà nghiên cứu hy vọng có thể áp dụng vào ngành robot.
Joe Marino, một nhà khoa học nghiên cứu tại DeepMind, cho biết ngay cả những hành động cơ bản cũng cần có lý luận nhiều lớp.
“Đó là một tập hợp các nhiệm vụ thực sự phức tạp mà bạn cần phải giải quyết để tiến triển.”
Những thử thách nhiều bước trong trò chơi phản ánh những yêu cầu tuần tự và phức tạp cần thiết cho các nhiệm vụ trong robot vật lý.
Học qua trải nghiệm, không chỉ qua những minh chứng của con người
Quá trình đào tạo của SIMA 2 bắt đầu bằng cảnh quay trò chơi của con người trong tám tựa game thương mại, bao gồm No Man’s Sky và Goat Simulator 3, cũng như ba môi trường được xây dựng tùy chỉnh.
Nhưng sự tiến bộ đáng chú ý hơn là khả năng cải thiện của tác nhân mà không cần dữ liệu do con người gắn nhãn.
Sau những lần trình diễn ban đầu, hệ thống đã chuyển sang chế độ tự học.
Gemini tạo ra các nhiệm vụ mới, đánh giá những nỗ lực của SIMA 2 và cung cấp mẹo sau mỗi lần thất bại.
Qua nhiều lần thử nghiệm, SIMA 2 đã điều chỉnh hành vi và tạo ra dữ liệu quỹ đạo riêng, tạo thành một vòng lặp giúp nó tự động tinh chỉnh các kỹ năng.
Kiểm tra SIMA 2 Inside Worlds được tạo ra từ một hình ảnh duy nhất
DeepMind cũng đã thử nghiệm SIMA 2 trong các thế giới thử nghiệm do Genie 3 tạo ra, một dự án có thể tạo ra môi trường 3D chỉ từ một hình ảnh hoặc lời nhắc văn bản.
Khi được thả vào những thế giới xa lạ này ngay sau khi chúng được hình thành, tác nhân có thể tự định hướng, diễn giải các mục tiêu và thực hiện các hành động có ý nghĩa - hành vi mà các nhà nghiên cứu cho biết họ không quan sát thấy ở SIMA 1.
Marino gọi khả năng thích ứng này là bước "cơ bản" hướng tới AGI và robot tương lai: một tác nhân linh hoạt có thể điều hướng, sử dụng công cụ và hợp tác với con người trong môi trường không thể đoán trước.
Công nghệ này có thể tiến xa đến đâu? Các chuyên gia đánh giá
Một số nhà nghiên cứu cho rằng thành tựu của SIMA 2 nổi bật vì việc điều khiển nhiều trò chơi từ dữ liệu hình ảnh thô từ lâu đã là một thách thức.
Julian Togelius, một nhà nghiên cứu AI tại Đại học New York, lưu ý rằng những nỗ lực trước đây đã gặp khó khăn, tham khảo các hệ thống nhiều trò chơi trước đây như GATO.
“Chỉ chơi theo thời gian thực bằng hình ảnh là ‘chế độ khó’.”
Những người khác vẫn còn hoài nghi về tác động thực tế của nó.
Matthew Guzdial từ Đại học Alberta cho biết không có gì ngạc nhiên khi SIMA 2 hoạt động tốt trên nhiều trò chơi, vì hầu hết đều sử dụng cách điều khiển bàn phím và chuột tương tự nhau.
“Nếu bạn đưa một trò chơi có dữ liệu đầu vào kỳ lạ vào trước nó, tôi không nghĩ nó có thể hoạt động tốt.”
Ông cũng đặt câu hỏi liệu khả năng hiểu thị giác học được trong trò chơi có thể chuyển giao trơn tru sang robot vật lý hay không, nơi dữ liệu camera phức tạp hơn nhiều so với đồ họa trò chơi điện tử.
Điều gì vẫn còn hạn chế SIMA 2 ngày nay
DeepMind công khai thừa nhận những điểm yếu hiện tại của hệ thống.
SIMA 2 gặp khó khăn khi thực hiện các tác vụ dài, nhiều bước và chỉ giữ lại bối cảnh ngắn hạn để duy trì khả năng phản hồi tương tác.
Việc điều khiển bằng bàn phím và chuột mô phỏng kém chính xác hơn so với người chơi thực tế và khả năng diễn giải hình ảnh vẫn kém trong các cảnh 3D đông đúc hoặc lộn xộn.
Những khoảng cách này cho thấy các hệ thống hiện tại còn cách xa trí thông minh đa năng đến mức nào.
Hiện tại, SIMA 2 vẫn là một dự án nghiên cứu chỉ dành cho một số học giả và nhà phát triển được chọn.
Liệu SIMA 2 có thể tạo ra những robot tốt hơn một ngày nào đó không?
DeepMind tin rằng các kỹ năng mà SIMA 2 đang học - điều hướng, sử dụng công cụ, lập luận, cộng tác - sẽ hình thành nền tảng cho các robot đa năng trong tương lai.
Nhóm nghiên cứu hy vọng có thể kết hợp phương pháp học thử và sai của SIMA với thế giới ảo vô hạn của Genie 3, tạo ra một vòng đào tạo liên tục, nơi tác nhân liên tục được cải thiện.
Marino nói,
“Chúng tôi mới chỉ khai thác được bề nổi của những gì có thể làm được.”
Môi trường học tập ảo cuối cùng có thể thu hẹp khoảng cách giữa mô phỏng và robot vật lý.