Mô hình AI Claude 3.7 Sonnet tham gia thí nghiệm trực tiếp với Pokémon Red
Trí tuệ nhân tạo đang chứng minh khả năng điều hướng thế giới kỹ thuật số theo những cách không ngờ tới.
Phiên bản mới nhất của Claude của Anthropic, được gọi là Claude 3.7 Sonnet, có thể chơi “Pokémon Red” chứ không chỉ nhấn các nút ngẫu nhiên.
Đó là việc chủ động xây dựng chiến lược, đưa ra quyết định và thích ứng với những thách thức theo thời gian thực.
Mô hình AI của Anthropic,phát trực tiếp trên Twitch dưới kênh “ClaudePlaysPokemon,” đã đánh bại ba Gym Leader, một thành tích mà các mô hình Claude trước đây phải rất khó khăn mới đạt được.
Thí nghiệm này cho thấy AI đang tiến bộ như thế nào, vượt ra ngoài việc thực hiện nhiệm vụ đơn giản và tiến tới các tình huống giải quyết vấn đề phức tạp hơn.
AI học cách chiến đấu, thích nghi và vượt qua chướng ngại vật
Không giống như phiên bản trước, Claude 3.5 Sonnet, không thể thoát khỏi nhà của người chơi trong "Pokémon Red", Claude 3.7 Sonnet đã cho thấy sự tiến bộ đáng chú ý.
Chỉ trong vòng vài giờ, nó đã đánh bại Brock, Nhà lãnh đạo phòng tập đầu tiên, và chỉ vài ngày sau, đã đánh bại Misty.
Anthropic giải thích rằng thành công này đến từ khả năng ghi chép, quan sát màn hình trò chơi và sử dụng lệnh gọi hàm để tương tác với trò chơi của mô hình.
Thay vì dựa vào các hành vi được đào tạo trước, Claude 3.7 Sonnet xử lý từng tình huống, lập kế hoạch trước và điều chỉnh khi cần thiết—mặc dù không tránh khỏi những khó khăn.
Có một lúc, Claude bị kẹt trước một bức tường đá và liên tục cố gắng di chuyển qua đó.
Phải mất một thời gian AI mới nhận ra được tuyến đường thay thế.
Một người dùng trên Twitch đã đưa ra một quan điểm hài hước về tình huống này,
“Ai sẽ thắng, một máy tính AI với hàng nghìn giờ lập trình, hay 1 bức tường đá?”
Cuối cùng, Claude đã tìm ra cách vượt qua trở ngại, chứng minh khả năng học hỏi từ sai lầm thay vì chỉ lặp lại những hành động thất bại vô thời hạn.
AI chơi trò chơi điện tử đang trở thành chuẩn mực nghiên cứu
Các mô hình AI chơi trò chơi điện tử không phải là một khái niệm mới, nhưng đây vẫn là một cách hữu ích để kiểm tra khả năng suy luận của chúng.
Vào tháng 3 năm 2024, các nhà nghiên cứu đã sử dụng ChatGPT của OpenAI để chơi game bắn súng góc nhìn thứ nhất kinh điển "Doom" và đã thành công khi đến được phòng cuối cùng của trò chơi.
Cùng thời điểm đó, Google DeepMind đã giới thiệu Scalable Instructable Multiworld Agent (SIMA), có khả năng chơi các trò chơi như "No Man's Sky", "Teardown" và "Valheim" chỉ bằng hình ảnh trên màn hình và hướng dẫn bằng ngôn ngữ tự nhiên—không cần truy cập vào mã nguồn hoặc API đặc biệt.
Không giống như tự động hóa dựa trên quy tắc đơn giản, các mô hình AI này thể hiện mức độ lý luận chung.
Anthropic lưu ý rằng “Pokémon Red” là một bài kiểm tra đặc biệt hữu ích đối với Claude 3.7 Sonnet vì nó yêu cầu mô hình phải giải các câu đố và đưa ra quyết định chiến lược thay vì chỉ phản hồi các lệnh trực tiếp.
Quay trở lại với Twitch Plays Pokémon, nhưng với một người chơi AI
Với nhiều người, việc xem Claude chơi "Pokémon Red" gợi lại những ký ức về "Twitch Plays Pokémon", một thử nghiệm xã hội trực tuyến năm 2014, trong đó hàng nghìn người chơi cùng nhau điều khiển trò chơi thông qua các lệnh trò chuyện.
Bản chất hỗn loạn và hợp tác của sự kiện đó đã biến nó thành một hiện tượng văn hóa.
Bây giờ, thay vì một cộng đồng cùng làm việc, người xem sẽ theo dõi một AI đấu tranh trong cuộc phiêu lưu đơn độc.
Trải nghiệm này mang lại cảm giác khác biệt—mang tính quan sát hơn là tương tác.
Cách tiếp cận cẩn thận, từng bước của Claude trái ngược hoàn toàn với lối chơi thất thường, chạy theo đám đông của Twitch Plays Pokémon gốc.
Một khoảnh khắc đặc biệt thú vị xảy ra khi Claude, trong khi đang tìm kiếm Giáo sư Oak, đã liên tục tương tác với NPC sai mặc dù đã nói chuyện với họ nhiều lần trước đó.
Một số người xem tỏ ra mất kiên nhẫn, trong khi những người khác lại tỏ ra thông cảm hơn:
“Các bạn bình tĩnh nào. Trước khi chúng ta ra vào phòng thí nghiệm của Oak khoảng 10 lần trước khi hiểu cách tiếp tục.”
Đây không phải là lần đầu tiên AI được sử dụng cho mục đích như vậy.
Vào tháng 10 năm 2023, kỹ sư phần mềm Peter Whidden ở Seattle đã chia sẻ một video trên YouTube cho thấy cách anh ấy dạy AI học tăng cường chơi Pokémon.
CácAI đã dành hơn 50.000 giờ để tìm hiểu trò chơi , nhưng trên đường đi, nó hơi mất tập trung—đôi khi dừng lại chỉ để chiêm ngưỡng khung cảnh pixel thay vì thực sự chơi.
Mặc dù Claude 3.7 Sonnet có cách tiếp cận chậm rãi và chắc chắn, nhưng tiến trình của nó trong "Pokémon Red" lại hé lộ tương lai của AI.
Nó cho thấy cách các mô hình có thể phát triển để giải quyết những thách thức mới bằng cách suy nghĩ giải quyết vấn đề từng bước một, thay vì chỉ được đào tạo cho các nhiệm vụ cụ thể.