Tác giả: Wang Shu Nghiên cứu sinh sau tiến sĩ tại Viện nghiên cứu Tencent
Ngay từ năm 2001, nghiên cứu đã chỉ ra rằng lĩnh vực trí tuệ nhân tạo trong trò chơi có tiềm năng rất lớn để hiện thực hóa hoặc tạo ra trí tuệ nhân tạo cấp độ con người (AI cấp độ con người) [1]. Là điểm khởi đầu cho nghiên cứu trí tuệ nhân tạo, trò chơi mang đến sự đảm bảo cho trí tuệ nhân tạo tiếp cận trí tuệ con người về chiều rộng, chiều sâu và tính linh hoạt do tính phức tạp và đa dạng của các kịch bản nhiệm vụ.
Hiện nay, với sự phát triển nhanh chóng của AI tổng quát và công nghệ AI ra quyết định, xu hướng phát triển cộng sinh của trò chơi và trí tuệ nhân tạo đã trở nên rõ ràng hơn. Tại hội nghị game toàn cầu GDC2024 (Global Gamer Development Conference 2024), AI trở thành tâm điểm của hội nghị, với 64 bài phát biểu về chủ đề AI, chiếm 8%. Trong lĩnh vực AI sáng tạo, 62% số người được hỏi trong ngành trò chơi đang sử dụng các công cụ AI để sản xuất nội dung trò chơi [2]. Trong lĩnh vực AI ra quyết định, nhóm Google DeepMind một lần nữa ra mắt tác nhân trò chơi phổ quát SIMA (Tác nhân đa thế giới có thể mở rộng có thể mở rộng) sau Alphastar, có thể thực hiện hơn 600 nhiệm vụ trong nhiều thế giới trò chơi 3D khác nhau dựa trên hướng dẫn ngôn ngữ tự nhiên của con người.
Nơi thử nghiệm công nghệ:
Thực hành chung về AI Tác nhân dựa trên môi trường trò chơi
Trò chơi mang tính chất quyết định- tạo ra AI Cung cấp các tiêu chuẩn đo lường rõ ràng và sử dụng các quy tắc rõ ràng và có thể định lượng trong trò chơi để đánh giá khả năng ra quyết định AI có thể giải quyết vấn đề thiếu các kịch bản nghiên cứu trí tuệ nhân tạo và cải thiện đáng kể hiệu quả của việc lặp lại và thử nghiệm công nghệ. Hiện tại, hầu hết các nhóm nghiên cứu AI đưa ra quyết định, bao gồm OpenAI, DeepMind, v.v., đều chọn trò chơi làm kịch bản đào tạo và cam kết xây dựng các tác nhân trí tuệ có mục đích chung trong các loại kịch bản trò chơi khác nhau và xây dựng trí tuệ nhân tạo nói chung dựa trên điều này.
Vào ngày 13 tháng 3 năm 2024, nhóm Google DeepMind đã phát hành một tác nhân AI tên là SIMA (Scalable Instructable Multiworld Agent), có thể hiểu được nhiều thế giới trò chơi 3D và có thể thực hiện hơn 600 nhiệm vụ trong nhiều thế giới trò chơi 3D khác nhau bằng cách làm theo hướng dẫn bằng ngôn ngữ tự nhiên giống như con người. Khả năng hiểu ngôn ngữ tự nhiên và học chuyển giao mạnh mẽ đã khiến nhiều nhà nghiên cứu coi sự xuất hiện của SIMA là “thời điểm ChatGPT của các tác nhân thông minh”.
DeepMind đã giải thích chi tiết các nguyên tắc cơ bản và đường dẫn kỹ thuật của SIMA trong báo cáo kỹ thuật, xác định SIMA là một phương pháp có thể mở rộng và có thể hướng dẫn được trong nhiều thế giới ảo 3D. đại lý trò chơi. Nhóm DeepMind đã chọn 9 trò chơi trực tuyến 3D phổ biến hiện nay và 4 cảnh 3D dựa trên công cụ Unity làm môi trường đào tạo cho đặc vụ SIMA, đồng thời thu thập một lượng lớn dữ liệu hoạt động và hành vi của người chơi từ trò chơi để đào tạo đặc vụ. . Trong quá trình đào tạo cụ thể, đặc vụ sẽ liên tục quan sát và tìm hiểu thông tin hình ảnh trò chơi trên màn hình, đồng thời kết hợp nó với các hướng dẫn thao tác khác nhau của người chơi trong trò chơi, sau đó điều khiển việc thực hiện các nhân vật trong trò chơi thông qua đầu ra bàn phím và chuột. . hoạt động khác nhau [3].

Hình 1 Tổng quan về dự án đại lý SIMA
Dự án SIMA là một cột mốc quan trọng đối với nhóm DeepMind trong lĩnh vực trí tuệ nhân tạo nói chung (AGI) nghiên cứu, bắt đầu từ trí tuệ nhân tạo Go Từ AlphaGO và AlphaZero thông minh đến AlphaStar dựa trên trò chơi "StarCraft 2", và bây giờ là SIMA dựa trên các mô hình ngôn ngữ lớn, nhóm DeepMind đã và đang thử nghiệm và nghiên cứu các tác nhân tổng hợp dựa trên môi trường trò chơi. , đặc vụ là Khả năng ra quyết định và hành động được đào tạo trong môi trường trò chơi dự kiến sẽ được chuyển sang các tình huống trong thế giới thực, cung cấp những ý tưởng và phương pháp thực hành mới để ươm tạo trí tuệ nhân tạo nói chung.
Trước khi SIMA ra mắt, đã có nhiều dự án nghiên cứu về tác nhân trò chơi nói chung trong ngành. Trong số đó, có hai tác phẩm tiêu biểu là Gato do DeepMind phát hành và Minedojo do NVIDIA phát hành.
Gato được nhóm DeepMind phát hành vào tháng 11 năm 2022. Nó có thể chơi loạt trò chơi Atari Games và điều khiển các cánh tay robot thực sự để xếp chồng các khối xây dựng. Gato sử dụng kiến trúc mô hình ngôn ngữ lớn giống như GPT và tài liệu đào tạo của nó bao gồm hình ảnh, văn bản, dữ liệu khớp cánh tay robot và các bộ dữ liệu đa phương thức khác [4]. Microsoft đã chỉ ra trong một nghiên cứu vào tháng 3 năm 2023 rằng các mô hình lớn như Gato tích hợp thông tin đa phương thức rất có khả năng sinh ra trí thông minh sớm [5].

Hình 2 Gato được xây dựng bởi DeepMind
Tương tự như Gato là Nvidia, Viện Công nghệ California (Caltech) và Stanford (Stanford), v.v. MineDojo , một tác nhân thông minh được tạo ra bởi các tổ chức nghiên cứu dựa trên trò chơi "Minecraft". Minedojo sử dụng thông tin từ video của người chơi (YouTube), bách khoa toàn thư (Wikis) và cộng đồng người dùng (Reddit) của trò chơi "Minecraft" làm tài liệu đào tạo để đào tạo một người có thể hoàn thành nhiều nhiệm vụ khác nhau dựa trên lời nhắc bằng văn bản trong trò chơi "Minecraft". đại lý có mục đích chung cho các nhiệm vụ khác nhau. Minedojo không chỉ có thể hoàn thành một số nhiệm vụ lập trình đơn giản mà còn hoàn thành một loạt nhiệm vụ sáng tạo dựa trên các mô tả đơn giản, chẳng hạn như xây dựng thư viện dựa trên các mô tả [6].

Hình 3 Minedojo Mô hình năng lực
Hai tác phẩm của Gato và Minedojo tương ứng với hai loại ý tưởng khác nhau trong nghiên cứu trí tuệ nhân tạo: giải quyết đủ vấn đề nhiệm vụ hoặc giải quyết một nhiệm vụ đủ phức tạp. Tuy nhiên, hai nghiên cứu trên cũng có những hạn chế nhất định, chẳng hạn Minedojo chỉ là trí tuệ chuyên dụng cho một loại trò chơi cụ thể, chỉ có thể hoàn thành nhiều nhiệm vụ khác nhau trong một trò chơi và không có khả năng chuyển giao học tập, mặc dù Gato có một số khả năng nhất định. chuyển giao khả năng học tập, môi trường ứng dụng chính của nó là một số trò chơi 2D, không phải môi trường trò chơi 3D, khá khác biệt so với các cảnh trong thế giới thực.
Hiện tại, việc đào tạo các Tác nhân AI nói chung dựa trên môi trường trò chơi đã trở thành sự đồng thuận trong ngành. Tại bài phát biểu TED AI 2023, nhà khoa học cấp cao của NVIDIA, Jim Fan đã đề xuất khái niệm mô hình nền tảng (FoundationAgent) và tin rằng bước tiến tiếp theo của nghiên cứu AI sẽ là tạo ra một mô hình có thể được sử dụng trong thế giới ảo. thế giới và thực tế. Khái quát hóa trong thế giới, nắm vững nhiều kỹ năng, điều khiển nhiều cơ thể và có thể khái quát hóa thành “mô hình cơ bản” trong nhiều môi trường và việc đào tạo mô hình này cũng không thể tách rời khỏi môi trường trò chơi [7 ]. Ở trong nước, Tencent cũng đi đầu trong việc xây dựng nền tảng nghiên cứu mở cho AI đa tác nhân và ra quyết định phức tạp - Kaiwu. Dựa vào những lợi thế cốt lõi của Tencent AI Lab và "Honor of Kings" về thuật toán, sức mạnh tính toán, và các kịch bản thử nghiệm, nó cung cấp cho các nhà nghiên cứu học thuật và các nhà phát triển Thuật toán cung cấp nền tảng khám phá ứng dụng hàng đầu trong nước.
Những đột phá mới về khả năng:
SIMA triển khai mô hình ngôn ngữ lớn
Tích hợp hiệu quả với đào tạo Tác nhân AI
Sự xuất hiện của SIMA kết hợp các mô hình ngôn ngữ lớn với đào tạo tác nhân. Đạt được những đột phá trong Khả năng ra quyết định và khái quát hóa của tác nhân AI. SIMA không chỉ có thể hiểu rõ hơn về nhiều môi trường trò chơi 3D khác nhau mà còn thực hiện nhiều nhiệm vụ khác nhau trong nhiều thế giới trò chơi 3D khác nhau theo hướng dẫn ngôn ngữ tự nhiên như con người, đồng thời hiệu quả và khả năng ra quyết định của nó vượt xa các trí thông minh khác. Cơ thể con người có khả năng ra quyết định tương tự như con người [8]. Demis Hassabis, người sáng lập và CEO của DeepMind, đã thẳng thắn nói trong cuộc phỏng vấn rằng: "Có sự phát triển vượt bậc trong lĩnh vực kết hợp các mô hình ngôn ngữ lớn, đào tạo tác nhân AI và môi trường trò chơi. Triển vọng, DeepMind sẽ tiếp tục tăng cường đầu tư nghiên cứu vào lĩnh vực này trong lĩnh vực này." tương lai[9].”Nhìn chung, những đặc điểm, sự đột phá với các SIMA khác chủ yếu được thể hiện ở các khía cạnh sau:
Đầu tiên, SIMA sử dụng môi trường trò chơi để đào tạo nhưng chú ý nhiều hơn đến tính nhất quán trong hành vi của tác nhân và hướng dẫn mà nó nhận được. Theo quan điểm của nhóm DeepMind, “Trò chơi là nơi thử nghiệm quan trọng cho trí tuệ nhân tạo (AI) hệ thống, và Giống như thế giới thực, trò chơi là một môi trường học tập phong phú, với cài đặt thời gian thực đáp ứng nhanh và mục tiêu luôn thay đổi." SIMA tương tự như các tác nhân trò chơi do nhóm DeepMind phát hành trước đây ở chỗ nó cũng quan sát việc học trong quá trình đào tạo của mình quá trình Một lượng lớn dữ liệu hành vi của người chơi. Điểm khác biệt là mục đích của việc đào tạo SIMA không phải để đánh bại người chơi hoặc đạt điểm cao trong trò chơi mà là học cách làm theo hướng dẫn ngôn ngữ tự nhiên do con người đưa ra trong các môi trường trò chơi khác nhau và chơi trong trò chơi Hành vi phù hợp với hướng dẫn trong môi trường.
Thứ hai, SIMA kết hợp các mô hình ngôn ngữ lớn với đào tạo nhân viên và áp dụng giao diện tương tác thống nhất và nhân bản. "Việc học ngôn ngữ và môi trường bổ sung cho nhau. Bằng cách học ngôn ngữ tự nhiên, sự hiểu biết của tác nhân về các biểu diễn chung và khái niệm trừu tượng có thể được cải thiện và hiệu quả học tập có thể được cải thiện." So với các tác nhân trước đây dựa trên môi trường trò chơi, SIMA giới thiệu mô hình ngôn ngữ lớn trong đào tạo, toàn bộ quá trình đào tạo tuân theo quy tắc ngôn ngữ đầu tiên và mọi hành vi đào tạo đều được điều khiển trực tiếp bởi ngôn ngữ tự nhiên. Nghĩa là, SIMA không yêu cầu quyền truy cập vào mã nguồn của trò chơi cũng như API tùy chỉnh. Nó chỉ yêu cầu hai đầu vào: thông tin hình ảnh trên màn hình và hướng dẫn ngôn ngữ tự nhiên do người dùng cung cấp, có thể được thực thi bằng bàn phím và chuột để điều khiển nhân vật trong trò chơi. Về phương thức tương tác cụ thể, SIMA áp dụng giao diện tương tác thống nhất và nhân bản, con người có thể gọi trực tiếp giao diện tương tác này để đưa ra hướng dẫn bằng ngôn ngữ tự nhiên cho SIMA (xem Hình 4 bên dưới).

Hình 4 Kiến trúc tác nhân SIMA
Thứ ba, SIMA có khả năng khái quát hóa tốt và có thể duy trì hiệu suất cao trong các tình huống ảo khác nhau. Cấp độ khả năng. Theo dữ liệu hiện tại do nhóm DeepMind công bố, SIMA đã được đánh giá thông qua 600 kỹ năng cơ bản, bao gồm điều hướng (như rẽ trái), tương tác với đối tượng (leo thang) và sử dụng menu (mở bản đồ), v.v. và đã được sử dụng trong nhiều môi trường trò chơi. Tất cả chúng đều cho thấy mức hiệu suất cao hơn so với các tác nhân tương tự. Các nhà nghiên cứu của DeepMind đã đánh giá khả năng SIMA hoàn thành gần 1.500 nhiệm vụ cụ thể trong trò chơi theo hướng dẫn, một số nhiệm vụ sử dụng đánh giá của con người. Kết quả cho thấy dù ở môi trường trò chơi nào, hiệu suất của SIMA đều vượt xa so với các loại cùng loại. (Hình 5).

Hình 5 So sánh hiệu suất của nhiều tác nhân trong các môi trường khác nhau
strong>< strong mpa-from-tpl="t"> Áp dụng các kịch bản mới:
AI giúp sáng tạo trò chơi
Nâng cao hiệu quả sáng tạo nội dung
Trò chơi đã trở thành nơi thử nghiệm và vườn ươm để xây dựng các Tác nhân AI toàn cầu, không ngừng thúc đẩy việc cập nhật và lặp lại quá trình ra quyết định Công nghệ AI. Đồng thời, với sự trưởng thành của các công nghệ AI tổng quát như Stable Diffusion và Transformer, công nghệ AI cũng bắt đầu hỗ trợ ngược lại việc tạo nội dung trong trò chơi và ngành văn hóa rộng lớn hơn. chẳng hạn như hình ảnh, văn bản, âm thanh và video và NPC có thể cải thiện hiệu quả phát triển sản phẩm và hạ thấp hơn nữa ngưỡng sản xuất nội dung tương tác.
Ở cấp độ ứng dụng, các mô hình AI tổng quát đã trở thành trợ lý đắc lực cho các nhà phát triển trò chơi. Dữ liệu từ "Báo cáo ngành trò chơi thống nhất năm 2024" cho thấy sau khi sử dụng công nghệ AI, 71% studio trò chơi cho biết hiệu quả hoạt động và R&D của họ đã được cải thiện. Sự cải thiện hiệu quả này không chỉ thể hiện ở việc trao quyền cho từng người sáng tạo nội dung trong về các khía cạnh, nó còn được thể hiện ở khả năng giảm chi phí giao tiếp của người lao động ở các liên kết khác nhau một cách hiệu quả.
Về mặt sản xuất nội dung trò chơi, AI tổng quát đã được sử dụng rộng rãi trong việc tạo văn bản, sáng tạo nghệ thuật 2D, tạo và phát hiện mã cũng như tạo thiết kế cấp độ. Trước khi các công cụ AI can thiệp vào quy trình làm việc của nghệ thuật trò chơi, các nghệ sĩ trò chơi phải mất khoảng một tuần để hoàn thành một hình minh họa chất lượng cao. Sau khi sử dụng các công cụ AI tổng quát như Stable Diffusion, có thể tạo ra một hình minh họa chất lượng cao. Thời gian được rút ngắn xuống còn 1 ngày.

Hình 6 Quy trình vẽ nhân vật minh họa dựa trên công cụ AIGC
Generative AI cũng có tiềm năng rất lớn trong việc giảm chi phí giao tiếp cho các loại nhân viên khác nhau. không gian. Ví dụ, trong quá trình sản xuất trò chơi, đặc biệt là khi thiết lập tông màu và lựa chọn phong cách nghệ thuật trò chơi, việc giao tiếp giữa người lập kế hoạch trò chơi và người làm nghệ thuật thường đòi hỏi rất nhiều thời gian và chi phí. Sự can thiệp của các công cụ AI tổng quát có thể giúp người lập kế hoạch nhanh chóng triển khai và trình bày ý tưởng, giảm đáng kể chi phí truyền thông.
Ở cấp độ công cụ, khi AI tổng quát cải thiện hiệu quả phát triển trò chơi, nhiều công ty trò chơi khác nhau cũng đã bắt đầu tích hợp nó vào các công cụ sản xuất nội dung của riêng họ . . Công ty chip trò chơi NVIDIA đã phát hành NVIDIA ACE for Games, nền tảng công cụ AI dành cho nhà phát triển trò chơi vào tháng 6 năm 2023, cho phép các nhà phát triển trò chơi xây dựng và triển khai các mô hình AI tùy chỉnh như giọng nói, hội thoại và hoạt ảnh trong trò chơi, nâng cao hiệu quả đáng kể về sản xuất và sản xuất nội dung trò chơi, tại GDC 2024, NVIDIA và Inworld cùng công bố công nghệ con người kỹ thuật số mới Covert Protocol. NPC trò chơi dựa trên công nghệ này có thể tương tác với người chơi trong thời gian thực và có thể dựa trên nội dung Tương tác và thời gian thực thế hệ trò chơi [10].

Hình 7 Covert Bản demo công nghệ giao thức do NVIDIA phát hành
Các công ty công cụ trò chơi Unity và Unreal cũng đã phát hành các sản phẩm mới dựa trên AI tổng hợp. Unity đã phát hành hai sản phẩm mới dựa trên công nghệ trí tuệ nhân tạo vào tháng 7 năm 2023: Sentis và Muse. Được biết, hai sản phẩm này có thể tăng hiệu quả tạo nội dung truyền thống lên gấp 10 lần và Unreal cũng đã tích hợp một số lượng lớn công cụ AIGC vào công cụ riêng của mình. Ví dụ: Metahuman Creator, một công cụ sản xuất con người kỹ thuật số, cố gắng sử dụng công nghệ trí tuệ nhân tạo để tăng tốc việc tạo ra các nhân vật chất lượng cao và hiệu quả tạo cảnh quy mô lớn.
Các công ty sản xuất trò chơi cũng đã tận dụng triệt để công nghệ AI, sử dụng AI để hỗ trợ các công cụ sản xuất nội dung và không ngừng nâng cao hiệu quả phát triển nội dung. Lấy Tencent làm ví dụ, Tencent AI Lab đã ra mắt công cụ AI vòng đời trò chơi tự phát triển "GiiNEX" tại GDC 2024. Công cụ này sử dụng các mô hình AI tự phát triển và AI ra quyết định để nhắm mục tiêu vào các NPC do AI điều khiển, sản xuất cảnh, Trong các lĩnh vực như tạo nội dung, nó có thể cung cấp nhiều khả năng AIGC bao gồm đồ họa 3D, hoạt hình, thành phố và âm nhạc. Với sự trợ giúp của công cụ GiiNEX, nhiệm vụ lập mô hình thành phố ban đầu mất 5 ngày để hoàn thành giờ đây có thể hoàn thành chỉ trong 25 phút, tăng hiệu quả lên gấp trăm lần [11].

Hình 8 Sơ đồ kiến trúc GiiNEX của Tencent Game AI Engine
Kết luận
Kể từ Hội nghị Dartmouth năm 1956, trong lĩnh vực trí tuệ nhân tạo, trong Ngày đầu các nhà khoa học máy tính định nghĩa AI là “trí thông minh khiến máy móc phản ứng giống con người khi hành động” [12]. Sau này, gần như mọi nghiên cứu về trí tuệ nhân tạo đều đi theo con đường “mô phỏng” trí tuệ con người, cố gắng tạo ra trí tuệ nhân tạo có thể nghe, nhìn, nói, suy nghĩ, học hỏi và hành động, đồng thời cải thiện khả năng nhận thức, nhận biết thế giới thực và thực hiện các hành động ra quyết định.
Cho đến ngày nay, nghiên cứu về trí tuệ nhân tạo vẫn đi theo con đường và mục tiêu mô phỏng con người. Nếu chúng ta nói rằng các mô hình AI thế hệ lớn được đại diện bởi ChatGPT, Sora, v.v. đã cải thiện khả năng "nhận thức" và "nhận thức" của trí tuệ nhân tạo về sự vật, hoàn thành bước đầu tiên hướng tới trí tuệ nhân tạo nói chung. Sau đó, mô hình AI ra quyết định cho phép trí tuệ nhân tạo đưa ra những “lựa chọn” phù hợp thông qua học máy trong môi trường trò chơi phức tạp và đa dạng mang lại cho trí tuệ nhân tạo khả năng “hành động” và đưa ra quyết định độc lập dựa trên bản thân và thông tin môi trường, đạt được một bước quan trọng hướng tới trí tuệ nhân tạo nói chung.
Mặc dù nghiên cứu trí tuệ nhân tạo hiện tại vẫn còn lâu mới hiện thực hóa được AGI,sự kết hợp giữa AI tạo sinh và AI ra quyết định chắc chắn sẽ hiện thực hóa AGI mở ra những khả năng mới và trò chơi, với tư cách là nơi thử nghiệm đào tạo AI, ngày càng đóng vai trò quan trọng trong nghiên cứu trí tuệ nhân tạo nói chung. Chúng tôi đã thấy rằng dựa trên sự kết hợp giữa các mô hình ngôn ngữ lớn và tác nhân AI, chúng tôi đã có thể tạo ra các tác nhân trò chơi nói chung như SIMA, không chỉ có thể đưa ra quyết định hiệu quả trong một môi trường nhất định mà còn liên tục học hỏi và thích nghi ... môi trường không xác định và hoàn thành nhiều nhiệm vụ phức tạp khác nhau theo hướng dẫn của ngôn ngữ tự nhiên, thể hiện trí thông minh giống con người. Trong tương lai, khi môi trường đào tạo tiếp tục phát triển, các tác nhân trò chơi nói chung có thể có khả năng hiểu và hiểu các hướng dẫn ngôn ngữ phức tạp và nâng cao hơn.Mọi người được kỳ vọng sẽ tạo ra các hệ thống AI linh hoạt hơn, dễ thích ứng hơn và gần gũi hơn với trí thông minh của con người. . Chúng tôi cũng mong chờ ngày mà các tác nhân thông minh có mục đích chung có thể vượt qua bài kiểm tra của thế giới trò chơi nhỏ bé và chuyển sang giai đoạn rộng lớn của thế giới thực, phục vụ hàng nghìn ngành công nghiệp trong xã hội loài người.
Xin cảm ơn Cao Jianfeng, Liu Lin, Wang Peng, v.v. vì đã hướng dẫn họ trong quá trình viết bài viết này!