Microsoft cho thấy các đại lý mua sắm AI vẫn gặp khó khăn với các quyết định cơ bản và rủi ro bảo mật
Hãy tưởng tượng bạn đưa thẻ tín dụng cho một trợ lý kỹ thuật số để xử lý đơn đặt hàng bữa tối, dịch vụ tại nhà hoặc mua sắm trực tuyến.
Nghiên cứu mới nhất của Microsoft cho thấy bạn nên suy nghĩ kỹ.
Hợp tác với Đại học bang Arizona, công ty đã thử nghiệm hàng trăm tác nhân AI trong một thị trường mô phỏng có tên là Magentic Marketplace, cho thấy thương mại AI tự động vẫn chưa sẵn sàng để áp dụng trong thế giới thực.
Các tác nhân AI sẽ gặp khó khăn như thế nào khi phải đối mặt với quá nhiều lựa chọn
Thí nghiệm có sự tham gia của 100 tác nhân AI phía khách hàng và 300 tác nhân phía doanh nghiệp điều hướng các giao dịch như đặt bữa ăn hoặc đặt dịch vụ.
Các tác nhân được giao nhiệm vụ tìm kiếm, so sánh các lựa chọn, thương lượng và hoàn tất các khoản thanh toán mô phỏng.
Mặc dù tiền đề là AI có thể xử lý nhiều lựa chọn hơn con người, nhưng kết quả cho thấy các tác nhân thường chùn bước khi phải đối mặt với 100 kết quả tìm kiếm.
Thay vì tiến hành so sánh kỹ lưỡng, hầu hết các mô hình đều chọn tùy chọn “đủ tốt” đầu tiên mà chúng gặp, tạo ra “sai lệch đề xuất đầu tiên”.
Cách tiếp cận này giúp tăng tốc độ lên 10–30 lần nhưng lại làm giảm đáng kể chất lượng quyết định.
Các mô hình như GPT-4o và GPTOSS-20b đặc biệt dễ gặp phải tình trạng này, trong khi Gemini-2.5-Flash và GPT-5 hoạt động tốt hơn một chút.
Các nhà nghiên cứu kết luận rằng các tác nhân vẫn chưa thể sánh được với khả năng phân biệt của con người trong các tình huống lựa chọn phức tạp.
Các khai thác thao túng làm lộ ra các lỗ hổng nghiêm trọng
Nghiên cứu cũng kiểm tra cách các tác nhân xử lý các nỗ lực thao túng, bao gồm thông tin xác thực giả, bằng chứng xã hội và tiêm thuốc ngay lập tức.
Kết quả thật đáng báo động.
GPT-4o và GPTOSS-20b của OpenAI hoàn toàn dễ bị tấn công, khi các tác nhân độc hại chuyển hướng thành công mọi khoản thanh toán.
Qwen3-4b của Alibaba đã thất bại trước những lời kêu gọi của cơ quan có thẩm quyền cơ bản, trong khi Claude Sonnet 4 cho thấy khả năng phục hồi.
Microsoft đã nhấn mạnh những điểm yếu này là "mối lo ngại nghiêm trọng về bảo mật đối với các thị trường đại lý", chứng minh rằng các đại lý AI có thể dễ dàng bị đánh lừa trong môi trường thương mại.
Sự hợp tác và phối hợp vẫn là điểm yếu
Một phát hiện quan trọng khác là các tác nhân không có khả năng phối hợp hiệu quả.
Khi được yêu cầu cùng nhau hướng tới mục tiêu chung, nhiều người gặp khó khăn trong việc phân công vai trò hoặc tổ chức hành động.
Hiệu suất chỉ được cải thiện khi có sự hướng dẫn từng bước của con người, điều này làm mất đi mục đích hoạt động tự động.
Như các nhà nghiên cứu của Microsoft đã lưu ý,
“Chúng ta có thể hướng dẫn các mô hình — giống như chúng ta có thể nói với chúng, từng bước một. Nhưng nếu chúng ta đang thử nghiệm khả năng cộng tác của chúng, tôi mong đợi các mô hình này sẽ có những khả năng này theo mặc định.”
Ý nghĩa đối với thị trường tiêu dùng và bán lẻ
Nghiên cứu này được thực hiện trong bối cảnh ngày càng có nhiều người quan tâm đến trợ lý mua sắm tự động.
Nhà điều hành của OpenAI và Claude của Anthropic hứa hẹn khả năng mua sắm và điều hướng trang web không cần giám sát, nhưng phát hiện của Microsoft cho thấy những tuyên bố như vậy là quá sớm.
Nghiên cứu cũng nêu bật những căng thẳng với các nhà bán lẻ lớn; Amazon gần đây đã gửi thư yêu cầu ngừng hoạt động tới Perplexity AI, cáo buộc trình duyệt Comet của công ty này vi phạm các điều khoản bằng cách bắt chước người mua sắm.
Perplexity bảo vệ động thái này, coi đó là vấn đề tự chủ của người tiêu dùng.
Microsoft khuyến nghị “quyền tự chủ có giám sát”, trong đó các tác nhân AI hỗ trợ con người nhưng không thay thế việc ra quyết định.
Trên thực tế, điều này có nghĩa là các tác nhân có thể xử lý các lựa chọn và đưa ra khuyến nghị, nhưng con người phải giữ quyền kiểm soát và xác minh các quyết định cuối cùng.
Mô phỏng cung cấp một cái nhìn sâu sắc về những rủi ro trong thế giới thực của AI
Magentic Marketplace, hiện là mã nguồn mở trên Github, cho phép các nhà nghiên cứu khác sao chép các thí nghiệm và khám phá hành vi của tác nhân trong các thị trường được kiểm soát.
Nền tảng này quản lý danh mục sản phẩm, tạo điều kiện thuận lợi cho việc giao tiếp giữa các đại lý và mô phỏng thanh toán.
Bằng cách thử nghiệm cả mô hình độc quyền (GPT-4o, GPT-5, Gemini-2.5-Flash) và mô hình nguồn mở, nghiên cứu đã cung cấp thông tin chi tiết về cả những hạn chế về hoạt động và bảo mật.
Các nhà nghiên cứu đã quan sát thấy sự thiên vị ở các tác nhân AI, chẳng hạn như ưu tiên các doanh nghiệp dựa trên vị trí của họ trong kết quả tìm kiếm thay vì giá trị.
Do quá nhiều lựa chọn nên các đại lý thường không đánh giá kỹ lưỡng các khả năng.
Bảng thể hiện các phương pháp ra quyết định khác nhau trong ngành nhà hàng và tác động của chúng đến kết quả phúc lợi. Mỗi hàng đại diện cho một phương pháp, từ lựa chọn ngẫu nhiên đến các chiến lược được phối hợp chặt chẽ giữa các tác nhân. Màu sắc của các ô thể hiện lượng thông tin mà các tác nhân có: xanh lá cây nghĩa là đầy đủ thông tin, đỏ nghĩa là thông tin rất hạn chế, và vàng nghĩa là các quyết định dựa trên sự giao tiếp giữa các tác nhân. (Nguồn:Microsoft )
Mô phỏng tĩnh cung cấp những hiểu biết có giá trị, nhưng nhóm nghiên cứu cảnh báo rằng môi trường thực tế là động, với các tác nhân và người dùng học hỏi theo thời gian, làm cho việc triển khai trở nên phức tạp hơn.
Chúng ta đã sẵn sàng để AI xử lý việc mua hàng của mình chưa?
Nghiên cứu này đặt ra những câu hỏi cơ bản về mức độ sẵn sàng của các tác nhân AI cho hoạt động thương mại không giám sát.
Mặc dù AI có thể hỗ trợ xử lý thông tin, nhưng các mô hình hiện tại vẫn dễ bị thao túng, thiếu quyết đoán và kém cộng tác.
Nghiên cứu gợi ý về một tương lai mà AI sẽ nâng cao khả năng ra quyết định của con người thay vì thay thế nó, đồng thời nhấn mạnh tầm quan trọng của việc giám sát trong các giao dịch có rủi ro cao.
Việc giao quyền kiểm soát tài chính cho một đại lý ngày nay có thể vẫn rủi ro hơn là thuận tiện, báo hiệu nhu cầu thận trọng trong cuộc đua hướng tới trợ lý kỹ thuật số hoàn toàn tự động.