AI tiến bộ, nhưng vẫn không hiểu được tương tác của con người
Trong khi trí tuệ nhân tạo (AI) tiếp tục phát triển, nó vẫn bị thách thức bởi sự phức tạp trong tương tác xã hội của con người.
Một nghiên cứu gần đây tại Hoa Kỳ đã làm sáng tỏ hạn chế này, cho thấy rằng mặc dù AI có thể nhận dạng hiệu quả các vật thể và khuôn mặt trong hình ảnh tĩnh, nhưng lại gặp khó khăn trong việc mô tả và diễn giải động lực xã hội trong các cảnh chuyển động.
Dưới sự chỉ đạo của Leyla Isik, giáo sư khoa học nhận thức tại Đại học Johns Hopkins, nghiên cứu này nhằm mục đích đánh giá cách các mô hình AI hiểu được hành vi xã hội.
Để đạt được điều này, nhóm đã tiến hành một thí nghiệm quy mô lớn liên quan đến hơn 350 mô hình AI, mỗi mô hình chuyên về xử lý video, hình ảnh hoặc ngôn ngữ.
Các mô hình này được chiếu các đoạn video ngắn ba giây mô tả nhiều tình huống xã hội khác nhau, trong khi những người tham gia đánh giá cường độ tương tác theo thang điểm từ 1 đến 5.
Mục tiêu là so sánh cách con người và AI diễn giải các tình huống này, cung cấp những hiểu biết có giá trị về những hạn chế hiện tại của AI trong việc hiểu các sắc thái của tương tác xã hội.
Khoảng cách quan trọng trong các mô hình AI hiện đại
Cácnhân loại những người tham gia nghiên cứu đã chứng minh được sự nhất quán đáng chú ý trong đánh giá của họ, phản ánh sự hiểu biết sâu sắc và chung về các tương tác xã hội.
Ngược lại, AI gặp khó khăn trong việc sao chép những phán đoán này.
Các mô hình chuyên về video đặc biệt không hiệu quả trong việc diễn giải chính xác các cảnh, trong khi các mô hình dựa trên hình ảnh tĩnh, ngay cả khi được cung cấp nhiều đoạn trích video, vẫn gặp khó khăn trong việc xác định liệu các nhân vật có đang giao tiếp hay không.
Các mô hình ngôn ngữ hoạt động tốt hơn một chút, đặc biệt là khi được cung cấp các mô tả do con người viết, nhưng vẫn chưa đạt đến mức hiểu biết của con người.
Đối với Isik, việc AI không thể nắm bắt được động lực xã hội của con người là rào cản đáng kể đối với việc tích hợp hiệu quả AI vào các ứng dụng trong thế giới thực.
Tác giả chính của nghiên cứu giải thích trong một bản tin:
"Ví dụ, AI cho xe tự lái sẽ cần phải nhận ra ý định, mục tiêu và hành động của người lái xe và người đi bộ. Bạn sẽ muốn nó biết người đi bộ sắp bắt đầu đi theo hướng nào, hoặc liệu hai người đang trò chuyện hay sắp băng qua đường. Bất cứ khi nào bạn muốn AI tương tác với con người, bạn muốn nó có thể nhận ra những gì mọi người đang làm. Tôi nghĩ rằng [nghiên cứu] này làm sáng tỏ thực tế là các hệ thống này hiện không thể làm được điều đó".
Các nhà nghiên cứu cho rằng khoảng cách này có thể bắt nguồn từ thiết kế của mạng lưới nơ-ron AI, chủ yếu được mô phỏng theo các vùng não chịu trách nhiệm xử lý hình ảnh tĩnh.
Ngược lại, các bối cảnh xã hội năng động đòi hỏi sự tham gia từ các vùng não khác nhau, tạo ra sự không phù hợp về mặt cấu trúc có thể giải thích điều mà các nhà nghiên cứu mô tả là "điểm mù" trong quá trình phát triển AI.
Đồng tác giả của nghiên cứu, Kathy Garcia, lưu ý:
"Thật vậy, "cuộc sống thực không phải là tĩnh. Chúng ta cần AI để hiểu câu chuyện đang diễn ra trong một cảnh."
Cuối cùng, nghiên cứu này nhấn mạnh sự chia rẽ sâu sắc giữa nhận thức của con người và AI về các kịch bản xã hội động.
Mặc dù AI có sức mạnh tính toán ấn tượng và khả năng xử lý lượng dữ liệu khổng lồ, nhưng nó vẫn không thể hiểu đầy đủ những ý định ẩn dụ và tinh tế trong các tương tác xã hội của con người.
Mặc dù AI đã có những bước tiến đáng kể, nhưng vẫn phải đối mặt với những thách thức đáng kể trong việc hiểu được sự phức tạp trong hành vi của con người.