Năm 1994, nhà thiết kế trang sức người Florida Diana Duyser tuyên bố đã nhìn thấy khuôn mặt của Đức mẹ đồng trinh trên một chiếc bánh sandwich phô mai nướng—một khám phá mà bà đã bán đấu giá với giá 28.000 đô la. Trong khi sự việc này trở thành tiêu đề trên các báo, nó cũng thu hút sự chú ý đến một hiện tượng tâm lý cổ xưa được gọi là pareidolia, khi mọi người nhận thức được khuôn mặt hoặc các mẫu hình trong các vật thể vô tri. Nhưng chính xác thì điều gì kích hoạt xu hướng này và liệu máy móc, với khả năng tiên tiến của mình, có bao giờ trải nghiệm được hiện tượng pareidolia giống như con người không?
Một nghiên cứu mới mang tính đột phá từ Phòng thí nghiệm Khoa học máy tính và Trí tuệ nhân tạo (CSAIL) của MIT nhằm mục đích trả lời những câu hỏi này, giới thiệu một tập dữ liệu mở rộng gồm 5.000 hình ảnh khuôn mặt ảo được gắn nhãn của con người. Tập dữ liệu này đã cho phép các nhà nghiên cứu đi sâu vào các sắc thái về cách con người và các hệ thống trí tuệ nhân tạo (AI) xử lý những khuôn mặt ảo này, khám phá ra những hiểu biết bất ngờ trong suốt quá trình.
Nguồn gốc của hiện tượng ảo giác khuôn mặt
Nghiên cứu do Mark Hamilton, một nghiên cứu sinh tiến sĩ tại MIT, dẫn đầu, khám phá nguồn gốc sâu xa hơn của pareidolia. Hamilton giải thích rằng "Pareidolia khuôn mặt từ lâu đã làm say mê các nhà tâm lý học, nhưng nó vẫn chưa được khám phá nhiều trong cộng đồng thị giác máy tính". Mục tiêu của nhóm là thu hẹp khoảng cách đó và điều tra cách con người và AI phát hiện khuôn mặt ở những nơi về mặt kỹ thuật không tồn tại, chẳng hạn như mây, ổ cắm điện hoặc thậm chí là bánh sandwich phô mai nướng.
Cuộc đấu tranh của AI trong việc nhận dạng khuôn mặt ảo giác
Một trong những phát hiện chính là các mô hình AI, lúc đầu, không nhận dạng được khuôn mặt pareidolic theo cùng cách mà con người làm. Trong khi con người có thể ngay lập tức "nhìn thấy" một khuôn mặt trong một vật thể hàng ngày, như đèn pha ô tô hoặc một hoa văn trên sàn nhà, thì máy móc đòi hỏi phải được đào tạo phức tạp hơn. Nghiên cứu cho thấy rằng phải đến khi các thuật toán được tinh chỉnh để phát hiện khuôn mặt động vật thì chúng mới trở nên tốt hơn đáng kể trong việc nhận dạng khuôn mặt pareidolic.
Mối liên hệ đáng ngạc nhiên này giữa việc nhận ra khuôn mặt động vật và nhận ra khuôn mặt ảo chỉ ra nguồn gốc tiến hóa có thể có của ảo giác pareidolia. Việc phát hiện khuôn mặt, đặc biệt là khuôn mặt của động vật ăn thịt hoặc con mồi, có thể là cơ chế sinh tồn của tổ tiên xa xưa của chúng ta. Hamilton cho biết: "Kết quả này cho thấy ảo giác pareidolia có thể không phát sinh từ hành vi xã hội của con người, mà từ một điều gì đó sâu xa hơn: như nhanh chóng phát hiện ra một con hổ đang rình rập hoặc xác định hướng nhìn của một con nai để tổ tiên nguyên thủy của chúng ta có thể săn mồi".
Vùng Goldilocks của Pareidolia
Một khám phá quan trọng khác từ nghiên cứu của MIT là việc xác định “Vùng Goldilocks của Pareidolia”. Thuật ngữ này đề cập đến một phạm vi cụ thể về độ phức tạp của thị giác, nơi cả con người và máy móc đều có khả năng nhận ra khuôn mặt ở những vật thể không phải khuôn mặt. Theo William T. Freeman, giáo sư MIT và là nhà nghiên cứu chính của dự án, nếu một hình ảnh quá đơn giản, sẽ không có đủ chi tiết để tạo thành khuôn mặt, nhưng nếu quá phức tạp, nó sẽ trở thành nhiễu thị giác.
Để mô hình hóa hiện tượng này, các nhà nghiên cứu đã phát triển một công thức dự đoán nơi mà ảo giác pareidolia có khả năng xảy ra nhiều nhất. Họ phát hiện ra rằng khả năng phát hiện khuôn mặt đạt đỉnh trong một phạm vi phức tạp cụ thể, điều mà họ đã xác nhận thông qua các thử nghiệm với cả đối tượng là con người và hệ thống AI. "Đỉnh ảo giác pareidolia" này làm nổi bật sự cân bằng tinh tế giữa tính đơn giản và tính phức tạp cần thiết cho bộ não của chúng ta—và bây giờ là máy móc—để nhận biết khuôn mặt ảo.
Xây dựng Bộ dữ liệu Pareidolic lớn nhất
Một thành phần chính của nghiên cứu là việc tạo ra một tập dữ liệu làm lu mờ các bộ sưu tập trước đây về các kích thích pareidolic. Nhóm CSAIL đã tuyển chọn khoảng 20.000 hình ảnh ứng viên từ tập dữ liệu LAION-5B, dán nhãn và đánh giá chúng một cách tỉ mỉ dựa trên nhận thức của con người về khuôn mặt. Mỗi hình ảnh được đánh giá dựa trên nhiều yếu tố khác nhau, chẳng hạn như cảm xúc mà khuôn mặt gợi lên, độ tuổi của khuôn mặt và liệu khuôn mặt có vẻ vô tình hay cố ý. Quá trình này, bao gồm nhiều giờ chú thích của con người, rất cần thiết để xây dựng một nguồn tài nguyên có thể thúc đẩy nghiên cứu về cả AI và nhận thức của con người.
Hamilton hài hước thừa nhận công sức cá nhân bỏ ra cho nhiệm vụ to lớn này: "Phần lớn tập dữ liệu này có được là nhờ mẹ tôi", ông chia sẻ, ám chỉ đến mẹ ông, một nhân viên ngân hàng đã nghỉ hưu, người đã giúp dán nhãn cho các hình ảnh.
Ứng dụng vượt ra ngoài Pareidolia: Từ phát hiện khuôn mặt đến thiết kế sản phẩm
Trong khi nghiên cứu tập trung vào hiện tượng kỳ lạ của pareidolia, thì ý nghĩa của nó còn vượt xa hơn thế. Những hiểu biết thu được từ nghiên cứu có thể cải thiện đáng kể các hệ thống phát hiện khuôn mặt dựa trên AI, giảm các kết quả dương tính giả. Điều này có ứng dụng thực tế trong các lĩnh vực như xe tự lái, nơi phát hiện khuôn mặt giả có thể dẫn đến những sai lầm nguy hiểm, và trong các lĩnh vực như robot và tương tác giữa người và máy tính, nơi nhận ra hoặc tránh pareidolia có thể giúp tương tác với máy móc trở nên mượt mà hơn.
Hơn nữa, những phát hiện này có tiềm năng ứng dụng trong thiết kế sản phẩm. Hiểu và kiểm soát pareidolia có thể giúp các nhà thiết kế tạo ra những sản phẩm trông thân thiện hơn và ít đáng sợ hơn. Hamilton cho biết: "Hãy tưởng tượng bạn có thể tự động điều chỉnh thiết kế của một chiếc ô tô hoặc đồ chơi của trẻ em để trông thân thiện hơn hoặc đảm bảo một thiết bị y tế không vô tình trông có vẻ đe dọa".
Khoảng cách nhận thức giữa con người và máy móc
Nghiên cứu này cũng đặt ra những câu hỏi thú vị về sự khác biệt giữa nhận thức của con người và máy móc. Con người theo bản năng diễn giải các vật thể vô tri vô giác với các đặc điểm giống con người, trong khi các thuật toán AI thì không. Ví dụ, con người có thể cảm nhận ổ cắm điện là "hát", và thậm chí tưởng tượng ra "đôi môi chuyển động" của nó, nhưng AI không "nhìn thấy" những khuôn mặt hoạt hình này.
“Điều gì giải thích cho sự khác biệt này giữa nhận thức của con người và cách diễn giải thuật toán? Pareidolia có lợi hay có hại?” Hamilton đặt câu hỏi. Những câu hỏi này, cùng với nhiều câu hỏi khác, tạo thành cơ sở cho các cuộc điều tra đang diễn ra của nhóm nghiên cứu về hiện tượng tâm lý cổ điển này.
Nhìn về phía trước: Hướng tới hệ thống AI giống con người
Khi nhóm CSAIL chuẩn bị chia sẻ tập dữ liệu của họ với cộng đồng khoa học rộng lớn hơn, họ đã hướng đến tương lai. Các bước tiếp theo tiềm năng bao gồm đào tạo các hệ thống AI không chỉ phát hiện khuôn mặt pareidolic mà còn hiểu và mô tả chúng theo cách giống con người hơn. Ví dụ, các mô hình ngôn ngữ thị giác có thể được thiết kế để tương tác với các kích thích thị giác theo cách phù hợp hơn với trải nghiệm của con người.
“Đây là một bài báo thú vị! Đọc rất vui và khiến tôi phải suy nghĩ,” Pietro Perona, một giáo sư tại Caltech, người không tham gia vào nghiên cứu, bình luận. Ông nói thêm, “Hamilton và cộng sự đề xuất một câu hỏi hấp dẫn: Tại sao chúng ta nhìn thấy khuôn mặt trong mọi thứ?”
Cuối cùng, nghiên cứu này không chỉ có thể nâng cao hiểu biết của chúng ta về hiện tượng pareidolia mà còn làm sáng tỏ các cơ chế rộng hơn của nhận thức của con người và máy móc. Được hỗ trợ bởi Quỹ Khoa học Quốc gia, Phòng thí nghiệm Nghiên cứu Không quân Hoa Kỳ và Chương trình Tăng tốc Trí tuệ Nhân tạo của Không quân Hoa Kỳ, nghiên cứu này mở đường cho việc tạo ra các hệ thống AI nắm bắt tốt hơn các trải nghiệm và tương tác giống con người.
Khi thế giới của chúng ta tiếp tục được định hình bởi AI, việc hiểu được khoảng cách giữa trực giác của con người và logic thuật toán là rất quan trọng. Bằng cách nghiên cứu một hiện tượng kỳ lạ như pareidolia, các nhà nghiên cứu MIT đã mở ra cánh cửa để hiểu sâu hơn về cách máy móc có thể "nhìn" thế giới tốt hơn—và có thể một ngày nào đó chia sẻ sự kỳ diệu của một khuôn mặt trong một chiếc bánh sandwich phô mai nướng.