Google DeepMind đã phát hành Gemini Robotics-ER 1.6, được định vị là mô hình suy luận cấp cao dành cho robot. So với các phiên bản tiền nhiệm ER 1.5 và Gemini 3.0 Flash, nó mang lại những cải tiến đáng kể về khả năng suy luận không gian và hiểu biết đa góc nhìn. Mô hình này có sẵn cho các nhà phát triển thông qua API Gemini và Google AI Studio. Các nâng cấp cốt lõi bao gồm ba khả năng chính: 1. Cải thiện độ chính xác khi chỉ điểm: Cho phép phát hiện đối tượng chính xác, đếm, suy luận mối quan hệ không gian (ví dụ: chỉ ra tất cả các đối tượng có thể vừa vào cốc màu xanh lam) và lập kế hoạch quỹ đạo chuyển động, đồng thời từ chối chính xác việc chỉ vào các đối tượng không có trong khung hình. 2. Phát hiện đa góc nhìn thành công: Robot giờ đây có thể tích hợp nhiều nguồn cấp dữ liệu camera để xác định độ chính xác hoàn thành nhiệm vụ, ngay cả trong môi trường bị che khuất hoặc động. 3. Khả năng đọc thiết bị mới: Nó có thể diễn giải nhiều thiết bị công nghiệp khác nhau như đồng hồ đo áp suất tròn, chỉ báo độ cao thẳng đứng và màn hình kỹ thuật số. Thông qua thị giác chủ động (lý luận trực quan + thực thi mã), nó thực hiện suy luận từng bước, trước tiên phóng to các khu vực chi tiết, sau đó tính toán tỷ lệ và khoảng cách thông qua việc chỉ trỏ và mã, và cuối cùng kết hợp điều này với kiến thức về thế giới để đưa ra kết quả đọc.