Tác giả: Alphatu Nguồn: X, @Alphatu4 Bản dịch: Shan Oppa, Golden Finance
Kể từ khi OpenAI bắt đầu triển khai các tính năng hình ảnh và giọng nói mới trên nền tảng ChatGPT vào tháng 9 năm 2023, một giao diện trực quan hơn đã được giới thiệu để cho phép người dùng trò chuyện bằng giọng nói và chia sẻ bằng hình ảnh ChatGPT, từ đó nâng cao trải nghiệm người dùng tổng thể.
Tình trạng này càng làm trầm trọng thêm sự phổ biến vốn đã bùng nổ của vận tải đa phương thức.
p> p>
Trên thực tế, việc tích hợp chức năng giọng nói và hình ảnh cung cấp cho người dùng nhiều cách để tương tác với ChatGPT trong mọi khía cạnh của cuộc sống. Dù đang di chuyển hay ở nhà, giờ đây người dùng có thể tận dụng các khả năng đa phương thức này để tương tác phong phú hơn với các mô hình AI, bổ sung thêm trí tưởng tượng cho nhiều kịch bản sản phẩm mà trước đây không thể thực hiện được.
Đa phương thức sẽ được sử dụng rộng rãi hơn trong các tình huống công nghiệp so với các mô hình ngôn ngữ chung.
Trí tuệ nhân tạo đa phương thức là gì?
Trí tuệ nhân tạo đa phương thức đề cập đến các hệ thống và mô hình trí tuệ nhân tạo có thể hiểu và xử lý thông tin từ nhiều chế độ hoặc nguồn. Trong bối cảnh trí tuệ nhân tạo, phương thức là một dạng hoặc kênh đầu vào khác, chẳng hạn như văn bản, hình ảnh, âm thanh, video hoặc bất kỳ loại dữ liệu nào khác. AI đa phương thức nhằm mục đích tích hợp và phân tích thông tin từ nhiều phương thức khác nhau để đạt được sự hiểu biết toàn diện hơn về dữ liệu.
Việc sử dụng rộng rãi các bộ xử lý đồ họa (GPU hoặc TPU) đã thúc đẩy đáng kể sự phát triển của AI học sâu. Tuy nhiên, Generative AI còn đưa tiến trình này đi xa hơn nữa, mang lại cho nó khả năng hấp thụ dữ liệu dưới dạng mã thông báo và các tham số đại diện cho số lượng kết nối giữa các nơ-ron dường như vô độ. Ngoài ra, nó sử dụng thước đo sức mạnh tính toán được gọi là Hoạt động dấu phẩy động (FLOPS). Mẫu GPT-4 mới nhất hiện được trang bị khả năng đa phương thức, có thể kết hợp văn bản và hình ảnh, đồng thời đã được cải tiến đáng kể, giành được nhiều lời khen ngợi về hiệu suất vượt trội so với các LLM hiện có trong nhiều tác vụ xử lý ngôn ngữ tự nhiên.
Trí tuệ nhân tạo đa phương thức và các kịch bản công nghiệp
Tuy nhiên, những hạn chế của dữ liệu đơn phương thức này mang đến thách thức cho các tình huống thực tế, đặc biệt là các tình huống công nghiệp và yêu cầu sử dụng trí tuệ nhân tạo đa phương thức.
Trong các tình huống giàu thông tin, chỉ dựa vào mô hình "ngôn ngữ" là không đủ. Việc ra quyết định và đánh giá thông tin hiệu quả đòi hỏi nhiều tín hiệu.
Lấy ngành sản xuất làm ví dụ. Có một lượng lớn hình ảnh, nhiệt độ, trọng lượng và các dữ liệu khác trong ngành sản xuất. Trong trường hợp này, chỉ dựa vào các mô hình ngôn ngữ là không đủ, điều này nhấn mạnh sự cần thiết phải tích hợp nhiều dạng thông tin khác nhau.
Lấy lĩnh vực y tế làm ví dụ. Tại sao các bác sĩ thích chẩn đoán trực tiếp hơn và tại sao trí tuệ nhân tạo hiện tại không thể chẩn đoán đầy đủ bệnh tật? Lời giải thích nằm ở việc bác sĩ phân tích văn bản và tình trạng của bệnh nhân. Khi kiểm tra một tia X cụ thể, các bác sĩ tham gia vào việc động não và tư vấn khi họ trích xuất nhiều thứ hơn là chỉ một hình ảnh hoặc đoạn văn bản, diễn giải thông tin đa phương thức.
Đầu vào đa phương thức không chỉ giới hạn ở văn bản mà còn bao gồm âm thanh, dữ liệu hồng ngoại và các thành phần khác. Cách tiếp cận này giúp đào tạo các mô hình suy nghĩ theo nhiều chiều.
Hãy xem xét một chiếc ô tô tự lái chỉ được trang bị hệ thống camera, nó sẽ gặp khó khăn trong việc xác định người đi bộ trong điều kiện ánh sáng yếu. Để giải quyết triệt để những thách thức này, sự kết hợp giữa lidar, radar và GPS là rất quan trọng. Sự tích hợp này cho phép các phương tiện nhận thức đầy đủ hơn về môi trường xung quanh, từ đó cải thiện độ an toàn và độ tin cậy khi lái xe.
Các nguyên tắc cơ bản ở đây nhấn mạnh tầm quan trọng của việc tích hợp nhiều giác quan để hiểu sâu hơn về các sự kiện phức tạp. Bằng cách tận dụng AI đa phương thức, thông tin văn bản, ảnh, video và âm thanh có thể được hợp nhất để tạo thành mô tả mạch lạc và toàn diện về một tình huống nhất định.
Trí tuệ nhân tạo giải quyết cơ bản các vấn đề về tri thức, trong khi Internet chủ yếu giải quyết các vấn đề về thông tin. Kiến thức có tính chất cụ thể theo miền và thiếu tính phổ biến của Internet. Sự tích hợp hợp tác của các chuyên gia trong lĩnh vực và khả năng AI đa phương thức trong sản xuất có khả năng giảm đáng kể chi phí và tăng hiệu quả.