Nguồn: Quantum
OpenAI đang ra mắt một chatbot trí tuệ nhân tạo tiên tiến mà bạn có thể trò chuyện. Robot hiện đã có sẵn, ít nhất là đối với một số người.
Chatbot mới thể hiện bước đi của OpenAI hướng tới thế hệ trợ lý giọng nói trí tuệ nhân tạo mới tương tự như Siri và Alexa, nhưng mạnh mẽ hơn và cho phép các cuộc trò chuyện tự nhiên và mượt mà hơn . Đây là một bước tiến tới các tác nhân trí tuệ nhân tạo toàn diện hơn. Bot giọng nói ChatGPT mới có thể phân biệt thông tin được truyền tải bằng các ngữ điệu khác nhau, phản ứng với những gián đoạn và trả lời các truy vấn trong thời gian thực. Nó cũng đã được huấn luyện để phát ra âm thanh tự nhiên hơn và có thể truyền tải nhiều cảm xúc khác nhau bằng giọng nói của mình.
Mô hình giọng nói của nó được điều khiển bởi mô hình GPT-4o mới của OpenAI, kết hợp các khả năng nói, văn bản và hình ảnh. Ban đầu, công ty đang triển khai chatbot cho một "số lượng nhỏ" người dùng trả phí ChatGPT Plus nhằm nỗ lực thu thập phản hồi, nhưng công ty cho biết họ sẽ cung cấp chatbot này cho tất cả những người đăng ký ChatGPT Plus vào mùa thu này. Đăng ký ChatGPT Plus có giá 20 USD mỗi tháng (khoảng 144 RMB). OpenAI cho biết họ sẽ thông báo cho những người dùng đầu tiên về việc triển khai ứng dụng ChatGPT và cung cấp hướng dẫn về cách sử dụng mô hình mới.
Tính năng giọng nói mới đã được công bố vào tháng 5 nhưng ra mắt muộn hơn một tháng so với dự kiến ban đầu vì công ty cho biết họ cần thêm thời gian để cải thiện các tính năng bảo mật như phát hiện và từ chối mô hình Khả năng phát hiện nội dung phản cảm . Công ty cũng cho biết họ đang chuẩn bị cơ sở hạ tầng để cung cấp phản hồi theo thời gian thực cho hàng triệu người dùng.
OpenAI cho biết họ đã thử nghiệm khả năng nói của mô hình với hơn 100 thành viên nhóm đỏ bên ngoài, những người được giao nhiệm vụ phát hiện sai sót trong mô hình. Theo OpenAI, những người thử nghiệm này nói tổng cộng 45 ngôn ngữ và đến từ 29 quốc gia.
Công ty cho biết họ đã triển khai một số cơ chế bảo mật. Ví dụ: để ngăn việc sử dụng mô hình này để tạo âm thanh giả mạo sâu, công ty đã làm việc với các diễn viên lồng tiếng để tạo ra bốn giọng nói cài sẵn. GPT-4o không bắt chước hoặc tạo ra giọng nói của người khác.
Khi OpenAI lần đầu tiên ra mắt GPT-4o, công ty đã phải đối mặt với phản ứng dữ dội vì sử dụng giọng nói có tên "Sky", nghe rất giống nữ diễn viên Scarlett Johansson. Johnson đưa ra một tuyên bố cho biết công ty đã liên hệ với cô về việc cho phép sử dụng giọng nói của cô trong người mẫu, nhưng cô đã từ chối. Cô cho biết cô đã bị sốc khi nghe thấy một giọng nói "giống đến kỳ lạ" với giọng của mình trong buổi trình diễn người mẫu. OpenAI phủ nhận giọng nói đó là của Johnson nhưng đã đình chỉ quyền truy cập vào Sky.
Công ty cũng đã vướng vào nhiều vụ kiện cáo buộc vi phạm bản quyền. OpenAI cho biết họ đã triển khai các bộ lọc để xác định và chặn các yêu cầu tạo nhạc hoặc âm thanh được bảo vệ bản quyền khác. OpenAI cũng cho biết họ đã áp dụng các cơ chế bảo mật tương tự mà nó sử dụng trong các mô hình dựa trên văn bản của mình cho GPT-4o để ngăn nó vi phạm pháp luật và tạo ra nội dung có hại.
OpenAI có kế hoạch bổ sung thêm nhiều tính năng nâng cao hơn trong tương lai, chẳng hạn như chia sẻ video và màn hình, có thể giúp trợ lý này trở nên hữu ích hơn nữa. Trong một cuộc trình diễn vào tháng 5, các nhân viên đã hướng camera điện thoại của họ vào một tờ giấy và yêu cầu một mô hình AI giúp họ giải một phương trình toán học. Họ cũng chia sẻ màn hình máy tính và yêu cầu người mẫu giúp họ giải quyết các vấn đề về lập trình. OpenAI cho biết các tính năng này hiện chưa được tung ra nhưng sẽ có vào một thời điểm sau đó, chưa xác định.