OpenAI đang nâng cao khả năng giọng nói của mình bằng cách ra mắt Chế độ giọng nói nâng cao dành cho người dùng ChatGPT Plus và Teams.
Tính năng được mong đợi này hứa hẹn sẽ biến những tương tác của người dùng với chatbot thành những trải nghiệm đàm thoại tự nhiên hơn.
Được hỗ trợ bởi GPT-4o, mô hình mới nhất của OpenAI, chế độ giọng nói tích hợp văn bản, hình ảnh và âm thanh, mang lại khả năng trao đổi nhanh hơn và trôi chảy hơn.
OpenAI thông báo qua tweet chính thức:
"Advanced Voice sẽ được triển khai tới tất cả người dùng Plus và Team trong ứng dụng ChatGPT trong tuần này."
Họ cũng nhấn mạnh một khía cạnh thú vị của tính năng này, cho biết nó có thể nói "Xin lỗi, tôi đến muộn" bằng hơn 50 ngôn ngữ, một sự thừa nhận về mốc thời gian phát triển dài của dự án.
Một bước tiến tới những cuộc trò chuyện liền mạch
OpenAI xác nhận tính năng giọng nói nâng cao hiện đã có sẵn cho người dùng dịch vụ cao cấp.
Sự đổi mới này cho phép người dùng tham gia vào các cuộc trò chuyện năng động hơn, nâng cao trải nghiệm tương tác tổng thể.
Tuy nhiên, việc triển khai vẫn chưa khả dụng đối với người dùng ở EU, Iceland, Liechtenstein, Na Uy, Thụy Sĩ hoặc Vương quốc Anh, tạo ra sự khác biệt về mặt địa lý về tính khả dụng.
Được công bố lần đầu vào tháng 5, khả năng giọng nói mới đã thu hút được sự chú ý đáng kể do tùy chọn giọng nói có tên Sky, có nét tương đồng đáng kinh ngạc với giọng nói của Scarlett Johansson trong bộ phim "Her" năm 2013.
Sau tiết lộ này, đại diện pháp lý của Johansson đã gửi thư cho OpenAI, cáo buộc rằng công ty không có quyền sử dụng giọng nói giống với giọng nói của cô ấy.
Do đó, theo CNBC đưa tin, OpenAI đã ngừng sử dụng giọng nói trong các sản phẩm của mình.
Trải nghiệm giọng nói phong phú hơn
Trong những tháng sau thông báo ban đầu, người dùng có thể tương tác với ChatGPT bằng nhiều giọng nói khác nhau trong gói miễn phí.
Tuy nhiên, phiên bản nâng cao cải thiện đáng kể khả năng phản hồi, cho phép tạm dừng và lắng nghe nếu bị ngắt quãng giữa cuộc trò chuyện.
Hiện tại, người dùng có thể chọn trong số chín giọng nói khác nhau và có thể tùy chỉnh trải nghiệm của mình thông qua cài đặt của ứng dụng.
“Hy vọng bạn thấy việc chờ đợi là xứng đáng”, Sam Altman, đồng sáng lập kiêm giám đốc điều hành của OpenAI, chia sẻ trong bài đăng trên X, phản ánh sự mong đợi xung quanh tính năng này.
Khi sự cạnh tranh ngày càng gia tăng, OpenAI thấy mình đang ở trong bối cảnh AI tạo sinh đang phát triển nhanh chóng.
Google gần đây đã ra mắt tính năng giọng nói Gemini Live trên các thiết bị Android, trong khi Meta dự kiến sẽ ra mắt giọng nói của người nổi tiếng có thể truy cập thông qua các nền tảng của mình, bao gồm Facebook và Instagram.
Điều hướng tính năng mới
Chế độ giọng nói nâng cao của OpenAI chỉ dành riêng cho những người đăng ký gói Plus, Team hoặc Enterprise, với mức giá khởi điểm của gói Plus là 20 đô la mỗi tháng.
Để truy cập tính năng mới này, người dùng cần đảm bảo rằng họ đã cài đặt phiên bản mới nhất của ứng dụng ChatGPT trên thiết bị của mình.
Sau khi được cấp quyền truy cập, một thông báo sẽ xuất hiện trong ứng dụng, nhắc nhở người dùng tiếp tục.
Để bắt đầu trò chuyện bằng giọng nói, người dùng có thể vuốt sang phải hoặc chạm vào biểu tượng hai dòng ở góc trên bên trái của ứng dụng để tạo cuộc trò chuyện mới.
Biểu tượng sóng âm sẽ xuất hiện bên cạnh trường văn bản tin nhắn và biểu tượng micrô, cho biết chức năng giọng nói đã sẵn sàng.
Sau khi chạm vào biểu tượng, một âm thanh "bùm" ngắn sẽ báo hiệu sự sẵn sàng, biến vòng tròn trên màn hình thành hình ảnh động màu xanh và trắng.
Người dùng có thể bắt đầu nói và họ sẽ nhận được phản hồi nhanh chóng.
OpenAI đã có những bước tiến trong việc cải thiện giọng nói ở nhiều ngôn ngữ nước ngoài khác nhau và tăng tốc độ hội thoại.
Nếu người dùng muốn thay đổi cách truyền đạt, họ có thể yêu cầu sửa đổi, chẳng hạn như yêu cầu ChatGPT nói nhanh hơn hoặc nói theo giọng miền Nam.
Hạn chế và trường hợp sử dụng
Chế độ giọng nói nâng cao cho phép ChatGPT hỗ trợ người dùng thực hiện nhiều tác vụ khác nhau, từ kể chuyện trước khi đi ngủ đến chuẩn bị cho buổi phỏng vấn xin việc hoặc rèn luyện kỹ năng ngoại ngữ.
Tuy nhiên, người dùng cần lưu ý rằng ngay cả người đăng ký trả phí cũng phải tuân theo giới hạn sử dụng.
Sau khoảng 30 phút tương tác, thông báo "còn 15 phút" sẽ xuất hiện ở cuối màn hình, làm dấy lên câu hỏi về phạm vi truy cập vào tính năng này.
Khi OpenAI tiếp tục đổi mới và mở rộng khả năng của mình, việc giới thiệu Chế độ giọng nói nâng cao đánh dấu một bước quan trọng trong việc khiến các tương tác AI trở nên hấp dẫn và chân thực hơn.