Theo Decrypt, công ty khởi nghiệp Mistral AI có trụ sở tại Paris đã phát hành Mixtral, một mô hình ngôn ngữ lớn mở (LLM) được cho là vượt trội hơn GPT 3.5 của OpenAI ở một số điểm chuẩn đồng thời hiệu quả hơn. Công ty gần đây đã tuyên bố định giá 2 tỷ USD và nhận được khoản đầu tư Series A đáng kể từ công ty đầu tư mạo hiểm Andreessen Horowitz (a16z), với sự tham gia của những gã khổng lồ công nghệ Nvidia và Salesforce.
Mixtral sử dụng một kỹ thuật gọi là hỗn hợp chuyên gia thưa thớt (MoE), mà Mistral cho biết làm cho mô hình này mạnh hơn và hiệu quả hơn so với người tiền nhiệm của nó, Mistral 7b, và thậm chí cả những đối thủ mạnh hơn của nó. MoE là một kỹ thuật học máy trong đó các nhà phát triển đào tạo nhiều mô hình chuyên gia ảo để giải quyết các vấn đề phức tạp. Mỗi mô hình chuyên gia được đào tạo về một chủ đề hoặc lĩnh vực cụ thể và khi được nhắc về một vấn đề, mô hình sẽ chọn một nhóm chuyên gia từ một nhóm đại lý để quyết định đầu ra nào phù hợp với chuyên môn của họ hơn.
Mistral AI tuyên bố rằng Mixtral có tổng cộng 46,7 tỷ tham số nhưng chỉ sử dụng 12,9 tỷ tham số trên mỗi token, cho phép nó xử lý đầu vào và tạo ra đầu ra ở cùng tốc độ và chi phí như mô hình 12,9 tỷ. Công ty cũng tuyên bố rằng Mixtral vượt trội hơn Llama 2 70B trên hầu hết các điểm chuẩn với khả năng suy luận và so khớp nhanh hơn 6 lần hoặc vượt trội hơn GPT 3.5 trên hầu hết các điểm chuẩn tiêu chuẩn.
Mixtral được cấp phép theo giấy phép Apache 2.0 cho phép, cho phép các nhà phát triển tự do kiểm tra, chạy, sửa đổi và xây dựng các giải pháp tùy chỉnh trên mô hình. Tuy nhiên, vẫn còn tranh cãi về việc liệu Mixtral có phải là nguồn mở 100% hay không, vì Mistral chỉ phát hành "trọng lượng mở" và giấy phép của mô hình cốt lõi ngăn cản việc sử dụng nó để cạnh tranh với Mistral AI. Công ty khởi nghiệp chưa cung cấp tập dữ liệu đào tạo và mã được sử dụng để tạo mô hình, trường hợp này xảy ra trong một dự án nguồn mở.
Mistral AI cho biết Mixtral đã được tinh chỉnh để hoạt động đặc biệt tốt bằng các ngoại ngữ ngoài tiếng Anh, thông thạo tiếng Pháp, tiếng Đức, tiếng Tây Ban Nha, tiếng Ý và tiếng Anh. Một phiên bản được hướng dẫn có tên Mixtral 8x7B Instruct cũng đã được phát hành để tuân theo hướng dẫn cẩn thận, đạt được điểm cao nhất là 8,3 trên điểm chuẩn MT-Bench, khiến nó trở thành mô hình nguồn mở tốt nhất hiện tại trên điểm chuẩn. Mixtral có sẵn để tải xuống qua Hugging Face và người dùng cũng có thể sử dụng phiên bản hướng dẫn trực tuyến.