据 Decrypt 报道,总部位于巴黎的初创公司 Mistral AI 发布了一款开放式大型语言模型(LLM)--Mixtral,据报道,该模型在多项基准测试中优于 OpenAI 的 GPT 3.5,同时效率更高。该公司最近宣称获得了 20 亿美元的估值,并获得了风险投资公司 Andreessen Horowitz(a16z)的大量 A 轮投资,科技巨头英伟达(Nvidia)和 Salesforce 也参与了投资。
Mixtral 采用了一种名为 "专家稀疏混合"(MoE)的技术,Mistral 称这种技术使模型比其前身 Mistral 7b 甚至比其更强大的竞争对手更强大、更高效。MoE 是一种机器学习技术,开发人员通过训练多个虚拟专家模型来解决复杂问题。每个专家模型都经过特定主题或领域的训练,当遇到问题时,模型会从代理池中挑选一组专家,决定哪种输出更适合他们的专长。
Mistral AI 声称,Mixtral 拥有 467 亿个总参数,但每个令牌只使用 129 亿个参数,因此它处理输入和生成输出的速度和成本与 129 亿个模型相同。该公司还表示,在大多数基准测试中,Mixtral 的推理速度比 Llama 2 70B 快 6 倍,在大多数标准基准测试中,Mixtral 的表现与 GPT 3.5 相当或更胜一筹。
Mixtral 采用 Apache 2.0 许可,允许开发人员自由检查、运行、修改和在模型基础上构建自定义解决方案。不过,关于 Mixtral 是否 100% 开源还存在争议,因为 Mistral 只发布了 "开放权重",而核心模型的许可则禁止将其用于与 Mistral AI 竞争。这家初创公司没有提供用于创建模型的训练数据集和代码,而这在开源项目中是必须的。
Mistral AI 称,Mixtral 经过微调后,在英语之外的外语中也能出色地工作,掌握了法语、德语、西班牙语、意大利语和英语。Mixtral 还发布了一个名为 Mixtral 8x7B Instruct 的指令版本,供用户认真学习,该版本在 MT-Bench 基准测试中获得了 8.3 的最高分,成为目前该基准测试中最好的开源模型。Mixtral 可通过 Hugging Face 下载,用户也可在线使用指导版。