Mistral AI 推出高质量的稀疏专家混合AI人工智能模型——SMoE,有望超越ChatGPT3.5

news2024/11/24 3:36:38

Mistral AI(“Mistral AI”是一家由前DeepMind和Meta Platforms(META.US)的研究人员组建的新公司。)继续履行为开发者社区提供最佳开放模型的使命。他们发布了 Mixtral 8x7B,这是一个高质量的稀疏专家混合模型(SMoE),拥有开放权重,该模型的性能在大多数基准测试中优于 Llama 2 70B,推理速度提高了6倍。

Mixtral 是一个稀疏的专家混合网络,可以处理 32k 令牌的上下文,并且能够处理英语、法语、意大利语、德语和西班牙语。它在代码生成方面表现出强大的性能,还可以通过微调成为指令跟踪模型。Mixtral 的稀疏架构使其在控制成本和延迟的同时增加了模型的参数数量,从而提高了性能。与 Llama 2相比,Mixtral 更真实,并且在偏见方面表现较少。

此外,Mixtral 可以优雅地指定禁止某些输出,以满足需要严格审核的应用程序的要求。为了让社区能够使用完全开源的堆栈运行 Mixtral,他们已向 vLLM 项目提交了更改。最后,他们感谢 CoreWeave 和 Scaleway 团队在模型训练中的技术支持。

Mixtral 具有以下功能:

  1. 上下文处理能力:它似乎可以轻松地处理长达32,000个令牌的上下文,这表明它具有处理大量文本信息的能力。
  2. 多语言支持:该模型支持多种语言,包括英语、法语、意大利语、德语和西班牙语。这使得它更加灵活,适用于不同的语境和用户群。
  3. 代码生成性能:模型在代码生成方面表现出强大的性能。这可能意味着它能够生成高质量的源代码或者在与代码相关的任务上表现出色。
  4. 微调能力:该模型可以进行微调,使其适应特定的任务,比如指令跟踪模型。这增加了模型的灵活性,使其可以在不同领域取得更好的性能。
  5. MT-Bench性能:在MT-Bench上获得8.3分重写一次。这可能指的是模型在机器翻译任务上的性能评分。

通过稀疏架构推动开放模型的前沿:

Mixtral 是一个稀疏的专家混合网络。它是一个纯解码器模型,其中前馈块从一组8个不同的参数组中进行选择。在每一层,对于每个令牌,路由器网络选择其中的两个组(“专家”)来处理令牌并相加地组合它们的输出。

该技术增加了模型的参数数量,同时控制了成本和延迟,因为该模型仅使用每个令牌总参数集的一小部分。具体来说,Mixtral 共有46.7B 个参数,但每个代币仅使用12.9B 个参数。因此,它以与12.9B 模型相同的速度和相同的成本处理输入并生成输出。

Mixtral 根据从开放网络提取的数据进行了预训练——同时训练专家和路由器。

表现方面:

研发团队将 Mixtral 与 Llama 2系列和 GPT3.5基础模型进行比较。 Mixtral 在大多数基准测试中均匹配或优于 Llama 2 70B 以及 GPT3.5。

在下图中,研发团队衡量了质量与推理预算的权衡。与 Llama 2型号相比,Mistral 7B 和 Mixtral 8x7B 属于高效型号系列。

下表给出了上图的详细结果。

幻觉和偏见。为了识别可能的缺陷,通过微调/偏好建模来纠正,研发团队在 TruthfulQA/BBQ/BOLD 上测量基本模型的性能。

与 Llama 2相比,Mixtral 更真实(在 TruthfulQA 基准上为73.9%vs 50.2%),并且在 BBQ 基准上呈现出更少的偏差。总体而言,Mixtral 在 BOLD 上比 Llama 2显示出更积极的情绪,每个维度内的差异相似。语言方面: Mixtral 8x7B 精通法语、德语、西班牙语、意大利语和英语。

指导模型:

研发团队与 Mixtral 8x7B 一起发布了 Mixtral 8x7B Instruct。该模型已通过监督微调和直接偏好优化 (DPO) 进行优化,以仔细遵循指令。在MT-Bench上,它达到了8.30的分数,使其成为最好的开源模型,性能可与GPT3.5相媲美。

使用开源部署堆栈部署 Mixtral:

为了使社区能够使用完全开源的堆栈运行 Mixtral,我们已提交对 vLLM 项目的更改,该项目集成了 Megablocks CUDA 内核以实现高效推理。Skypilot 允许在云中的任何实例上部署 vLLM 端点。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1307789.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

YOLOv8改进 | 2023主干篇 | 替换LSKNet遥感目标检测主干 (附代码+修改教程+结构讲解)

一、本文介绍 本文给大家带来的改进内容是LSKNet(Large Kernel Selection, LK Selection),其是一种专为遥感目标检测设计的网络架构,其核心思想是动态调整其大的空间感受野,以更好地捕捉遥感场景中不同对象的范围上下…

【精选】SpringMVC简介及其执行流程,参数获取方式

SpringMVC简介 MVC模型 MVC全称Model View Controller,是一种设计创建Web应用程序的模式。这三个单词分别代表Web应用程序的三个部分: Model(模型):指数据模型。用于存储数据以及处理用户请求的业务逻辑。在Web应用中&…

37.分支结构嵌套

目录 一.什么是分支结构嵌套 二.什么情况下会用分支结构嵌套 三.举例 四.注意事项 五.视频教程 一.什么是分支结构嵌套 在一个if语句中又包含了另外一个if语句,这种情况称之为if语句的嵌套,也叫做分支结构嵌套。 二.什么情况下会用分支结构嵌套 如…

dToF直方图之美_激光雷达多目标检测

直方图提供了一种简单有效的方法来分析信号分布并识别与目标存在相对应的峰值,并且能够可视化大量数据,让测距数形结合。在车载激光雷达中,对于多目标检测,多峰算法统计等,有着区别于摄像头以及其他雷达方案的天然优势。 如下图,当中有着清晰可见的三个峰值,我们可以非…

炸弹人游戏

代码实现 广度优先搜素 深度优先搜索

巧用RTL原语实现MUX门级映射

对于前端设计人员,经常会需要一个MUX来对工作模式,数据路径进行明确(explicit)的声明,这个对于中后端工程师下约束也很重要。这里介绍一种巧用的RTL原语,实现MUX的方法。闲言少叙,ICerGo&#x…

2023自动化测试框架大对比:哪个更胜一筹?

所谓工欲善其事,必先利其器,在进行自动化测试时,选择一个合适的框架是至关重要的。因为一个好的测试框架可以大大提高测试效率,减少我们很多工作量。在选择框架之前,我们通常需要对不同的框架进行对比,以便…

Python特征工程神器:Feature Engine库详解与实战

更多资料获取 📚 个人网站:ipengtao.com 特征工程是机器学习中至关重要的一环,而Feature Engine库作为Python中的强大特征工程工具,提供了丰富的功能和灵活的操作。本文将深入探讨Feature Engine的各种特性,包括缺失值…

Trace 在多线程异步体系下传递

JAVA 线程异步常见的实现方式有&#xff1a; new ThreadExecutorService 当然还有其他的&#xff0c;比如fork-join&#xff0c;这些下文会有提及&#xff0c;下面主要针对这两种场景结合 DDTrace 和 Springboot 下进行实践。 引入 DDTrace sdk <properties><java.…

正确看待鸿蒙不兼容Android,这不是趋势?

华为可能明年推出不兼容安卓的鸿蒙版本。11月20日&#xff0c;据澎湃新闻报道&#xff0c;一华为相关人士表示&#xff0c;推出时间还不确定&#xff0c;未来IOS、鸿蒙、安卓将为三个各自独立的系统。 稍早前据证券时报报道&#xff0c;有业内人士亦表示&#xff1a;“华为内部…

eNSP小实验(vlan和单臂路由)

一.vlan的划分 实验目的&#xff1a; ①pc1 只可以和pc2通信&#xff0c;不可以和pc3 pc4通信 ②pc1和pc2只能到Server1&#xff0c;pc3和pc4到Server2 1.拓扑图 2.配置 PC1-4 同理配置 SW1 <Huawei> <Huawei>u t m //关闭注释 Info: …

三、Shell 环境

一、Linux 系统分类 在 Linux 中&#xff0c;常见的 Shell 有以下几种&#xff1a; Bourne Shell&#xff08;sh&#xff09;&#xff1a;最早的 Shell&#xff0c;由 Stephen Bourne 开发。它是大多数其他 Shell 的基础。Bourne Again Shell&#xff08;bash&#xff09;&am…

AI会取代文档工程师的工作吗?

▲ 搜索“大龙谈智能内容”关注GongZongHao▲ 先说结论&#xff0c;两个字&#xff1a;不会。 用四个字来说&#xff1a;恰恰相反。 人工智能&#xff08;AI&#xff09;在客户服务领域的应用在快速且不断地发展。围绕技术内容和知识在用户体验和客户支持中不可替代的作用的…

Centos7部署SVN

文章目录 &#xff08;1&#xff09;SVN概述&#xff08;2&#xff09;SVN与Samba共享&#xff08;3&#xff09;安装SVN&#xff08;4&#xff09;SVN搭建实例&#xff08;5&#xff09;pc连接svn服务器&#xff08;6&#xff09;svn图标所代表含义 &#xff08;1&#xff09;…

nvm 的使用 nvm 可以快速的切换 nodejs 的版本

nvm 是什么&#xff1f; nvm 是一个 node 的版本管理工具&#xff0c;可以简单操作 node 版本的切换、安装、查看。。。等等&#xff0c;与 npm 不同的是&#xff0c;npm 是依赖包的管理工具。 nvm 下载安装 安装之前需要先把 自己电脑上边的 node 给卸载了!!!! 很重要 下载地…

2023前端面试题总结:JavaScript篇完整版

前端面试题库 &#xff08;面试必备&#xff09; 推荐&#xff1a;★★★★★ 地址&#xff1a;前端面试题库 JavaScript基础知识 JavaScript有哪些数据类型&#xff0c;它们的区别&#xff1f; Number&#xff08;数字&#xff09;: 用于表示数值&#xff0c;可…

js 转换为数组并返回(Array.of())

Array提供了方法直接将一组值转换为数组并返回 Array.of()方法 Array.of(1,2,3) 结果

【Let‘s Encrypt SSL】使用 acme.sh 给 Nginx 安装 Let’s Encrypt 提供的免费 SSL 证书

安装acme.sh 安装 acme.sh 并设置邮箱用来接受重要通知&#xff0c;如证书快过期未更新通知 curl https://get.acme.sh | sh -s emailmyexample.com执行命令后几秒就安装好了&#xff0c;如果半天没有反应请 CtrlC 后重新执行命令。acme.sh 安装在 ~/.acme.sh 目录下&#xf…

Vim 搜索多个关键字并高亮

在查看代码或日志的时候&#xff0c;经常会需要搜索某个关键字。VIM搜索时&#xff0c;会把关键字高亮显示&#xff0c;还是比较方便的。 可是&#xff0c;一个关键字往往是不够的&#xff0c;能否支持多个关键字查找呢&#xff1f;答案是肯定的。应该怎么操作呢&#xff1f; 其…

GIT的后悔药

版本回退 上篇咱们说过&#xff0c;GIT能够管理文件的历史版本&#xff0c;这也是版本控制器重要的能力。如果有一天你发现之前做的工作出现很大问题&#xff0c;需要在某个特定的历史版本重新开始&#xff0c;这个时候&#xff0c;就需要版本回退的功能了。执行git reset命令…