Qwen2开源发布,各方位全面升级!

news2024/10/6 8:24:51

今天,通义千问团队带来了Qwen2系列模型,Qwen2系列模型是Qwen1.5系列模型的重大升级。包括了:

  • 5个尺⼨的预训练和指令微调模型, 包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B;

  • 在中⽂英语的基础上,训练数据中增加了27种语⾔相关的⾼质量数据;

  • 多个评测基准上的领先表现;

  • 代码和数学能⼒显著提升;

  • 增⼤了上下⽂⻓度⽀持,最⾼达到128K tokens(Qwen2-72B-Instruct) 。

Qwen2介绍        

        相⽐Qwen1.5,Qwen2在⼤规模模型实现了⾮常⼤幅度的效果提升。如下我们针对Qwen2-72B进⾏评测。在针对预训练语⾔模型的评估中,对⽐当前最优的开源模型,Qwen2-72B在包括⾃然语⾔理解、知识、代码、数学及多语⾔等多项能⼒上均显著超越当前领先的模型,如Llama-3-70B以及Qwen1.5最⼤的模型Qwen1.5-110B。这得益于其预训练数据及训练⽅法的优化。

        在⾃然语⾔理解和逻辑推理等⽅⾯,尤其是科学类问题上,Qwen2-72B的优势更为明显。⽽在代码测试中,Qwen2-72B同样取得不俗的成绩,并且在多个编程语⾔上都有较为突出的表现。数学能⼒则由于其预训练数据中数学部分的优化实现了⼤幅度提升。此外,在⼤家较为关注的多语⾔的表现上,Qwen2-72B在多个领域的多语⾔评测上均具有⼀定的优势。这也意味着,Qwen2有潜⼒在更多的国家和地区得到落地应⽤。

图片

        在微调和对⻬上投⼊了⼤量的精⼒进⾏研究。Qwen2的策略包括⼴泛采集指令和提示词,以及利⽤合成数据,如使⽤拒绝采样、代码执⾏反馈、回译等⽅法。为了进⼀步和⼈类偏好对⻬,Qwen2采⽤了DPO的⽅法。除了使⽤常⻅的DPO及DPO的变体如IPO、KTO外,Qwen2还探索了DPO与在线学习的结合,从⽽提升模型能⼒的上限。⽽为了降低对⻬所产⽣的“对⻬税”,Qwen2使⽤模型合并的⽅法来缓解此问题。这⼀系列的努⼒最终帮助我们⼤幅度的提升了指令微调模型的基础能⼒以及智⼒等。结果如下所示:

图片

        ⽽在较⼩的模型规模上,Qwen2同样是各个模型尺⼨上的佼佼者。详细请关注魔搭社区的每个模型的模型介绍页面。

长文本处理

        Qwen2系列中的所有Instruct模型,均在32k上下文长度上进行训练,并通过YARN或Dual Chunk Attention等技术扩展至更长的上下文长度。

下图展示了我们在Needle in a Haystack测试集上的结果。值得注意的是,Qwen2-72B-Instruct能够完美处理128k上下文长度内的信息抽取任务。结合其本身强大的性能,只要有充足的算力,它一定能成为你处理长文本任务的首选!

此外,Qwen2系列中的其他模型的表现也十分突出:Qwen2-7B-Instruct几乎完美地处理长达128k的上下文;Qwen2-57B-A14B-Instruct则能处理64k的上下文长度;而该系列中的两个较小模型则支持32k的上下文长度。

除了长上下文模型,我们还开源了一个智能体解决方案,用于高效处理100万tokens级别的上下文。

安全

        下表展示了大型模型在四种多语言不安全查询类别(非法活动、欺诈、色情、隐私暴力)中生成有害响应的比例。测试数据来源于Jailbreak,并被翻译成多种语言进行评估。我们发现Llama-3在处理多语言提示方面表现不佳,因此没有将其纳入比较。通过显著性检验(P值),我们发现Qwen2-72B-Instruct模型在安全性方面与GPT-4的表现相当,并且显著优于Mistral-8x22B模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1798512.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Threejs-02、坐标辅助器与轨道控制器使用

一、坐标辅助器 1、添加坐标辅助器 // 添加世界坐标辅助器 const axesHelper = new THREE.AxesHelper(2); scene.add(axesHelper);2、调整相机位置 //设置相机位置 camera.

【Unity UGUI】Screen.safeArea获取异形屏数据失败

Screen.safeArea获取不到异形屏的尺寸位置等数据 检查AndroidManifest.xml文件是否有设置:android:theme"style/UnityThemeSelector",没有加上即可 android:theme"style/UnityThemeSelector"

Vue3【六】setup的使用和setup的返回值

Vue3【六】setup的使用和setup的返回值 setup函数的使用,和vue2的选项式不同 vue3的组合式使用的是setup函数 通过返回值将数据和方法传到页面 返回值也可以是一个箭头函数 setup先于 data和method执行所有无法读取到this和data,method的内容&#xff0c…

ruoyi若依二次开发怎么添加扫描自己的controller和mapper,配置三个地方即可。

概要 首先,添加在com.ruoyi外的类,项目启动后,调用接口,是会返回404找不到的。 必须要对这以外的接口类进行配置。目录结构如下: 解决步骤 一、添加 com.ruoyi.framework.config 下: // 指定要扫描的M…

Java版工程项目管理平台:以源码驱动,引领工程企业数字化转型

在当今数字化时代,随着企业的扩张和业务的增长,传统的工程项目管理方法已显不足。为了提升管理效率、减轻工作负担、增强信息处理的快速性和精确度,工程企业亟需借助数字化技术进行转型升级。本文将向您展示一款基于Spring Cloud、Spring Boo…

《大宅门》特别活动走进李良济,开启探寻中医药文化之旅!

《大宅门》话剧将于6月14-16日在苏州湾大剧院上演,为了让大家了解到中医药知识,6月2日,李良济携手苏州湾大剧院举办《大宅门》特别活动“探寻中医药文化之旅”! 6月2日下午,大家一起走进李良济,深度了解传统…

Stable Diffusion【应用篇】【图片修复】:模糊头像照片的高清修复

本文主要是回复一下后台小伙伴留言的问题。经小伙伴本人同意后,允许使用待修复的照片。 我们先看一下待修复的照片。 在向我咨询之前,小伙伴也自己进行了尝试,如果直接使用Stable Diffusion的后期处理功能,出来的图片效果是这样的…

Ant Design+react 表单只读

表单禁用,样式不好看,不符合甲方标准,看了一下文档,select、radio等都不支持只读状态。 解决方法: 利用css3的point-events属性,设置为none 在查看弹窗时,传入一个变量,当变量为true…

AI视频教程下载:用LangChain开发 ChatGPT和 LLMs 应用

在这个快速变化的人工智能时代,我们为您带来了一场关于语言模型和生成式人工智能的革命性课程。这不仅仅是一个课程,而是一次探险,一次深入人工智能核心的奇妙之旅。 在这里,您将开启一段激动人心的旅程,探索语言模型…

springboot启动报端口被占用,修改端口还是报被占用,如何处理?

第一种方式: 通过cmd查看是否有程序占用端口 netstat -ano| findstr 端口号 杀死进程 taskkill -f -pid 进程号 如果未看到有程序占用该端口说明不是这个原因 第二种方式: 打开任务管理器 查看是否进程占用对应端口,有就关闭进程 第三种…

Splashtop正式入驻长三角(杭州)制造业数字化能力中心,赋能企业向数字化转型

2024年6月,Splashtop正式入驻长三角(杭州)制造业数字化能力中心。作为全球领先的远程桌面控制软件供应商,Splashtop致力于提供适用于远程办公、IT 和 MSP 远程支持等多场景的高性能远程桌面控制软件和解决方案,赋能企业…

媲美飞书,类notion团队协作工具!【送源码】

Notion相信很多人都使用过,可能有很多人因为服务器问题想找到一个离线替代品。 今天,了不起向大家推荐一款开源、多语言、自托管的团队协作和项目管理工具 - Focalboard。 简介 Focalboard是一个由Mattermost开发的功能强大的开源项目管理和协作工具&a…

【数据挖掘】使用RFE进行特征选择

写在前面: 首先感谢兄弟们的订阅,让我有创作的动力,在创作过程我会尽最大能力,保证作品的质量,如果有问题,可以私信我,让我们携手共进,共创辉煌。 路虽远,行则将至&#…

25届最近5年南京航空航天大学自动化考研院校分析!

南京航空航天大学 一、学校学院专业简介 二、考试科目指定教材 1、考试科目介绍 2、指定教材介绍 三、近5年考研分数情况 以下为南京航空航天大学,自动化学院近几年的考研分数情况。 以下为南京航空航天大学,航天学院近几年的考研分数情况。 以下为南京…

企业如何运用信息化、智能化、数字化等技术手段规避企业合同风险?

在企业运营中,合同管理是至关重要的一环。它涉及到企业的各个方面,从供应链管理到客户关系,从财务交易到法律合规。然而,传统的合同管理方式往往存在效率低下、风险控制不足等问题。 随着信息化、智能化和数字化技术的发展&#…

博物馆室内导航系统的技术革新:3D地图与智能算法打造沉浸式观展体验

随着科技的不断进步,博物馆作为文化传承的重要场所,正面临着数字化转型的挑战与机遇。本文将介绍一种新型的博物馆室内导航系统,它通过3D地图和智能算法,为参观者提供了一种全新的沉浸式观展体验。 一、博物馆室内导航系统的优势…

yolo水果品质:新鲜腐烂橙子检测/分类数据集(3k+图像全标注)

yolo水果品质检测之新鲜腐烂橙子数据集,整个数据集共包含3852张图像,yolo标注完整(txt格式),标注类别分为新鲜橙子(0)和腐烂橙子(1)两类 图像统一格式:jpg 图像统一分辨…

人工智能绘画的历史

人工智能绘画的起源可以追溯到20世纪50年代。当时,艺术家和科学家开始使用计算机生成图像和图形,将绘画艺术与技术领域相结合。计算机图像可以被视为人工智能绘画的一部分。下面,我们将按照时间顺序来了解人工智能绘画发展的一些关键时间节点…

【计算机毕业设计】基于SSM++jsp的在线医疗服务系统【源码+lw+部署文档】

包含论文源码的压缩包较大,请私信或者加我的绿色小软件获取 免责声明:资料部分来源于合法的互联网渠道收集和整理,部分自己学习积累成果,供大家学习参考与交流。收取的费用仅用于收集和整理资料耗费时间的酬劳。 本人尊重原创作者…

如何快速上手Python,成为一名数据分析师

如何快速上手Python,成为一名数据分析师 成为一名数据分析师需要掌握Python编程语言以及数据分析相关的知识和技能。以下是一些步骤和建议,帮助你快速上手Python并成为一名数据分析师: 学习Python基础知识:首先,你需要…