微软开源 WizardLM-2,70B优于GPT4-0613,7B持平阿里最新的Qwen1.5-32B

news2025/1/20 10:55:25

当地时间4月15号,微软发布了新一代大语言模型 WizardLM-2,新家族包括三个尖端型号:WizardLM-2 8x22B, WizardLM-2 70B,和WizardLM-2 7B,作为下一代最先进的大型语言模型,它在复杂聊天、多语言、推理和代理方面的性能有所提高。

性能表现

根据微软官方的描述,WizardLM-2展示出了极强的性能表现,7B模型表现与Qwen1.5-32B相当,70B模型超过了GPT4-0613。

在这里插入图片描述

  • WizardLM-2 8x22B是最先进的型号,与那些领先的专有作品相比,表现出极具竞争力的性能,并且始终优于所有现有的最先进的开源模型,性能只是稍微落后于gpt -4-1106预览版,明显强于Command R Plus和GPT4-0314。
  • WizardLM-2 70B达到了顶级的推理能力,是同尺寸的首选,优于GPT4-0613、Mistral-Large、Qwen1.5-72B-Chat。
  • Wizardlm - 2 7B是最快的,并达到与现有的10倍大的开源领先模型相当的性能,与Qwen1.5-32B-Chat相当,超过了Qwen1.5-14B-Chat和Starling-LM-7B-beta。

在这里插入图片描述
在这里插入图片描述

训练方法

  1. 数据预处理:通过数据分析管道来获取数据源中不同属性的分布情况。
  2. 加权抽样:最佳训练数据的分布总是与人类聊天语料库的自然分布不一致; 因此,根据实验经验调整训练数据中各个属性的权重。
  3. 渐进式学习:与使用所有数据进行一次性训练的常见做法不同, 微软发现使用不同的数据分区和逐步训练可以在更少的数据下获得更好的结果。 在每个阶段,首先将数据片提供给后续的Evol Lab,以获得更多样化和复杂的[指令,响应]对。 利用一个名为“AI Align AI”(AAA)的新框架,可以将多个最先进的llm分组,以相互教学和改进。 最后,依次应用监督学习、Stage-DPO和RLEIF对每个变体进行优化。
  4. Evol Lab:
    (1)Evol-Instruct:重新评估原始的evolution - directive方法中的各种问题 已启动初步修改。新方法使各种代理能够自动生成高质量的指令。
    (2)Evolution - answer:指导模型多次生成和重写响应可以改进其逻辑性、正确性和亲和性。
  5. AI Align AI :
    (1)Co-Teaching:收集WizardLMs,以及各种授权的开源和专有的最先进的模型,然后让它们共同教学并相互改进。 教学内容包括模拟聊天、质量评判、改进建议、缩小技能差距等。
    (2)Self-Teaching:WizardLM可以生成新的进化训练数据用于监督学习和偏好数据用于强化学习。
  6. 监督学习和强化学习:
    (1)Supervised Learning:使用监督学习来优化模型。
    (2)Stage-DPO:为了更有效的离线强化学习,将偏好数据拆分为不同的切片,并逐步改进模型。
    (3)RLEIF:采用教学质量奖励模型(IRM)和过程监督奖励模型(PRM)相结合的方法来实现在线强化学习的更精确的正确性。
    在这里插入图片描述

模型使用

WizardLM-2 8x22B和WizardLM-2 7B的模型权重在Huggingface上共享, wizardlm - 270b以及所有模型的演示将在未来几天内提供。

WizardLM-2采用Vicuna的提示格式,支持多回合对话。

A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: Hi ASSISTANT: Hello.</s>USER: Who are you? ASSISTANT: I am WizardLM.</s>......

开源资料

目前关于WizardLM2的资料还比较少,大家可持续关注GitHub和Huggingface平台。
github:https://github.com/microsoft/WizardLM2
huggingface:https://huggingface.co/microsoft
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1602623.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

为什么还有人再问鸿蒙开发有必要学吗?

前言 学习鸿蒙开发&#xff0c;这事儿真的挺有必要的。鸿蒙操作系统&#xff0c;它厉害就厉害在高性能、可扩展&#xff0c;还特智能。现在智能设备和物联网火得不行&#xff0c;鸿蒙就是要成为这个时代的领头羊。它可不是来跟安卓抢饭碗的&#xff0c;它的眼光可远了&#xf…

4/17 FreeRTOS_day2

1.总结串口的发送和接收功能使用到的函数 端口发送数据 HAL_StatusTypeDef HAL_UART_Transmit( UART_HandleTypeDef *huart, const uint8_t *pData, uint16_t Size, uint32_t Timeout ) UART_HandleTypeDef *huart&#xff1a;指定要使用的串口 const uint8_t *pData&#…

【STM32】嵌入式实验二 GPIO 实验 (前三个设计)

1&#xff0e; 按键亮灯 设计 GPIO 实验项目 1&#xff0c;功能&#xff1a;当按键 KB1 按下时&#xff0c;实验板上全彩发光二极管周边 的发光二极管全亮&#xff0c;当按键 KB2 按下时跑马灯 D0 闪亮。 实验要求基于寄存器的GPIO配置&#xff0c;所以需要手动操作寄存器来配…

Spring5深入浅出篇:Spring动态代理详解

Spring5深入浅出篇:Spring动态代理详解 很多粉丝私信我这个Spring5的课程在哪看,这边是在B站免费观看欢迎大家投币支持一下. 视频地址 Spring动态代理详解 这篇主要介绍MethodBeforeAdvice,MethodInterceptor俩者在动态代理中起到的作用,并且详解俩者区别 额外功能的详解 Met…

重定向原理和缓冲区

文章目录 重定向缓冲区 正文开始前给大家推荐个网站&#xff0c;前些天发现了一个巨牛的 人工智能学习网站&#xff0c; 通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。 点击跳转到网站。 重定向 内核中为了管理被打开的文件&#xff0c;一定会存在描述一…

【热门话题】常见分类算法解析

&#x1f308;个人主页: 鑫宝Code &#x1f525;热门专栏: 闲话杂谈&#xff5c; 炫酷HTML | JavaScript基础 ​&#x1f4ab;个人格言: "如无必要&#xff0c;勿增实体" 文章目录 常见分类算法解析1. 逻辑回归&#xff08;Logistic Regression&#xff09;2. 朴…

【Spring进阶系列丨第十篇】基于注解的面向切面编程(AOP)详解

文章目录 一、基于注解的AOP1、配置Spring环境2、在beans.xml文件中定义AOP约束3、定义记录日志的类【切面】4、定义Bean5、在主配置文件中配置扫描的包6、在主配置文件中去开启AOP的注解支持7、测试8、优化改进9、总结 一、基于注解的AOP 1、配置Spring环境 <dependencie…

1.SCI各模块

1.学会“抄” 写论文&#xff0c;一定要学会“抄”&#xff01;这样才能事半功倍&#xff0c;尤其是对于初次写作的新手&#xff0c;否则写作过程一定会让你痛不欲生&#xff0c;而且写出来的东西就是一坨shi&#xff0c;不仅折磨自己&#xff0c;也折磨导师。 写论文与建大楼…

SparkUI 讲解

目录 Executors Environment Storage SQL Exchange Sort Aggregate Jobs Stages Stage DAG Event Timeline Task Metrics Summary Metrics Tasks &#x1f490;&#x1f490;扫码关注公众号&#xff0c;回复 spark 关键字下载geekbang 原价 90 元 零基础入门 Spar…

OpenCV从入门到精通实战(二)——文档OCR识别(tesseract)

导入环境 导入必要的库 numpy: 用于处理数值计算。 argparse: 用于处理命令行参数。 cv2: OpenCV库&#xff0c;用于图像处理。 import numpy as np import argparse import cv2设置命令行参数 ap argparse.ArgumentParser() ap.add_argument("-i", "--imag…

Appium的使用:混合APP切换上下文

网上别的文章说要把移动端的webview设置成调试模式,才能看到下图信息。 但我这里是直接在Android Studio新建了一个空白活动,然后放的webview控件,写的webview代码,直接部署到模拟器上,在确定adb可以连接到模拟器后,在桌面浏览器输入chrome://inspect/#devices后就可以看…

3 xgboost

xgboost比赛以及工程利器。目前存在大量有关算法文档。 XGBoost&#xff08;eXtreme Gradient Boosting&#xff09;是一种基于决策树集成的机器学习算法&#xff0c;被广泛应用于分类、回归和排名等任务。XGBoost 在 Kaggle 等数据科学竞赛中取得了很好的表现&#xff0c;被认…

每日练习——leetcode402. 移掉 K 位数字和17. 电话号码的字母组合

目录 402. 移掉 K 位数字 题目描述 解题思路 代码实现 17. 电话号码的字母组合 题目描述 解题思路 代码实现 402. 移掉 K 位数字 题目描述 给你一个以字符串表示的非负整数 num 和一个整数 k &#xff0c;移除这个数中的 k 位数字&#xff0c;使得剩下的数字最小。请…

阿里云4核8G云服务器价格多少钱?700元1年

阿里云4核8G云服务器价格多少钱&#xff1f;700元1年。阿里云4核8G服务器租用优惠价格700元1年&#xff0c;配置为ECS通用算力型u1实例&#xff08;ecs.u1-c1m2.xlarge&#xff09;4核8G配置、1M到3M带宽可选、ESSD Entry系统盘20G到40G可选&#xff0c;CPU采用Intel(R) Xeon(R…

JVM 方法调用之方法分派

JVM 方法调用之方法分派 文章目录 JVM 方法调用之方法分派1.何为分派2.静态分派3.动态分派4.单分派与多分派5.动态分派的实现 1.何为分派 在上一篇文章《方法调用之解析调用》中讲到了解析调用&#xff0c;而解析调用是一个静态过程&#xff0c;在类加载的解析阶段就确定了方法…

黑马点评(四) -- 分布式锁

1 . 分布式锁基本原理和实现方式对比 分布式锁&#xff1a;满足分布式系统或集群模式下多进程可见并且互斥的锁。 分布式锁的核心思想就是让大家都使用同一把锁&#xff0c;只要大家使用的是同一把锁&#xff0c;那么我们就能锁住线程&#xff0c;不让线程进行&#xff0c;让…

​宁德时代:用一块电池玩转两个万亿赛道

2022 到 2023 连续两年&#xff0c;被称为国内储能行业的大储&#xff08;发电侧、电网侧&#xff09;元年和中储&#xff08;工商业&#xff09;元年&#xff0c;整个储能行业可谓是异常火爆&#xff0c;众多资本或企业纷纷涌入该赛道。 对于行业从业者来说&#xff0c;所从事…

第十六篇:springboot案例

文章目录 一、准备工作1.1 需求说明1.2 环境搭建1.3 开发规范1.4 思路 二、部门管理2.1 查询部门2.2 删除部门2.3 新增部门2.4 修改部门2.5 RequestMapping 三、员工管理3.1 分页查询3.2 删除员工3.3 新增员工3.3.1 新增员工3.3.2 文件上传 3.4 修改员工3.4.1 页面回显3.4.2 修…

MySQL基础知识——MySQL事务

事务背景 什么是事务&#xff1f; 一组由一个或多个数据库操作组成的操作组&#xff0c;能够原子的执行&#xff0c;且事务间相互独立&#xff1b; 简单来说&#xff0c;事务就是要保证一组数据库操作&#xff0c;要么全部成功&#xff0c;要么全部失败。 注&#xff1a;MyS…

【Java探索之旅】掌握数组操作,轻松应对编程挑战

&#x1f3a5; 屿小夏 &#xff1a; 个人主页 &#x1f525;个人专栏 &#xff1a; Java编程秘籍 &#x1f304; 莫道桑榆晚&#xff0c;为霞尚满天&#xff01; 文章目录 &#x1f4d1;前言一、数组巩固练习1.1 数组转字符串1.2 数组拷贝1.3 求数组中的平均值1.4 查找数组中指…