微软官宣放出一个「小模型」,仅2.7B参数,击败Llama2和Gemini Nano 2

news2025/1/11 8:10:21

就在前一阵谷歌深夜炸弹直接对标 GPT-4 放出 Gemini 之后,微软这两天也紧锣密鼓进行了一系列动作。尽管时间日趋圣诞假期,但是两家巨头硬碰硬的军备竞赛丝毫没有停止的意思

就在昨日,微软官宣放出一个“小模型” Phi-2,这个 Phi-2 仅有 27 亿的参数(注意不是 27 B),但却在参数规模小于 13B 的模型中达到了最先进性能,利用微软在模型扩展与训练数据管理方面的创新,Phi-2 的性能可以直接匹敌参数量超过其 25 倍的模型!

图片

要说 Phi-2,其最大的亮点就在于“小模型”+“高性能”,27 亿的参数量在现在成千上万亿参数的模型中显得格外亮眼,“模型小”将直接支持 Phi-2 可以在笔记本电脑、手机等移动设备上运行。

同时,划重点,“小模型”也可以支持科研人员在不需要昂贵计算设备的情况下在各个相关领域进行科学研究(妈妈再也不用担心实验室没有显卡啦)。

如下图所示,在BBH、常识推理、语言理解、数学、代码等多个领域,2.7B 的 Phi-2 都展现了超过 13B 的 Llama-2 与 7B 的 Mistral 的性能。甚至对比参数量相差近 25 倍的 70B Llama-2,在多个领域 Phi-2 都展现了接近甚至超越 Llama-2 的能力。

图片

而直接对标 Gemini Nano 2,哪怕参数量比 Gemini 少了五个亿,但是 Phi-2 也近乎全线优于 Gemini Nano 2

图片

此外,在发布会中,微软 CEO 甚至对谷歌贴脸放大——什么?听说在谷歌的演示视频里 Gemini Ultra 可以解决物理问题,不好意思,我 2.7B 的模型 Phi-2 也可以

图片

而如果更进一步向 Phi-2 输入错误的解题步骤与答案,Phi-2 也可以识别出错误并予以纠正。

图片

Phi-2 是微软之前调整的“微软喜欢小模型(SLM)”战略的产物,在今年 6 月,微软发布了一篇 “All You Need”格式的论文:《Textbooks Are All You Need》,使用了一种更加类似“编写高质量教科书让模型快速学习”的思想,使用高质量的教科书级的数据训练得到了仅仅 1.3 B 的“小模型” Phi-1,在多个评测数据集中取得了极高的正确率

图片

延续这条“以数据为中心”的思路,微软陆续发布了 Ocra、Phi-1.5 等等在应用“数据管理”等技术训练的“小模型”,而 Phi-2 也正是这条技术进路的接续之作。

作为一个“小模型”,Phi-2 在 96 个 A100 GPU 上训练了 14 天,且没有使用 RLHF 进行对齐。但是,由于良好的数据质量与数据管理,Phi-2 在毒性方面仍然领先不少其他经过 RLHF 的模型

图片

击败Gemini Ultra

除了 Phi-2 微软 cue 了谷歌 Gemini 以外,微软针对谷歌 Gemini 发布时所说的在“在 MMLU 基准测试中取得 SOTA”也展开了反击。在 Gemini 发布时,曾称 Gemini Ultra 以 90% 的正确率在大规模多任务语言理解数据集中击败 GPT-4 取得 SOTA。

图片

但是微软这两天反击称谷歌在发布信息时存在误导,Gemini Ultra 使用了更加复杂的 Prompt 形式,而如果仅仅使用标准的 Prompt,Gemini Ultra 的表现将比 GPT-4 差,而如果,GPT-4 使用前两天微软刚刚提出的 Medprompt 方法,那么就会击败 Gemini 获得一个新 SOTA:

图片

当然,emmmm 不过这个 90.1% 的新 SOTA 似乎有为了 SOTA 而 SOTA 之嫌,以 0.06% 的“巨大优势”击败谷歌(手动狗头)。

图片

除了 MMLU,微软还发布了其他基准测试的结果,使用简单的 Prompt 与 Gemini Ultra 的性能进行比较,GPT-4 也显著优于  Gemini Ultra

图片

在这其中,微软使用的新的 Prompt 策略 Medprompt,最初是专为医疗垂直领域设计的 Prompt,通过集成“动态示例选择”,“自生成 CoT”以及“选择随机集成”方法,在医疗领域的多个数据集中取得了 SOTA

图片

而其中,动态示例选择在于对于每个问题,选择之前收集得到的类似示例为模型提供上下文,而自生成 CoT 则从之前的训练数据中自动生成 CoT Prompt 加强模型的推理能力。最后选择随机集成以多数投票的方式选择最佳答案

图片

在应用中,微软的研究人员逐渐发现这套思路不仅仅局限于医疗领域中,也适用于更加通用的任务之中,因此对标 Gemini Ultra 进行了一系列实验取得了良好的效果。

图片

看着这世界 AI 的两大巨头你来我往高手过招,你对标我我嘲讽你,对我们吃瓜群众来说倒也不失一场好戏,至于谷歌和微软在这场类似苏联和美国登月竞赛的对拼中谁能走的更远?大模型技术又能被他们推向什么样的高度,且就让我们静静等待吧!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1323119.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

在 VMware 虚拟机上安装黑苹果(Hackintosh):免费 macOS ISO 镜像下载及安装教程

在 VMware 虚拟机上安装黑苹果(Hackintosh):免费 macOS ISO 镜像下载及安装教程 VMware 虚拟机解锁 macOS 安装选项使用 macOS iso 系统镜像安装使用 OpenCore 做引导程序安装 在 VMware 虚拟机上安装黑苹果(Hackintosh):免费 macOS ISO 镜像下载及安装…

RPC(5):AJAX跨域请求处理

接上一篇RPC&#xff08;4&#xff09;&#xff1a;HttpClient实现RPC之POST请求进行修改。 1 修改客户端项目 1.1 修改maven文件 修改后配置文件如下&#xff1a; <dependencyManagement><dependencies><dependency><groupId>org.springframework.b…

【线性代数】两个向量组等价,其中一个向量组线性无关,另一个向量组也是线性无关吗?

一、问题 两个向量组等价,其中一个向量组线性无关,另一个向量组也是线性无关吗? 二、答案 不一定,当两个向量组中的向量个数也相同时,结论才成立.若向量个数不相同,结论不成立. 例如&#xff1a; 向量组一&#xff1a;(1,0),(0,1) 向量组二&#xff1a;(1,0),(0,1),(1,1) 两…

MyBatis ${}和#{}区别

sql防注入底层jdbc类型转换当简单类型参数$不防止Statment不转换value#防止preparedStatement转换任意 除模糊匹配外&#xff0c;杜绝使用${} MyBatis教程&#xff0c;大家可以借鉴 MyBatis 教程_w3cschoolMyBatis 是支持定制化 SQL、存储过程以及高级映射的优秀的持久层框架。…

【IDEA】Intellij IDEA相关配置

IDEA 全称 IntelliJ IDEA&#xff0c;是java编程语言的集成开发环境。IntelliJ在业界被公认为最好的Java开发工具&#xff0c;尤其在智能代码助手、代码自动提示、重构、JavaEE支持、各类版本工具(git、svn等)、JUnit、CVS整合、代码分析、 创新的GUI设计等方面的功能可以说是超…

锐捷配置完全stub区域

一、实验拓扑 二、实验目的 在运行OSPF协议的网络中&#xff0c;配置STU区域可以减少路由器的路由条目&#xff0c;减小路由器的压力&#xff0c;有效提高路由器的性能。 三、实验配置 第一步&#xff1a;全局配置OSPF R1 ruijie>enable R1#conf terminal R1(config)#hos…

API资源对象StorageClass;Ceph存储;搭建Ceph集群;k8s使用ceph

API资源对象StorageClass;Ceph存储;搭建Ceph集群;k8s使用ceph API资源对象StorageClass SC的主要作用在于&#xff0c;自动创建PV&#xff0c;从而实现PVC按需自动绑定PV。 下面我们通过创建一个基于NFS的SC来演示SC的作用。 要想使用NFS的SC&#xff0c;还需要安装一个NFS…

七:爬虫-数据解析之正则表达式

七&#xff1a;正则表达式概述 正则表达式&#xff0c;又称规则表达式,&#xff08;Regular Expression&#xff0c;在代码中常简写为regex、regexp或RE&#xff09;&#xff0c;是一种文本模式&#xff0c;包括普通字符&#xff08;例如&#xff0c;a 到 z 之间的字母&#xf…

华清远见嵌入式学习——ARM——作业1

要求&#xff1a; 代码&#xff1a; mov r0,#0 用于加mov r1,#1 初始值mov r2,#101 终止值loop: cmp r1,r2addne r0,r0,r1addne r1,r1,#1bne loop 效果&#xff1a;

【AI图集】猫狗的自动化合成图集

猫是一种哺乳动物&#xff0c;通常被人们作为宠物饲养。它们有柔软的毛发&#xff0c;灵活的身体和尖锐的爪子。猫是肉食性动物&#xff0c;主要以肉类为食&#xff0c;但也可以吃一些蔬菜和水果。猫通常在夜间活动&#xff0c;因此它们需要足够的玩具和活动空间来保持健康和快…

STM32启动流程详解(超全,startup_stm32xx.s分析)

单片机上电后执行的第一段代码 1.初始化堆栈指针 SP_initial_sp 2.初始化 PC 指针Reset_Handler 3.初始化中断向量表 4.配置系统时钟 5.调用 C 库函数_main 初始化用户堆栈&#xff0c;然后进入 main 函数。 在正式讲解之前&#xff0c;我们需要了解STM32的启动模式。 STM32的…

css实现0.5px宽度/高度显——属性: transform: scale

在大多数设备上&#xff0c;实际上无法直接使用 CSS 来精确地创建 0.5 像素的边框。因为大多数屏幕的最小渲染单位是一个物理像素&#xff0c;所以通常只能以整数像素单位渲染边框。但是&#xff0c;有一些技巧可以模拟出看起来像是 0.5 像素的边框。 这里介绍使用&#xff1a…

Jmeter基础和概念(超详细整理)

JMeter 介绍&#xff1a; 一个非常优秀的开源的性能测试工具。 优点&#xff1a;你用着用着就会发现它的重多优点&#xff0c;当然不足点也会呈现出来。 从性能工具的原理划分&#xff1a; Jmeter工具和其他性能工具在原理上完全一致&#xff0c;工具包含4个部分&#xff1a…

机器学习---bagging与随机森林

1. bagging算法 集成学习有两个流派&#xff1a;一个是boosting派系&#xff0c;它的特点是各个弱学习器之间有依赖关系。另一种是 bagging流派&#xff0c;它的特点是各个弱学习器之间没有依赖关系&#xff0c;可以并行拟合。 Bagging的弱学习器之间的确没有boosting那样的联…

EasyExcel模板导出(行和列自动合并)

1.需求背景: ①需要从第三方获取数据,第三方接口有两个参数,开始时间和结束时间 ②获取回来的数据并没有入库,所以不能通过数据库将数据归类统计,excel合并大概的流程是判断上一行或者左右相邻列是否相同,然后进行合并,所以不能是零散的数据且客户要求每一个自治区和每一个航站…

ios备忘录怎么导入华为 方法介绍

作为一个常常需要在不同设备间切换的人&#xff0c;我深知备忘录的重要性。那些突如其来的灵感、重要的会议提醒、甚至是生活中的琐碎小事&#xff0c;我们都习惯性地记录在备忘录里。但当我决定从iPhone转向华为时&#xff0c;一个问题困扰了我&#xff1a;如何将那些珍贵的备…

Unity学习笔记(零基础到就业)|Chapter01:C#入门

Unity学习笔记&#xff08;零基础到就业&#xff09;&#xff5c;Chapter01:C#入门 前言一、控制台输入输出语句二、初识变量1.一些好用的tips2.变量声明的固定写法3.变量类型 三、变量的本质1.变量的存储空间2.变量的本质&#xff1a;2进制 四、变量的命名规范1.必须遵守的规则…

EasyExcel合并相同内容单元格及动态标题功能的实现

一、最初版本 导出的结果&#xff1a; 对应实体类代码&#xff1a; import com.alibaba.excel.annotation.ExcelProperty; import com.alibaba.excel.annotation.write.style.ColumnWidth; import com.alibaba.excel.annotation.write.style.ContentLoopMerge; import com.al…

qt-C++笔记之使用QLabel和QPushButton实现一个bool状态的指示灯

qt-C笔记之使用QLabel和QPushButton实现一个bool状态的指示灯 code review! 文章目录 qt-C笔记之使用QLabel和QPushButton实现一个bool状态的指示灯1.QPushButton实现2.QLabel实现2.QLabel实现-对错符号 1.QPushButton实现 运行 代码 #include <QtWidgets>class Ind…

Spring Boot + MinIO 实现文件切片极速上传技术

文章目录 1. 引言2. 文件切片上传简介3. 技术选型3.1 Spring Boot3.2 MinIO 4. 搭建Spring Boot项目5. 集成MinIO5.1 配置MinIO连接信息5.2 MinIO配置类 6. 文件切片上传实现6.1 控制器层6.2 服务层6.3 文件切片上传逻辑 7. 文件合并逻辑8. 页面展示9. 性能优化与拓展9.1 性能优…