可以在手机端运行的大模型标杆:微软发布第三代Phi-3系列模型,评测结果超过同等参数规模水平,包含三个版本,最小38亿,最高140亿参数

news2025/1/12 10:45:09

本文原文来自DataLearnerAI官方网站:

可以在手机端运行的大模型标杆:微软发布第三代Phi-3系列模型,评测结果超过同等参数规模水平,包含三个版本,最小38亿,最高140亿参数 | 数据学习者官方网站(Datalearner)icon-default.png?t=N7T8https://www.datalearner.com/blog/1051713851616894


Phi系列大语言模型是微软开源一个小规模参数的语言模型。第一代和第二代的Phi模型参数规模都不超过30亿,但是在多个评测结果上都取得了非常亮眼的成绩。今天,微软发布了第三代Phi系列大模型,最高参数规模也到了140亿,其中最小的模型参数38亿,评测结果接近GPT-3.5的水平。

微软发布phi-3模型

  • Phi系列模型简介
  • 第三代Phi-3模型简介
  • Phi-3系列模型评测结果接近GPT-3.5
  • Phi-3系列的开源情况
Phi系列模型简介

大语言模型的一个重要应用方向就是在手机端运行。为此,30亿参数规模几乎是上限(超过这个规模的模型,需要通过量化等手段牺牲模型性能)。在这其中,微软的Phi系列模型是最具有竞争力的。

Phi系列模型的目的是希望在小规模参数的模型上获得传统大模型的能力。微软发布了第三代Phi模型,这一代的模型最小参数38亿,最大规模拓展到了140亿,包含3个版本,分别是Phi-mini-3.8B、Phi-small-7B和Phi-medium-14B。参数规模增长的同时,能力也大幅提高。

第三代Phi-3模型简介

第三代的Phi模型是微软继续探索小规模参数语言模型的成果。尽管Phi-3包含了70亿和140亿两个较大规模版本的模型。但是最小的38亿参数模型依然可以在手机端运行。

Phi-3-mini-3.8B模型采用了transformer的decoder架构,默认上下文长度是4K,采用了和Llama-2类似的block结构,使用同样的tokenizer,词汇表大小为32064。因此,任何为Llama2开发的工具套件几乎可以直接应用在phi-3-mini上,这个模型训练数据量达到了3.3万亿tokens。

Phi-3-small-7B是新增的一个更大规模参数版本的Phi模型,参数70亿,但是tokenizer换成了tiktoken,使之有更好的多语言能力,词汇表大小也拓展到了100352,默认上下文长度是8K,模型也有分组查询注意力机制(Group Query Attention,GQA),从这个变化看,和Llama3的架构非常接近(Llama3的详细分析参考:开源王者!全球最强的开源大模型Llama3发布!15万亿数据集训练,最高4000亿参数,数学评测超过GPT-4,全球第二! | 数据学习者官方网站(Datalearner) )。模型的数据训练量达到了4.8万亿tokens。

Phi-3还有一个140亿参数规模的Phi-3-medium-14B版本,架构与最小的Phi-3-mini-3.8B相同,但是训练的epoch更多,训练的数据量和Phi-3-small一样,4.9万亿tokens。但是这个模型比Phi-3-small-7B的提升不如Phi-3-small-7B相比Phi-3-mini-3.8B提升多。作者认为可能是数据问题,所以后面他们还会改进,因此,把这个Phi-3-medium-14B称为preview版本。

Phi-3模型系列更多的详情参考DataLearnerAI模型信息卡地址:

模型版本Phi3模型信息卡地址
Phi3-miniPhi-3-mini 3.8B(Phi-3-mini 3.8B)详细信息 | 名称、简介、使用方法,开源情况,商用授权信息 | 数据学习(DataLearner)
Phi3-smallPhi-3-small 7B(Phi-3-small 7B)详细信息 | 名称、简介、使用方法,开源情况,商用授权信息 | 数据学习(DataLearner)
Phi3-medium-previewPhi-3-medium 14B-preview(Phi-3-medium 14B-preview)详细信息 | 名称、简介、使用方法,开源情况,商用授权信息 | 数据学习(DataLearner)
Phi-3系列模型评测结果接近GPT-3.5

Phi系列模型的评测结果一直非常优秀,尽管在复杂任务上与大规模参数版本的大模型有差距,但是作为一个几十亿参数模型来说,已经表现很不错了。

本次第三代Phi模型的提升也比较大。首先,我们看一下在30亿参数规模左右模型的对比结果:

Phi-3-mini评测结果

数据来源:30亿参数规模大模型综合评测对比 | 当前主流大模型在各评测数据集上的表现总榜单 | 数据学习 (DataLearner)

上图是DataLearnerAI收集的30亿参数以下大模型评测对比结果。可以看到,Phi-3-mini-3.8B得分远超其它同等参数规模的模型,效果非常好。而且不仅仅是MMLU的综合评测理解上,在数学推理GSM8K以及MT-Bench上表现也非常好。其70亿参数规模版本的模型在MMLU测评上甚至超过了Anthropic旗下的Claude3-Haiku模型!

如果不限制参数规模,与所有其它模型相比,Phi-3-medium超过了此前Mixtral-8×22B-MoE模型,表现非常亮眼:

Phi-3-medium和Phi-3-small评测结果

数据来源L:大模型综合评测对比 | 当前主流大模型在各评测数据集上的表现总榜单 | 数据学习 (DataLearner)

在编程评测HumanEval上,这三个模型相差不大,甚至最大的140亿参数规模的Phi-3-medium-14B水平表现略有下降,十分奇怪:

Phi-3模型的编程能力测评

数据来源:大模型代码能力评测对比 | 当前主流大模型在代码能力上的表现总榜单 | 数据学习 (DataLearner)

从这些评测结果看,Phi-3模型的变现十分优秀。不过,有争议的是Phi系列模型一直因为评测结果很高但是参数量很少受到质疑。其实,从现在的情况看,因为大多数评测的数据过于陈旧,导致模型评测结果的区分度已经降低。而且很多模型都会在有监督微调(SFT)阶段针对性的做微调,会导致评测分数虚高。不过,从侧面看,在30亿参数规模的模型中,Phi系列一直是标杆,还是值得关注的。

Phi-3系列的开源情况

目前,Phi-3系列模型只发布了论文信息,还没有预训练结果发布。大家关注DataLearnerAI的模型信息卡可以获取后续的情况。根据Phi-2模型发布的情况看,最早Phi2模型是不可以商用的,但是过了一段时间,开源协议改成MIT开源协议,没有任何商用限制。Phi-3可以期待也是类似的开源协议。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1629185.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

React真的好难用

我发现React就像个宗教一样,网络上总有一群信徒。信徒:React天下第一,谁也不能说他不好。 网络上大佬对React的评价一般有几类: React跟Vue比就是手动档和自动档的区别,高手都开手动档。—— 就一个破打工的&#xf…

(待更)DRF: 序列化器、View、APIView、GenericAPIView、Mixin、ViewSet、ModelViewSet的源码解析

前言:还没有整理,后续有时间再整理,目前只是个人思路,文章较乱。 注意路径匹配的“/” 我们的url里面加了“/”,但是用apifox等非浏览器的工具发起请求时没有加“/”,而且还不是get请求,那么这…

【知识】pycolmap.Sift.extract的参数和返回格式

转载请注明出处:小锋学长生活大爆炸[xfxuezhagn.cn] 如果本文帮助到了你,请不吝给个[点赞、收藏、关注]哦~ import pycolmap# 比较推荐的参数 options {"peak_threshold": 0.0066667,"edge_threshold": 10,"first_octave"…

基于Spring Boot的火车订票管理系统设计与实现

基于Spring Boot的火车订票管理系统设计与实现 开发语言:Java框架:springbootJDK版本:JDK1.8数据库工具:Navicat11开发软件:eclipse/myeclipse/idea 系统部分展示 前台首页功能界面图,在系统首页可以查看…

python 函数作业 计算三角形的有效值s

题目: 计算半周长p,既p(abc)/2。 将p的值代入公式:计算出三角形的有效值。(只能用python函数的方法求解) 第一步先定义个函数: def isValid(side1,side2,side3) 第二步用if判断是否符合三角形边长准…

芯片尺寸封装(CSP)/晶圆级封装(WLP)/芯片尺寸晶圆级封装(CSWLP)

芯片尺寸封装(CSP)、晶圆级封装(WLP)、晶圆级芯片尺寸封装(WLCSP) 1.芯片尺寸封装(CSP)的定义是其尺寸不超过裸片尺寸的1.1倍。 2.晶圆级封装(WLP)是在晶圆…

AIGC——什么是人工智能生成内容

人工智能生成内容(AIGC)是当今数字时代的一个引人注目的前沿技术,它借助深度学习和自然语言处理等技术,使计算机系统具备了生成高质量文本、图像、音频等多媒体内容的能力。AIGC的出现不仅推动了信息技术的发展,也在多…

Linux搭建本地DNS服务器

目录 DNS进行域名解析的过程: 环境介绍: 环境准备: 1.安装bind 2.编辑主配 3.配置正向解析文件 4.测试: DNS进行域名解析的过程: 用户要访问www.baidu.com,会先找本机的host文件,再找本…

selenium 自动化测试课上实操指南2——乐视tv搜索

如果完成了实操1的同学,环境搭建已经ok,环境还没有好的同学请参考 实操1_百度搜索 为了大家顺利,我们还想按照实操1那样,先导入一个基本项目。在次基础上进行代码编写、 我们一起写写看。 1.打开乐视视频网页并最大化 如下图所…

深度学习从入门到精通——词向量介绍及应用

词向量介绍 词向量(Word embedding),即把词语表示成实数向量。“好”的词向量能体现词语直接的相近关系。词向量已经被证明可以提高NLP任务的性能,例如语法分析和情感分析。词向量与词嵌入技术的提出是为了解决onehot的缺陷。它把…

【Yolov系列】Yolov5学习(一):大致框架

一、Yolov5网络结构 Yolov5特点: 合适于移动端部署,模型小,速度快 Yolov5骨干结构:CSPDarknet53网络Yolov5主要有Yolov5s、Yolov5m、Yolov5l、Yolov5x四个版本。这几个模型的结构基本一样,不同的是depth_multiple模型…

AUTOSAR-SD篇

1 概述 服务发现模块的主要任务是管理在车内通信中被称为服务的功能实体的可用性,以及控制事件消息的发送行为。只允许向需要这些事件消息的接收器发送事件消息(发布/订阅)。 这里描述的解决方案也被称为SOME/IP-SD(基于IP -服务发…

西湖大学赵世钰老师【强化学习的数学原理】学习笔记-1、0节

强化学习的数学原理是由西湖大学赵世钰老师带来的关于RL理论方面的详细课程,本课程深入浅出地介绍了RL的基础原理,前置技能只需要基础的编程能力、概率论以及一部分的高等数学,你听完之后会在大脑里面清晰的勾勒出RL公式推导链条中的每一个部…

索引失效的几种场景

索引失效的几种场景 初始化数据一、对索引使用左或左右模糊匹配二、对索引使用函数三、对索引使用表达式计算四、对索引进行隐式类型转换五、索引使用不满足最左前缀原则六、where子句使用or总结 初始化数据 本文使用的是InnoDB存储引擎,先来创建一个学生表。 dro…

2021年山东省职业院校技能大赛高职组“信息安全管理与评估”样题

培训、环境、资料、考证 公众号:Geek极安云科 网络安全群:624032112 网络系统管理群:223627079 网络建设与运维群:870959784 移动应用开发群:548238632 极安云科专注于技能提升,赋能 2024年广东省高校的技…

【第二十五课】动态规划:数字三角形(acwing-898 / 蓝桥官网503 / c++代码)

目录 acwing-898数字三角形(模板题) 思路 注意点 代码 视频讲解推荐 2020蓝桥杯省赛-数字三角形 错误思路 (可不看) 思路 代码 注意点 续上之前的啦。 【第二十五课】动态规划:01背包问题(acwing-2 / 思路 / 含一维数组优化 / c代码) 适合在学习过背包…

OS复习笔记ch3-1

引言 学到第三章,就正式步入我们OS的大门了 本章我们将围绕以下几个问题去解决 什么是进程?进程状态有哪些?进程如何描述?进程如何控制? 本节内容主要是回答前两个问题,第二节回答后两个问题。 进程 …

windows环境下安装Apache

首先apache官网下载地址:http://www.apachelounge.com/download/按照自己的电脑操作系统来安装 这里我安装的是win64 主版本是2.4的apache。 然后解压压缩包到一个全英文的路径下!!!一定一定不要有中文 中文符号也不要有&#xff…

详细分析PyInstaller打包python为exe执行文件(附Demo)

目录 前言1. 基本知识2. Demo 前言 需要将python文件打包成exe文件,变成rpa自动化形式 1. 基本知识 PyInstaller是一个用于将Python应用程序打包成独立可执行文件的工具 可以将Python脚本打包成Windows、Linux和Mac OS X上的可执行文件,这个作用可以将…

【Linux】软硬链接与动静态库(理解软硬链接的特点及使用场景、如何建立动静态库与使用第三方库)

一、软链接 1.1 如何建立软链接 //建立软链接 -s代表soft ln -s 目标文件名 链接文件名//删除软链接 rm 链接文件 或 unlink 链接文件 1.2 软链接的特点与功能 通过ls -i指令可以查看文件的inode编号 、 可以看出目标文件与软链接文件各自有自己的inode,所以软…