极客说|微软 Phi 系列小模型和多模态小模型

news2025/1/8 16:01:39

作者:胡平 - 微软云人工智能高级专家

「极客说」 是一档专注 AI 时代开发者分享的专栏,我们邀请来自微软以及技术社区专家,带来最前沿的技术干货与实践经验。在这里,您将看到深度教程、最佳实践和创新解决方案。关注「极客说」,与行业顶尖专家一起探索科技的无限可能!

在人工智能领域,虽然大模型(Large language model)在理解和生成自然语言方面表现出了很大的优势,在问答、翻译、文本生成等多种任务中展现了惊人的能力,但是随着模型规模的不断扩大,训练和运行这些大模型所需要的计算资源也日益紧张,而且端侧的设备上的算力通常都是有限的,这在一定程度上限制了他们的广泛使用。我们的日常生活中存在着非常多的端侧设备,智能化家具家电,智能座舱等,都对端侧的模型的使用提出了要求。在这样的背景下,小模型(Small Language Models, SLMs)的研究就显得非常重要。小模型以其相对较小的规模和较低的计算算力需求,为资源有限的端侧设备环境提供了一种可行的解决方案。微软在小模型方面也持续进行了很长时间的研究,推出了 Phi 系列模型,证明了即使在较小的模型规模下,也能够实现强大的语言理解能力,生成能力,和多模态理解能力。

Phi-1


Phi-1 模型是这个系列的起点,它是一个基于 Transformer 架构的模型,拥有 1.3 亿参数。尽管其规模相对较小,但 Phi-1 在 Python 编程任务上展现出了令人印象深刻的性能,特别是在 HumanEval 和 MBPP 基准测试中,它的表现接近或超过了当时一些大型模型。

Phi-1.5


Phi-1.5 模型在 Phi-1 的基础上进行了进一步地优化和扩展。它同样拥有 1.3 亿参数,但在训练数据上进行了重大改进,引入了专门用于教授模型常识推理和通用知识的新数据源。这些数据源包括科学、日常活动和心智理论等领域的教科书内容,以及从互联网上筛选出的高质量数据。Phi-1.5 在自然语言任务上的表现与比其大五倍的模型相当,甚至在更复杂的推理任务上超越了大多数非前沿的 LLMs。

Phi-2


Phi-2 的参数数量有 2.7 亿,模型通过创新的知识转移技术,在 Phi-1.5 的基础之上,通过从 Phi-1.5 中嵌入知识,加速了训练过程并提升了性能。这种知识转移方法不仅加速了训练过程的收敛,而且在基准测试中显著提高了 Phi-2 的得分。在 Phi2 提出的时间节点,在多个复杂基准测试中,Phi-2 能够匹配或超越比其规模大25倍的模型。此外,Phi-2 在安全性和偏见方面也有所改进。尽管它没有经过人类反馈的强化学习对齐(RLHF)或指令微调,但与经过对齐的现有开源模型相比,Phi-2 在毒性和偏见方面的行为表现得更好。这归功于其定制的数据筛选技术,这种技术有助于减少模型生成有害内容的可能性。

 

Phi-3 系列


Phi3 系列有三个不同量级的小模型,分别叫做 Phi-3 mini, Phi-3 small 和 Phi-3 medium。

Phi-3-mini

Phi-3-mini 有 3.8B 的参数,3.3T token 的训练数据。它标配 4K 上下文,使用 LongRope 位置嵌入可拓展至 128K,即 Phi-3-mini-128k。在多个学术基准测试中,Phi-3-mini 性能接近或等同于市场上的大型模型,例如在 MMLU 测试中得分为 69%,在 MT-bench 测试中得分为 8.38 分。将 Phi-3-mini 量化(quantize)为 4-bits,其所需存储空间约为 1.8GB。测试中量化版 Phi-3-mini 在 iPhone 14 上的推理速度可达到 12 tokens/s。同时也可以将它部署在 Android 或者 HarmonyOS 操作系统的手机上,如下图4所示就是用 Ollama 在 HarmonyOS 上部署的量化版本的 Phi-3-mini 模型做问答任务时的截图。

Phi-3-small

Phi-3-small-7B 是 Phi3 系列新增的一个更大规模参数版本的Phi模型,参数 7.0B,但是 tokenizer 换成了 tiktoken,使之有更好的多语言能力,词汇表大小也拓展到了 100352,默认上下文长度是 8K,模型也有分组查询注意力机制(Group Query Attention,GQA),模型的数据训练量达到了 4.8万亿 tokens。

Phi-3-medium

Phi-3-medium 的参数有 14B,架构与最小的 Phi-3-mini-3.8B 相同,但是训练的 epoch 更多,训练的数据量和 Phi-3-small 一样,4.9万亿 tokens。

Phi-3-vision

此外,Phi3 系列还包含了一个 4.2B 参数的多模态模型,叫做 Phi-3-vision,融合了视觉和语言的功能。它是 Phi 系列中的首个多模态模型,能够结合文本和图像进行推理,从图像中提取和推理文本,还能优化对图表和图像的理解,用于生成见解和回答,在小型模型中提供了出色的语言和图像推理质量。

将 Phi-3-vision 部署在 PC 的 CPU 上,采用的是 https://huggingface.co/microsoft/Phi-3-vision-128k-instruct-onnx  的模型版本,这里,通过 RTN 的 int4 量化得到 CPU 上运行的 onnx 版本的模型,其中,Phi-3-v-128k-instruct-text.onnx.data 有 2.33G,Phi-3-v-128k-instruct-vision.onnx.data 有 445M。用它来进行多模态的问答的测试结果如图5所示。这里给了模型带有雪山的汽车的图片,让 Phi-3-vision 根据画面进行描述,可以看到右侧生成的结果很好的描述了雪山的细节和车的细节。

此外,我们还对驾驶员有没有系安全带进行了测试,如图6和图7所示。我们分别选取了没有系安全带的司机和系安全带的司机来作为我们的输入图像,而且考虑到司机坐姿的不同,图像拍摄角度的不同和车型的不同,这里我们分别选取了有代表性的两类,公共汽车司机和小轿车司机。然后,我们以此作为输入,分别让 Phi-3-vision 来进行回答,图片中的司机是否系了安全带。这里为了验证模型的有效性,我们还变化了提问的 Prompt 的写法,一种写法是:Is the person in the picture wearing a seat belt? 另一种 Prompt 的问法是:Is there a seat belt?图6 和图7 的下面是通过 Phi-3-vision 模型得到的回答的结果,分别给出了公共机车司机没有系安全带,和小轿车司机系了安全带的正确回答。

Figure 4. 手机上跑 Phi-3-mini 做问答任务的截图

Figure 5. PC 上用 Phi-3-Vision 进行图像的问答测试

Figure 6. PC 上用 Phi-3-vision 进行公交司机是否系安全带的图像问答测试

Figure7. PC 上用 Phi-3-visio 进行轿车司机是否系安全带的图像问答测试

Phi-3.5 系列


Phi-3.5 系列小模型是最新一代的 Phi 系列小模型,该系列包括了 Phi-3.5-mini、Phi-3.5-MoE 和 Phi-3.5-vision 三个模型,分别针对轻量级推理、混合专家系统和多模态任务设计。Phi 3.5 支持多种语言,包括阿拉伯语、中文、英语、法语、德语、日语、韩语和西班牙语等。它使用了组查询注意力机制,每个注意力头的 KV 缓存中使用 4 个查询共享 1 个键。为了进一步提高训练和推理速度,它使用了块稀疏注意力模块,能根据不同的稀疏模式有效地划分上下文,减少 KV 缓存的使用量。

Phi-3.5-mini

Phi-3.5-mini 指令微调模型有 3.8B 的参数,该模型专为遵守指令而设计,支持快速推理任务。它支持 128K 上下文,适合处理长文本数据。适合在内存或计算资源受限的环境,来执行代码生成、数学问题求解和基于逻辑的推理任务等。在多语言和多轮对话任务中表现出色,并且在 RepoQA 基准测试中,测量“长上下文代码理解”的性能超越了其他类似大小的模型,如 Llama-3.1-8B-instruct 和 Mistral-7B-instruct。

Phi-3.5-MoE

Phi-3.5-MoE 有大约 41.9B 的参数,该模型采用了混合专家架构,也是微软Phi系列中的首个 MoE 模型,拥有 6.6B 活动激活参数,将多个不同类型的模型组合成一个,每个模型专门处理不同的任务。它支持 128k token 的上下文长度,适合处理复杂的多语言和多任务场景。在代码、数学和多语言理解方面表现出色,在 5-shot MMLU (大规模多任务语言理解)基准测试中,在 STEM、人文学科、社会科学等多个学科的不同层次上超越了 GPT-4o mini。

Phi-3.5-vision

Phi-3.5-vision 模型拥有 4.2B 的参数,集成了文本和图像处理功能,使其能够处理多模态数据。适用于图像理解、光学字符识别、图表和表格理解以及视频摘要等任务。由于支持 128K 标记上下文长度,特别擅长处理复杂的多帧视觉任务。Phi-3.5-vision 模型使用合成数据集和筛选后的公开数据集进行训练,重点放在高质量、推理密集的数据上,对于 TextVQA 和 ScienceQA 等任务,提供高质量的视觉分析。

基于 GPU 的推理部署和测试——以 Phi-3.5-vision 为例 


接下来,我们就以 Phi-3.5-vision 为例来实现一下它基于 GPU 的推理部署和测试。

先来看一下 Phi-3.5-vision 模型在 GPU 的部署。这里我们在 Azure Machine Learning 里创建了一台 A100 的 GPU,它已经自带了 cuda 和 anaconda 的环境配置。部署的时候,第一步先安装 swift,用如下的命令:

git clone https://github.com/modelscope/ms-swift.git
cd ms-swift
pip install -e .[llm]

之后,就可以用如下命令运行 Phi3_5-vision-instruct 的推理模型了:

CUDA_VISIBLE_DEVICES=0 swift infer --model_type phi3_5-vision-instruct --use_flash_attn false

推理模型运行起来之后,如图8所示。之后,就可以和模型进行问答的交互了,譬如,我们问它,who are you? 得到结果如图9所示,它会回答:I am Phi, an AI developed by Microsoft to assist with providing information, answering questions, and helping users find solutions to their queries. How can I assist you today? 这是我们和它进行文本问答的结果。

Figure 8. Phi3_5-vision-instruct 推理时的运行界面

Figure 9. 与部署的 Phi3_5-vision-instruct 模型进行文本问答的界面

我们也可以利用它的多模态能力,输入图片,得到回答。这里先用 +prompt 的输入格式,输入我们的文本提示词,同时提示模型我们还要输入图片,之后再输入图片的地址。图片地址可以是 http 链接,也可以是本地的图片路径。这里我们测试了多张不同类型的图片如图10、11所示。图10中,对不同的网络上的图片,一张是猫的,一张是兔子围着一盆饺子的,进行了详细的描述。左边是原图,右边是用 Phi3_5-vision-instruct 进行提问,输入图片网址链接,和得到结果的截图。图11是对于数学运算来进行计算的结果,可以看到对于整数的乘法的三个运算,结果都是正确的。当用 A100 的 GPU 跑 Phi3_5-vision-instruct 进行推理的时候,大概会产生 10G 的 GPU 显存占用,如图12所示。

Figure 10. 用 Phi3_5-vision-instruct 对不同的图片进行描述的多模态交互用例

Figure 11. 用 Phi3_5-vision-instruct 对图片中的数学公式进行计算的测试用例

 

Figure 12. 用 Phi3_5-vision-instruct 在 GPU 上做推理的时候的 GPU 占用

资料推荐


智能 GitHub Copilot 副驾驶® 提示和技巧icon-default.png?t=O83Ahttps://info.microsoft.com/GC-DevOps-CNTNT-FY25-08Aug-23-Smart-GitHub-Copilot-Tips-and-Tricks-SRGCM12801_LP01-Registration---Form-in-Body.html

Azure OpenAI 生成式人工智能白皮书icon-default.png?t=O83Ahttps://info.microsoft.com/GC-AzureAI-CNTNT-FY25-08Aug-21-Azure-OpenAI-Generative-Artificial-Intelligence-White-Paper-SRGCM12789_LP01-Registration---Form-in-Body.html

利用 AI 和 DevOps 重新定义开发人员体验icon-default.png?t=O83Ahttps://info.microsoft.com/ww-landing-redefining-the-developer-experience.html?lcid=ZH-CN

SAP on Microsoft Cloudicon-default.png?t=O83Ahttps://info.microsoft.com/GC-SAP-CNTNT-FY25-08Aug-27-SAP-on-Microsoft-Cloud-SRGCM12804_LP01-Registration---Form-in-Body.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2272668.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

解决 IntelliJ IDEA 中 Tomcat 日志乱码问题的详细指南

目录 前言1. 分析问题原因2. 解决方案 2.1 修改 IntelliJ IDEA 的 JVM 选项2.2 配置 Tomcat 实例的 VM 选项 2.2.1 设置 Tomcat 的 VM 选项2.2.2 添加环境变量 3. 进一步优化 3.1 修改 Tomcat 的 logging.properties3.2 修改操作系统默认编码 3.2.1 Windows 系统3.2.2 Linux …

某小程序sign签名参数逆向分析

文章目录 1. 写在前面2. 接口分析3. 分析还原 【🏠作者主页】:吴秋霖 【💼作者介绍】:擅长爬虫与JS加密逆向分析!Python领域优质创作者、CSDN博客专家、阿里云博客专家、华为云享专家。一路走来长期坚守并致力于Python…

医学图像分析工具02:3D Slicer || 医学影像可视化与分析工具 支持第三方插件

3D Slicer 是一款功能全面的开源医学影像分析软件,广泛应用于影像处理、三维建模、影像配准和手术规划等领域。它支持多种医学影像格式(如 DICOM、NIfTI)和丰富的插件扩展,是神经科学、放射学和生物医学研究中不可或缺的工具。 在…

Linux系统安装es详细教程

一、下载es及插件 从下面的网址进行对应es版本的下载https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.15.2-linux-x86_64.tar.gz ,想要不同版本的es只需更换对应的版本号即可。 插件下载地址(ik分词器、pinyin等)es…

电子电气架构 --- 汽车总线基础介绍

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 简单,单纯,喜欢独处,独来独往,不易合同频过着接地气的生活…

安装PyQt5-tools卡在Preparing metadata (pyproject.toml)解决办法

为了在VS code中使用PyQt,在安装PyQt5-tools时总卡在如下这一步 pyqt5 Preparing metadata (pyproject.toml)经过各种尝试,最终问题解决,在此记录方法。 首先进入PyQt5-tools官网查看其适配的Python版本,网址如下: h…

38 Opencv HOG特征检测

文章目录 HOGDescriptor 构造函数setSVMDetector 设置支持向量机(SVM)检测器,用于目标检测。compute 用于计算图像区域的HOG描述符。detectMultiScale 多尺度检测目标。示例 HOGDescriptor 构造函数 HOGDescriptor(); HOGDescriptor(const S…

分布式搜索引擎之elasticsearch基本使用3

分布式搜索引擎之elasticsearch基本使用3 1.部署单点es 1.1.创建网络 因为我们还需要部署kibana容器,因此需要让es和kibana容器互联。这里先创建一个网络: docker network create es-net1.2.加载镜像 这里我们采用elasticsearch的7.12.1版本的镜像&…

人工智能知识分享第九天-机器学习_集成学习

集成学习 概念 集成学习是机器学习中的一种思想,它通过多个模型的组合形成一个精度更高的模型,参与组合的模型称为弱学习器(基学习器)。训练时,使用训练集依次训练出这些弱学习器,对未知的样本进行预测时…

在线机考|2024华为实习秋招春招编程题(最新)——第3题_个性化歌单推荐系统_300分(十一)

题目内容 假设你是音乐服务的开发者,为了提高用户体验需要解决推荐歌单的同质化问题,保证推荐给用户的所有歌单不包含相同歌曲的。给定一个包含N个歌单和M条歌单重复记录,每个歌单用一个从1到N的整数编号,歌单重复记录包含两个歌单的ID,表示两个歌单有相同的歌曲。 你的任…

学英语学压测:02jmeter组件-测试计划和线程组ramp-up参数的作用

📢📢📢:先看关键单词,再看英文,最后看中文总结,再回头看一遍英文原文,效果更佳!! 关键词 Functional Testing功能测试[ˈfʌŋkʃənəl ˈtɛstɪŋ]Sample样…

最新最详细的配置Node.js环境教程

配置Node.js环境 一、前言 (一)为什么要配置Node.js?(二)NPM生态是什么(三)Node和NPM的区别 二、如何配置Node.js环境 第一步、安装环境第二步、安装步骤第三步、验证安装第四步、修改全局模块…

PHP框架+gatewayworker实现在线1对1聊天--接收消息(7)

文章目录 接收消息的原理接收消息JavaScript代码 接收消息的原理 接收消息,就是接受服务器转发的客户端消息。并不需要单独创建函数,因为 ws.onmessage会自动接收消息。我们需要在这个函数里进行处理。因为初始化的时候,已经处理的init类型的…

当算法遇到线性代数(四):奇异值分解(SVD)

SVD分解的理论与应用 线性代数系列相关文章(置顶) 1.当算法遇到线性代数(一):二次型和矩阵正定的意义 2.当算法遇到线性代数(二):矩阵特征值的意义 3.当算法遇到线性代数&#xff0…

科研绘图系列:R语言科研绘图之标记热图(heatmap)

禁止商业或二改转载,仅供自学使用,侵权必究,如需截取部分内容请后台联系作者! 文章目录 介绍加载R包数据下载导入数据数据预处理画图系统信息参考介绍 科研绘图系列:R语言科研绘图之标记热图(heatmap) 加载R包 library(tidyverse) library(ggplot2) library(reshape)…

Mysql--基础篇--SQL(DDL,DML,窗口函数,CET,视图,存储过程,触发器等)

SQL(Structured Query Language,结构化查询语言)是用于管理和操作关系型数据库的标准语言。它允许用户定义、查询、更新和管理数据库中的数据。SQL是一种声明性语言,用户只需要指定想要执行的操作,而不需要详细说明如何…

Excel重新踩坑5:二级下拉列表制作;★数据透视表;

0、在excel中函数公式不仅可以写在单元格里面,还可以写在公式里面。 1、二级下拉列表制作: 2、数据透视表: 概念:通过拖拉就能实现复杂函数才能实现的数据统计问题。 概览:在插入选项中有个数据透视表,数…

Linux-----进程处理(waitpid,进程树,孤儿进程)

目录 waitpid等待 进程树 孤儿进程 waitpid等待 Linux中父进程除了可以启动子进程,还要负责回收子进程的状态。如果子进程结束后父进程没有正常回收,那么子进程就会变成一个僵尸进程——即程序执行完成,但是进程没有完全结束,其…

解决报错net.sf.jsqlparser.statement.select.SelectBody

在我们项目集成mybatis-plus时,总会遇到奇奇怪怪的报错,比如说下面的这个报错 而这个报错,是告诉我们的分页依赖冲突,要加个jsqlparser依赖来解决这个冲突,也相当于平衡,但是可能因为我们版本的不匹配,还是会报错,例如下面这样 但是我们是不知道到底是什么依赖冲突的,这个时候就…

感知器的那些事

感知器的那些事 历史背景Rosenblatt和Minsky关于感知机的争论弗兰克罗森布拉特简介提出感知器算法Mark I感知机争议与分歧马文明斯基简介单层感知器工作原理训练过程多层感知器工作原理单层感知机 vs 多层感知机感知器模型(Perceptron),是由心理学家Frank Rosenblatt在1957年…