微软发布Phi-3系列语言模型:手机端的强大AI助手

news2024/9/22 4:06:52

大模型(LLMs)在处理复杂任务时展现出的巨大潜力,但却需要庞大的计算资源和存储空间,限制了它们在移动设备等资源受限环境中的应用。微软公司最新发布的Phi-3系列语言模型,以其卓越的性能和小巧的体积,打破了这一局限,为移动AI领域带来了革命性的变革。

Phi-3系列模型的优势在于它们能够在保持较小模型体积的同时,提供与大型模型相媲美的语言处理能力。这一成就得益于几个关键的技术突破和创新:

高效的训练数据:Phi-3系列模型采用了经过精心筛选和优化的训练数据集,这些数据不仅包括公开可用的网络数据,还结合了由LLM生成的合成数据,从而在较小的模型规模上实现了高性能。

先进的架构设计:Phi-3-mini模型采用了transformer解码器架构,并引入了LongRope技术来扩展上下文长度,使其能够处理更长的文本序列。

优化的存储和计算效率:通过量化技术和块稀疏注意力模块,Phi-3-mini能够在保持性能的同时,大幅减少模型所需的存储空间和计算资源。

强大的多模态能力:Phi-3-vision模型不仅能够处理文本,还能够理解和生成与图像相关的文本,这为图像和文本的联合理解提供了新的可能性。

负责任的AI实践:微软在Phi-3系列模型的开发中,遵循了负责任的AI原则,通过后训练阶段的安全对齐和红队测试,确保了模型的安全性和可靠性。

移动设备上的本地部署:Phi-3-mini的小巧体积使其能够轻松部署在现代智能手机上,实现完全离线运行,为用户提供了随时随地的智能助手。

Phi-3-mini 模型

Phi-3-mini 是一个具有3.8亿参数的语言模型,它在3.3万亿个token上进行了训练。这个模型采用了transformer解码器架构,具备4K的默认上下文长度,并通过LongRope技术可以扩展到128K的上下文长度。Phi-3-mini 的设计允许它在保持小巧体积的同时,实现与大型模型相媲美的性能。

phi-3-small模型中的blocksparse attention的玩具插图。它展示了具有2个局部块和3的垂直跨度的blocksparse attention。表格显示了查询标记在块8中所关注的键/值。颜色编码说明了本地块(蓝色)、远程/垂直块(橙色)和被跳过的块(灰色)

模型的训练采用了一种创新的方法,使用了经过严格筛选的公开网络数据和合成数据。这种数据筛选策略专注于提升模型的通用知识和语言理解能力,同时在第二阶段的训练中融入了逻辑推理和专业技能的教学。

接近“数据最优范围”的扩展法则,从左到右分别是phi-1.5、phi-2、phi-3-mini、phi-3-small与Llama-2系列模型(7B、13B、34B、70B),它们都是在相同的固定数据上训练的。图表绘制了MMLU误差的对数与模型大小的对数

Phi-3-mini 进一步优化了模型的对齐,以增强其在对话格式下的鲁棒性、安全性。此外,模型使用了与Llama-2相似的块结构,并采用了相同的分词器,这使得为Llama-2开发的包可以轻松适配到Phi-3-mini。模型具备3072的隐藏维度、32个注意力头和32层,使用bfloat16精度进行了训练。

Phi-3-mini 的小巧体积使其可以量化到4位,仅占用大约1.8GB的内存。在iPhone 14的A16 Bionic芯片上进行的测试显示,该模型能够以每秒超过12个token的速度在设备上本地运行,且完全离线。为了处理长上下文任务,开发了Phi-3-mini的长上下文版本,其上下文长度限制扩展到了128K。这个版本的模型在质量上与4K长度的版本相当,但在处理长文本方面更为出色。

iPhone上使用A16 Bionic芯片本地运行的4位量化phi-3-mini,每秒生成超过12个token

Phi-3-mini 的后训练包括两个阶段:监督微调(SFT)和直接偏好优化(DPO)。SFT使用高度策划的高质量数据,涵盖多个领域,而DPO则利用聊天格式数据、推理和负责任的AI(RAI)努力,引导模型远离不良行为。

基准测试

Phi-3-mini 在多个标准的开源基准测试中进行了评估,这些测试旨在衡量模型的推理能力,包括常识推理和逻辑推理。测试结果与phi-2、Mistral-7b-v0.1、Mixtral-8x7b、Gemma 7B、Llama-3-instruct8b 和 GPT-3.5 等模型进行了比较。所有报告的数字都是通过相同的管道生成的,以确保数字的可比性。

使用了少样本提示(few-shot prompts),在温度为0的条件下评估模型。使用的提示和样本数量是微软内部用于评估语言模型的工具的一部分。特别是,对于phi-3模型,没有对管道进行优化。

测试结果显示 Phi-3-mini 在各种基准测试中的表现与其它模型相比具有竞争力。例如,在MMLU(多项语言理解)基准测试中,Phi-3-mini 达到了68.8% 的准确率,而其他模型的准确率从56.3% 到71.4% 不等。在HellaSwag、ANLI、GSM-8K 等多个测试中,Phi-3-mini 均展现出了较高的性能。

Phi-3-mini 与其扩展模型 Phi-3-small 和 Phi-3-medium 相比,在多数基准测试中表现稍逊,这与它们的参数规模相一致。Phi-3-small 在 MMLU 中的得分为75.7%,而 Phi-3-medium 则为78.0%。类似地,在 MT-bench 测试中,Phi-3-mini 得到了8.38分,而 Phi-3-small 和 Phi-3-medium 分别得到了8.7和8.9分。

虽然在多任务学习上表现出色,但受限于规模,它在存储事实知识、多语言处理和高级推理方面存在局限。通过结合搜索引擎和多语言数据,以及针对性的后训练优化,可以缓解这些限制,但偏见和安全问题仍需进一步研究和改进。

Phi-3-Vision 模型

Phi-3-Vision 是一个多模态模型,拥有 4.2 亿参数,设计用于处理图像和文本提示,并生成文本输出。该模型由两部分组成:图像编码器(CLIP ViT-L/14)和变换器解码器(phi-3-mini-128K-instruct)。通过动态裁剪策略,模型能够适应高分辨率和不同宽高比的图像,将输入图像分割成 2D 块阵列,再将块的标记连接起来以代表整个图像。

Phi-3-Vision在自然图像理解和推理方面的能力

Phi-3-Vision 模型的预训练使用了多样化的数据集,包括图像-文本文档、图像-文本对、从 PDF 文件的光学字符识别(OCR)派生的合成数据,以及图表/表格理解的数据集。预训练的目标是在文本标记上预测下一个标记,而忽略与图像标记相关的任何损失。

Phi-3-Vision 包含两个后训练阶段:监督微调(SFT)和直接偏好优化(DPO)。SFT 利用文本 SFT 数据集、公共多模态指导调整数据集以及我们自己构建的大规模多模态指导调整数据集,覆盖自然图像理解、图表/表格/图解理解/推理、PowerPoint 理解以及模型安全性等多样化领域和任务。

基准测试

Phi-3-Vision 模型在九个学术基准测试中进行了评估,这些测试覆盖科学、图表和通用知识三个领域,旨在衡量模型对视觉和文本输入的推理和感知能力。与多个基线模型相比,Phi-3-Vision 展现了其竞争力。评估采用了公平的设置,模拟了普通用户与多模态模型的交互,未使用特定提示或图像预处理。尽管评估条件一致,但由于不同的评估参数,Phi-3-Vision 的结果可能与已发布的基线模型结果有所差异。这为模型的实际应用提供了有价值的见解,并指出了进一步优化的方向。

Phi-3-Vision 模型在多个公共多语言模型(MLLM)基准测试上的比较结果

尽管 Phi-3-Vision 在多个领域表现出色,但已识别出某些限制,特别是在需要高水平推理能力的问题上。此外,模型有时会生成无根据的输出,使其在金融等敏感领域可能不可靠。为了解决这些问题,研究者计划在未来的后训练中纳入更多关注推理和幻觉相关的 DPO 数据。从负责任的 AI 角度来看,尽管安全后训练取得了显著进展,Phi-3-Vision 偶尔未能避免回答有害或敏感的查询,例如解读特定类型的验证码和描述包含虚假信息或幻觉的诈骗图像。这个问题部分源于在正常指导调整数据集的训练过程中获得的能力,如 OCR,这可以被视为帮助性和无害性之间的权衡。

论文链接:https://arxiv.org/abs/2404.14219

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1869884.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[面试题]计算机网络

[面试题]Java【基础】[面试题]Java【虚拟机】[面试题]Java【并发】[面试题]Java【集合】[面试题]MySQL[面试题]Maven[面试题]Spring Boot[面试题]Spring Cloud[面试题]Spring MVC[面试题]Spring[面试题]MyBatis[面试题]Nginx[面试题]缓存[面试题]Redis[面试题]消息队列[面试题]…

AppFlow无代码轻松搭建模型Agent

随着大语言模型发展至今,如何深度开发和使用模型也有了各种各样的答案,在这些答案当中,Agent无疑是一个热点回答。 通过模型也各种插件的组合,可以让你的模型应用具备各种能力,例如,通过天气查询插件机票查…

最新Adobe2024全家桶下载,PS/PR/AE/AI/AU/LR/ID详细安装教程

如大家所熟悉的,Adobe全家桶系列常用的软件有Photoshop(PS)、Premiere(PR)、After Effects(AE)、illustrator(AI)、Audition(AU)、Lightroom&…

使用 SwiftUI 为 macOS 创建类似于 App Store Connect 的选择器

文章目录 前言创建选择器组件使用选择器组件总结前言 最近,我一直在为我的应用开发一个全新的界面,它可以让你查看 TestFlight 上所有可用的构建,并允许你将它们添加到测试群组中。 作为这项工作的一部分,我需要创建一个组件,允许用户从特定构建中添加和删除测试群组。我…

商场配电新思维:智能网关驱动的自动化管理系统

在商场配电室监控系统中,主要是以无线网络为载体,目的就是便于对变电站等实时监测与控制。其中,4G配电网关非常关键,可以将配电室系统终端上的信息数据及时上传到服务器,再由服务器下达控制指令到各模块中,…

第六十九:iview 表格汇总怎么拿到传过来的数据,而不是自动累加,需要自定义方法

话不多少,先看官方解释 我这个简单,所以所有说明都在图上了 handleSummary({ columns, data }){console.log(columns, data)let sums {}columns.forEach((item,index)>{const key item.key;console.log("key",item)if(index 0){console.…

003 SpringBoot操作ElasticSearch7.x

文章目录 5.SpringBoot集成ElasticSearch7.x1.添加依赖2.yml配置3.创建文档对象4.继承ElasticsearchRepository5.注入ElasticsearchRestTemplate 6.SpringBoot操作ElasticSearch1.ElasticsearchRestTemplate索引操作2.ElasticsearchRepository文档操作3.ElasticsearchRestTempl…

Mybatis 系列全解(3)——全网免费最细最全,手把手教,学完就可做项目!

Mybatis 系列全解(3) 1. 多对一处理2. 一对多处理3. 动态SQL3.1 什么是动态SQL3.2 搭建环境3.3 IF3.4 Choose(when,otherwise)3.5 Set3.6 SQL片段3.7 Foreach 4. 缓存4.1 简介4.2 Mybatis 缓存4.3 一级缓存4.4 二级缓存4.5 缓存原理 1. 多对一处理 1&am…

携程任我行有什么用?

眼看一直到十月份都没啥假期了 五一出去玩买了几张携程的卡,想着买景点门票、酒店啥的能有优惠,但最后卡里的钱没用完不说,还有几张压根就没用出去 但是我又不想把卡一直闲置在手里,就怕过期了 最后在收卡云上99.1折出掉了&…

vue3中的图片懒加载指令及全局注册

vue3中的图片懒加载指令及全局注册 最近重新刷了一遍黑马的小兔鲜前端项目,发现有个懒加载的指令之前还没有用过。而且写法相对固定,因此记录一下 首先,懒加载(Lazy Loading)的作用是延迟加载某些资源或组件&#xf…

Python生成图形验证码

文章目录 安装pillow基本用法生成代码 安装pillow pip install pillow 基本用法 特殊字体文字 如下所示,将下载下来的ttf字体文件放到py文件同一文件夹下 分享一个免费下载字体网站:http://www.webpagepublicity.com/free-fonts.html 我选的字体是Baj…

专题页面设计指南:从构思到实现

如何设计专题页?你有什么想法?专题页的设计主要以发扬产品优势为核心。一个好的专题页可以从不同的角度向用户介绍产品,扩大产品的相关优势,表达产品的优势,让用户在短时间内了解产品。因此,在设计详细信息…

纯css写一个动态圣诞老人

效果预览 在这篇文章中,我们将学习如何使用CSS来创建一个生动的圣诞老人动画。通过CSS的魔力,我们可以让圣诞老人在网页上摇摆,仿佛在向我们招手庆祝圣诞节和新年。 实现思路 实现这个效果的关键在于CSS的keyframes动画规则以及各种CSS属性…

Python 基础:用 json 模块存储和读取数据

目录 一、用 json 存储数据二、用 json 读取数据 遇到看不明白的地方,欢迎在评论中留言呐,一起讨论,一起进步! 本文参考:《Python编程:从入门到实践(第2版)》 用户关闭程序时&#…

step6:改用单例模式

文章目录 文章介绍codemain.cppSerialPort.qmlSerialPortHandler.h 文章介绍 案例MF改为单例模式 参考之前写过的关于单例模式的文章单例模式1、单例模式2 code main.cpp qmlRegisterSingletonType(“com.example.serialport”, 1, 0, “SerialPortHandler”, SerialPortHan…

【Python】易错题 [1]

目录 一、选择: 1.列表的复制​编辑 2.函数 二、填空 一、选择: 1.列表的复制 在Python中,列表是可变的数据类型。当将一个列表赋值给另一个变量时,实际上是将这个变量的引用指向原始列表。(指针)因此&…

软件系统测试包括哪些测试内容?有什么作用?

在软件开发的过程中,软件系统测试是不可或缺的环节。它是为了验证并评估软件系统的功能、性能以及其它需要满足的特性。那么,软件系统测试包括哪些测试呢?又有什么作用? 软件系统测试是通过执行一系列策略和技术,检测软件系统是否满足用户…

docker 部署jitsi meet

1. 部署环境: 1.1 vm 虚拟机 安装的 centos 7 1.2 centos7安装docker 和 docker-compose 2.docker命令 官网部署文档地址:(文档地址有可能失效) Self-Hosting Guide - Docker | Jitsi Meet 2.1Download and extract the late…

AL8807是一款降压型DC/DC转换器,旨在以恒定电流驱动LED,可串联驱动多达9个LED,从6V至36V的电压源

一般描述 AL8807是一款降压型DC/DC转换器,旨在以恒定电流驱动LED。根据LED的正向电压,该设备可串联驱动多达9个LED,从6V至36V的电压源。LED的串联连接提供相同的LED电流,从而实现均匀的亮度,并消除了对镇流电阻…

4大wordpress渐变色网站模板

家居摆件wordpress外贸模板 家居装饰、配件、摆件wordpress外贸模板,适合搞家居装饰的公司官网使用。 https://www.jianzhanpress.com/?p3515 玩具wordpress外贸模板 简洁玩具wordpress外贸模板,适合做跨境电商外贸公司使用的wordpres外贸s网站主题。…