微软Phi-3.5系列亮相:性能超越Gemini 1.5和GPT-4o

news2025/1/16 3:43:55

前沿科技速递🚀

在人工智能领域,微软从未停止过创新的步伐。尽管与OpenAI的合作为微软带来了显著的成功,但他们显然不满足于此。近日,微软再次在AI领域引发关注,正式发布了三款全新的Phi-3.5系列AI模型。这些模型不仅在多语言和多模态任务中表现优异,还在多个基准测试中超越了当前市面上最先进的AI模型,如谷歌的Gemini 1.5 Flash和OpenAI的GPT-4o。

来源:传神社区

01 Phi-3.5系列模型简介

Phi-3.5 Mini Instruct:轻量级推理的佼佼者

Phi-3.5 Mini Instruct是一款专为计算资源受限环境设计的轻量级模型,拥有38亿参数,支持128k的Token上下文长度。这款模型特别适合代码生成、数学问题求解和逻辑推理等需要强大推理能力的任务。尽管体积小巧,Phi-3.5 Mini Instruct在多语言和多轮对话任务中表现出色,甚至在长上下文代码理解的RepoQA基准测试中超越了其他类似大小的模型,如Llama-3.1-8B-instruct和Mistral-7B-instruct。

Phi-3.5 MoE:微软的“专家混合”模型

Phi-3.5 MoE(专家混合)模型是微软首次推出的此类模型,它将多种不同类型的模型整合在一个框架中,每个模型专门处理不同的任务。拥有420亿活跃参数的Phi-3.5 MoE模型在代码、数学和多语言理解方面表现出色,通常在基准测试中超越了更大的模型,如在5-shot MMLU基准测试中,这款模型在STEM、人文学科、社会科学等多个学科的不同层次上超越了GPT-4o mini。

Phi-3.5 Vision Instruct:先进的多模态推理模型

Phi-3.5 Vision Instruct模型整合了文本和图像处理功能,特别适用于图像理解、光学字符识别、图表和表格理解以及视频总结等任务。该模型通过高质量、推理密集的数据进行训练,支持128k的Token上下文长度,使其能够处理复杂的多帧视觉任务。

图片

02 性能表现:超越市场领先者

Phi-3.5系列模型的性能在发布后迅速引起了行业内外的广泛关注和讨论。在多个独立的第三方基准测试中,Phi-3.5系列模型展现出了与市场上最先进的模型媲美的性能,甚至在某些测试中超越了包括谷歌的Gemini 1.5 Flash、Meta的Llama 3.1以及OpenAI的GPT-4o等知名AI产品。这一系列模型凭借其卓越的推理能力、多语言处理和多模态理解能力,成功在激烈的竞争中脱颖而出。

例如,在多语言MMLU基准测试中,Phi-3.5 Mini Instruct模型在多个语言任务中都取得了令人瞩目的成绩,特别是在处理复杂多语言任务时表现出了超强的适应能力。相比之下,其他更大参数的模型,如Llama 3.1-8B Instruct和Mistral-7B Instruct,在处理类似任务时往往需要更多的计算资源和时间,而Phi-3.5系列则以其精简的设计和高效的架构取得了更高的性价比。

图片

此外,Phi-3.5 MoE模型以其“专家混合”的独特架构,在应对高强度推理任务方面表现尤为出色。在多个高难度的推理基准测试中,它的表现甚至超越了GPT-4o mini等知名模型。值得一提的是,该模型在STEM、人文学科和社会科学等多个学科的MMLU测试中,均取得了超过预期的优异成绩,为未来多学科领域的AI应用提供了新的可能性。

图片

Phi-3.5 Vision Instruct模型在视觉任务中表现尤为突出。与传统模型相比,它不仅能够高效处理复杂的多帧视觉任务,还在图像理解、光学字符识别(OCR)和视频总结等任务中展现出更高的精度和效率。

在具体的基准测试中,Phi-3.5 Vision Instruct模型的表现甚至超越了一些拥有更大参数量的知名模型,如Gemini 1.5 Flash和GPT-4o。在诸如艺术风格识别和法证检测等任务中,Phi-3.5 Vision Instruct的表现明显优于LlaVA-Interleave-Qwen-7B和InternVL-2系列等竞争对手,而在复杂的多视图推理任务中,它也展示了出色的能力。这种卓越的性能表明,尽管Phi-3.5系列模型在参数量上更为精简,但在推理速度和资源利用效率上,远远优于其他同类模型。

图片

03 典型示例

小编使用生成了一些示例,我们一起来看看吧!

Phi-3.5-mini-instruct:

图片

Phi-3.5-vision-instruct:

图片

通过上面的实例可以看出,Phi-3.5系列模型无论是在语言表达还是图像识别与解读方面都是很不错的,感兴趣的话快来传神社区下载吧!

04 模型下载

传神社区:

Phi-3.5-mini-instruct:

https://opencsg.com/models/microsoft/Phi-3.5-mini-instruct

Phi-3.5-vision-instruct:

https://opencsg.com/models/microsoft/Phi-3.5-vision-instruct

欢迎加入传神社区

•贡献代码,与我们一同共建更好的OpenCSG

•Github主页

欢迎🌟:https://github.com/OpenCSGs

•Huggingface主页

欢迎下载:https://huggingface.co/opencsg

•加入我们的用户交流群,分享经验

图片

扫描上方二维码添加传神小助手


“      关于OpenCSG

开放传神(OpenCSG)成立于2023年,是一家致力于大模型生态社区建设,汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。

关注OpenCSG

图片

加入传神社区

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2062628.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

构建基于LLM的应用程序——使用LLM的搜索和推荐引擎

在上一章中,我们介绍了构建对话应用程序的核心步骤。我们从一个基础的聊天机器人开始,然后逐步添加了更复杂的组件,例如记忆、非参数化知识和外部工具。借助LangChain的预构建组件以及Streamlit的UI渲染,这一切都变得相对简单。尽…

C++ TinyWebServer项目总结(6. 高级 I/O 函数)

文件描述符 文件描述符(File Descriptor, FD)是操作系统中用于访问文件的一个抽象概念。它是一个非负整数,通常由操作系统分配,用来标识被打开的文件或输入输出资源(如管道、网络连接等)。文件描述符在操作…

苍穹外卖之员工管理、分类管理

新增员工 新增员工 需求分析和设计 产品原型: 接口设计: 数据库设计: 代码开发 根据新增员工接口设计对应的DTO: 这是实体类属性,但是由于属性差异过大,使用DTO封装数据为: 当前端提交的数据…

java常见面试题汇总

🌏个人博客主页:意疏-CSDN博客 希望文章能够给到初学的你一些启发~ 如果觉得文章对你有帮助的话,点赞 关注 收藏支持一下笔者吧~ 阅读指南: 开篇说明一、封装 继承 多态1.封装2.继承3.多态 二、什么是重载…

非极大值抑制(Non-Maximum Suppression,简称 NMS)

本文为专栏《Python三维点云实战宝典》系列文章,专栏介绍地址“【python三维深度学习】python三维点云从基础到深度学习_python3d点云从基础到深度学习-CSDN博客”。配套书籍《人工智能点云处理及深度学习算法》提供更加全面和系统的解析。 非极大值抑制&#xff08…

揭开数字化转型的神秘面纱

​在当今快速发展的时代,数字化转型已成为众多企业和组织追求的目标。然而,对于许多人来说,数字化转型仍然笼罩着一层神秘的面纱。本研究报告旨在揭开数字化转型的神秘面纱,深入探讨其内涵、重要性以及实施策略。 一、数字化转型的…

开始尝试从0写一个项目--后端(四)

借出,归还,管理 学生和管理员登录分离 学生登录到用户界面 管理员到后台 后台和用户分离 添加代码 sems-server/src/main/java/com/ljc/controller/user/UserStudentController.java package com.ljc.controller.user;import com.ljc.constant.Jwt…

【PyCharm】配置“清华镜像”地址(pip源)

文章目录 前言一、清华镜像是什么?二、pip是什么?三、具体步骤1.复制镜像地址2.打开PyCharm,然后点击下图红框的选项3.在弹出的新窗口点击下图红框的选项进行添加4.在URL输入框中粘贴第一步复制的地址,名字可以不更改,…

leetcode371. 两整数之和,位运算

leetcode371. 两整数之和 给你两个整数 a 和 b ,不使用 运算符 和 - ​​​​​​​,计算并返回两整数之和。 示例 1: 输入:a 1, b 2 输出:3 示例 2: 输入:a 2, b 3 输出:5 …

【Axure高保真原型】中继器表格——标签使用情况案例

今天和大家分享中继器表格——标签使用情况案例的原型模板,效果包括: 模糊搜索——输入标签编号或者标签名称,可以快速查找对应的数据 排序——点击排序按钮,可以按升序或降序排列 分页——点击上拉列表,可以选择表格…

gpu压力测试工具----gpu_burn的使用

背景: 我们平时想做gpu的压力测试,需要一个简单的可以一键执行的工具来测试,主要要来打满gpu的使用率和显存,这里以8卡4090机器为测试机,驱动版本550.54.14,cuda版本12.3。 开源方案: gpu-burn一…

oauth2.0学习

一、授权码模式 时序图 1、用户访问第三方服务,如果用到需要授权服务提供授权的资源,第三方服务生成获取授权码请求(附带回调地址和用户在授权服务的确认身份的信息)并页面发起请求 2、第三方授权服务根据请求生成对应的登录地址…

c++ 谷歌的招聘 题解

题目描述 2004 年 7 月,谷歌在硅谷的 101 号公路边竖立了一块巨大的广告牌(如下图)用于招聘 内容超级简单,就是一个以 .com 结尾的网址,而前面的网址是一个 1010 位素数,这个素数是自然常数 e 中最早出现的 10 位连续数字 能找出这个素数的人,就可以通过访问谷歌的这个网站进…

MySQL 亿级数据平滑迁移实战

作者:来自 vivo 互联网服务器团队- Li Gang 本文介绍了一次 MySQL 数据迁移的流程,通过方案选型、业务改造、双写迁移最终实现了亿级数据的迁移。 一、背景 预约业务是 vivo 游戏中心的重要业务之一。由于历史原因,预约业务数据表与其他业务…

springcloud集成seata实现分布式事务

Seata 是一款开源的分布式事务解决方案,致力于在微服务架构下提供高性能和简单易用的分布式事务服务。 官网:Apache Seata 文章目录 一、部署1.下载2.修改配置,nacos作注册中心,db存储 二、集成到springcloud项目1.引入依赖2.修改…

go设计模式——单例模式

概念 单例是一种创建型设计模式,它确保一个类在整个程序运行期间只有一个实例,并提供一个全局访问点来使用该实例。虽然单例模式在某些情况下非常有用,例如管理全局配置、日志记录或资源共享,但它也带来了与全局变量相似的问题。…

【CSS】什么是1px问题,前端如何去解决它,如何画出0.5px边框?

1px 问题概述 在移动端开发中,1px 的边框在高 DPI 屏幕上可能会显得过粗,这是因为移动设备的像素密度(DPI)通常比传统的计算机屏幕高。在高 DPI 屏幕上,1px 实际上可能会被渲染为 2px 或更多,这使得边框看…

华为手机换ip地址怎么换?手机换ip地址有什么影响

在数字化时代,网络已成为我们生活中不可或缺的一部分。无论是日常沟通、工作学习还是娱乐休闲,我们都离不开互联网。然而,随着网络安全问题的日益突出,如何保护个人隐私和信息安全成为了用户关注的焦点。更换手机IP地址作为提升网…

Vue3+Vite 解决“找不到模块“@/components/xxx.vue”或其相应的类型声明 ts(2307)”

1. 安装插件 pnpm i types/node -D2. 修改vite.config.ts文件 import path from path;resolve: {alias: {"": path.resolve(__dirname,"./src"),},},3. 修改tsconfig.app.json文件 别人教的都是修改tsconfig.json文件,但是我发现可能是因为版…

NVF04M录音芯片在宠物喂食器的应用:录音播放功能,内置SPI闪存

在现代社会中,宠物已经成为人们生活中的一部分,而宠物喂食器作为宠物养护的重要工具,也越来越受到人们的关注。为了满足人们对宠物喂食器的多样化需求,九芯电子供应商研发了一款NVF04M录音芯片。它在宠物喂食器中的作用主要是提供…