微软推出全新多语言高质量Phi-3.5语言模型

news2024/11/15 11:42:27

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

微软发布了三款全新的Phi 3.5模型,分别是Phi-3.5-mini-instruct(38亿参数)、Phi-3.5-MoE-instruct(419亿参数)和Phi-3.5-vision-instruct(41.5亿参数)。这三款模型分别针对基本/快速推理、更强大的推理以及视觉(图像和视频分析)任务进行了优化。https://huggingface.co/microsoft

这些模型已在Hugging Face平台上发布,开发者可以免费下载、使用,并根据需要进行微调。值得注意的是,所有模型都采用微软品牌的MIT许可,这意味着开发者可以自由进行商业用途和修改,无需受到任何限制。

令人惊叹的是,这三款模型在多个第三方基准测试中表现出接近最先进水平,甚至在某些情况下超越了谷歌的Gemini 1.5 Flash、Meta的Llama 3.1,甚至是OpenAI的GPT-4o。结合其开放的许可条款,微软因此在社交媒体平台X上获得了广泛赞誉。

接下来,让我们简要回顾一下这些新模型,根据它们在Hugging Face上的发布说明进行分析。

Phi-3.5 Mini Instruct:优化计算资源受限环境

Phi-3.5 Mini Instruct模型是一款轻量级的AI模型,拥有38亿参数,专为遵循指令和支持128k上下文长度的任务而设计。这款模型非常适合那些需要强大推理能力但受限于内存或计算资源的场景,包括代码生成、数学问题解决和逻辑推理任务。

尽管模型体积小巧,但Phi-3.5 Mini Instruct在多语言和多轮对话任务中的表现仍然相当出色,相较于其前代产品有显著提升。在多项基准测试中表现接近最先进水平,并在长上下文代码理解的RepoQA基准测试中超过了其他类似规模的模型,如Llama-3.1-8B-instruct和Mistral-7B-instruct。

Phi-3.5 MoE:微软的“专家混合”模型

Phi-3.5 MoE模型代表微软首次推出的“专家混合”(Mixture of Experts)模型类别,结合了多种不同模型类型,每个子模型专门处理不同任务。该模型拥有42亿激活参数,支持128k上下文长度,为高需求应用提供可扩展的AI性能。

值得注意的是,Phi-3.5 MoE在各种推理任务中表现出色,尤其是在代码、数学和多语言理解方面,经常在特定基准测试中超越更大规模的模型。它在5次测试的MMLU(大规模多任务语言理解)基准测试中也表现出色,在STEM、人文、社会科学等多个学科领域都超过了GPT-4o mini。

MoE模型的独特架构使其在处理多语言的复杂AI任务时保持高效。

Phi-3.5 Vision Instruct:先进的多模态推理

这三款模型的最后一款是Phi-3.5 Vision Instruct模型,它将文本和图像处理能力结合在一起,特别适合执行图像理解、光学字符识别、图表和表格理解以及视频摘要等任务。与其他Phi-3.5系列模型一样,Vision Instruct支持128k上下文长度,使其能够处理复杂的多帧视觉任务。

微软指出,该模型是使用合成和过滤过的公开数据集训练的,重点放在高质量、推理密集型数据上。

新Phi三人组的训练

Phi-3.5 Mini Instruct模型使用512个H100-80G GPU在10天内处理了3.4万亿个token进行训练,而Vision Instruct模型则使用256个A100-80G GPU在6天内处理了5000亿个token。

至于Phi-3.5 MoE模型,由于其专家混合架构,它使用了512个H100-80G GPU,在23天内处理了4.9万亿个token。

开源MIT许可

所有三款Phi-3.5模型都以MIT许可发布,展现了微软对开源社区的支持。该许可允许开发者自由使用、修改、合并、发布、分发、再授权或销售该软件副本。

许可还包含免责声明,指出该软件“按原样”提供,不附带任何形式的保证。微软和其他版权持有者不对因使用该软件而产生的任何索赔、损害或其他责任负责。

微软发布Phi-3.5系列标志着多语言和多模态AI开发的一个重大进展。通过在开源许可下提供这些模型,微软赋予开发者将最先进的AI功能集成到其应用中的能力,促进了商业和研究领域的创新。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2069959.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

css flex布局 justify-content: space-between 最后两张居左

比如如果是8张&#xff0c;最后两张两边对齐&#xff0c;第八张最后一张 放个占位符就OK了 <div class"previewPadding flex" > <div class"picList picList3" v-for"(item,index) in picDataList" :key"index"> <…

6个免费字体网站,无需担心版权问题~

在设计项目中&#xff0c;选择合适的字体至关重要。然而&#xff0c;许多高质量的字体往往价格不菲。幸运的是&#xff0c;有一些网站提供了免费的商用字体&#xff0c;既能满足设计需求&#xff0c;又不需要额外的预算。在这篇文章中&#xff0c;分享6个免费商用字体网站&…

济南网站制作方案定制

在当今数字化时代&#xff0c;拥有一个专业的网站已经成为企业发展不可或缺的一部分。济南作为山东省的省会&#xff0c;经济发展迅速&#xff0c;各行各业对网站制作的需求也日益增加。因此&#xff0c;定制化的网站制作方案在济南显得尤为重要&#xff0c;能够帮助企业在激烈…

深入探究为什么 RAG 并不总是按预期工作:概述其背后的业务价值、数据和技术。

添加图片注释&#xff0c;不超过 140 字&#xff08;可选&#xff09; 欢迎来到雲闪世界。我们将首先探讨决定基于 RAG 的项目成败的业务要素。然后&#xff0c;我们将深入探讨常见的技术障碍&#xff08;从数据处理到性能优化&#xff09;&#xff0c;并讨论克服这些障碍的策略…

数据结构(邓俊辉)学习笔记】优先级队列 10——左式堆:插入 + 删除

文章目录 1. 插入即是合并2. 删除亦是合并 1. 插入即是合并 以上&#xff0c;我们已经实现了&#xff0c;对于左式堆来说最为在意的合并算法。非常有意思的是&#xff0c;尽管合并操作并非优先级队列所要求的基本操作接口。但基于合并操作&#xff0c;我们却同样可以实现左式堆…

超全大模型训练流程,教你如何训练自己的大模型

“大模型的核心主要有两部分&#xff0c;一是训练数据&#xff0c;二是机器学习模型。” 现在大模型发展得如火如荼&#xff0c;但是没有学过人工智能技术的开发者&#xff0c;只会调用其接口&#xff0c;但不清楚怎么训练一个大模型。 今天就简单介绍一下自己的理解&#xf…

Transformer系列-10丨一文理解透Transformer

一、引言 "Attention Is All You Need"是一篇于2017年发表的开创性论文&#xff0c;首次介绍了Transformer模型。 这篇论文彻底改变了自然语言处理&#xff08;NLP&#xff09;领域的研究方向&#xff0c;为后续的众多NLP模型和应用奠定了基础。我们熟知的ChatGPT也…

【022】字符串的处理(输出,分割,删除,新增,替换,查找,长度)_#VBA

字符串的处理——输出,分割,删除,新增,替换,查找,长度 字符串的处理1. 输出2. 长度3. 查找4. 删除5. 新增6. 分割7. 替换字符串的处理 为了更好快捷查找对应的字符串处理方法,将对应的方法汇总,可以直接使用,没有过多的介绍,直接代码块及对应效果。包括字符串的输出…

全国上市公司网络安全风险指数(2001-2023年)

数据来源&#xff1a;本数据参考耿勇老师等&#xff08;2024&#xff09;做法采集了2001-2023年的上市公司年报&#xff0c;所有年报均来自于深交所和上交所官方网站&#xff0c;通过对上市公司的年报进行精读&#xff0c;提取出包括网络安全、网络攻击等在内的39个关键词构成企…

自定义@ResponseBody以及SpringMVC总结

文章目录 1.需求分析2.目录3.自定义ResponseBody注解4.MonsterController.java5.Monster.java 实现序列化接口6.引入jackson7.Adapter.java 如果有ResponseBody注解就返回json8.测试9.SpringMVC执行流程 1.需求分析 2.目录 3.自定义ResponseBody注解 package com.sunxiansheng…

大数据技术之 Flume概述、安装(1)

目录 Flume 概述 Flume 定义 为什么选用 Flume Flume 基础架构 Agent Source Sink Channel Event Flume 安装 Flume 安装部署 安装地址 安装部署 Flume 概述 Flume 定义 Flume 是 Cloudera 提供的一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统。Flume…

多系统萎缩不慌张,这些维生素是你的“守护神”✨

亲爱的朋友们&#xff0c;今天我们来聊聊一个可能不太为人熟知但至关重要的健康话题——多系统萎缩&#xff08;MSA&#xff09;。面对这样的挑战&#xff0c;除了医疗治疗&#xff0c;日常的营养补充也是不可或缺的一环。特别是维生素&#xff0c;它们在我们的身体中扮演着举足…

有无符号整形加减,截断,提升等问题解析

一&#xff1a;整形截断问题 1. 分析&#xff1a;-128 的原码是 10000000 00000000 00000000 10000000 补码是 11111111 11111111 11111111 10000000&#xff0c;因为是char 型&#xff0c;截断之后&#xff1a;10000000 %u 是打印无符号整数&#xff0c;整形提升补截断之后…

多态(详细介绍以及内存图展示)

什么是多态&#xff1f; 同类型的对象&#xff0c;表现出的不同形态 多态的表现形式 父类类型 对象名称 子类对象 多态的前提 1.有继承关系 2.有父类引用指向子类 Fu f new Zi() 3.有方法重写 多态的好处 使用父类型作为参数&#xff0c;可以接收所有子类对象 体现…

大模型从入门到精通,看这篇就够了,AI小白的大模型学习路径_大模型教程

写这篇文章的初衷&#xff1a;作为一个AI小白&#xff0c;把我自己学习大模型的学习路径还原出来&#xff0c;包括理解的逻辑、看到的比较好的学习材料&#xff0c;通过一篇文章给串起来&#xff0c;对大模型建立起一个相对体系化的认知&#xff0c;才能够在扑面而来的大模型时…

牛客小白月赛99

文章目录 A.材料打印B. %%%C.迷宫又是一年毕业季题目链接 A.材料打印 签到题&#xff0c;直接按照题意输出就行。赛时写的有点慢了&#xff0c;这种题应该一分钟之内写完的 void solve () {int n;cin>>n;for (int i1;i<n;i) {int a,b,c,d;cin>>a>>b>…

go const(常量)

常量介绍 示例 package mainimport ("fmt" )func main() {const name "tom"fmt.Println(name)const tax float64 0.8fmt.Println(tax) }go run const.go tom 0.8package mainimport ("fmt" )func main() {const a intfmt.Println(a) }go run…

SpringAop介绍与使用

AOP的介绍 在不修改原有代码的情况下 增强跟主要业务没有关系的公共功能代码到 之 前写好的方法中的指定位置 这种编程的方式叫AOP AOP的底层用的代理&#xff0c;代理是一种设计模式 静态代理 玩家类 代理类 他们的接口 最后用接口接收代理的类实现静态代理 总结&#x…

英特尔终止开发开源 H.265/HEVC 编码器项目

作为英特尔可扩展视频技术&#xff08;SVT&#xff09;计划的一部分&#xff0c;一直以来他们持续在开发 SVT-HEVC&#xff0c;这是一款 BSD 许可的高性能 H.265/HEVC 视频编码器&#xff0c;针对至强可扩展处理器和至强 D 处理器进行了优化。但最近他们改变了方向&#xff0c;…

kali安装

引言 Kali Linux 是一个基于 Debian 的 Linux 发行版&#xff0c;专门为渗透测试和安全审计而设计。它包含了大量的安全工具&#xff0c;如 Wireshark、Nmap、Metasploit 等&#xff0c;这些工具可以帮助安全专家和研究人员进行网络安全评估、漏洞检测和渗透测试。Kali Linux …