微软并没有因为与 OpenAI 的合作而满足于其在人工智能领域的成功。 相反,这家因总部位于华盛顿州而被称为雷德蒙德(Redmond)的公司今天发布了其不断发展的语言/多模态人工智能 Phi 系列中的 3 个新模型。这三个模型分别针对基本/快速推理、更强大的推理和视觉(图像和视频分析)任务而设计。
这三个模型都允许开发者在Hugging Face上下载、使用和微调,并采用微软的MIT许可,允许商业使用和无限制修改。 令人惊讶的是,这三个模型在一些第三方基准测试中的性能也接近最先进水平,甚至在某些情况下击败了其他人工智能提供商,包括谷歌的Gemini 1.5 Flash、Meta的Llama 3.1,甚至OpenAI的GPT-4o。
Phi-3.5 Mini Instruct: 为计算受限环境而优化
Phi-3.5 Mini Instruct 模型是一款拥有 38 亿个参数的轻量级人工智能模型,专为遵守指令而设计,支持 128k 标记上下文长度。 该模型非常适合在内存或计算受限环境中需要强大推理能力的场景,包括代码生成、数学问题求解和逻辑推理等任务。
尽管体积小巧,Phi-3.5 Mini Instruct 模型在多语言和多轮会话任务中表现出了极具竞争力的性能,与前代产品相比有了显著改进。 它在多项基准测试中的性能接近最先进水平,并在衡量 "长上下文代码理解 "的 RepoQA 基准测试中超越了其他类似尺寸的模型(Llama-3.1-8B-instruct 和 Mistral-7B-instruct)。
Phi-3.5 MoE: 微软的 “专家混合物”
Phi-3.5 MoE(专家混合物)模型似乎是该公司推出的第一个模型类别,它将多种不同的模型类型整合到一个模型中,每种模型都擅长不同的任务。 该模型利用具有 420 亿个活动参数的架构,支持 128k 标记上下文长度,为要求苛刻的应用提供可扩展的人工智能性能。 Phi-3.5 MoE 专为各种推理任务而设计,在代码、数学和多语言语言理解方面表现出色,在特定基准测试(包括 RepoQA)中的表现往往优于大型模型:
此外,在科技、人文和社会科学等学科的 5 次 MMLU(大规模多任务语言理解)测试中,它也在不同的专业水平上击败了 GPT-4o mini,令人印象深刻。
MoE 模型的独特架构使其能够在处理跨多种语言的复杂人工智能任务时保持高效。
Phi-3.5 Vision Instruct: 高级多模态推理
Phi-3.5 Vision Instruct 模型将文本和图像处理功能整合在一起,完成了三重奏。 这种多模态模型特别适用于一般图像理解、光学字符识别、图表和表格理解以及视频摘要等任务。
与 Phi-3.5 系列中的其他模型一样,Vision Instruct 支持 128k 标记上下文长度,使其能够管理复杂的多帧视觉任务。 微软强调,该模型的训练结合了合成数据集和经过过滤的公开数据集,侧重于高质量、推理密集的数据。
训练新的 Phi 三巨头
Phi-3.5 Mini Instruct 模型使用 512 个 H100-80G GPU,历时 10 天,在 3.4 万亿个代币上进行了训练;Vision Instruct 模型使用 256 个 A100-80G GPU,历时 6 天,在 5000 亿个代币上进行了训练。 Phi-3.5 MoE 模型采用专家混合架构,使用 512 个 H100-80G GPU,历时 23 天,在 4.9 万亿个代币上进行了训练。
MIT 许可下的开放源码
所有三种 Phi-3.5 型号均在 MIT 许可下提供,体现了微软支持开放源码社区的承诺。 该许可允许开发人员自由使用、修改、合并、发布、分发、转授权或出售软件副本。 该许可还包括一项免责声明,即软件按 "原样 "提供,不提供任何形式的保证。 微软和其他版权持有者对因使用该软件而可能产生的任何索赔、损害或其他责任不承担任何责任。 微软发布 Phi-3.5 系列代表着多语言和多模态人工智能的发展向前迈出了重要一步。 通过在开源许可下提供这些模型,微软使开发人员能够将尖端的人工智能功能集成到他们的应用程序中,从而促进商业和研究领域的创新。