AI大模型最新发布[update@202503]

news2025/4/1 9:54:17

OpenAI

GPT-4o:多模态,“o”代表Omni,即全能的意思,凸显了其多功能的特性。

  • 多模态交互,GPT-4o可以接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。
  • 实时推理能力,多语言支持,情绪理解,快速响应(GPT-4o的平均响应时间达到了320毫秒)。
  • 采用单一的Transformer架构进行设计,将文本、图像和音频等不同模态的数据统一到一个神经网络中处理。
  • gpt-4o-transcribe (语音转文本),gpt-4o-mini-transcribe (语音转文本),gpt-4o-mini-tts (文本转语音)。

Google

Gemini 2.5:被定位为一款“思考型模型”,将推理能力直接嵌入了模型中,它能够在回答问题前先进行思考分析,从而提供更准确、更深入的回答。能处理来自文本、音频、图像、视频和大型数据集的输入,甚至能够理解整个代码仓库的结构和内容。初始版本支持100万token的上下文长度,并将很快升级至200万token,这是目前Gemini实验模型中最大的上下文窗口之一。
Gemma3:轻量级、高性能的开源多模态AI模型,基于Gemini 2.0技术构建,专为在单GPU或TPU上运行而设计。

  • 模型规模:1 亿到 270 亿参数,共四个版本:1B、4B、12B、27B。提供不同标准格式的量化版本,包括每通道 int4、每块 int4 和切换 fp8。
  • 基于 Transformer 的解码器专用架构,继承自 Gemma 2,并进行多项改进。
  • 多模态,上下文长度1B 支持32K,其余模型支持128K。
  • 训练方法:使用知识蒸馏进行预训练,并采用改进的后训练方法进行指令微调。
  • Gemma 3系列模型包含4个版本,每个版本均开源了预训练基座版本(pt后缀版本,表示pre-training)和指令微调后的版本(it后缀版本,表示instruction fine-tuned),也就是说共开源了8个版本的大模型。而最大参数规模的Gemma 3-27B IT的fp16精度大小为54.8GB,int8量化后27GB,两张4090可用,INT4量化后需要14GB显存,单张4090完全没问题。而这个版本的模型评测结果非常好,在大模型匿名竞技场(Chatbot Arena)上得分1338分(截止2025年3月8日),排名全球第9,仅次于o1-2024-12-17模型,超过了Qwen2.5-Max以及DeepSeek V3等。
  • 模型地址:https://ollama.com/library/gemma3

阿里Qwen

Qwen2.5-Omni:多模态大模型,全面的多模式感知设计,可以无缝处理包括文本、图像、音频和视频的各种输入,同时支持流式的文本生成和自然语音合成输出。团队还提出了一种名为 TMRoPE(Time-aligned Multimodal RoPE)的新型位置嵌入,用于同步视频输入与音频的时间戳。

  • 多模态能力:作为端到端多模态旗舰模型,Qwen2.5-Omni能够处理文本、图像、音频和视频等多种输入形式,并支持实时流式响应生成文本和自然语音合成输出。
  • 架构创新:采用了独特的Thinker-Talker双核架构,Thinker模块负责处理多模态输入,生成高层语义表征及文本内容;Talker模块则负责将语义表征与文本转化为流畅的语音输出。
  • 开源与应用:Qwen2.5-Omni-7B已开源,采用Apache 2.0许可证,可在Hugging Face、ModelScope、DashScope和GitHub上找到,便于开发者和企业在终端智能硬件上部署
  • GitHub:https://github.com/QwenLM/Qwen2.5-Omni
  • Hugging Face:https://huggingface.co/Qwen/Qwen2.5-Omni-7B
  • ModelScope:https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

Qwen2.5-Max:采用了超大规模 MoE 架构,该架构通过动态选择合适的“专家”模型来优化计算资源,显著提高了推理速度和效率。此外,该模型在长上下文处理方面取得了突破性进展,支持高达100万 token 的上下文窗口,成为业内首个达到此规模的公开可用模型。通过稀疏注意力机制,Qwen2.5-Max 在处理百万 token 输入时的速度比传统方法快3到7倍。

  • 性能表现:Qwen2.5-Max凭借超过20万亿tokens的预训练数据量,在知识、编程、综合能力等主流权威基准测试中展现出全球领先的性能,甚至超越了GPT-4o等模型。
  • 应用与获取:企业和开发者可通过阿里云百炼平台调用新模型API,或在Qwen Chat平台上直接与模型对话。

DeepSeek

DeepSeek-V3-0324

  • 性能提升:DeepSeek-V3-0324在多个关键性能指标上实现了显著提升,包括推理效率、代码生成能力、中文写作流畅度以及搜索功能的优化。在与业界知名竞品如Claude-3.7-Sonnet、Qwen-Max的对比测试中,展现出了全面的领先优势,尤其在涉及数学运算和代码处理的专业评测集上,甚至超越了GPT-4.5。
  • 多模态能力:新增了“多模态引擎”功能,可以同时解析图文信息,以html格式输出图片。
  • 模型参数:开源版本模型体积为6850亿参数。
  • 开源与应用:DeepSeek-V3-0324的开源版本已上线Hugging Face,并迅速登上了Trending榜单。
  • 硬件适配:摩尔线程GPU成功完成了对DeepSeek-V3-0324的无缝适配与升级,展现了高效的技术支持与响应速度。

DeepSeek-R1

  • 专家混合模型(MoE):DeepSeek-R1采用专家混合模型架构,将模型划分为多个“专家”子网络,每个子网络都擅长处理输入数据的子集。这种架构在执行任务时,只有模型的相关部分会被激活,从而降低计算资源的消耗。
  • 上下文长度:DeepSeek-R1基于DeepSeek-V3的基础模型架构构建,两者都具有128K的上下文长度,该长度通过一种称为YaRN(Yet another RoPE extensioN)的技术进行扩展,该技术扩展了LLM的上下文窗口。
  • 层:DeepSeek-R1具有一个嵌入层以及61个Transformer层。前三层由创新的Multi-Head Latent Attention (MLA)层和一个标准的Feed Forward Network (FFN)层组成,而不是Transformer层上典型的多头注意力(MHA)机制。
  • 多头注意力:MLA配备了低秩键值联合压缩,这在推理期间需要更少量的键值(KV)缓存,因此与传统方法相比,内存开销减少了5%到13%,并且提供了比MHA更好的性能。
  • 多token预测:这是一种先进的语言建模方法,可以并行预测序列中的多个未来token,而不是一次预测一个后续单词。最初由Meta引入,多token预测(MTP)使模型能够利用多个预测路径(也称为“头”),从而可以更好地预测token表示,并提高模型在基准测试中的效率和性能。
  • 推理能力:DeepSeek-R1在各种推理基准测试中表现出最先进的性能,尤其是在与数学和相关学科相关的问题中。在一些与数学相关的指标上,它被证明优于OpenAI的o1。它精通复杂的推理、问题解答和指令任务。
  • 基于群体相对策略优化的强化学习:DeepSeek-R1基于之前的模型DeepSeek-V3-Base构建,采用多阶段训练,包括监督微调和基于群体相对策略优化的强化学习。GRPO专为增强推理能力和降低计算开销而设计,它无需外部“评论家”模型;而是相对评估各组响应。
  • 思维链:DeepSeek-R1使用思维链(CoT)提示来处理推理任务并进行自我评估。这通过指导模型以结构化的方式分解复杂问题来模拟类人的推理,从而使其能够逻辑地推导出连贯的答案,并最终提高其答案的可读性。
  • 蒸馏:使用精选的数据集,DeepSeek-R1已被蒸馏成更小、更开放的版本,这些版本性能相对较高,但运行成本更低,最值得注意的是使用了Qwen和Llama架构。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2324436.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

深入浅出 Embedding

1. 什么是 Embedding? Embedding(嵌入)是一种将高维数据映射到低维连续空间的技术,用于表达数据的语义关系。简单来说,它是一种向量化表示,将文本、图像、用户行为等信息转换为数值向量,使得相似的数据在向量空间中距离更近。 2. 如何理解 Embedding? 2.1 浅显易懂的…

java项目之基于ssm的乡镇自来水收费系统(源码+文档)

项目简介 乡镇自来水收费系统实现了以下功能: 乡镇自来水收费系统在Eclipse环境中,使用Java语言进行编码,使用Mysql创建数据表保存本系统产生的数据。系统可以提供信息显示和相应服务,其管理员管理水表,审核用户更换…

Spring AI MCP 架构详解

Spring AI MCP 架构详解 1.什么是MCP? MCP 是一种开放协议,它对应用程序向大语言模型(LLMs)提供上下文信息的方式进行了标准化。可以把 MCP 想象成人工智能应用程序的 USB-C 接口。就像 USB-C 为将设备连接到各种外围设备和配件提供了一种…

目标识别与双目测距(1)环境搭建:Ubuntu+yolov5+pcl库

环境情况 ubuntu 18.04 → 20.04(最终) 安装Ubuntu1804虚拟机系统 Anaconda:可参考我的另一篇文章 Python 3.6.13 → 3.8(最终)Anaconda3-2021.05 目标识别:YOLOv5相关 1、安装git sudo apt install gi…

OpenAI API - Agent

文章目录 代理概述模型工具知识与记忆防护栏编排入门 语音代理选择正确的架构语音到语音(多模态)架构链式架构 构建语音代理使用语音到语音架构进行实时处理将音频输入链接到文本处理 → 音频输出 代理 了解如何使用 OpenAI API 构建代理。 https://pl…

Strawberry perl的下载,查询版本号,配置Path环境变量,查找perl解释器的位置

Strawberry Perl 是一个适用于 Microsoft Windows 的 Perl 环境,包含运行和开发 Perl 应用程序所需的一切。它旨在尽可能接近 UNIX 系统上的 Perl 环境。 下载 官网: Strawberry Perl for Windows - Releases 各个版本: Strawberry Perl for Windows - Releases …

MySQL的基础语法2(函数-字符串函数、数值函数、日期函数和流程函数 )

目录 一、字符串函数 1.常见字符串函数 ​编辑 2.字符串函数的基本使用 3.字符串函数的数据库案例演示 二、数值函数 1.常见数值函数(如下): 2.数值函数的基本使用 3.数值函数的数据库案例演示 三、日期函数 1.常见的日期函数 2.日…

5G_WiFi_CE_杂散测试

目录 一、规范要求 1、法规目录: 2、限值: (1)带外发射杂散 (2)带内发射杂散 (3)接收杂散 二、测试方法 1、带外发射杂散 (1)测试条件 &#xff08…

大数据Spark(五十五):Spark框架及特点

文章目录 Spark框架及特点 一、Spark框架介绍 二、Spark计算框架具备以下特点 Spark框架及特点 一、Spark框架介绍 Apache Spark 是一个专为大规模数据处理而设计的快速、通用的计算引擎。最初由加州大学伯克利分校的 AMP 实验室(Algorithms, Machines, and Pe…

UI产品经理基础(六):如何解决用户的质疑?

在需求调查中遇到用户质疑“不专业”或“不了解需求”,本质上是用户对产品经理的信任缺失或沟通鸿沟导致的。要化解这种质疑,需从专业能力展示、沟通方式优化、用户参与感提升三个维度切入,结合具体场景采取针对性策略。以下是系统化的解决方…

【大数据技术】大数据技术概念及概述

1. 大数据概念 数据 是实时或观察的结果是对客观事务的逻辑归纳是用于表示客观事物的未经加工的原始素材 数据的产生 对客观事务的计量和记录尝试的数据 单位换算1 byte8 bit1 k1024 byte1 mb1024 k1 g1024 m1 t1024 g1 p1024 t1 e1024 p1 z1024 e1 y1024 z1 b1024 y1 n10…

Python库()

1.概念 Matplotlib 库:是一款用于数据可视化的 Python 软件包,支持跨平台运行,它能够根据 NumPy ndarray 数组来绘制 2D 图像,它使用简单、代码清晰易懂 Matplotlib 图形组成: Figure:指整个图形&#xf…

AI知识补全(八):多模态大模型是什么?

名人说:人生如逆旅,我亦是行人。 ——苏轼《临江仙送钱穆父》 创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊) 上一篇:AI知识补全(七):AI Agent 智能…

Docker-MySQL安装-命令解读-常见命令-数据卷挂载-本地目录挂载-自定义镜像-网络-前端部署-DockerCompose

目录 Docker: 安装MySQL: 镜像容器: 镜像仓库: ​编辑命令解读: 镜像命名规范: docker run中常见参数: Docker常见命令: ​编辑数据卷: ​编辑数据卷-操作命令&…

Docker 安装部署Harbor 私有仓库

Docker 安装部署Harbor 私有仓库 系统环境:redhat x86_64 一、首先部署docker 环境 定制软件源 wget https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo -O /etc/yum.repos.d/docker-ce.repoyum install -y yum-utils device-mapper-persistent-data lvm2…

StarRocks 存算分离在京东物流的落地实践

康琪:京东物流高级技术专家、StarRocks & Apache Flink Contributor 导读:本文整理自京东物流高级技术专家在 StarRocks 年度峰会上的分享,UData 平台从存算一体到存算分离架构演进后,查询性能得到提升。Cache hit 时&#xf…

英伟达GB300新宠:新型LPDDR5X SOCAMM内存

随着人工智能(AI)、机器学习(ML)和高性能计算(HPC)应用的快速发展,对于高效能、大容量且低延迟内存的需求日益增长。NVIDIA在其GB系列GPU中引入了不同的内存模块设计,以满足这些严格…

具身智能 - Diffusion Policy:技术解析与应用实践

具身智能之 Diffusion Policy:技术解析与应用实践 一、Diffusion Policy 的核心概念 Diffusion Policy 是一种基于扩散模型(Diffusion Models)的决策生成框架,专为具身智能(Embodied Intelligence)设计。其核心思想是通过逐步去噪的过程,在复杂环境中生成鲁棒的动作序列…

[C++] 智能指针 进阶

标题:[C] 智能指针 进阶 水墨不写bug 在很久之前我们探讨了智能指针的浅显认识,接下来会更加深入,从源码角度认识智能指针,从而了解智能指针的设计原理,并应用到以后的工作项目中。 本文将会按照C智能指针的发展历史&…