51c大模型~合集105

我自己的原文哦~ https://blog.51cto.com/whaosoft/13101924

#刚刚，ChatGPT开始有了执行力！

现在 AI 智能体可以 24*7 小时为你打工。

2025 刚过去了半个月，OpenAI 在智能体领域「开大」了。

今天，OpenAI 正在为 ChatGPT 推出一项名为「Tasks」的新测试功能，该功能允许用户安排未来的行动和提醒事项。

比如你想要在早上 7 点得到每日天气预报，或者需要一个关于护照到期的提醒，又或者只是在睡前给孩子讲一个敲敲门的笑话…… 现在，ChatGPT 可以通过安排一次性或重复性任务来处理所有这些事务。

OpenAI 没有像往常一样专门写篇博客，而是用两条推文进行官宣。

「今天我们推出了『Tasks』功能的一个测试版 —— 这是一种新方式，让你可以在将来的某个时间点请求 ChatGPT 为你做事。无论是一次性提醒还是重复性动作，告诉 ChatGPT 你需要什么以及何时需要，它就会自动帮你处理。」

，时长00:25

「在聊天界面或者通过个人资料菜单下的 Task 页面，你可以安排希望 ChatGPT 执行的任务，比如每周发送全球新闻简报，获取每天个性化的 15 分钟锻炼计划，或者为将来需要做的事情设置提醒。」

，时长00:11

这项功能从今天开始向 Plus、Team 和 Pro 订阅者推出，旨在使聊天机器人更接近于传统的数字助手，你可以把它想象成拥有 ChatGPT 更高级语言能力的谷歌助手或 Siri。该功能同时支持了网页端和 App 端。

功能使用与效果展示

如何使用这项功能呢？

OpenAI 表示，用户需要在 ChatGPT 的模型中选择「4o with scheduling task」，在那里只需要输入你希望 ChatGPT 做什么以及何时完成即可。同时，ChatGPT 可以根据用户的对话主动建议任务，但用户在创建这些建议的任务之前必须明确许可。

所有任务既可以直接在聊天线程中管理，也可以通过配置中的「new Tasks」部分（仅通过 web 提供）进行管理，因此可以轻松修改或取消任务。

在完成任务后，ChatGPT 可以通过 web、桌面和移动端设备提醒用户。值得注意的是，同时运行的任务限制为了 10 个。

除了 OpenAI 官方放出的展示，我们看看 Tasks 功能还能做什么。

比如可以让 ChatGPT 每天早上帮你查询股票：

图源：X@karinanguyen_（Karina Nguyen 领导的 OpenAI 研究团队通过新颖的合成模型训练，为推理界面和 ChatGPT canvas 等功能创建新的交互范式。）

委托 ChatGPT 定期在 Canvas 中撰写新的科幻故事，并发送到收件箱。

图源：X@karinanguyen_

在你想学一门新语言时，让 ChatGPT 提醒你每天晚上学习一个新单词，或者让它总结最新的 AI 新闻。

图源：X@karinanguyen_

在你即将参加面试或编程考试时，委托 ChatGPT 提出一些新的难题，以便在 Canvas 中更好地解决它们。

图源：X@karinanguyen_

网友对 OpenAI 的此项功能非常认可，纷纷表示，「AI Agents 来了」、「这就是我们想要的」、「新的时代已经开启」。

OpenAI 没有具体说明何时（或者是否）向免费用户开放，目前提供了每月 20 美元和 200 美元的订阅选择。

不过值得注意的是，OpenAI 对「Tasks」功能的期望似乎不仅限于简单的计划安排。另据彭博社报道，OpenAI 将于本月发布一个能够独立控制计算机的自主 AI 智能体「Operator」。

与此同时，逆向工程师 Tibor Blaho 发现，OpenAI 似乎正在研发一个代号为「Caterpillar」的项目，可能会与「Tasks」功能集成。

我们不难看出，2025 年将是智能体 AI 崛起的一年。正如黄仁勋在 CES 上演讲所说的，2025 年生成式 AI 将进入「智能体」的时代。

最近，OpenAI 等前沿人工智能实验室的目标是将这些 Agent 功能发展成能够与环境交互、从反馈中学习，并在没有持续人工输入的情况下做出决策的高智能化方案。另外，OpenAI 在畅想 AI 前景时，列出了已经完成、正在进行以及未来将要实现的五个阶段，而此次 Tasks 功能的推出意味着迈出了 Level 3 的重要一步。

如果你是 ChatGPT 的付费用户，可以通过在模型选择器中查找「4o 计划任务」选项来开始尝试使用 Tasks。

参考链接：https://www.theverge.com/2025/1/14/24343528/openai-chatgpt-repeating-tasks-agent-ai

#MiniMax

MiniMax震撼开源，突破传统Transformer架构，4560亿参数，支持400万长上下文

「2025 年，我们可能会看到第一批 AI Agent 加入劳动力大军，并对公司的生产力产生实质性的影响。」——OpenAI CEO Sam Altman

「2025 年，每个公司都将拥有 AI 软件工程师 Agent，它们会编写大量代码。」——Meta CEO Mark Zuckerberg

「未来，每家公司的 IT 部门都将成为 AI Agent 的 HR 部门。」—— 英伟达 CEO 黄仁勋

2025 新年伊始，在很多趋势都还不明朗的情况下，几位 AI 业界的重要人物几乎在同一时间做出了类似的判断 ——2025 年将是 AI Agent 之年。

没想到，MiniMax 很快就有了动作：开源了最新的基础语言模型 MiniMax-Text-01 和视觉多模态模型 MiniMax-VL-01。

新模型的最大亮点是，在业内首次大规模实现了新的线性注意力机制，这使得输入的上下文窗口大大变长：一次可处理 400 万 token，是其他模型的 20-32 倍。

他们相信，这些模型能够给接下来一年潜在 Agent 相关应用的爆发做出贡献。

为什么这项工作对于 Agent 如此重要？

随着 Agent 进入应用场景，无论是单个 Agent 工作时产生的记忆，还是多个 Agent 协作所产生的 context，都会对模型的长上下文窗口提出更多需求。

开源地址：https://github.com/MiniMax-AI
Hugging Face：https://huggingface.co/MiniMaxAI
技术报告：https://filecdn.minimax.chat/_Arxiv_MiniMax_01_Report.pdf
网页端：https://www.hailuo.ai
API：https://www.minimaxi.com/platform

一系列创新造就比肩顶尖模型的开源模型

MiniMax-Text-01 究竟是如何炼成的？事实上，他们为此进行了一系列创新。从新型线性注意力到改进版混合专家架构，再到并行策略和通信技术的优化，MiniMax 解决了大模型在面对超长上下文时的多项效果与效率痛点。

MiniMax-Text-01 的架构

Lightning Attention

目前领先的 LLM 大都基于 Transformer，而 Transformer 核心的自注意力机制是其计算成本的重要来源。为了优化，研究社区可以说是绞尽脑汁，提出了稀疏注意力、低秩分解和线性注意力等许多技术。MiniMax 的 Lightning Attention 便是一种线性注意力。

通过使用线性注意力，原生 Transformer 的计算复杂度可从二次复杂度大幅下降到线性复杂度，如下图所示。

MiniMax 的相关技术报告中写道，这主要是得益于一种右边积核技巧（right product kernel trick）。以 2022 年论文《The Devil in Linear Transformer》中的 TransNormer 为例，下图左侧的 NormAttention 机制可转换成使用「右侧矩阵乘法」的线性变体。

而 Lightning Attention 便是基于 TransNormer 实现的一个 I/O 感知型优化版本。

以下是 Lightning Attention 前向通过的算法描述。

基于 Lightning Attention，MiniMax 还提出了一种 Hybrid-lightning，即每隔 8 层将 Lightning Attention 替换成 softmax 注意力，从而既解决了 softmax 注意力的效率问题，也提升了 Lightning Attention 的 scaling 能力。

效果如何？下表给出了根据层数 l、模型维度 d、批量大小 b 和序列长度 n 计算注意力架构参数量与 FLOPs 的公式。

可以明显看出，模型规模越大，Lightning Attention 与 Hybrid-lightning 相对于 softmax 注意力的优势就越明显。

混合专家（MoE）

MoE 相对于密集模型的效率优势已经得到了大量研究证明。MiniMax 团队同样也进行了一番比较实验。他们比较了一个 7B 参数的密集模型以及 2B 激活参数和 20B 总参数的 MoE 模型。结果如下图所示。

可以看到，在多种基准上，当计算负载一样时，MoE 模型的表现要大幅优于密集模型。

MiniMax 还引入了一个新的 allgather 通信步骤，可解决扩大 MoE 模型的规模时可能会遇到路由崩溃（routing collapse）问题。

计算优化

与许多大模型训练项目一样，MiniMax 先通过小规模实验上述技术改进的有效性以及 Scaling Law，然后再开始着手大规模训练。MiniMax 为此采用了 1500 到 2500 台 H800 GPU—— 并且在训练过程中，具体使用 GPU 数量会动态变化。而大规模训练都有自己的特有挑战，MiniMax 开发了一系列针对性的优化技术。

首先，对于 MoE 架构，最主要的优化目标是降低其通信负载。尤其是对于采用 all-to-all（a2a）通信的 MoE 模型。MiniMax 的解决方案是一种基于 token 分组的重叠方案。

其次，对于长上下文训练，一大主要挑战是难以将真实的训练样本标准化到统一长度。传统的方式是进行填充，但这种方法非常浪费计算。MiniMax 的解决思路是进行数据格式化，其中不同样本会沿序列的维度首尾相连。他们将这种技术命名为 data-packing。这种格式可尽可能地降低计算过程中的计算浪费。

最后，为了将 Lightning Attention 投入实践，MiniMax 采用了四项优化策略：分批核融合、分离式的预填充与解码执行、多级填充、跨步分批矩阵乘法扩展。

MiniMax-Text-01上下文巨长，能力也够强

基于以上一系列创新，MiniMax 最终得到了一个拥有 32 个专家共 4560 亿参数的 LLM，每个 token 都会激活其中 459 亿个参数。MiniMax 将其命名为 MiniMax-Text-01。在执行推理时，它的上下文长度最高可达 400 万 token，并且其表现出了非常卓越的长上下文能力。

MiniMax-Text-01 基准成绩优秀

在常见的学术测试集上，MiniMax-Text-01 基本上能媲美甚至超越 GPT-4o、Claude 3.5 Sonnet 等闭源模型以及 Qwen2.5、DeepSeek v3、Llama 3.1 等 SOTA 开源模型。下面直接上成绩。

可以看到，在 HumanEval 上，MiniMax-Text-01 与 Instruct Qwen2.5-72B 相比表现出色。此外，MiniMax-Text-01 在 GPQA Diamond 这样具有挑战性问答的数据集上取得了 54.4 的成绩，超过了大多数开源指令微调的 LLM 以及最新版本的 GPT-4o。

MiniMax-Text-01 在 MMLU、IFEval 和 Arena-Hard 等测试中也取得了前三名的成绩，展示了其在给定限制条件下，应用全面知识来充分满足用户查询、与人类偏好保持一致的卓越能力。可以想象，基于最新的模型能力，也给开发者开发 Agent 应用提供了更好的基础。

领先的上下文能力

那 MiniMax-Text-01 引以为傲的长上下文能力呢？其优势就更为明显了。

在长上下文理解任务上，MiniMax 测试了 Ruler 和 LongBench v2 这两个常见基准。首先在 Ruler 上，可以看到，当上下文长度在 64k 或更短时，MiniMax-Text-01 与其它 SOTA 模型不相上下，而当上下文长度超过 128k 时，MiniMax-Text-01 的优势就明显显现出来了。

在 Ruler 上，MiniMax-Text-01 与其它模型的性能比较

同样，MiniMax-Text-01 在 LongBench v2 的长上下文推理任务上的表现也非常突出。

在 LongBench v2 上，MiniMax-Text-01 与其它模型的性能比较

另外，MiniMax-Text-01 的长上下文学习能力（终身学习的一个核心研究领域）也是 SOTA 水平。MiniMax 在 MTOB 基准上验证了这一点。

在 MTOB 上，MiniMax-Text-01 与其它模型的性能比较

长文本能力Showcase

MiniMax-Text-01 得到了很不错的基准分数，但实际表现如何呢？下面展示了一些示例。

首先，来写首歌吧！

人类评估者也给出了非常正面的评价：诗意的语言和演绎空间为歌曲增添了层层的趣味和情感共鸣，使歌曲既引人入胜又发人深省。

下面重点来看看 MiniMax-Text-01 的长上下文能力。对于新几内亚的一门小众语言 Kalamang，先将指令、语法书、单词表、与英语的对照例句放入 MiniMax-Text-01 的上下文，然后让其执行翻译。可以看到，MiniMax-Text-01 给出的答案基本与标准答案一致。

至于长对话记忆任务，MiniMax-Text-01 可说是表现完美。

视觉-语言模型

基于 MiniMax-Text-01，MiniMax 还开发了一个多模态版本：MiniMax-VL-01。思路很简单，就是在文本模型的基础上整合一个图像编码器和一个图像适配器。简而言之，就是要将图像变成 LLM 能够理解的 token 形式。

因此，其整体架构符合比较常见的 ViT-MLP-LLM 范式：MiniMax-VL-01 作为基础模型，再使用一个 303M 参数的 ViT 作为视觉编码器，并使用了一个随机初始化的两层式 MLP projector 来执行图像适应。

当然，为了确保 MiniMax-VL-01 的视觉理解能力足够好，还需要在文本模型的基础上使用图像-语言数据进行持续训练。为此，MiniMax 设计了一个专有数据集，并实现了一个多阶段训练策略。

最终，得到的 MiniMax-VL-01 模型在各个基准上取得了如下表现。

可以看到，MiniMax-VL-01 整体表现强劲，整体能与其它 SOTA 模型媲美，并可在某些指标上达到最佳。

下面展示了一个分析导航地图的示例，MiniMax-VL-01 的表现可得一个赞。

探索无限的上下文窗口让 Agent 走进物理世界

有人认为 [1]，context 会是贯穿 AI 产品发展的一条暗线，context 是否充分同步会直接影响智能应用的用户体验，这包括用户的个性化信息、环境变化信息等各种背景上下文信息。

而为了保证 context 充分同步，足够大的上下文窗口就成了大模型必须克服的技术难题。目前，MiniMax 已经在这条路上迈出了重要的一步。

不过，400 万 token 的上下文窗口明显不是终点。他们在技术报告中写道：「我们正在研究更高效的架构，以完全消除 softmax 注意力，这可能使模型能够支持无限的上下文窗口，而不会带来计算开销。」

除此之外，MiniMax 还在 LLM 的基础上训练的视觉语言模型，同样拥有超长的上下文窗口，这也是由 Agent 所面临的任务所决定的。毕竟，在现实生活中，多模态任务远比纯文本任务更常见。

「我们认为下一代人工智能是无限接近通过图灵测试的智能体，交互自然，触手可及，无处不在。」MiniMax 创始人在去年的一次活动中提到。

或许，「无处不在」也意味着，随着多模态 token 的加入，Agent 也将逐步进入物理世界。为此，AI 社区需要更多的技术储备。

#OpenAI的推理模型有时用中文

让我们说中文！

OpenAI o1 在推理时有个特点，就像有人考试会把关键解题步骤写在演草纸上，它会把推理时的内心 os 分点列出来。

然而，最近 o1 的内心 os 是越来越不对劲了，明明是用英语提问的，但 o1 开始在演草纸上用中文「碎碎念」了。

比如这道编码题，前面 o1 还在老老实实用英语，后脚就进入了「中文时间」。

这波操作，怎么看都像留子写论文的反向操作：先用中文打草稿，再翻译成英文交作业，倒反天罡了。

这件事先在 reddit 上掀起了一阵讨论，匿名发帖者表示：「我只见过 Deepseek 的模型这样做，但我不知道为什么 OpenAI 的模型会突然偏向中文啊！」

神经科学 × AI 研究员 Rishab Jain 也在 X 上表示疑惑：「为啥 o1 突然开始用中文思考了？明明整个对话（5 + 条消息）都是英文啊...... 很有意思...... 该不会是训练数据在作祟吧？」

OpenAI 并未做出解释，甚至都没有承认这一现象。

谷歌的 Gemini 也出现了类似的行为。它会在段落中间随机插入古吉拉特语（印度的一种主要语言）单词。ChatGPT 也可能会用没有出现在对话中的语言来定义网页左边列表里整个对话的名称。

这种多语言能力者的现象不只出现在推理或语言模型中，多模态模型也「躺枪」，有网友提到自己在跟 GPT-4o 对话的时候，它也会半途随机：「让我们说中文？」

那么，这到底是怎么一回事呢？

难道是 o1 套壳「QwQ」的事，藏不住了？

嗯，AI 专家们也不太确定。但他们先针对推理模型提出了几种推测。

训练数据的锅？

Hugging Face CEO Clément Delangue 在 X 上转贴，表示：「或许这是因为闭源公司在使用（目前是中国机构主导）的开源 AI 和开源数据集？」

他还提到：「未来在开源 AI 领域胜出的国家或公司，将在 AI 的未来发展中拥有巨大的影响力和话语权。」

「OpenAI 和 Anthropic 的实验室都会使用第三方数据标注服务来处理科学、数学和编程方面的博士级推理数据，」RT-X 系列的主要作者、Google DeepMind 研究员 Ted Xiao 做出了进一步解释，「出于专业劳动力可用性和成本考虑，许多这些第三方数据标记供应商都位于中国。」

而 o1 切换到中文可能是这种影响的一个例子。

软件工程师 @ClaudiuDP 也表示：「可能是 AI 的训练数据中里，一些需要用来构建回答的信息是用中文写的。」

除了中文占训练数据的比重高之外，由于是中文是象形文字系统，一个汉字往往可以表达一个完整的概念，相比之下，英文可能需要多个字母才能表达同样的概念。这可能也是一种「节省 token」的策略？

「AI 选择用中文思考，是因为中文在某些表达上更经济，可以直接解概念压缩包？」

「在思维链中，同等 token，选中文能思考得更深？」

「与英语相比，中文压缩了 token 的使用。我怀疑这是否是原因，但节省这些冗长的内部推理模型的成本是明智之举。」

解起数学题来尤为直观，比如小 A 还在卷子上拼「Quotient」，而旁边的中国同学的「商」字已经写完了。

选择了最顺手的语言？

然而，有些专家并不认同应该让数据标注背锅。因为除了中文，o1 突然切换到印地语、泰语等其他语言的可能性也很大。

他们提出了不同的观点：「o1 可能只是在选择最顺手的语言来解题，或者只是单纯的幻觉。」

「模型并不知道什么是语言，也不知道语言之间有什么不同，」阿尔伯塔大学助理教授、AI 研究员 Matthew Guzdial 对 TechCrunch 表示，「对它来说这些都只是文本。」

事实上，模型眼中的语言，和我们理解的完全不同。模型并不直接读单词，而是处理 tokens。以「fantastic」为例，它可以作为一个完整的 token；可以拆成「fan」、「tas」、「tic」三个 token；也可以完全拆散，每个字母都是一个 token。

但这种拆分方式也会带来一些误会。很多分词器看到空格就认为是新词的开始，但实际上不是所有语言都用空格分词，比如中文。

Hugging Face 的工程师 Tiezhen Wang 认同 Guzdial 的看法，认为推理模型语言的不一致性可能是训练期间建立了某种特殊的关联。

他类比了人类的思维过程，会说双语并不仅仅是会说两种语言，而是一种独特的思维方式：大脑会自然地选择最适合当下场景的语言。就像用中文算数学比较简洁高效，每个数字只需一个音节，但讨论「无意识偏见」时却自然切换到英文，因为最初就是用英文学习这个概念。

这种语言切换就像程序员选择编程语言一样自然 —— 虽然大多数编程语言都能完成任务，但我们还是会选择用 Bash 写命令行，用 Python 做机器学习，因为每种语言都有它的「最佳场景」。

「工具要看场合」，这也启发训练 AI 时也要让它接触多种语言，学习到不同文化中的独特思维方式，这种包容性也能让 AI 更全面，也更公平。

有许多 AI 专家与 Wang 的观点不谋而合。

「在思维链推理过程中，肯定会冒出很多种语言，用哪种语言思考都行。就像我自己，当某些概念用英语很难表达时，我的思维就会自动切换到俄语。大语言模型就是硅基大脑，可能也是同理。」

「这是训练过程中产生的一个现象。Deepseek 的 R1 模型也有同样的表现。在训练过程中，模型会搜索那些最能帮助它得出正确结论的词。而其他语言中的词向量往往能更好地影响它的推理过程。」

同时，不少圈内人表示，既然切换语言对思考有帮助，而且用户最终看到的还是英文结果，那这完全 OK。

「作为一个中国人，我经常在脑子里用英文思考，因为我是双语者。所以我一点也不惊讶大语言模型会用中文思考，毕竟它们也是多语言通。只要最后输出的是预期语言就行，我觉得这不能算是幻觉。不过，这是不是要进一步思考：最好的 AI 思考方式，是不是应该是一种与具体语言无关的隐藏状态？」

「半路用中文思考」不是 bug，反而是一个意外的惊喜，说明 AI 出现了「以我为主，为我所用」的智能涌现？

对此，你怎么看呢？欢迎在评论区留下你的看法！

参考链接：

https://techcrunch.com/2025/01/14/openais-ai-reasoning-model-thinks-in-chinese-sometimes-and-no-one-really-knows-why/

https://x.com/RishabJainK/status/1877157192727466330

https://x.com/ClementDelangue/status/1877767382120255792

https://x.com/Xianbao_QIAN/status/1878623350953857166

https://x.com/xiao_ted/status/1877503196811362504

#Eko

一句话让Agent自主干活，清华复旦斯坦福等开源的智能体开发框架抢先了OpenAI

近期，OpenAI CEO Sam Altman 宣布，2025 年将推出名为 “Operator” 的虚拟员工计划，AI 代理将能够自主执行任务，如写代码、预订旅行等，成为企业中的 “数字同事”。

在 OpenAI 发布 “Operator” 之前，清华、复旦和斯坦福的研究者联合提出了名为 “Eko” 的 Agent 开发框架，旨在让开发者通过简洁的代码和自然语言，快速构建可用于生产的 “虚拟员工”。这种框架使得 AI 代理能够接管用户的电脑和浏览器，代替人类完成各种任务，为工作流程提供自动化支持。

论文标题: Eko: Build Production-ready Agentic Workflow with Natural Language

项目主页: https://eko.fellou.ai

项目地址：https://github.com/FellouAI/eko

Docs：https://eko.fellou.ai/docs

核心技术创新：

1. 混合智能体表示：提出了 “Mixed Agentic representation”，通过无缝结合表达高层次设计的自然语言（Natural Language）与开发者低层次实现的程序语言（Programming Language）。

2. 跨平台 Agent 框架：提出环境感知架构，实现同一套框架和编程语言，同时支持浏览器使用、电脑使用、作为浏览器插件使用。

3. 生产级干预机制：现有 Agent 框架普遍强调自治性（Autonomous），即无需人类干预，而 Eko 框架提供了显性的生产级干预机制，确保智能体工作流可以随时被中断和调整，从而保障人类对生产级智能体工作流的有效监管和治理。

Eko：革新生产级智能体开发的框架

让我们用实际的例子来感受一下这个 Agent 框架的开发难度：只需要一句话，就可以让 Eko 生成一个全 Agent 帮你做股票分析。这不就是妥妥的生产力工具吗！真是解放双手！

“在雅虎财经上收集纳斯达克的最新数据，包括主要股票的价格变化、市值、交易量，分析数据并生成可视化报告。”

，时长00:27

“ 当前登录页面自动化测试：

1. 正确的账户和密码是：admin / 666666

2. 请随机组合用户名和密码进行测试，以验证登录验证是否正常工作，例如：用户名不能为空、密码不能为空、用户名不正确、密码不正确

3. 最后，尝试使用正确的账户和密码登录，验证登录是否成功

4. 生成测试报告并导出”

，时长00:19

清理当前目录下大于 1MB 的所有文件

，时长00:30

环境感知架构（Environment-Aware Architecture）

主要场景

i）浏览器使用：主要专注于通过图形用户界面（GUI）来操作网页和浏览器中的元素，常见的实现方式包括截图和网页提取技术。

ii）电脑使用：与浏览器不同，Node.js 自动化则主要面向命令行界面（CLI）操作和文件系统管理，未来还会引入 GUI 感知能力。

架构介绍

Eko 的跨平台开发是通过其环境感知架构（Environment-Aware Architecture）实现的，这一架构由三个关键层次构成：通用核心（Universal Core）、环境特定工具（Environment-Specific Tools）和环境桥接（Environment Bridge）。

1. 通用核心：这一层提供了与环境无关的基本功能，如工作流管理、工具注册管理、LLM（大语言模型）集成和钩子系统。

2. 环境特定工具：每种环境（如浏览器扩展、Web 环境、Node.js 环境）都提供了优化的工具集。

3. 环境桥接：这一层负责环境的检测、工具注册、资源管理和安全控制，确保不同平台之间能够顺利互动和通信。

安全性和访问控制：Eko 针对不同环境实施了适当的安全措施。浏览器扩展和 Web 环境都采用了严格的权限控制和 API 密钥管理，而 Node.js 环境则允许更广泛的系统级访问，基于用户权限进行文件操作和命令执行，在需要时会在执行前请求用户确认。

自动工具注册：通过 loadTools () 等工具，Eko 自动注册适用于当前环境的工具，这使得开发者可以在多个环境中无缝地切换，并确保工具的正确加载。

层次化规划（Hierachical planning）

我们提出层次化感知框架，将任务的拆解分为两层，包括 Planning layer 和 Execution layer。其中 Planning layer 负责将用户的需求（自然语言或代码语言表示）和现有工具集拆解成一个有领域特定语言（Domain-specific language）表示的任务图（Task graph）。任务图是一个有向无环图，描述了子任务之间的依赖关系。该任务图由 LLM 一次性合成。在 Execution layer 中，根据每个任务调用 LLM 来合成具体的执行行为和工具调用。

多步合并优化：当 Eko 检测到两次执行都是对 LLM 的调用时，会触发框架的自动合并机制，将两次调用的 system prompt 自动整合，合并成一次调用。从而加快推理速度。

视觉 - 交互要素联合感知（Visual-Interactive Element Perception）

视觉 - 交互要素联合感知框架（VIEP）是一种新颖的浏览器感知解决方案，通过将视觉识别与元素上下文信息结合，显著提升了在复杂网页中的任务精度和效率。它通过提取网页中的交互元素（如 A11y 树），并将其映射到领域特定语言（DSL），生成高效的伪 HTML 代码，简化了元素的表征。不同于传统的 A11y + Screen shot 方案，VIEP 在视觉信号方面，引入了 Set-of-Mark，确保每个元素的视觉标识符与伪 HTML 中的标识符一一对应，提升了元素识别的精度。为了优化性能，截图分辨率被压缩至原始的 60%，同时画质压缩至 50%，减少了资源消耗，同时保持了足够的识别质量。

与传统的 HTML 表示相比，VIEP 通过简化交互元素和生成紧凑的伪 HTML 结构，避免了直接处理庞大 HTML 内容的开销。例如，Google 首页的 HTML 从 22 万字符减少至仅 1,058 个字符，大幅提高了处理速度和准确度。

VIEP 不仅优化了性能，降低了成本，还提升了跨环境适应性，确保自动化操作在不同浏览器和操作系统中稳定运行。

生产级的可干预机制

在构建 AI 驱动的自动化系统时，开发者常常需要监控任务的执行情况，随时调整行为，或在必要时进行干预。虽然 “钩子” 是软件开发中的常见概念，但在 Eko 中，它们承担了独特的角色 —— 在 AI 自动化和人工监督之间架起了一座桥梁。简单来说，你可以在 Workflow 执行前后插入自己的逻辑，比如验证输入、处理结果、甚至重试失败的任务。代码如下：

JavaScript


await eko.execute (workflow, {


  hooks: {


    beforeToolUse: async (tool, context, input) => {


      console.log (`准备执行工具：${tool.name}，输入参数：`, input);


      return input;


    },


    afterToolUse: async (tool, context, result) => {


      console.log (`工具执行完成：${tool.name}，输出结果：`, result);


      return result;


    }


  }


});

Eko 提供三种不同层级的钩子，每个层级都具有独特的作用：

1. 工作流钩子（Workflow Hooks）

这些钩子位于工作流的最上层，用于整体控制和监控自动化流程的启动和结束。例如，你可以在工作流开始之前进行资源初始化，或在工作流结束后进行清理和处理最终结果。

2. 子任务钩子（Subtask Hooks）

这些钩子位于工作流的中间层，允许你在每个子任务开始前和结束后进行监控和处理。例如，你可以在每个子任务前记录日志，或在任务完成后对中间结果进行处理。

3. 工具钩子（Tool Hooks）

这是最细粒度的钩子，允许你在每个工具执行前后进行验证和修改。例如，你可以在工具执行前验证输入参数，或在工具执行后处理返回结果。

钩子可以帮助开发者实时优化工作流，提高自动化系统的精度和效率。例如，在执行某些任务时，开发者可以通过钩子对输入数据进行验证，防止错误信息传入系统；或在任务完成后，处理和转化结果，以便更好地利用输出。钩子还能帮助开发者收集执行数据，进行性能分析，识别瓶颈并优化自动化流程。

除了常规的监控和调试功能，Eko 的钩子系统还支持更创新的使用场景。例如，在一些关键任务执行时，钩子可以暂停工作流并等待人工审批；在 AI 决策出现问题时，开发者可以通过钩子进行人工干预或覆盖 AI 的判断，确保业务流程的顺畅。

展望

无论你是 AI 开发者还是自动化使用者，Eko 为你提供了更灵活、高效的工具，帮助你将虚拟员工部署到实际生产环境中，提升工作效率和质量。立即关注 Eko，让 AI 自动化为你的生产力加速！

作者介绍

陆逸文，清华大学博士生，研究兴趣为具身智能平台和智能体。

罗卓伟，FellouAI 首席工程专家，目前从事人工智能相关领域工作。

马骁腾，清华大学自动化系博士后，博士毕业于清华大学。主要研究兴趣为强化学习和智能体。

陈家棋，复旦大学硕士生，斯坦福大学访问学生学者。主要研究领域为计算机视觉和智能体。

#V2PE

仅缩小视觉Token位置编码间隔，轻松让多模态大模型理解百万Token！清华大学，香港大学，上海AI Lab新突破

本文共同一作为葛俊岐 (清华大学本科生)，陈子熠 (清华大学本科生)，林锦涛 (香港大学博士生)，祝金国 (上海 AI Lab 青年研究员)。本文的通讯作者是朱锡洲，他的研究方向是视觉基础模型和多模态基础模型，代表作有 Deformable DETR、DCN v2 等。

随着语言大模型的成功，视觉 - 语言多模态大模型 (Vision-Language Multimodal Models, 简写为 VLMs) 发展迅速，但在长上下文场景下表现却不尽如人意，这一问题严重制约了多模态模型在实际应用中的潜力。

为解决这一问题，清华大学，香港大学和上海 AI Lab 联合提出了一种新的用于多模态大模型的位置编码方法 ——Variable Vision Position Embedding (V2PE) ，取得多模态大模型在长上下文场景下的新突破。

论文地址：https://arxiv.org/abs/2412.09616
项目主页：https://zzdhybthu.github.io/V2PE.github.io/
开源代码：https://github.com/OpenGVLab/V2PE

位置编码是多模态大模型中的关键技术，用于让模型理解输入序列的相对位置关系。它使得 VLMs 能够理解词语在句子中的位置，并识别图像块在原图中的二维位置。然而，现有的多模态模型通常在图像 token 上沿用文本模型的位置编码方式，这并非最优方案。

V2PE 提出了一种为视觉 token 分配可变位置增量的新方法，有效解决了传统位置编码在处理超长上下文任务时的性能瓶颈问题。通过避免位置编码超出模型训练上下文窗口的限制，V2PE 显著提升了模型在 32K 至 1M 长度超长上下文任务中的表现。相比传统位置编码的模型，采用 V2PE 的模型在这些任务中实现了突破性改进，甚至超越了最先进的闭源大模型。

V2PE 工作有以下贡献：

构建了一个用于 VLMs 长上下文训练和评估的混合数据集。研究团队通过这一数据集发现，直接将 LLM 的位置编码机制应用于视觉 token 是次优选择。
提出了可变视觉位置信息编码 (V2PE)，一种创新的位置编码策略，通过为视觉 token 分配可变且较小的增量，大幅提升了 VLMs 对长多模态上下文的理解和推理能力。
将 V2PE 方法和扩展训练数据应用于开源视觉模型 InternVL2-2B, 微调后的模型在统一多模态基准测试和长上下文多模态任务中表现优异，成功处理长达 1M token 的序列，展现了卓越的长上下文处理能力。

可变视觉位置编码

突破视觉 - 语言模型在长上下文场景中的新边界

在人工智能领域，视觉 - 语言模型因其在多模态任务中的出色表现而备受关注。然而，在处理视频、高分辨率图像或长篇图文文档等长上下文场景时，其泛化能力却显著下降，这限制了它们在实际应用中的潜力，并影响了用户体验的进一步提升。

V2PE 旨在解决的核心问题在于：为什么 VLMs 在长上下文场景下表现不佳，以及如何提升它们在长序列多模态理解与推理上的能力？

为了研究 VLMs 为什么在长上下文场景表现不佳，研究团队通过构建大规模的长上下文多模态数据集，系统地评估和分析 VLMs 的能力，在这一过程中，他们意识到位置编码策略在 VLMs 的性能中起着至关重要的作用。

传统的 VLMs 位置编码通常不区分文本 token 和图像 token，并在训练中使用固定的编码规则。然而，文本 token 属于一维数据，位置编码仅需传达先后顺序；图像 token 则为二维数据，位置编码需传递图像块的空间位置信息，还要考虑多分辨率下缩略图与子图像块的对应关系。此外，当模型处理超出训练上下文窗口的长序列时，固定位置编码会超出模型已知范围，导致推理能力受限。

因此，作者提出了 Variable Visual Position Encoding (V2PE)，这是一种新颖的位置编码方法，专门针对视觉 - 语言模型（VLMs）中的长上下文场景。V2PE 通过为视觉 token 分配更小的、可变的位置增量，有效地管理长多模态序列。

增强的长上下文多模态数据集

作者引入了两个增强的长上下文多模态数据集：Long Visual Question Answering (Long-VQA) 和 Long Multimodal Retrieval（Long-MR)。旨在提升 VLMs 的长上下文能力并建立评估框架。

Long-VQA 数据集扩展了 17 个被广泛采用的数据集，将内容从短序列扩展到包含高达 32K token 的序列。任务涵盖常识推理、事实知识和解释文本和视觉信息。
Long-MR 数据集受多模态大海捞针 benchamrk -- MM-NIAH 的启发，通过在交错的文本图像中检测目标图像或段落，评估 VLMs 处理超长上下文的能力。

可变视觉位置编码

位置编码在视觉 - 语言模型中的作用

位置编码是 Transformer 架构中的基本组成部分，它通过为 token 提供位置信息来捕获序列关系。位置编码通常涉及两个步骤：位置索引推导

和位置嵌入计算

。

位置索引推导：为每个 token
分配位置索引
。
位置嵌入计算：将这些索引转换为影响注意力机制的位置嵌入。

可变位置索引推导

作者提出了一种针对模态特定的递归函数，为文本和视觉 token 分配不同的位置索引：

其中

是一个小于 1 的增量，用于减少视觉 token 的位置索引增加速率。在训练过程中，

可以从一组分数值中动态选择，以适应不同的输入长度和复杂性。

这种方法与传统的长上下文方法相比具有几个优势：

1. V2PE 保留了 VLMs 中的所有视觉 token，保留了视觉内容的丰富性和细节。

2. V2PE 允许 VLMs 通过在训练期间动态选择

来适应任意间隔的位置索引，避免了位置编码外推引起的不准确。

长上下文能力显著提升

经过一系列的实验和分析，研究团队取得了显著的成果。通过引入 Variable Visual Position Encoding (V2PE) 和增强的长上下文多模态数据集，研究团队得到了以下几个重要的发现：

对模型上下文能力的影响

在上下文长度 32k 以内的数据上训练模型，在 64k 以内，多种长度的基准测试上进行测试。实验的结果表明，在测试长度超出训练的上下文长度时，模型效果会显著下降，但选用更小的增量

可以有效缓解这一现象。

在 1M 上下文长度下的表现提升

作者分别在 32k 和 256k 的训练数据上微调模型，并在长达 1M 的多种上下文长度上进行测试。实验结果表明，V2PE 在长上下文场景下的表现明显优于不加 V2PE 的模型，也优于使用插值方法的模型，甚至能超越先进的闭源大模型。

此外，作者将训练好的 V2PE 模型与其他视觉 - 语言模型在多种基准测试进行了对比，结果表明，V2PE 在长上下文多模态任务上的表现优于其他模型，证明了 V2PE 的有效性。

消融实验中，作者将 V2PE 方法与 token 压缩的方法以及在训练时固定视觉 token 的位置编码增量的方法进行了对比，证明了 V2PE 的优势。

在对注意力图的分析中，作者关注注意力图的尾部，即对应序列末端的问题部分的注意力图。作者发现，随着

的减小，模型能更好地把注意力集中在问题对应的答案附近，证明了 V2PE 能够有效地提升模型将注意力对齐到输入序列中的关键部分的能力。

V2PE 的提出，为视觉 - 语言模型在长上下文场景下的表现提供了新的思路。通过为视觉 token 分配可变的位置增量，V2PE 有效地解决了位置编码超出模型训练上下文窗口的问题，提升了模型在长上下文场景下的表现。

作者相信，V2PE 的提出将为视觉 - 语言模型的发展带来新的机遇，为模型在长上下文多模态任务中的应用提供更多可能性。

#谷歌Transformer继任者「Titans」来了

近8年后，上下文记忆瓶颈被打破

正如论文一作所说，「新架构 Titans 既比 Transformer 和现代线性 RNN 更有效，也比 GPT-4 等超大型模型性能更强。」

终于，在 2017 年推出影响 AI 行业长达 8 年的 Transformer 架构之后，谷歌带来了全新的架构 Titans。这次，谷歌的重点是将推理领域非常重要的测试时（test-time）计算用在了记忆（memory）层面。

在谈到推出 Titans 的初衷时，论文一作 Ali Behrouz 表示，「注意力机制一直是大多数 LLM 进展的重要组成部分，不过它无法扩展到长上下文。因此，Titans 应运而出，它成为了一种同时具备注意力机制和元上下文记忆的结构，可以在测试时学习记忆。该架构可以将上下文窗口扩展到 200 万 tokens。」

图源：https://x.com/behrouz_ali/status/1878859086227255347

这意味着，谷歌 Transformer 迎来了它的「继任者」。

图源：https://x.com/mark_k/status/1878896628654022993

多年来，研究人员一直在广泛探究如何有效地利用循环模型和注意力机制，其中循环模型旨在将数据压缩到固定大小的记忆（称为隐状态）中，而注意力机制允许处理整个上下文窗口，捕捉所有 token 的直接依赖。不过，更准确的依赖建模往往伴随着二次成本，导致模型只能处理固定长度的上下文。

因此，谷歌提出了一种新的长期神经记忆模块（neural memory module），它能够学习记忆历史上下文，并帮助注意力机制在利用过去已久信息的同时处理当前上下文。结果表明，这种神经记忆具有快速并行化训练的优势，同时还能保持快速推理。

从记忆的角度来看，谷歌认为注意力机制虽然受限于上下文但可以更准确地建模依赖关系，因此可以起到短期记忆的作用；而神经记忆能够对数据进行记忆，起到了长期、更持久的记忆作用。基于这两个模块，谷歌引入了一个全新的系列架构 —— Titans，通过三种变体有效地将记忆融合到该系统架构中，它们分别是记忆作为上下文（Memory as a Context，MAC）、记忆作为门（Memory as a Gate，MAG）和记忆作为层（Memory as a Layer，MAL）。

在语言建模、常识推理、基因组学和时序预测任务上的实验结果表明，Titans 架构比 Transformer 和近年来的现代线性循环模型更有效。另外，在大海捞针（needle-in-haystack）中，Titans 架构能够有效地扩展到超过 200 万 tokens 的上下文窗口，并且比基准模型实现了更高的准确性。

论文标题：Titans: Learning to Memorize at Test Time
论文地址：https://arxiv.org/pdf/2501.00663v1

另外，论文作者之一 Peilin Zhong 为谷歌 NYC 算法与优化团队的研究科学家，2021 年加入谷歌。他本科毕业于清华姚班，博士毕业于哥伦比亚大学。

目前，已经有人搞出了有关 Titans 架构的非官方实现，感兴趣的读者可以去看一下。

GitHub 地址：https://github.com/lucidrains/titans-pytorch

学习测试时记忆

谷歌详细介绍了长期神经记忆模块，它成为了一种可以在测试时学习记忆的元模型。

长期记忆

为了设计一个长期神经记忆模块，我们需要模型能够将过去历史的抽象编码到其参数中。因此，一个简单的思路是训练神经网络并期望它能够记住自己的训练数据，然而记忆几乎一直是神经网络中令人头疼的现象，它限制了模型的泛化能力，还引发隐私问题，因此导致测试时性能不佳。

基于此，谷歌认为需要一个在线元模型来学习如何在测试时记忆或忘记数据。在这种设置下，模型学习一个能够记忆的函数，但不会过拟合训练数据，从而在测试时实现更好的泛化性能。

学习过程和意外指标（Learning Process and Surprise Metric）。训练长期记忆的关键思路是将训练视为在线学习问题，其中将过去信息 x_1, …, x_t-1 压缩到长期神经记忆模块中。人类往往能够记住背离预期（令人惊讶）的事件，受此启发，模型意外可以简单定义为它相对于输入的梯度。梯度越大，输入数据与过去数据的偏差就越大。因此，使用这个意外分数，可以将记忆更新如下：

这一意外指标可以导致在重大意外时刻之后出现重要信息缺失。从人类记忆的角度来看，即使一个事件令人难忘，但它可能不会在长时间内持续让我们感到惊讶。为了改进这一现象，谷歌将意外指标分解为了（1）过去意外，它衡量最近过去的意外程度；（2）瞬时意外，它衡量传入数据的意外。

这些意外指标基于一个损失函数

，它就是我们的记忆在测试时学习充当的目标。也就是说，记忆模块是一个元模型，它基于损失函数

来学习一个函数。

在本文中，谷歌则专注于联想记忆，目的是将过去的数据存储为键（keys）和值（values）对。类似于 Transformer，在给定 x_t 的情况下，谷歌使用两个线性层将 x_t 投影到键和值中：

接下来，谷歌希望记忆模块可以学习键和值之间的关联，为此将损失定义如下：

遗忘机制（Forgetting Mechanism）。在处理非常大的序列（比如百万 tokens）时，管理哪些过去信息应该被遗忘非常重要，即使使用深度或者非常大的矩阵值记忆时也是如此。因此，谷歌使用了一种自适应遗忘机制，允许记忆忘记不再需要的信息，从而更好地管理有限的记忆容量。也就是说，给定下一个 token x_t，谷歌将更新规则做如下修改：

记忆架构（Memory Architecture）。谷歌重点将具有 L_M≥1 层的简单 MLP 作为长期记忆架构，选择它们的原因在于希望能够更好地激励长期记忆设计以及将其融入架构的方法。谷歌表示，本文的架构开辟了一个新的研究方向，有助于设计更有效且高效记忆数据的神经架构。

检索记忆（Retrieving a Memory）。在探讨如何设计和训练一个可以在测试时学习记忆的长期记忆模块之后，剩下的关键问题便是如何从记忆中检索信息？谷歌仅仅使用了没有更新权重的前向传递（即推理）来检索与查询相对应的记忆。在形式上，给定一个输入 x_t，谷歌使用线性层 W_Q 来投影输入，即 q_t = x_tW_Q，并通过以下公式从记忆 y_t 中检索相应（或有用）的信息。

并行化长期记忆训练

理论上，长期记忆模块的训练需要

FLOPS，其中 N 为序列长度。不过在实践中，我们需要并行化训练过程并充分利用 TPU、GPU 等硬件加速器，同时需要张量化该过程并使用更多矩阵乘法（matmuls）。

接下来，谷歌表示，使用小批量梯度下降、数据学习率和权重衰减来计算内循环权重的方式可以重新来表示，以便它只使用矩阵乘法和求和（sums）。这里将序列拆分为大小为 b ≥ 1 的块，并将小批量梯度下降写做：

此外，谷歌解释了 M_t = W_t 为线性时的情况。对于 N_p ≥ 2 的 MLP，过程类似。使用本文的损失函数可以得到如下：

最后，谷歌扩展这一表示，以便可以合并动量项。在具有动量的块式梯度下降中，如果观察动量项则可以得到如下：

作为函数块的参数（Parameters as the Function of Chunks）。谷歌没有让参数 a_t、θ_t 和 η_t 依赖于输入，而是让它们成为函数块。尽管失去了表达能力，但可以帮助更快地训练。在这种情况下，谷歌在每个块中对每一个 a、θ 和 η 都使用了相同的值。在实验中，谷歌将这些参数作为了 token 的函数，并表示，这种简化（即作为块函数）可能是未来工作感兴趣的地方，以便以更高效的方式训练更大的模型。

下图 1 展示了如何并行并在使用矩阵乘法时完成神经记忆训练。

如何融合记忆？

接下来需要解决的一个重要问题是：如何有效且高效地将神经记忆融合到深度学习架构中？

从记忆的角度来看，Transformer 中的 K 和 V 矩阵对可以解释为联想记忆块。由于它们对依赖关系的精确建模以及有限的上下文窗口，它们可以被用作短期记忆模块，以处理当前上下文窗口大小。另一方面，神经记忆能够不断从数据中学习并存储在其权重中，因而可以发挥长期记忆的作用。谷歌通过三个不同的 Titans 变体来回答以上问题。

记忆作为上下文（Memory as a Context，MAC）

Titans 的第一个变体 MAC 的架构设计如下图 2 所示，将记忆作为当前信息的上下文。

也就是说，给定一个长序列

，首先将序列分成固定大小的片段 S^(𝑖)，其中 𝑖 = 1,...,𝑁/𝐶。给定传入片段 S^(𝑡)，谷歌将它视为当前上下文，将其过去的片段视为历史信息。因此，谷歌让 M_𝑡-1 成为片段 S^(𝑡) 之前的长期记忆状态，使用输入上下文作为对记忆 M^𝑡-1 的查询，以从长期记忆中检索相应的信息。谷歌如下所示检索与 S^(𝑡) 相对应的过去信息：

接下来将这些历史信息与持久记忆参数一起作为注意力模块的输入序列：

该架构具有两个关键优势：一是注意力模块同时具有历史和当前上下文，能够根据当前数据决定是否需要长期记忆信息，二是注意力模块帮助长期记忆只存储来自当前上下文的有用信息。这意味着，并非每个片段中的所有 token 都是有用的，记忆所有 token 可能会导致内存溢出。因此，注意力模块帮助记忆了解哪些信息是有用的，从而更好地管理内存容量。

另外，在测试时，（i）持久记忆参数是固定的，它们编码了有关任务的知识，不应改变；（ii）注意力模块权重是上下文学习器；（iii）长期记忆模块在测试时仍然学习（记忆）信息。也就是说，即使在测试时，神经记忆的权重也会更新，这是因为权重对过去已久的抽象进行了编码。

记忆作为门（Memory as a Gate，MAG）

Titans 第二个变体 MAG 的架构设计如下图 4 所示：

在其中一个分支中，谷歌直接使用输入数据来更新长期记忆；在第二个分支中，谷歌使用了滑动窗口注意力（SWA）：

该架构的整体注意力掩码如下图 3b 所示，其中滑动窗口注意力（SWA）充当精确的短期记忆，而神经记忆模块充当模型的衰减记忆。该设计也可以看作是多头架构，其中各头的结构不同。

记忆作为层（Memory as a Layer，MAL）

Titans 的第三个变体 MAL 使用了深度神经网络，这种架构设计在文献中更为常见，其中混合模型堆叠具有完整或滑动窗口注意力的循环模型。

给定输入 x，可以得到以下:

其中 SW-Attn 是滑动窗口注意力。

无注意力记忆（Memory Without Attention）。从记忆的角度来看，谷歌期望记忆系统的每个组件都能独立工作，即使其他组件受到了干扰。因此，即使没有短期记忆（即注意力），长期记忆模块仍然应该是一个强大的模型。谷歌在实验中将这种变体称为 Titans (LMM)。

架构细节

在所有块中，谷歌使用了残差连接；在实现中，谷歌使用 SiLU (.) 激活函数作为计算查询、键和值的非线性激活，并使用

对查询和键进行归一化。

卷积（Convolution）。遵循最近的现代线性循环模型，谷歌在每个查询、键和值投影后都融合了一个 1D 深度可分离卷积层。这些 1D 卷积可以提升性能，并且计算高效。

门控（Gating）。谷歌还在最终输出投影之前利用线性层进行归一化和门控。

实验结果

谷歌在实验部分关注上述三种 Titans 变体，分别是 MAC、MAG 和 MAL，以及单独的神经记忆模块。对于每个模型，谷歌使用了四种尺寸的模型，参数分别是 (i) 170M、(ii) 340M、(iii) 400M 和 (iv) 760M。

语言建模

谷歌首先关注模型在语言建模和常识推理任务中的困惑度。下表 1 报告了 Titans 变体和三种不同大小（340M、400M 和 760M）基线的结果。在包括 Transformer++ 在内的非混合模型中，神经记忆模块在困惑度和准确度测量方面均取得了最佳性能。

谷歌还发现，Titans 的三种变体（MAC， MAG 和 MAL）都优于 Samba （Mamba + 注意力）和 Gated DeltaNet-H2（Gated DeltaNet + 注意力）。

大海捞针

下表 2 结果显示，与基线相比，神经记忆模块均取得了最佳结果。

谷歌将这种卓越的表现归因于 Titans 与现有序列模型的三个关键差异：（1）与 TTT 相比，神经记忆能够通过使用动量和遗忘机制（即权重衰减）更好地处理记忆容量。因此，随着序列长度的增加，神经记忆的性能不会下降，呈现出一致的趋势；（2）与具有门控（遗忘）机制的 Mamba2 相比，Titans 具有深度非线性记忆，从而实现了更好的记忆管理。此外，与神经记忆和 DeltaNet 不同，Mamba2 无法移除记忆，因此在增加序列长度时，其性能会出现显著下降；（3）与 DeltaNet 相比，尽管它能够使用增量规则移除记忆，但无法擦除记忆，缺乏遗忘机制。

最终，正如预期的那样，使用 Titans 变体时能看到相当或更好的结果，其中最佳结果来自 MAC。

BABILong 基准

在微调设置中，谷歌将小型微调版本的 Titans (MAC) 与其他模型进行了比较。

Titans 和基线的结果如下图 6b 所示。Titans 的表现优于所有模型，甚至比 GPT4 这样的超大型模型还要好。此外，与基于 Transformer 的 RMT 等记忆模型相比，Titans 表现出更好的性能，这主要归功于其强大的记忆。

深度记忆的影响

接下来的实验评估了深度记忆对 wall-clock 训练时间和模型性能的影响。

下图 7 中报告了 Titans（LMM）和基线的困惑度与序列长度的关系。有趣的是，随着记忆深度的增加，该模型可以在所有序列长度上实现更好的困惑度。此外，当模型的参数量较少时，更深的记忆模块对序列长度的鲁棒性更强。随着参数量的增加，所有模型在较长的序列上都表现出更好的性能。

时序预测

为了展示记忆模块在更广泛任务中的有效性，谷歌评估了 Titans 在时序预测任务中的表现。结果如下表 3 所示，谷歌的神经记忆模块优于所有基线，包括基于 Mamba、线性和 Transformer 的架构。

DNA 建模

谷歌还进一步评估了神经记忆模块在 DNA 建模任务上的表现，结果如下 4 所示，相较于当前的 SOTA 架构，Titans（LMM）在不同的下游基因组任务中仍具有竞争力。

效率

谷歌还对 Titans 与当前 SOTA 序列模型的效率进行了比较，下图 9 显示了不同序列长度 x 批大小的模型的训练吞吐量。可以看到，谷歌神经记忆模块比 Mamba2 和 Gated DeltaNet 稍慢，不过 Titans (MAL) 比基线和神经记忆模块都要快。

更多技术细节和实验结果请参阅原论文。

#姚期智团队开源新型注意力

节省90%内存不降性能，一个框架统一MHA/MQA/GQA

新型注意力机制TPA，姚期智院士团队打造。

TPA对每个token做动态的张量分解，不存储完整的静态KV，而是保留分解的版本，内存占用节省90%（或者更多），而不会牺牲性能。

论文中还证明了流行的MHA、MQA、GQA都是TPA的特殊情况，用一个框架统一了现代注意力设计。

用此方法训练的新模型T6，代码已在GitHub开源。

论文发布后，有创业者表示，终于不用付那么多钱给云厂商了。

也有研究者认为，论文中的实验看起来很有希望，不过实验中的模型规模有点小，希望看到更多结果。

动态张量分解，无缝集成RoPE

尽管现有的注意力机制在众多任务中取得了不错的效果，但它还是有计算和内存开销大的缺陷。

DeepSeek-v2中提出的MLA压缩了KV缓存，但与RoPE位置编码不兼容，每个注意力头需要额外的位置编码参数。

为了克服这些方法的局限性，团队提出张量积注意力（TPA，Tensor Product Attention）。

新方法在注意力计算过程中对QKV做分解。

与LoRA系列低秩分解方法相比，TPA将QKV分别构造为与上下文相关的分解张量，实现动态适应。

通过只缓存分解后的秩，设置合适的参数可使内存占用降低90%或以上。

对于流行的RoPE位置编码，TPA可以与之无缝集成，实现以较低的成本旋转分解KV，无需进行复杂的调整。

在实验中，使用FineWeb-Edu 100B数据集训练模型，TPA与其他注意力设计相比始终保持较低的困惑度。

在ARC、BoolQ、HellaSwag和MMLU等基准测试中测试了零样本和少样本性能。TPA和TPA-KVonly在大多数任务中都优于或匹配所有基线。

论文由清华&上海期智研究员团队、UCLA顾全全团队合作，共同一作为清华博士生张伊凡与姚班校友、现UCLA博士生刘益枫。

此外还有来自心动网络Taptap的Qin Zhen。

论文地址：https://arxiv.org/abs/2501.06425开源代码：https://github.com/tensorgi/T6

参考链接：
[1]https://x.com/yifan_zhang_/status/1879049477681741896

#Step R-mini

刚刚，阶跃星辰发布Step R-mini！推理模型从此不再文理偏科

这是阶跃星辰 Step 系列模型家族的首个推理模型。

类似 OpenAI o1 的推理模型在国内终于卷起来了。

刚刚，国产大模型「六小虎」成员阶跃星辰发布了最新一代模型 ——Step Reasoner mini（简称「Step R-mini」）。这是阶跃星辰 Step 系列模型家族的首个推理模型。

体验地址：https://yuewen.cn

新模型擅长主动进行规划、尝试和反思，能通过慢思考和反复验证的逻辑机制，为用户提供准确可靠的回复。

而且，它既擅长通过超长推理能力，解决逻辑推理、代码和数学等复杂问题，也能兼顾文学创作等通用领域。或者按阶跃星辰自己的说法是「文理兼修」。

根据阶跃星辰公布的基准测试数据，Step R-mini 在 AIME 2024 和 Math500 这两个数学基准上均达到了 SOTA 水平，其中在 Math500 上更是比 o1-mini 还多 2 分。Step Reasoner mini 写代码的能力也很不错：在 LiveCodeBench 代码任务上超过了 o1-preview。

这一切是怎么做到的呢？从阶跃星辰相关人士了解到，新模型的「RL」含量很高，因此泛化性比较好。此外，他们还在数据质量、测试时计算、模型大小等多个方面进行了 scaling，再次验证了 Scaling Law 的有效性。

除了语言推理模型，他们也在打造能够进行多模态推理的视觉推理模型。而且相关人士强调说，这个多模态推理模型「是真的在视觉领域的推理」，即在图上进行推理，「而不仅仅是看着图却只在文字领域的推理」。

看来，阶跃星辰在自己的路线图上又往前迈了一步。

Step Reasoner mini 是如何炼成的？

根据阶跃星辰的介绍，Step R-mini 的设计与开发遵循了当前主流的推理模型开发范式。具体来说，它通过在推理阶段增加计算量，并结合思维链等技术，实现了「慢思考」。该系统能够根据任务的复杂性进行主动规划、尝试和反思，从而通过反复验证的逻辑机制，提供准确且可靠的反馈。

阶跃星辰表示，Step Reasoner mini 最大的亮点之一是实现了「文理兼修」。具体来说，Step Reasoner mini 除了能准确解答数学、代码、逻辑推理问题，还能富有创意地完成文学内容创作和日常聊天的任务。这一切是通过大规模的强化学习训练，并使用 On-Policy（同策略）强化学习算法来实现的。

此外，模型推理能力的提升也离不开阶跃星辰对 Scaling Law 原则的坚持。这包括以下几点：

Scaling 强化学习：从模仿学习到强化学习，从人类偏好到环境反馈，阶跃星辰坚持 Scaling 强化训练，以强化学习为模型迭代的核心训练阶段。
Scaling 数据质量：数据质量是重中之重。在确保数据质量的前提下，阶跃星辰持续扩大数据分布与规模，为强化学习训练提供坚实保障。
Scaling Test-Time Compute：坚定执行 Training-Time Scaling 的同时，亦兼顾 Test-Time Scaling。在测试阶段，阶跃星辰发现，System 2 范式能让 Step Reasoner mini 在极复杂任务推理上达到 50,000 规模的思考 token，进而实现深度思考。
Scaling 模型大小：这是最经典的 Scaling 方式。阶跃星辰表示，坚持模型大小 Scaling 仍然是 System-2 的核心，已经在开发更智能、更通用、综合能力更强的 Step Reasoner 推理模型。

一手实测效果如何？

既然 Step Reasoner mini 宣称「文理兼修」，我们首先就用一个文理融合的题目来考校它一番：《梦游天姥吟留别》中，一个数与其倍数在同一句的是哪一句？问题不难，但这既需要 AI 记得并理解古诗词，还需要它懂得基本的算术。虽然很多人认为答案应该是「天台四万八千丈，对此欲倒东南倾。」但是其实四万八千是一个单独的数，这一句中也没有其倍数，因此这句并不算。而 Step Reasoner mini 也在推理思考中确认了这一点，并最终找到了正确答案：「千岩万转路不定」。

下面来看一道 2024 年的高考数学题：

可以看到，Step Reasoner mini 进行了一番思考后得到了正确答案。同样可以看到，该模型在第一轮思考得到答案之后会再执行两轮思考，以验证答案的正确性。实测中我们发现，如果第一轮和第二轮的答案不一致，Step Reasoner mini 还会持续进行多轮思考，直到得到正确答案。

接下来上一道逻辑推理题：

可以看到，Step Reasoner mini 系统地整理了题目中几个人的关系，并将最终答案以非常清晰的形式呈现了出来。

单纯的「文科」任务呢？比如如果要求模型霸气地翻译「I'm not in danger,I'm the danger.」它会怎么处理？结果发现，Step Reasoner mini 经过多次尝试，最终找到了一个相当霸气的译法：「我非但无险，我就是那险途。」更有意思的是，它还在思考过程中引经据典，参考了《黑暗骑士》中的类似台词。

另外，我们知道，最近小红书涌入了大量外国网友，他们的一大需求便是起中文名。「文理兼修」的 Step Reasoner mini 能帮助他们吗？

可以看到，对于英语问题，Step Reasoner mini 能流畅地切换成英语思考模式，同时还能在其中穿插对汉语含义的思考。至于最终得到的名字「星莉」，感觉还是不错的。

彩蛋：视觉推理模型也在路上了

从今天公布的消息来看，除了语言推理模型，阶跃星辰还放出了一个小彩蛋：正在打造视觉推理模型，将推理能力融入更多交互形态的大模型中。

针对复杂视觉场景下的 Reasoning 问题，阶跃星辰引入了慢感知和空间推理的思想，把 Test-Time Scaling 从文本空间转移到视觉空间，实现在视觉空间下的 Spatial-Slow-Thinking。

效果如何？看展示：

1. 解答图中的题目

2. 从蓝色箭头出发，我能到达哪个？

3. 这些小球分别对应什么数字？

对视觉推理模型，期待住了有没有？

#能看AI推理过程的端到端自动驾驶

理想在走一条前所未有的路

城市、高速一体化，从车位到车位的全程自动。

最近一段时间，随着新车型和新技术的发布，智能驾驶再次成为人们热议的话题。

有的车企想要做减法，在发布活动上表示「十个人有没有一个人用辅助驾驶」，也有车企表示「新能源下半场一定是智能化与网联化的，新形态的智能驾驶将会彻底改变人们出行的体验。」

问题的核心在于「实用性」：全球范围内，智能驾驶的架构和形态经历了一轮又一轮迭代更新，从最早的高速领航辅助驾驶，到城市 NOA，再到覆盖全域的智能驾驶。支撑智能驾驶的输入端也经历了变革，从有图到无图，再到是否要做纯视觉的方向之争。新概念层出不穷，然而在很多人看来，智能驾驶这一路走来，似乎发展的速度在逐渐落后于我们的预期。

2024 年 12 月底，这场大讨论进入了高潮。1 月 16 日，理想的 OTA7.0 正式版开启了全量车主推送。随着 OTA7.0 的全量推送，理想宣布，其 OneModel 端到端 + VLM 智驾系统已经实现了「全场景端到端」能力。

与之同时上线的还有行业首创的 AI 推理可视化能力，它首次将自动驾驶过程中 AI 模型思考推理的过程可视化展现出来，让我们第一次看到了 AI 的思考和执行过程，因此也可以更加放心。同时，理想也成为了国内唯一、全球第二家将端到端技术应用到城市、高速及环路 NOA 场景的车企。

理想表示，自 OTA 5.0 采用 BEV 架构并推出城市 NOA 后，理想内部对 AD Max 启用独立版本号进行管理。过去的一年里，其共完成 12 次 AD Max 的重大更新。

为了让用户更好地感知智能驾驶迭代，随着 OTA7.0 升级，AD Max 的内部智能驾驶版本号将向用户展示，智能驾驶版本升级为 AD Max V13.0。

从车位到车位，覆盖全场景

AI 推理还能可视化

理想的 OneModel 端到端智驾号称拥有极强的覆盖和适应能力，风格更加拟人化，驾驶习惯也更丝滑，它还支持全国的新开通高速、长隧道、城市 / 高速切换点等道路的行驶，可以在大部分路段无降级不断点地智驾通行。

我们使用一辆理想 L7 Ultra 对最新的智驾版本进行了测试。

据更新说明介绍，我们测试的智能驾驶 OTA 版本是在 800 万 clips（视频片段）基础上迭代的，增加了导航变道的数据配比。

首先吸引眼球的是中控屏上，理想在业内首创的「AI 推理可视化」。它打开了 AI 模型的黑箱，对端到端 + VLM 模型系统的思考过程进行了直接的展示，包括从物理世界输入到决策结果输出的整个过程，并在中控屏或副驾屏上实时显示出来。

可以看到，这个可视化界面分为三个区域：

E2E（端到端模型）—— 其中显示自车、其他车辆、道路车道线、轨迹线预测等信息。蓝色轨迹线代表模型计算过程中判定的正确轨迹，灰色轨迹线则代表模型计算过程中判定的偏移轨迹。轨迹线计算共展示 10 个窗口，代表一种模型输出结果，最终 AI 会选择一条老司机认为最正确的轨迹来执行操作。
第二个部分是 Attention（注意力系统）—— 其中显示系统对实时视频流中的交通参与者行为和环境路况进行评估，分析其类型、位置、速度、角度等属性，并辅助端到端模型计算出最佳的行驶轨迹。其中会以热力图形式展示注意力系统的工作状态，其中颜色更暖（偏红）的区域代表对智能驾驶决策影响更大的区域。
第三个部分则是 VLM（视觉语言模型）—— 它展示了视觉语言模型的感知、推理和决策过程，像我们常见的大模型应用一样将车载摄像头看到的交通情况用文字的形式加以解释。当识别到有对智能驾驶决策有影响的环境路况和交通规则变化时，VLM 能够及时感知信息，并做出合理的推理决策。

据理想介绍说，对于端到端系统来说过于复杂的场景，会交由 VLM 进行决策，比如丁字路口、公交车道限行、施工路段、避让旁边的大车等等。这样的配置为智能驾驶加了一道保险。通过 VLM 的识别，理想也实现了行业唯一的全国任意高速收费站 ETC 闸机自主通行，再加上城市与高速一体化的架构，真正做到了全场景 100% 智能驾驶。

更重要的是，现在你能看到 AI 是如何做出决策的。第一次打开智能驾驶还会有些紧张，过不了一会儿悬着的心就放了下来，人与车之间的疏离感也减少了。

在北京城区内行驶了一个上午，我们可以明显地感受到，端到端智能驾驶系统与过去的智能驾驶相比体验截然不同。它的工作区域覆盖面更广，也更聪明。在通过匝道等大曲率弯道时，AI 的操作已经足够稳定。

智能驾驶系统在碰到前方慢车可以更早地变道，遇到大货车也会向另一侧稍微躲避，遇到加塞情况刹车也更加从容。

此前，理想的城市智能驾驶（6.0 版本及以前）是基于 BEV+OCC 和 Transformer 的业内主流方案。在这样的技术体系之上，很多车企开启了部分城市的无图 NOA，但这种智能驾驶的效果仍称不上完美。

新版本的端到端辅助驾驶则带来了巨大的提升。它保留了激光雷达的数据输入，保证了安全性的下限。另外，它不仅模型是端到端的，实现的驾驶体验也是「端到端」的 —— 解决了智能驾驶的最先和最后 100 米问题，能做到从家中车位到目的地车位的全程智能驾驶，顺利通过停车场闸机、红绿灯，合理避让横穿马路的行人、电动车，或是与其他车辆并线博弈。

理想表示，未来两年，当训练数据量达到 2000 万 Clips 时，MPI（每次干预行驶的里程数）有望达到 500 公里。

当然，目前的智能驾驶还是可能会碰到一些无法处理的情况，但在试了试端到端智能驾驶之后，我们至少可以肯定地说，真的不一样。随着这套技术的发展，或许用不了多久它就可以真正做到对老司机的一比一复刻。

端到端 + VLM 大模型

实现降维打击

为什么说端到端的智能驾驶打出了代差？这就要从最近 AI 领域的大模型革命开始说起。

自 2022 年底开始，生成式 AI 席卷了整个科技领域，越来越多的行业开始引入大模型。在自动驾驶领域，人们开始探索视觉语言模型与世界模型等技术，端到端（End-to-End）的智能驾驶成为了新兴的研究方向。

端到端的智能驾驶是指把车辆从摄像头、雷达、激光雷达等传感器获得的数据作为输入，利用单个 AI 模型直接生成控制汽车指令的方法。2023 年 6 月，全球 AI 顶级学术会议 CVPR 2023 的最佳论文颁给了 UniAD 框架，它是业界首个感知决策一体化的自动驾驶通用大模型，打开了以全局任务为目标的自动驾驶架构方向。

在端到端的智驾系统中，大模型通过学习人类司机操作的视频片段，根据人类决策理解画面信息和决策之间的关系，再不断进行实践和调整，比起以往的模块化辅助驾驶，更像人类的学习过程。和 ChatGPT 一样，智能驾驶模型可以在面对前所未见的场景时实现「举一反三」，很大程度上摆脱了对人类编写规则的依赖。

最近一年多时间以来，国内外一众新势力都在频繁提及端到端的概念，认为这将是智能驾驶的技术终局。正如机器人公司正在热捧的「具身智能」，端到端的智能驾驶是给高智商 AI 赋予汽车的躯体，让它在物理世界中行动自如的方法，一旦实用化，显然会是降维打击。

2024 年 1 月，特斯拉率先在 FSD v12 版本上实现了端到端智能驾驶的落地，新系统据称只用了几个月的训练时间就击败了之前数年时间积累的 v11 版。

理想成为了紧随其后的第二家，2024 年 7 月，向外界公布了理想 AD 的全新技术方案，并已于 10 月底全量上线。据介绍，理想的双系统基于 E2E+VLM 大模型，是从诺贝尔奖得主丹尼尔・卡尼曼《思考，快与慢》中得到的启示。

基于系统 1 和系统 2 的理论，理想提出了一个全新的自动驾驶架构：使用端到端模型实现类似本能的快思考，保证大多数场景的高效；利用速度偏慢但思考能力上限更高的 AI 模型（DriveVLM）实现少数复杂场景下的处理能力。这样就可以让智能驾驶系统「更像人」。

简而言之，其中的系统 1 是真正意义上的端到端模型，输入是传感器收集到的数据，输出是车的行驶轨迹，全部由一个模型来实现，中间没有任何手工的规则。端到端大幅度提升了安全、舒适和效率，具备更拟人化的驾驶方式。

它具有一系列优势：

首先是高效的信息传递，此前的智能驾驶架构经常包含很多规则，限制了整体的上限。在一体化的模型中，所有信息都在模型内部传递，具有更高的上限，给人们的感受就是更加拟人了。
第二是高效计算，单一模型在 GPU 内加载可以一次性完成推理，降低了系统的延迟，体感就是「手和眼」更加协调一致了。
第三是技术的迭代速度也变得更快了。由于是一体化的 AI 模型，可以实现完全的数据驱动，可以很轻松地做到周级的迭代。

我们可以在实践中观察到，端到端的智能驾驶系统具有不错的未知物体理解能力，可以识别出倒在地上的桩桶、树枝等训练数据中没有的物体并进行规避。它也具备超越视距的导航与道路结构理解，可以在没有任何先验的情况下应对西直门这样的复杂立交桥。在一些复杂的路况，例如有车辆违停在右侧道路上，又有电动车行驶在行车道上的情况下，端到端模型也可以展示拟人的规划能力，寻找到一条较为高效的路线。

就像 OpenAI 的 o3 大模型一样，这种智能不是人工设计出来，而是 AI 自己学会的。

端到端大模型可以解决智能驾驶过程中 95% 的场景，剩下 5% 的情况就要交由「系统 2」来进行理解和判断。在理想的智能驾驶系统中，系统 2 是由 VLM（视觉语言模型）来实现的。它可以把对于环境的理解、驾驶决策的建议甚至参考轨迹递交给系统 1 来帮助辅助驾驶策略。

比如在遇到坑洼的路面，VLM 会指挥车辆降低速度；如果发现实际路线和规划导航不一致，它可以自己重新规划路线；此外，它还能准确地识别限时公交车道、潮汐车道是否可以通行。

这就好像是在副驾驶的位置上有一个教练在实时监督驾驶行为，主动提供建议。

有了成套的方法，接下来还需要验证整个系统的可行性。理想采用了 3D 环境重建加世界模型的方式，结合了多种方法的优点，生成的环境在多个视角上可用，又可以生成更多符合真实世界规律的未见场景，提升了智能驾驶的泛化性。

跑通流程以后，理想继续改进了 AI 的训练方法。端到端的学习目标是行驶轨迹，并不像感知任务只需要给出是或否的判断。在日常生活中，即使是同一个司机也可能作出不同的行驶策略，这可能会导致 AI 学习出一些诡异的驾驶行为。因此，理想在训练过程中加入了强化学习，通过奖励函数的设置学习出策略正确的模型。

再往下是部署和优化。VLM 在端侧部署时，工程师们面临着推理时延的挑战。通过从量化到张量算子融合等大量优化技术，理想把 VLM 推理时延从 4.1 秒缩减到了 0.3 秒，业界首次在 Orin-X 硬件上部署了大模型，真正实现了视觉模型在智能驾驶上的实用化。

正是这样一套系统，做到了全场景的端到端与可视化，也成为了国内首个车端部署大模型的自动驾驶系统。

理想表示，基于北美实际对比体验，理想端到端的 NOA 驾驶体验，已比肩特斯拉北美 FSD 最新版本 V13.2 水平。

现在的理想

是一家人工智能企业

端到端智能驾驶的突破，是一个从量变到质变的过程。

作为销量靠前的新能源玩家，理想在国内拥有超百万规模的自动驾驶车队，在过去几年积累了超过数百亿公里的行驶里程。理想从所有车主数据中筛选出优质数据，建立了一套「老司机」的评价标准。老司机既要具备好的驾驶技能，也要有好的驾驶习惯。只有不到 3% 的车主通过了考核。

理想在 2024 年年初拥有了 5EFLOPS 的算力，再加上智能驾驶团队此前在端到端模型上的预研成果，做到了天时地利人和。2024 年 1 月 1 日 - 12 月 31 日，理想智能驾驶累计用户已超百万人，智能驾驶总里程达 17.2 亿公里。截至去年年底，算力也已提升至 8.1EFLOPS。

再往高一层看，智能驾驶水平进入世界第一梯队的理想，正被全新的使命驱动着。

此前，理想创始人、CEO 兼董事长李想畅谈了公司的未来发展方向。他认为电动化是上半场，智能化是下半场，理想汽车未来一定会持续发力 AI，最终通过理想汽车的载体来实现 AGI（通用人工智能）。

理想把自己定义为一个人工智能企业，目标是把人工智能进行汽车化，并推动 AI 普惠到每一个家庭。最近一年理想的 100 亿研发投入，近一半投在了 AI 上，它自研了基座模型、端到端加 VLM 的自动驾驶系统，从最开始的论文、技术研发到产品的交付，不断引领着业界风向。

可以说，端到端的智能驾驶，是理想长期坚持核心技术自研的必然体现。

值得一提的是，李想给 AI 的未来定义了三个阶段：

第一阶段——成为人类能力的延伸和增强，提升工作效率（L3 阶段），有望在 2025 年实现。在此阶段我们还需要在行驶过程中对 AI 进行监督。
第二阶段——成为人类的助手（L4 阶段），能够 100% 自动驾驶并承担相应责任，有望在三年内实现。这会推动新技术的大规模应用。
第三阶段——硅基家人，AI 智能体可以自主地工作，帮助人们管理好家庭中的各种事物，人类的记忆也可以在 AI 上得到延续。

为此，理想希望从两个方向入手，一面是端到端智能驾驶，另一面是理想同学 App。后者已于 2024 年底全量上线。

在李想看来，理想同学和自动驾驶，将来有一天还会融合在一起：「我们认为，基座模型到一定时刻一定会变成 VLA（Vision Language Action Model），因为语言模型也要通过语言和认知去理解三维世界。而自动驾驶在走向 L4 时必须要有极强的认知能力。当技术形态发生变化，它才能够有效地理解这个世界。」

通往 AGI 的路，理想已经开了个好头。

#StarGen

生成越长越跑偏？浙大商汤新作StarGen让场景视频生成告别「短片魔咒」

本文介绍了一篇由浙江大学章国锋教授和商汤科技研究团队联合撰写的论文《StarGen: A Spatiotemporal Autoregression Framework with Video Diffusion Model for Scalable and Controllable Scene Generation》。

针对复杂场景的长距离场景生成的时空一致性问题，该研究团队创新提出了一种解决方案 StarGen，其核心创新在于通过引入空间与时间双重条件机制，将稀疏视图的 3D 几何信息与视频扩散模型有机结合，缓解误差累积。

StarGen 实现了多视一致的长视频生成，并且能够支持稀疏视图插值、图生视频以及布局驱动场景生成等多样化任务。实验结果表明，StarGen 在生成质量、一致性保持和场景扩展能力等方面均显著优于现有方法。

论文标题：StarGen: A Spatiotemporal Autoregression Framework with Video Diffusion Model for Scalable and Controllable Scene Generation
论文地址：https://arxiv.org/pdf/2501.05763
项目主页：https://zju3dv.github.io/StarGen/

背景

近年来，随着大规模模型的快速发展，3D 重建与生成技术取得了显著进展，并逐渐呈现出互补融合的趋势。在重建领域，基于大规模重建模型的方法显著降低了对密集多视角数据采集的依赖，同时生成模型被有效应用于稀疏输入视角下不可见区域的补全任务。

在生成领域，3D 重建技术为 2D 生成模型向 3D 生成任务的迁移提供了重要支撑，具体表现为两种技术路径：其一是通过将 2D 概率分布蒸馏为 3D 表示，其二是基于 2D 生成图像重建 3D 表示。

然而，这些大规模重建与生成模型面临一个关键性挑战：在有限计算资源约束下，单次推理过程仅能处理有限数量的 Token。

尽管现有一些研究提出了时间自回归方法，通过将当前视频片段的初始帧与前一生成片段的末尾帧进行条件关联以实现长视频生成，但这类方法仅能在较短时间跨度内维持时序一致性。随着生成过程的推进，误差累积问题将导致空间一致性难以有效保持。

#Scaling Laws

大模型量化训练极限在哪？腾讯混元提出低比特浮点数训练Scaling Laws

大模型低精度训练和推理是大模型领域中的重要研究方向，旨在通过降低模型精度来减少计算和存储成本，同时保持模型的性能。因为在大模型研发成本降低上的巨大价值而受到行业广泛关注。近期，业界对低精度训练和推理的广泛关注与讨论。在实际的研发过程中，特别是模型训练方面，经验表明浮点数量化方案相比整数量化方案对模型效果造成的损失更小，所以浮点数常常被用作量化训练的类型。这就引出了一些问题：整数类型量化训练的经验能否直接应用到浮点数类型的量化训练任务中？如果不能，浮点数类型又会有怎样的结论？量化训练到底有没有极限？

大模型社区亟需一个更加适合实际浮点数量化训练的 Scaling Laws，指导大模型量化的实际选择和未来探索方向。为了回答这些问题，腾讯混元团队进行了 366 组不同参数规模和精度的浮点数量化训练，对浮点数量化训练进行详细分析后提出了浮点数量化的 Scaling Laws。

论文标题：《Scaling Laws for Floating–Point Quantization Training》
论文链接：https://huggingface.co/papers/2501.02423

引言

大模型（Large Language Model, LLM）如今已经融入到我们生产生活的各个层面。大模型的参数规模不断增大，调用量也持续升高，这使得大模型的训练和推理成本成为 LLM 社区极为关注的重要问题。低比特量化技术能够在一定程度上降低大模型训练和推理的成本。鉴于此，这一技术在主流大模型的训练和推理过程中得到了广泛应用。前沿研究工作对 8 比特、4 比特甚至更低比特的量化策略进行了尝试，并对这些策略予以验证。

近期，论文《Scaling Laws for Precision》深入探讨了整数类型量化策略下的精度对模型 loss 的影响，不过仅在附录中简略提及了浮点数类型量化策略的表现，并未深入探究。然而，在实际的生产过程中，特别是模型训练方面，经验表明浮点数量化（floating–point quantization）方案相比整数量化方案对模型效果造成的损失更小，所以浮点数更常被用于超低精度量化训练。

腾讯混元团队的新工作《Scaling Laws for Floating–Point Quantization Training》系统全面地研究了浮点数量化训练的 Scaling Laws，填补了这一领域的空白。具体地，他们在大模型 Scaling Law 的经典要素：模型大小（简称 N）和训练数据量（简称 D）之外，联合考虑浮点数量化训练中重要的量化目标，指数位（Exponent，简称 E），尾数位（Mantissa，简称 M），以及量化时放缩因子共享粒度（Block-size，简称 B）对于大模型训练损失的影响。他们进行了 366 组不同参数规模和精度设置的浮点数量化训练，得出最终的浮点数量化的统一 Scaling Law 形式如下：

并且依据这一 Scaling Law 深入分析与推导之后，能够得出如下一些重要结论：

在任意低精度大模型浮点数量化训练中，都存在一个模型极限效果及对应的最佳数据量。超过此最佳数据量时继续增加数据，反而会对模型效果产生负面影响；
限定计算资源下，在一个非常大的算力范围内，理论预测的最佳性价比的浮点数量化训练精度落在 4-8 比特之间；
在实际工作中，借助我们的 Scaling Laws 及其推论，同时结合计算资源
，可以明确得出不同计算资源下具有最佳性价比的浮点数量化训练精度设置、模型参数量以及训练数据量的配置策略。

最佳的浮点数

与整数类型只有符号位（Signal，简称 S）和整数位相比，参考 IEEE 754 标准，浮点数显得复杂许多。它由符号位、指数位（Exponent，简称 E）和尾数位（Mantissa，简称 M）共同作用决定最终取值。

通过大量实验与理论分析，腾讯混元团队推导出了指数位和尾数位对最终模型效果之间的定量关系：

同时还得出给定精度（Precision，简称 P）P=1+E+M 情况下，指数位与尾数位的最佳配比规律需满足：

未来硬件制造商也可以参考此结论，提供在不同精度下的浮点运算能力支持：

精细量化

量化过程中，为了减少精度损失会对需量化 Tensor 进行放缩（Scaling）。同时，为节省放缩因子（Scaling Factor）的存储空间，通常会让 Tensor 中的若干元素共享一个放缩因子。显然，放缩因子共享粒度越大，其存储空间越小，但由此带来的量化损失也会越大。混元团队定量地研究了放缩因子共享粒度（Block-size，简称 B）对模型效果的影响，发现训练时的验证损失（Validate Loss）与 B 的对数成正比例关系：

。

Scaling Law

在综合了所有浮点数量化训练中影响模型效果的因素（如参数量 N，数据量 D，指数位 E，尾数位 M 和量化粒度 B）后，混元团队最终得出了浮点数量化训练的 Scaling Law：

前三项基于经典的 Chinchilla Scaling Law 的形式，第四项可以看做浮点数量化对于模型的额外损失。有意思的是，

可以被看作某种形式的 “知识密度”，而 E, M 和 B 的联合项可以被看作某种形式的精度表示。直观地分析，大模型过低精度下无法承载过高的知识密度，导致了额外损失。另外值得注意的是，我们 Scaling Law 中 N 和 D 的指数参数 α 和 β，在第一项 / 第二项 / 第四项都是完全相同的，形式更加统一。

为了判断最终统一形式的泛化能力，腾讯混元团队在小模型（41M - 679M）上拟合估算出 n, d, α, β, γ, δ, ν 以及 ϵ 等参数的取值后：

在更大的模型（1.2B）上也验证了不同量化配置下的预测效果。

无法跨越的效果屏障

在上面 Scaling Law 公式里，第二项和第四项关于数据量（D）的部分构成一个有最值的函数，即存在一个关于 D 的 loss 最低点，这个最值点在：

注意此时这里并没有给 Scaling Law 添加任何限制条件，这意味着当训练某个模型时，每个精度都存在一个对应的极限效果，无论使用多少数据都无法超越。并且当使用的数据量超过 Dcrit 时，继续增加数据反而对模型效果是有害的。

从公式中，我们发现，模型越小，精度越低，那么这个极限数据量就会越早到来，增加数据导致模型效果变差越明显。因此，越小的模型越需要越大的精度才能保证给定数据的有效训练。

这一随着训练进行损失不降反升的现象，也得到了混元团队的真实训练结果支持。但是，经过计算当采用 BF16 训练 1B 参数量模型时，会发现这一极限数据量高达 1730T，这可能也是之前没有人发现这一现象的原因。然而，随着精度降低，比如采用 FP8-E4M3 时这一数值降低至 27T，而使用 FP4-E2M1 时则只有 0.4T。

限定资源下的最优解

于是可以得知，即使在无限资源下，由于效果屏障存在的原因，训练模型时使用的数据量也不应该超过 Dcrit。那么在限定资源下，通过求解方程组：

可以得出一个符合经典幂律关系（Power-law）的最佳性价比精度配方：

根据实验结果推算，在一个非常大的算力范围内，理论预测的最佳性价比落在 4-8 比特之间。

精度与参数量的汇率

在资源受限的情况下，尽管我们已知在最佳性价比时精度应如何选取，然而参数量 N 与数据量 D 究竟该如何搭配这一问题依旧尚未得到解决。通过对方程组：

进行求解能够发现，在限定资源的情况下，若要保持性价比，精度 P 和参数量 N 之间存在着一个类似于 “汇率” 的关系：

所以，在实际工作当中，可以借助 “精度 —— 参数量的汇率”，并且结合，进一步明确在最佳性价比下的精度 P、参数量 N 以及数据量 D 的配置策略。

这项研究为大模型训练中的浮点数量化提供了重要的理论指导。其价值不仅在于明确了在给定资源和精度下的最优参数配置策略，帮助提高训练效率和降低成本，而且对于推动大模型在实际应用中的更广泛部署具有关键意义。通过揭示浮点数量化训练的极限和规律，为硬件制造商优化浮点运算能力提供了依据，也为研究人员在大模型的优化和创新方面开辟了新的思路和方向。