「一周热门」将从【企业动态】【技术前瞻】【政策法规】【专家观点】四部分,带你快速跟进大模型行业热门动态。
企业动态
OpenAI 回击马斯克:为了自己的竞争优势,他不断骚扰我们
日前,OpenAI 指控马斯克在一场法律诉讼中对其进行骚扰。在放弃对 OpenAI 的第一起诉讼不到两个月后,马斯克于 8 月再次提起诉讼,声称 OpenAI 联合创始人 Sam Altman 和 Greg Brockman 操纵他投资,而 OpenAI 在成立之初是一家非营利性公司,随后他们又通过榨干公司宝贵的技术和资产而中饱私囊。
OpenAI 在一份法庭文件中表示:“这起诉讼是马斯克为了自己的竞争优势而骚扰 OpenAI 的日益虚张声势的最新举动,”并要求奥克兰联邦法官驳回马斯克的起诉。
“OpenAI 致力于安全且有益地开发通用人工智能(AGI),”OpenAI 在文件中表示,“马斯克曾支持 OpenAI 的这一使命,但当他试图主导 OpenAI 时失败了,于是他放弃了这项事业。”
OpenAI 计划重组为一家公共利益公司,以防止恶意收购
OpenAI 正在考虑重组为一家公共利益(Public Benefit)公司,以防止恶意收购,并保护 Sam Altman 免受外界干扰。
作为拟议重组的一部分,OpenAI 将保留一个非营利组织,该组织将是独立的,并持有公共利益公司的股份。这个非营利组织将有权使用研究和技术,但只能专注于追求 OpenAI 造福人类的使命。
据知情人士称,这个非营利组织可能会由不同于 Altman 的高管来运营,Altman 将领导公共利益公司,并专注于技术开发、产品构建以及“实现商业成功所需的一切”。
Anthropic 提出 Message Batches API
Anthropic 提出了一种强大、经济高效的异步处理大量查询的方法——Message Batches API。开发人员每批可发送多达 10000 次查询。每个批次的处理时间不超过 24 小时,成本比标准 API 调用低 50%。这使得非时间敏感任务的处理更高效、更具成本效益。这一 API 为大规模数据处理带来了新的可能性,利用他们的批处理折扣,分析整个企业文档库(可能涉及数百万个文件)变得更加经济可行。
AMD 推出全新 AI 芯片,与英伟达 Blackwell 竞争
AMD 发布了一款新的人工智能芯片,其目标直指英伟达的 Blackwell。在过去几年中,英伟达占据着数据中心 GPU 市场的绝大部分份额,AMD 一直处于第二位。现在,AMD 的目标是从这一竞争对手手中抢夺份额,或者至少在这个市场上占据一大块份额。AMD 称,到 2028 年,这个市场的价值将达到 5000 亿美元。
Inflection AI 和 Intel 推出企业级 AI 系统
日前,Inflection AI 和 Intel 宣布开展合作,以加速人工智能在企业和开发人员中的应用和影响。Inflection AI 将推出 Inflection for Enterprise,这是业界首创的企业级人工智能系统,由 Intel® Gaudi® 和 Intel® Tiber™ AI Cloud 提供支持,可提供对话、员工友好的人工智能功能,并提供复杂、大规模部署所需的控制、定制和可扩展性。
Adobe 推出新工具,保护艺术家的作品免受 AI 影响
Adobe 正在扩展其内容证书“nutrition labels”,使创作者更容易获得其作品的认证,识别哪些是人工智能在线内容,哪些不是,并在这一过程中保护他们的内容。他们将推出一款免费的网络应用程序,允许用户将创作者信息快速应用到图片、视频和音频中,甚至将其从生成式人工智能模型中选出来。
联发科发布 3nm Dimensity 9400 移动 SoC,将 LLM 提示性能提升 80%
联发科正式发布了其新旗舰移动芯片组 Dimensity 9400。9400 采用 3nm 工艺制造,比上一代产品 9300 节能 40%。它由一个主频为 3.62GHz 的 Arm Cortex-X925 内核、三个 Arm Cortex-X4 内核和四个 Cortex-A720 内核组成。联发科表示,与 9300 相比,这一组合使单核性能提高了 35%,多核性能提高了 28%。该芯片组还包括 Arm 的全新 12 核 Immortalis-G925 GPU,光线追踪速度提高了 40%。
vivo 发布全新蓝心大模型矩阵
据财联社报道,vivo 日前发布了千亿级蓝心语言大模型,蓝心端侧大模型 3B,并带来自研的语音大模型、图像大模型以及多模态大模型。其中,蓝心语音大模型支持超拟人方言对话、中英日韩泰同声传译,以及超过 15 种语言互译。
金山办公:WPS AI 伴写功能上新,只需 0.5 秒就能理解并续写内容
据《科创板日报》报道,金山办公宣布基于 AI 智能体 的 WPS AI 伴写功能上新,为用户带来更可控、更易上手且专业可靠的辅助写作体验。据介绍,更新后的 WPS AI 伴写支持添加包括云文档、网页等参考资料,用户完成标题后只需 0.5 秒就能理解用户意图并续写内容,当 AI 生成涉及统计数据、名人名言、法律法规等事实性内容,用户采纳后还能以批注的方式链接引用来源,提升文档撰写的效率与准确性。
英特尔发布首款 AI PC 台式机处理器酷睿 Ultra 200S
据财联社报道,英特尔日前正式发布了英特尔酷睿 Ultra 200S 系列处理器家族,将 AI PC 功能扩展至台式机平台。该处理器家族包括英特尔酷睿 Ultra 9 285K 处理器等 5 款未锁频台式机处理器,拥有最多 8 个下一代高性能内核,以及最多 16 个下一代高效内核。与上一代相比,单线程速度提升了 6%,多线程速度提升了 14%。
在 AI 芯片领域苦苦挣扎,三星电子道歉
三星电子日前称,其第三季度利润将低于市场预期,并为令人失望的业绩表现道歉,这家科技巨头在向英伟达供应高端芯片方面落后于竞争对手。这份罕见的道歉说明了该公司面临的挑战,三十年来,三星一直是全球最大的存储芯片制造商,但在传统芯片和先进芯片领域正面临着日益激烈的竞争。
Uber 将推出由 GPT-4o 驱动的人工智能助手
Uber 正在继续推动将更多电动汽车引入该打车和送车平台,并认为给司机提供一个聊天机器人来回答他们所有的电动汽车问题将有所帮助。从 2025 年初开始,Uber 将在美国为司机推出一款由 GPT-4o 驱动的人工智能助手。据 Uber 发言人称,在推出之初,该助手将只回答有关电动汽车的问题,如在哪里充电或购买哪款电动汽车,但未来有可能整合到其他用例中。
技术前瞻
OpenAI 提出 AI 智能体评估基准 MLE-bench
OpenAI 提出了 MLE-bench,它是衡量 AI 智能体在机器学习工程方面表现的基准。他们从 Kaggle 搜集了 75 个与机器学习工程相关的竞赛,创建了一系列具有挑战性的任务,以测试现实世界中的机器学习工程技能,如训练模型、准备数据集和运行实验。他们利用 Kaggle 公开的排行榜为每项比赛建立人类基准。他们使用开源智能体 scaffolds 在基准上评估了几种前沿语言模型,发现带有 AIDE scaffolds 的 o1-preview 在 16.9% 的比赛中至少达到了 Kaggle 铜牌的水平。
苹果提出“对比本地化语言图像预训练”
对比语言-图像预训练(CLIP)一直是训练视觉编码器生成图像/文本表征的主流方法,为各种应用提供了便利。最近,CLIP 被广泛采用为多模态大语言模型(MLLM)的视觉骨干,用于连接图像输入以进行语言交互。CLIP 作为视觉语言基础模型的成功依赖于在图像层面对齐网络抓取的嘈杂文本注释。然而,对于需要细粒度视觉表征的下游任务来说,这样的标准可能并不够,尤其是当区域级理解对 MLLM 有很高要求时。
在这项工作中,苹果团队通过几项进展提高了 CLIP 的定位能力。他们提出了一种预训练方法,称为“对比本地化语言图像预训练”(CLOC),通过区域-文本对比损失和模块对 CLIP 进行补充。他们提出了一个新概念——可提示嵌入(promptable embeddings),其中编码器生成的图像嵌入很容易根据空间提示转换为区域表示。
为了支持大规模的预训练,他们设计了一个视觉丰富、空间定位的字幕框架,以有效地大规模生成区域文本伪标签。通过扩展到数十亿张有注释的图像,CLOC 可为图像区域识别和检索任务提供高质量的区域嵌入,并可直接替代 CLIP 来增强 MLLM,尤其是在引用和接地任务中。
北大团队提出用于高效视频生成建模的金字塔流匹配技术
在这项工作中,来自北京大学的研究团队及其合作者提出了一种统一的金字塔流匹配算法。它将原始去噪轨迹重新解释为一系列金字塔阶段,其中只有最后一个阶段以全分辨率运行,从而实现更高效的视频生成建模。通过精密设计,不同金字塔阶段的流程可以相互连接,以保持连续性。此外,他们还将自回归视频生成与时间金字塔相结合,以压缩全分辨率历史。整个框架可以端到端方式进行优化,只需一个统一的 Transformer(DiT)。
实验证明,他们的方法支持在 20.7k A100 GPU 训练小时内以 768p 分辨率和 24 FPS 生成高质量的 5 秒(最多 10 秒)视频。
谷歌提出“选择性注意力机制”
注意力上下文中不需要的元素会降低性能。谷歌研究院团队提出了“选择性注意力”(Selective Attention),这是对标准注意力机制的一种简单的无参数改变,可以减少对不需要元素的注意力。
在各种模型大小和上下文长度条件下,选择性注意力都能提高语言建模性能。例如,在具有选择性注意力的 C4 上以语言建模为目标进行训练的一系列 transformers,其性能与标准 transformer 相当,而标准 transformer 的注意力模块中的头和参数要多出约 2 倍。
选择性注意力还可以减小注意力上下文缓冲区的大小,从而显著降低推理过程中的内存和计算需求。例如,在 C4 上训练的参数为 100M 的 transformer,其上下文大小分别为 512、1024 和 2048,在验证困惑度相同的情况下,如果配备选择性注意力,其注意力模块所需的内存分别比不配备选择性注意力的 transformer 少 16 倍、25 倍和 47 倍。
微软、清华团队提出 Diff Transformer
Transformer 往往会将注意力过度分配到不相关的上下文中。在这项工作中,来自微软研究院和清华大学的研究团队提出了 Diff Transformer,它可以在消除噪音的同时放大对相关上下文的注意力。
具体来说,差分注意力机制将注意力分数计算为两个独立的 softmax 注意力图之间的差值。减法消除了噪音,促进了稀疏注意力模式的出现。语言建模的实验结果表明,Diff Transformer 在扩大模型规模和训练 token 的各种情况下都优于 Transformer。更有趣的是,它在实际应用中具有显著优势,如长上下文建模、关键信息检索、幻觉缓解、上下文学习和减少激活异常值。Diff Transformer 可以减少无关上下文的干扰,从而在问答(QA)和文本摘要中减轻幻觉。在上下文学习方面,Diff Transformer 不仅提高了准确性,而且对被认为是长期鲁棒性问题的顺序变异也更有鲁棒性。
研究结果表明,Diff Transformer 是推进大语言模型(LLM)的一种高效、有潜力的架构。
Google DeepMind 提出 RAG 推理 scaling laws
推理计算的扩展释放了长文本大语言模型(LLM)在各种环境中的潜力。对于知识密集型任务,增加的计算量通常被分配用于纳入更多外部知识。然而,如果不能有效利用这些知识,仅仅扩展上下文并不总能提高性能。
在这项工作中,Google DeepMind 团队研究了检索增强生成(RAG)的推理扩展,探索了除单纯增加知识量之外的其他策略。他们重点关注两种推理扩展策略:上下文学习和迭代提示。这些策略为扩展测试时间计算(例如,通过增加检索文档或生成步骤)提供了额外的灵活性,从而增强了 LLM 有效获取和利用上下文信息的能力。他们要解决两个关键问题:(1)在优化配置的情况下,RAG 的性能如何从推理计算的扩展中获益?(2)通过对 RAG 性能和推理参数之间的关系建模,能否预测给定预算下的最佳测试时间计算分配?
观察结果表明,在优化分配的情况下,推理计算量的增加会导致 RAG 性能的近乎线性提升,他们将这种关系描述为 RAG 的推理 scaling laws。在此基础上。他们进一步开发了计算分配模型,以估计不同推理配置下的 RAG 性能。该模型预测了各种计算约束条件下的最佳推理参数,这些参数与实验结果非常吻合。通过应用这些最佳配置,证明与标准 RAG 相比,在基准数据集上,长文本 LLM 的推理计算扩展可实现高达 58.9% 的增益。
Mistral AI 发布 Pixtral-12B 技术报告
Mistral AI 推出了 Pixtral-12B,这是一个 120 亿参数的多模态语言模型。经过训练,Pixtral-12B 既能理解自然图像,也能理解文档,在各种多模态基准测试中取得了领先的性能,超越了许多大模型。
与许多开源模型不同的是,Pixtral 也是同类产品中的先进文本模型,并且不会因为在多模态任务中表现出色而降低自然语言性能。Pixtral 使用从零开始训练的全新视觉编码器,可按自然分辨率和长宽比摄取图像。这样,用户就能灵活处理图像中使用的 token 数量。Pixtral 还能在 128K token 的长上下文窗口中处理任意数量的图像。
Pixtral 12B 的性能大大优于其他类似大小的开放模型(Llama-3.2 11B 和 Qwen-2-VL 7B)。它还优于 Llama-3.2 90B 等更大的开放模型,但体积却小了 7 倍。他们还贡献了一个开源基准——MM-MT-Bench,用于评估实际场景中的视觉语言模型,并为多模态 LLM 的标准化评估协议提供了详细的分析和代码。
Meta:多“重复”,更能提升 transformer 性能
Meta 团队用算法生成的数据集研究了 transformer 的性能与训练示例重复次数的函数关系。在最大公约数、模态乘法和矩阵特征值这三个数学问题上,他们证明了在训练步骤数量固定的情况下,用较小的重复示例集训练出来的模型优于用较大的单次使用示例集训练出来的模型。他们还证明了两组训练——重复使用一小部分随机示例子集,同时对训练集的其余部分进行正常采样——能带来更快的学习速度和更好的性能。这突出表明,重复的好处,可能超过数据多样性的好处。
Agent S:像人一样使用计算机的开放智能体框架
Simular Research 团队提出了 Agent S,一个通过图形用户界面(GUI)实现与计算机自主交互的开放智能体框架,旨在通过自动化复杂的多步骤任务来改变人机交互。
Agent S 旨在解决计算机任务自动化中的三个关键挑战:获取特定领域的知识、规划较长的任务周期以及处理动态的非统一界面。为此,Agent S 引入了经验增强型分层规划,从多层次的外部知识搜索和内部经验检索中学习,促进高效的任务规划和子任务执行。此外,它还采用了一种智能体-计算机接口(ACI),以多模态大语言模型(MLLM)为基础,更好地激发图形用户界面智能体的推理和控制能力。
在 OSWorld 基准测试中进行的评估表明,Agent S 的成功率比基准高出 9.37%(相对提高 83.6%),达到了 SOTA。此外,Agent S 还在新发布的 WindowsAgentArena 基准测试中展示了对不同操作系统的广泛通用性。
获取更多大模型论文:
https://oosdj1g7qa.feishu.cn/wiki/J3xiwtHpvizbglk8RISc5t1mnpg
政策法规
英国设立监管创新办公室,加快批准人工智能等新技术
英国正在成立一个新的监管创新办公室(RIO),以加快审批人工智能等新技术在医疗保健、太空和无人机领域的应用,努力促进经济增长。新的监管创新办公室将使企业更容易引进尖端技术。英国科技大臣 Peter Kyle 表示,RIO 旨在确保医生能够更早地诊断出疾病,让生物工程师能够创造出更清洁的燃料和抗虫害能力更强的作物,并确保未来能够使用无人机送货。
专家观点
诺贝尔物理奖授予 AI 领域,引发学术界争议
据《自然》报道,在瑞典皇家科学院揭晓今年诺贝尔物理学奖得主后不久,社交媒体上一片沸腾,数位物理学家表示,物理学奖得主的工作应该归于计算机科学,而非物理学。与此同时,也有许多物理学家表示支持,他们认为神经网络先驱者的研究跨学科,将物理学、数学、计算机科学和神经科学结合在了一起,尽管不是最纯粹意义上的理论物理学,但植根于物理学的技术和概念。2021 年诺贝尔物理学奖得主 Giorgio Parisi 也表示:“我认为诺贝尔物理学奖应该继续扩展到更多的物理知识领域,物理学正变得越来越广泛,它包含了许多过去不存在的知识领域,或者不属于物理学的一部分。”
Percy Liang 等 10 名科学家 Science 发文:开源大模型被「误解」了
斯坦福大学基础模型研究中心主任 Percy Liang、研究员 Rishi Bommasani 等 10 位高校学者,在权威科学期刊 Science 上刊文,详细探讨了开源模型的“三个”优势、“六个”风险和“三个”潜在不利影响。
他们认为,没有实证证据表明,开源软件比闭源软件更容易受到攻击或不安全;闭源基础模型可能增大开发者手中的权力,而这种权力集中对数字技术市场的风险是公认的,应当受到更严密的审视;总体而言,开源基础模型更加可定制,并提供更深的访问权限,这些是促进更大创新的关键要素。
他们也提到,不同的政策建议可能会对创新生态系统产生不均衡的影响,并呼吁世界各国制定更明确且有效的政策,平衡开源与闭源基础模型的发展,从而促进创新的同时有效管理其潜在的社会风险。
富士康董事长:AI 投资热潮“仍将持续”
日前,富士康首席执行官兼董事长刘扬伟表示,人工智能热潮“仍将持续”,因为OpenAI等公司推出的高级语言模型随着每一次新的迭代都在变得越来越智能。他说,当今科技行业的总体趋势是,人工智能的形式将与人类一样智能,甚至比人类更智能。这种类型的人工智能在业内被称为通用人工智能(AGI)。Sam Altman 此前曾表示,AGI将在“相当接近的未来”得到发展,但他也表示,AGI“对工作的改变将比我们想象的要小得多”。
中信证券:期待端侧 AI 成为拉动半导体产业继续上行的新增长点
据财联社报道,中信证券研报认为,过去一年在云端算力和存储涨价拉动下半导体周期整体显著修复,目前处于温和复苏状态。展望 2025 年,全球半导体产业规模有望持续成长,云端算力高景气有望持续,同时期待端侧AI成为拉动半导体产业继续上行的新增长点。国内半导体产业作为科技新质生产力的底层基座,受益政策支持、周期反转、增量创新、国产替代多方面利好带动,并在端侧 AI 领域参与度更高,有望在下一阶段迎来更好的表现。
其他
温网取消 147 年司线裁判,明年起采用 AI
温布尔登网球赛将用电子叫线取代线路裁判,这是这项历史最悠久的大满贯网球赛事向现代化迈出的最新一步。全英俱乐部周三宣布,从 2025 年起,温布尔登网球赛将使用 AI 技术发出“出局”和“失误”的判罚,不再需要人工裁判。此举使法国网球公开赛成为唯一没有某种形式的电子裁判的大满贯赛事。
在急诊护理方面,ChatGPT 开出的处方过多
加州大学旧金山分校的一项新研究发现,如果把 ChatGPT 放到急诊室,它可能会建议一些病人接受不需要的 X 光检查和抗生素治疗,让另一些不需要住院治疗的病人入院。研究人员表示,虽然 ChatGPT 可以通过一些方法促使模型做出更准确的反应,但它仍然无法与人类医生的临床判断相媲美。ChatGPT 可以回答体检问题,帮助起草临床笔记,但它目前还不是为需要多方面考虑的情况而设计的,比如急诊科的情况。
AI 工具能否彻底改变公共卫生?取决于开发和部署的方式
人工智能的支持者设想,人工智能将帮助管理医疗供应链、监控疾病爆发、做出诊断、解读医学影像,甚至通过弥补医护人员的不足来缩小医疗服务的公平差距。但也有人对一些问题敲响了警钟,如隐私权、模型中的偏见、人工智能决策过程缺乏透明度可能导致病人护理错误,甚至保险公司有可能利用人工智能歧视健康状况不佳的人。这些工具最终会产生哪些影响将取决于其开发和部署的方式。
AI 眼镜,窥探一切个人隐私
只需看一眼,名为 I-XRAY 的人工智能眼睛就能揭示任何人的个人信息,包括家庭住址、姓名、电话号码等。I-XRAY 最初只是一个辅助项目,但很快就凸显出对隐私的严重关切。研究人员表示,建立这个工具的目的不是为了滥用,也不会发布,仅仅是展示智能眼镜、人脸搜索引擎、大语言模型(LLM)和公共数据库的现有能力,让人们意识到,仅从一个人的脸部就能提取出他的家庭住址和个人信息。I-XRAY 的独特之处在于它可以完全自动运行。该系统利用了 LLM 理解、处理和汇编来自不同来源的大量信息的能力——推断在线来源之间的关系。
由 AI 驱动的电子舌头
科学家最近开发的一种由人工智能(AI)驱动的电子舌能够识别类似液体的差异,例如含水量不同的牛奶;不同的产品,包括苏打水类型和混合咖啡;果汁中的变质迹象;以及食品安全问题的实例。他们还发现,当人工智能使用自己的评估参数来解释电子舌产生的数据时,结果会更加准确。研究人员表示,电子舌可用于食品安全和生产以及医疗诊断。传感器及其人工智能可以广泛地检测各种物质并对其进行分类,同时对其各自的质量、真实性和新鲜度进行综合评估。
人工智能发现 16 万多种新病毒
人工智能(AI)被用来揭示生活在我们脚下和全球每个角落的多种多样的基本生命分支的细节。研究人员利用一种机器学习工具发现了 161979 种新的 RNA 病毒,他们认为这将大大改善地球上的生命图谱,并有助于识别数以百万计尚未定性的病毒,这项研究已发表在权威期刊 Cell 上。