2月14(信息差)

news2025/2/15 12:25:59

🌍杭州:全球数贸港核心区建设方案拟出台 争取国家支持杭州在网络游戏管理给予更多权限

 🎄Kimi深夜炸场:满血版多模态o1级推理模型!OpenAI外全球首次!Jim Fan:同天两款国产o1绝对不是巧合!

✨切尔诺贝利核电站传出爆炸声 泽连斯基发声

14日1时50分左右,切尔诺贝利核电站的“新安全封隔”设施内传出爆炸声并出现火情,该封隔设施负责保护切尔诺贝利核电站4号反应堆。据了解,一架无人机撞上了“新安全封隔”设施顶部

1.Seed Research | 视频生成模型最新成果,可仅靠视觉认知世界!现已开源

1. 模型仅靠“视觉”即可学习知识 

面向本次研究,研究团队构建了两个实验环境:视频围棋对战和视频机器人模拟操控。

其中,围棋可以很好地评估模型的规则学习、推理和规划能力,且围棋关键信息仅有黑白两色及棋盘,可将外观、纹理等复杂细节与高级知识的评估分离,非常适合对上述问题的探索。同时,团队还选取了机器人任务,以考察模型在理解控制规则和规划任务方面的能力。

在模型训练环节,团队构建了一个包含大量视频演示数据的离线数据集,让模型“观看”学习,以此得到一个可以根据过往观测,预测未来画面的视频生成器。

模型架构上,团队使用朴素的自回归模型实例化视频生成器,它包含一个 VQ-VAE 编码器 - 解码器和一个自回归 Transformer 。编码器负责将视频帧(画面)转换为离散标记,Transformer 在训练期间使用这些标记预测下一标记。

在推理过程中,Transformer 生成下一帧(画面)的离散标记,这些标记随后由解码器转换回像素空间。通过任务相关的映射函数,模型可将生成画面转换为任务执行动作。这让视频生成实验模型可在不依赖任何动作标签情况下,学习和执行具体任务。

基于上述朴素的框架对围棋和机器人视频数据进行建模,团队观测到,模型可以掌握基本的围棋规则、走棋策略以及机器人操纵能力。

但团队同时也发现,视频序列的知识挖掘效率显著落后于文本形式,具体如下图所示。

图片

团队将这归因于——视频中存在大量冗余信息,影响了模型的学习效率。

例如,学习棋子移动过程中,模型只需通过状态序列中少量位置标记编码,但面向视频数据,编码器则会产生过多冗余标记,不利于模型对复杂知识的快速学习。

2. 压缩视觉变化,让视频学习更加高效 

根据上述观测结果,团队提出 VideoWorld 。它在保留丰富视觉信息的同时,压缩了关键决策和动作相关的视觉变化,实现了更有效的视频学习。

通常,视频编码需要数百或数千个离散标记来捕捉每帧内的视觉信息,这导致知识被稀疏地嵌入标记中。为此,VideoWorld 引入了一个潜在动态模型(Latent Dynamics Model, LDM),可将帧间视觉变化压缩为紧凑的潜在编码,提高模型的知识挖掘效率。

举例而言,围棋中的多步棋盘变化或机器人连续动作均表现出强时间相关性,通过将这些多步变化压缩成紧凑嵌入,不仅让策略信息更紧凑,还将前向规划指导信息进行编码。

LDM 采用了 MAGVITv2 风格的编码器 - 解码器结构,同时取消时间维度下采样,以保留每帧细节。

对于一个视频片段,LDM 采样每一帧及其后续固定数量帧,编码器先以因果方式提取每帧特征图,且进行量化,以保留详细视觉信息。

接下来,LDM 定义了一组注意力模块和对应可学习向量。每个向量通过注意力机制捕捉第一帧至后续固定帧的动态变化信息,然后通过 FSQ 量化。其中,量化器作为信息筛选器,防止 LDM 简单记忆后续帧原始内容,而非压缩关键动态信息。

最后,解码器使用第一帧的特征图和帧之间的视觉变化编码重建后续帧,最终实现对未来动作的预测和规划,实现对知识的认知学习。

下图为模型架构概览,左侧为整体架构,右侧为潜在动态模型。

图片

通过使用多个向量顺序编码第一帧到后续多帧的动态变化,VideoWorld 实现了紧凑且信息丰富的视觉表示,可以捕捉视觉序列中的短期和长期依赖关系。这对于长期推理和规划任务至关重要。

通过引入 LDM ,VideoWorld 在仅有 300M 参数量下,达到专业 5 段的 9x9 围棋水平,且不依赖任何强化学习中的搜索或奖励函数机制。在机器人任务上,VideoWorld 也展现出了对多任务、多环境的泛化能力。 3. 纯视觉模型可“预测”未来,并能“理解”因果关系觉模型可“预测”未来,并能“理解”因果关系 

3.纯视觉模型可“预测”未来,并能“理解”因果关系

针对 LDM 提高视频学习效率的原因,团队进行了更为细致地分析,得出如下 3 点结论:

  • LDM 建模了训练集的数据模式。

下图为 LDM 潜在编码 UMAP 可视化呈现,面向围棋和机器人训练集,每个点代表一个潜在编码。

其中,UMAP 是一种流行的降维算法,用于将高维数据映射到低维空间,展现模型特征提取情况。

在下图左侧中,奇数步表示白方走棋,偶数步表示黑方,图例展示了新增黑棋的一些常见模式。UMAP 可视化表明:LDM 建模了训练集中常见的走棋模式,并能将短期和长期数据模式压缩至潜在空间中,提取并总结走棋规律。

同理,下图右侧为机械臂沿 X/Y/Z 轴运动方向可视化潜在编码,随着步数(Step)增多,也能看到 LDM 可以建模多步动态依赖关系。

图片

  • LDM 帮助模型在测试时进行前向规划。

团队还研究了 LDM 在模型推理中的价值。

如下图 UMAP 可视化所示,在测试阶段,模型生成的潜在编码按照时间步(Time-step)进行分组,使得模型能够从更长远视角进行围棋决策。

图片

在机器人场景实验中,团队也观察到了类似现象。

下图展示了 VideoWorld 在不同机器人操控任务中预测的潜在编码。不同时间步的潜在编码根据任务类型进行分组,突显了模型逐步捕捉特定任务长程变化的能力。

图片

  • LDM 可以生成因果相关的编码。 

为进一步研究潜在编码的影响,团队进行了一项干预实验:用随机标记替换不同时间步的潜在编码,并观察其对模型性能的影响。

实验结果显示,干预第一个编码的影响最大,这可能由于编码之间存在因果依赖,团队认为:改变第一个编码,即下一时间步的最佳决策,会影响所有未来的决策,侧面说明模型可生成因果相关编码,理解因果关系。

2.苹果据称继续与百度合作 为中国iPhone用户开发AI功能 以分散风险

 据媒体援引消息人士报道,尽管与阿里巴巴建立了合作关系,但苹果公司仍继续与百度合作,为中国iPhone用户开发人工智能(AI)功能。

  据悉,百度正在开发一种能处理图片和文本的AI搜索功能,并对中文版Siri语音助手进行升级,这些功能属于“Apple Intelligence”(苹果智能)套件的一部分。

  苹果在去年的WWDC(全球开发者大会)上首次公布了Apple Intelligence,并宣布与AI公司OpenAI合作。去年12月,Apple Intelligence在美国、英国、澳大利亚和加拿大等英语国家率先上线。

  有消息称苹果自 2023 年起开始测试来自中国开发者的不同AI模型,以推出面向中国市场的Apple Intelligence,并且一度选择了百度作为主要合作伙伴。

  据媒体周二报道称,苹果近几个月开始考虑其他选项,除了腾讯、阿里和字节跳动等中国互联网巨头外,该公司还测试了近来火爆的AI初创公司深度求索(DeepSeek)的AI模型。

  这一消息公布后,苹果和阿里股价均大幅上涨。

  在经过权衡之后,苹果最终选择了与阿里合作开发AI功能。阿里董事局主席蔡崇信周四在迪拜的一场峰会上证实了这一合作关系。

  苹果同时与百度和阿里合作,显示出其在中国市场采取了多方合作的策略,以降低风险。苹果在中国市场面临着来自华为和Vivo等本土智能手机品牌的激烈竞争。

  在国际市场,Apple Intelligence依靠的是苹果自研AI模型和与OpenAI的合作,后者的聊天机器人ChatGPT在处理iPhone的复杂任务上发挥了更多作用。

3.Anthropic秘密「混合模型」 Claude 4首曝细节,硬刚GPT-5!深度推理模型来了

Anthropic终于要开始搞点事情啦!

近期的「推理模型」热潮中,Anthropic除了其CEO打了几个嘴炮外,还没有掏出一个拿得出手的产品。

在这样下去,可能要退出AI一线模型玩家行列了。Anthropic自己显然不想看到这种情况发生。

就在刚刚,有消息称,Anthropic会在未来几周内发布其全新的「混合AI」模型。

Anthropic版「推理模型」,测试时计算完全掌控

在OpenAI去年秋季发布其「推理模型」后,谷歌以及国内众多AI公司纷纷推出了自己的模型。作为一个主要的竞争对手,Anthropic在这场推理竞赛中却明显缺席。

现在,我们知道了原因——Anthropic开发的是一款融合了推理能力的混合AI模型。

具体来说,这种「混合模型」可以使用更多的计算资源来计算复杂问题,但也能像传统LLM一样快速处理更简单的任务,无需额外计算。

此外,模型还可以让客户控制它在查询时使用的算力——换句话说就是,它在解决问题时「推理」的时长。

开发者可以通过一个滑动条来调整模型在尝试找出答案或完成任务时将处理或生成的token数量。

通过将滑动条设置为「0」,开发者可以将Anthropic模型作为一个普通的、非推理AI使用,类似于OpenAI的GPT-4o。

OpenAI也有类似的功能,允许开发者控制其推理模型「思考」的时间。

但开发者仅限于「低」、「中」和「高」三种设置,很难预测模型在这些级别上实际会处理多少token——因此,也很难预测单次查询的成本。

现在,OpenAI可能转而成为追随者。

2月13日,CEO Sam Altman表示,OpenAI计划将其Orion大语言模型作为GPT-4.5发布——这是一个传统的、非推理模型。之后,则会把GPT模型和o系列推理模型合并为一个单一的AI。

在外界看来,这和Anthropic尚未公开的技术路线可谓是如出一辙。(去年11月The Information曾做过相关预测)

从Anthropic和OpenAI设计模型和产品的方式,我们可以清晰地看出它们在竞争激烈的AI市场中的战略定位。

OpenAI显然更希望ChatGPT成为面向消费者或个人专业人士的突破性应用,这可能就是它在推理模型中使用低-中-高命名法的原因,因为这更容易让普通用户理解。

Anthropic则更专注于企业市场,这就是为什么它致力于开发能让开发者通过滑动条方式更好地控制成本、速度和定价的功能。

据知情人士透露,Anthropic即将推出的模型在编程方面也取得了特别显著的进展,这已经成为生成式AI在企业中最强大的应用之一。

当允许Anthropic模型使用最长时间「思考」时,在某些编程基准测试中,它的表现已经超过了客户目前能访问到的最先进的OpenAI推理模型(即o3-mini high)。

这位人士表示,虽然OpenAI的推理模型在更学术性的问题上表现更好,比如竞争性编程问题,但Anthropic的模型更擅长处理企业工程师可能遇到的实际编程任务。

例如,Anthropic的模型更善于理解由数千个文件组成的复杂代码库,并能一次性生成可用的完整代码行。

不过,仍然悬而未决的重要问题是,Anthropic的新模型将收取多少费用,以及它是否会比OpenAI最近发布的o3-mini推理模型更便宜。后者因比OpenAI最受欢迎的非推理模型GPT-4o更便宜而给开发者留下了深刻印象。

目前还不清楚像DeepSeek和谷歌最新的Gemini模型这样的超低价AI是否会推动所有模型的价格趋近于零。

就目前来看,市场上似乎在进行着两场不同的竞争:

  • 在AI开发的前沿,那些在推理或编程方面能够逐步改进的模型将继续保持定价优势;
  • 在另一个更大的市场中,那些「够用就好」(good-enough)的模型则可能会继续展开价格战。

对于这个全新的「混合模型」,有网友认为,Anthropic新模型的成败将取决于它的成本,毕竟性能也很强的o3-mini是一个小模型,成本很低。

2027年收入飙至345亿美元

根据The Information的报道,Anthropic在2023年烧了56亿美元现金后,计划在2025年将支出减少近半,并在2027年实现高达345亿美元的收入。

要实现这样的增长,Anthropic需要大幅缩小与市场领导者OpenAI之间的差距。目前OpenAI的收入可能是Anthropic的5倍以上——在2027年实现4,400亿美元的收入。

Anthropic和OpenAI一直是企业在生成式AI投资方面的风向标,因此科技投资者正密切关注两家公司的表现。

在最可能的基本情况下,Anthropic表示其收入将从2025年的22亿美元增长至2027年的120亿美元。

目前外界并不知道Anthropic在2024年的具体收入,不过其月收入从年初的约800万美元上升到年底的约8,000万美元,这表明其全年收入在4亿至6亿美元之间。Anthropic即将推出的新一代旗舰模型Claude有望支持其宏伟的增长目标。据知情人士透露,新模

型预计在未来几周内发布。

然而,最近像DeepSeek这样的超低成本模型的发布,引发了人们对AI公司是否需要降价以保持竞争力的质疑。

在DeepSeek发布后,Anthropic也是少数几个没有大幅降低模型价格的AI实验室之一。

从Anthropic的融资材料来看,公司认为通过API向企业提供技术服务的机会,要大于与ChatGPT等聊天机器人竞争。

OpenAI的ChatGPT在普通用户以及程序员、营销人员和律师等专业人士群体中取得了突破性成功,截至去年底,其订阅收入每月超过3.33亿美元。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2298611.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

web集群(LVS-DR)

LVS是Linux Virtual Server的简称,也就是Linux虚拟服务器, 是一个由章文嵩博士发起的自由软件项 目,它的官方站点是 www.linuxvirtualserver.org。现在LVS已经是 Linux标准内核的一部分,在 Linux2.4内核以前,使用LVS时必须要重新编…

多媒体软件安全与授权新范例,用 CodeMeter 实现安全、高效的软件许可管理

背景概述 Reason Studios 成立于 1994 年,总部位于瑞典斯德哥尔摩,是全球领先的音乐制作软件开发商。凭借创新的软件产品和行业标准技术,如 ReWire 和 REX 文件格式,Reason Studios 为全球专业音乐人和业余爱好者提供了一系列高质…

DeePseek结合PS!批量处理图片的方法教程

​ ​ 今天我们来聊聊如何利用deepseek和Photoshop(PS)实现图片的批量处理。 传统上,批量修改图片尺寸、分辨率等任务往往需要编写脚本或手动处理,而现在有了AI的辅助,我们可以轻松生成PS脚本,实现自动化处…

2.14寒假作业

web:[SWPUCTF 2021 新生赛]PseudoProtocols 打开环境给了提示要我们找 hint.php url是给了后缀的,不单纯是地址,直接用为协议看一下目标文件,得到base64加密的文字 解密,提示我们访问一个文件 跟着思路走访问文件之后…

【鱼眼镜头12】Scaramuzza的鱼眼相机模型实操,不依赖于具体的相机几何结构,直接从图像数据出发,因此更具灵活性。

文章目录 Scaramuzza相机模型标定效果2、原理和代码代码1、 2D映射到3D,函数输入为2D点坐标OCAM参数代码功能详解2、3D --> 2D 3、总结Scaramuzza 模型的核心思想Scaramuzza 模型的核心思想与 Kannala-Brandt 模型的对比Scaramuzza 模型的独特之处Scaramuzza 的意…

(Windows | Linux)ssh访问服务器报错:no matching key exchange method found

问题现象 ssh user1192.168.1X.XX Unable to negotiate with 192.168.1X.XX port 22: no matching key exchange method found. Their offer: gss-group1-sha1-toWM5Slw5Ew8Mqkayal2g,diffie-hellman-group-exchange-sha1,diffie-hellman-group14-sha1,diffie-hellman-group1-…

达梦分布式集群DPC_架构详解_yxy

达梦分布式集群DPC_架构详解 1 DPC核心架构介绍1.1 架构图1.2 DPC核心架构组件 2 多副本2.1 多副本架构图2.2 多副本示例2.3 RAFT组概念2.4 表空间与RAFT组的关系 1 DPC核心架构介绍 1.1 架构图 1.2 DPC核心架构组件 DMDPC 架构由三部分组成 SP(SQL Processor&…

51单片机独立按键的扩展应用

提示: 按键S7和S6为选择键,确定控制键控制那组LED指示灯。按键S5和S4为控制键,按键该键点亮指定的LED指示灯,松开后熄灭。按下S7点亮L1指示灯,L1点亮后,S6不响应操作,S5控制L3,S4控…

Golang GORM系列:GORM事务及错误处理

在数据库管理领域,确保数据完整性至关重要。GORM是健壮的Go对象关系映射库,它为开发人员提供了维护数据一致性和优雅地处理错误的基本工具。本文是掌握GORM事务和错误处理的全面指南。我们将深入研究如何使用事务来保证原子性,并探索有效处理…

如何实现对 ELK 各组件的监控?试试 Metricbea

上一章基于 Filebeat 的日志收集使用Filebeat收集文件中的日志,而Metricbeat则是收集服务器存活性监测和系统指标的指标。 1. Filebeat和Metricbeat的区别 特性FilebeatHeartbeat作用收集和转发日志监测服务可用性数据来源服务器上的日志文件远程主机、API、服务主…

【微服务学习二】nacos服务发现与负载均衡

nacos服务发现 想要开启服务发现,需要在main函数上添加 EnableDiscoveryClient 注解 然后我们编写一个controller类来查询nacos中注册的所有微服务以及对应的ip端口号 Controller public class DiscoveryController {AutowiredDiscoveryClient discoveryClient;//…

深入剖析推理模型:从DeepSeek R1看LLM推理能力构建与优化

著名 AI 研究者和博主 Sebastian Raschka 又更新博客了。原文地址:https://sebastianraschka.com/blog/2025/understanding-reasoning-llms.html。这一次,他将立足于 DeepSeek 技术报告,介绍用于构建推理模型的四种主要方法,也就是…

Kafka分区管理大师指南:扩容、均衡、迁移与限流全解析

#作者:孙德新 文章目录 分区分配操作(kafka-reassign-partitions.sh)1.1 分区扩容、数据均衡、迁移(kafka-reassign-partitions.sh)1.2、修改topic分区partition的副本数(扩缩容副本)1.3、Partition Reassign场景限流1.4、节点内副本移动到不…

AIoT时代来临,物联网技术如何颠覆未来生活?

在这个万物互联的时代,“物联网”(IoT)正以前所未有的速度改变我们的生活,而“AIoT”则是在物联网基础上融入人工智能技术,赋予设备更高的智能和自主决策能力。随着5G、边缘计算和云技术的不断发展,物联网正…

基于SpringBoot的电影院售票管理系统

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码 精品专栏:…

深度学习与人工智能:解锁未来的无限可能

在当今这个科技飞速发展的时代,深度学习和人工智能已不再只是科幻小说中的概念,它们正以惊人的速度渗透到我们生活的方方面面,从智能手机上的语音助手到医疗领域的疾病诊断,从自动驾驶汽车到金融市场的风险预测,其影响…

2025年02月14日Github流行趋势

项目名称:data-formulator 项目地址url:https://github.com/microsoft/data-formulator项目语言:TypeScript历史star数:5921今日star数:820项目维护者:Chenglong-MS, danmarshall, apps/dependabot, micros…

华为云+硅基流动使用Chatbox接入DeepSeek-R1满血版671B

华为云硅基流动使用Chatbox接入DeepSeek-R1满血版671B 硅基流动 1.1 注册登录 1.2 实名认证 1.3 创建API密钥 1.4 客户端工具 OllamaChatboxCherry StudioAnythingLLM 资源包下载: AI聊天本地客户端 接入Chatbox客户端 点击设置 选择SiliconFloW API 粘贴1.3创…

【github】docker realtime

Linux和Docker实时指南,适用于Ubuntu实时内核和PREEMPT_RT ReadMe.md 作者:Tobit Flatscher(2021 - 2024) 概述 本指南解释了如何在Linux操作系统内开发/部署运行实时代码的Docker容器。因此,它会带你了解&#xf…

MySQL官网驱动下载(jar包驱动和ODBC驱动)【详细教程】

1.打开MySQL的官网,选择下载(Download) MySQL[这里是图片001]https://www.mysql.com/cn/ 2.往下划点击MySQL Community(GPL)Downloads 3.要下载MySQL的jar包的选择Connector/J 4.进入后,根据自己的需求选择相应的版本 5.下载完成后,进行解压…