AI Repos
1、Dolphin
由数据海洋AI与清华大学联合研发的Dolphin多任务语音识别模型正式亮相。该模型覆盖东亚、南亚、东南亚及中东地区40余种语言,并支持22种汉语方言,训练数据量超21万小时(含自有及开源数据),具备语音识别、端点检测、分段及语种识别多重功能。
AI News
1、Arm 放弃收购 Alphawave,转向新战略布局 AI 芯片市场
Arm Holdings 曾计划收购英国半导体 IP 供应商 Alphawave,以利用其 SerDes 技术增强在 AI 芯片市场的竞争力,尤其针对 ChatGPT 等应用。然而,Arm 最终放弃收购,导致 Alphawave 股价飙升15.08%,市值达8.19亿英镑。SerDes 技术在 AI 芯片数据传输中的重要性备受关注,Broadcom 和 NVIDIA 已占据优势。Arm 当前聚焦授权设计,同时探索自研芯片战略,旨在抢占预计2028年达600亿美元的 AI 芯片市场份额,显示其强化市场地位的决心。
2、MiniMax Audio 发布 Speech-02 语音模型,支持 20 万字符输入
MiniMax Audio 推出 Speech-02 语音模型,支持 30 多种语言,一次性可输入 20 万字符,提供真实流畅的音频体验。该模型人声相似度达 99%,无节奏故障,多语言发音更准确,且价格亲民。新功能包括“Read Anything”,支持文件或 URL 转音频,以及“Long-Text Mode”异步合成长文本,适合音频书籍和播客制作。此外,增强的历史管理和“Discovery Hub”优化了用户体验,展示最新功能,入口为 https://www.minimax.io/audio。
3、腾讯 GeometryCrafter:AI 助力开放世界视频几何一致性新突破
腾讯发布 GeometryCrafter AI 模型,通过 Hugging Face 开源,利用扩散先验技术实现开放世界视频的几何一致性估计。该模型能在复杂动态视频中生成连贯的深度序列和几何结构,无需额外信息,适用于街头实拍、自然纪录片等场景。其三阶段训练结合真实与合成数据,在长时间序列一致性上超越现有方法,为视觉特效、虚拟现实等应用奠基。尽管对计算资源要求较高,腾讯开源此模型推动技术普惠,展现 AI 如何将日常视频转化为立体数字艺术。
4、高通收购越南 MovianAI,强化生成式 AI 技术布局
高通宣布收购越南 AI 公司 MovianAI,后者原为 Vingroup 旗下 VinAI 的生成式 AI 部门,交易金额未披露。此次收购旨在提升高通在生成式 AI 领域的研发能力,加速为智能手机、PC 和智能汽车开发先进 AI 解决方案。MovianAI 创始人 Hung Bui 博士,曾任 Google DeepMind 研究员,将加入高通,增强团队实力。收购不仅推动高通技术创新,还借助 MovianAI 在越南的基础拓展东南亚市场,标志着高通在全球 AI 布局的重要进展。
5、ReliaQuest 获 5 亿美元融资,加速智能 AI 安全技术创新
ReliaQuest 完成超 5 亿美元融资,估值达 34 亿美元,由 EQT、KKR 和 FTV Capital 领投。公司专注网络安全,其 GreyMatter 平台利用智能 AI 自动化安全流程,使威胁响应时间缩短至 5 分钟,调查速度提升 20 倍,准确率提高 30%。创始人布莱恩·墨菲强调,新资金将推动技术发展,满足企业对高效安全方案的需求。ReliaQuest 年收入超 3 亿美元,增长率超 30%,并通过收购 Digital Shadows 增强威胁情报能力,巩固其在网络安全领域的优势。
6、RobotLAB 首推人形机器人 BroBot™,助力多行业智能化
RobotLAB 推出首款人形机器人 BroBot™,针对教育、物流和酒店行业,提供可扩展的现实应用。BroBot™ 采用混合接口、自动任务协议和情境感知系统,能在动态环境中自主执行任务。其模块化设计便于定制,友好的界面降低操作门槛。主要功能包括自主任务处理、环境适应及行业通用性。RobotLAB 计划 2025 年第二季度通过试点项目优化其功能,旨在推动人机协作,简化部署并提升多行业运营效率。
7、微软 Power Apps 集成 AI 助手,优化表单填写效率
微软 Power Apps 和 Dynamics365 推出 AI 助手,显著提升表单填写效率,研究显示速度提高 29%,95% 用户青睐此方式。新功能包括:智能粘贴支持图片上传,AI 自动提取数据;支持多种文件格式(如 .txt、.pdf、.png),简化录入;新增工具栏优化 AI 建议管理;开发者可控制人工输入字段。这些更新通过智能技术减少手动操作,提升灵活性与效率,助力用户更轻松完成日常数据工作。
8、Reply 携手 AWS 深化战略合作,加速生成式 AI 创新
Reply 与 AWS 签署多年战略合作协议,旨在推动生成式人工智能(GenAI)的创新与应用。合作结合 AWS 的云基础设施与 Reply 的 AI 专长,开发提升效率与生产力的行业解决方案,覆盖软件优化、客户体验等领域。Reply 子公司 Data Reply 和 Storm Reply 将利用 Amazon SageMaker、Bedrock 等服务,定制汽车、金融等行业 AI 产品。成功案例包括与奥迪合作的 AI 聊天机器人及 Il Sole24Ore 的服务转型,展现显著业务价值,助力企业在数字时代保持领先。
9、Arthur 发布首款开源实时 AI 评估引擎 Arthur Engine
Arthur 推出 Arthur Engine,全球首款开源实时 AI 评估引擎,免费提供给开发者,用于监控和优化生成式 AI 及传统机器学习模型。该引擎本地运行,确保数据隐私与合规性,支持 GPT、Claude 等多种模型。核心功能包括实时故障检测、主动保护和可定制评估指标,解决模型退化与敏感数据风险。技术负责人徐媛强调,其高性能监控工具提升 AI 信任与安全,开源发布标志着 AI 透明度与性能监控的新标准。详情可访问 GitHub。
10、飞桨 3.0 发布:支持文心 4.5,跨芯片适配成本降 80%
百度飞桨框架 3.0 正式发布,引入“动静统一自动并行”等五大技术创新,支持文心 4.5 等大模型,优化训练与推理性能。借助神经网络编译器 CINN,算子速度提升 4 倍,端到端训练速度提高 27.4%,DeepSeek-R1 单机吞吐量翻倍。框架适配 60 余款主流芯片,开发者一次编码即可跨芯片迁移,适配成本降低 80%,覆盖训练集群、自动驾驶等场景,为大模型开发提供高效灵活的基础支持。
11、腾讯元宝升级:多图上传+智能处理一键解决
腾讯元宝更新后支持一次性上传 10 张图片,利用混元和 DeepSeek 模型实现连贯识图与智能处理。用户可通过多图上传提炼电子书金句、生成朋友圈文案、整理板书结构或将草图转为网页 demo,操作简便高效。该功能已覆盖手机版(2.11.0+)、电脑版(1.8.0+)和网页版,支持多选、拖拽及截图上传,展现元宝双模型的多模态理解能力,为多图处理提供便捷解决方案。
12、阿里通义千问 Qwen2.5-Omni 登顶全球开源模型榜单
阿里巴巴通义千问的 Qwen2.5-Omni 模型在 Hugging Face 全球开源模型榜单中排名第一。这款端到端全模态大模型凭借其强大性能胜出。阿里已开源超200款模型,其 Qwen 系列衍生模型数量已突破10万,超越 Llama 成为全球最大开源模型家族,凸显了阿里对 AI 开源生态的贡献和技术实力。
13、宝马引入人形机器人 Figure02,大幅提升生产效率
宝马与美国 Figure 公司合作,在其生产线引入 Figure02 人形机器人,旨在显著提升生产效率。这款机器人每日可完成高达 1000 次精确操作,速度提升 400%,成功率提高七倍。尤其在处理复杂金属部件时,Figure02 能有效避免碰撞,提升生产安全性和流畅性。测试显示,它能精准地将金属片放入狭小插槽,循环时间也显著缩短。Figure 公司预计其机器人将于 2025 年 1 月重返宝马工厂。此外,Figure AI 近期获得了 6.75 亿美元的 B 轮融资,估值达 26 亿美元。
14、即梦AI3.0图片模型重磅升级:高精细度与智能构图重塑设计体验
即梦AI3.0图片模型正式发布,以显著性能提升成为设计师的新宠。该版本支持2K高清分辨率,细节表现力远超2.1版本,并优化了小文字清晰度等痛点。其智能提示词响应系统大幅降低“抽卡”次数,生成效率与精准度同步提升。此次升级通过技术突破解放设计师创作力,有望推动行业效率与创意表达的双重革新。