【AI News | 20250418】每日AI进展

AI Repos

1、exa-mcp-server
AI助手通过Exa获得实时网络信息获取的能力，提供结构化的搜索结果，返回包括标题、URL以及内容片段在内的结构化结果；会把最近的搜索结果缓存为资源，下次再搜索相同的内容时可以直接使用缓存；提供了对速率限制和错误的处理机制，支持实时网络爬取。
在这里插入图片描述

2、CortexON
日常任务自动化的开源通用AI智能体，能执行复杂工作流程，比如自动化研究、技术操作、复杂业务流程自动化等。CortexON集成了Web智能体、文件智能体、编辑器智能体、执行器智能体、API智能体等，多智能体协作；它会根据具体需求和偏好调用不同的智能体协作完成任，比如执行旅行规划、市场分析、教育内容创建等个性化任务
在这里插入图片描述

3、BiliNote
开源的 AI 视频笔记助手，只需要输入视频链接，即可自动提取内容，并一键生成结构清晰、重点明确的 Markdown 格式笔记。此外，还可以在笔记中插入视频截图，并支持跳转到指定视频进度。目前已支持 B 站、YouTube 等平台，可使用 OpenAI、DeepSeek、Qwen 等模型。
在这里插入图片描述

AI News

1、Moonvalley完成4300万美元B轮融资，发布创新视频生成模型Marey
视频生成技术公司Moonvalley近期宣布完成4300万美元的B轮融资，总融资额达到1.13亿美元，用于技术创新和市场拓展。与此同时，Moonvalley推出了其首款视频生成模型Marey，该模型由Moonvalley与Asteria工作室合作开发，专注于精确控制镜头和物体运动，能够生成长达30秒的高质量视频，并细致模拟复杂动作。Marey的关键优势在于其训练数据拥有明确授权，规避了版权风险，有望吸引专业创作者。此轮融资和新模型的发布标志着Moonvalley正积极布局AI视频生成市场。

2、微软发布低内存占用新型语言模型 BitNet b1.58 2B4T
微软研究团队发布了一款名为 BitNet b1.58 2B4T 的开源大型语言模型，该模型拥有20亿参数，但内存占用仅为0.4GB，远低于同类模型。BitNet 采用创新的1.58位低精度架构进行原生训练，显著降低了计算资源需求。其通过定制的 BitLinear 层和三值权重系统（-1, 0, +1）实现了高效性能，并在 GSM8K 和 PIQA 等基准测试中表现出色，与主流全精度模型相当，且能耗和解码延迟更低。该模型已在 Hugging Face 上以 MIT 许可证发布，微软未来计划优化其功能和性能。

3、字节豆包开源 Seed 智能体模型 UI-TARS-1.5，GUI 和游戏任务表现SOTA
字节跳动豆包团队开源了多模态智能体模型 UI-TARS-1.5，该模型在多个图形用户界面评测基准中取得了领先水平，并在游戏中展现了优秀的长时推理和开放空间交互能力。UI-TARS-1.5基于“思考 - 再行动”机制，通过强化学习增强了高阶推理能力，使其在未知环境和任务中具备更强的泛化性。在 GUI 操作和 Minecraft 等游戏任务中，UI-TARS-1.5均展现出卓越性能，其成功的关键在于视觉感知增强、System2 推理机制、统一动作建模和可自我演化的训练范式。该模型的开源为多模态智能体技术的发展提供了有力支持。

4、通义万相2.1开源首尾帧生视频模型Wan2.1-FLF2V-14B
阿里通义开源了 Wan2.1 系列模型，其中首尾帧生视频模型 Wan2.1-FLF2V-14B 尤为引人注目。该模型采用 DiT 架构，通过高效视频压缩和 Full Attention 机制确保生成视频在时间和空间上的一致性。其独特之处在于引入了首尾帧作为条件控制，实现了流畅且精准的视频生成。在训练和推理方面，模型采用了流匹配、分布式策略、模型切分和混合精度量化等优化技术，实现了高效且高质量的视频生成。该模型的开源为开发者和创作者提供了强大的视频生成工具。

5、ABBYY 推出全新 OCR API ABBYY Document AI™，简化文档数据提取
ABBYY 发布了 ABB Document AI™ API，旨在帮助开发者更轻松地从商业文档中提取高精度结构化数据。这款自助服务 API 通过几行代码即可将非结构化文档转换为可用数据，简化了 OCR 和智能文档处理解决方案的集成和使用。ABBYY 强调其 API 具有低设置要求、丰富的社区资源和预训练模型，助力开发者构建概念验证，并支持客户尽职调查、发票处理等多种业务流程的自动化，为生成式 AI 和 RAG 等应用提供高质量数据基础。

6、Blender-MCP开源发布，Claude赋能自然语言3D创作
Blender-MCP 开源发布，实现了 Anthropic 的 Claude AI 与 Blender 的无缝集成，用户可以通过自然语言提示词直接生成复杂的 3D 场景。该工具利用 MCP 协议建立双向通信，支持快速场景生成、智能资产管理、实时反馈修正以及 Python 脚本执行。用户仅需文字描述即可创建包含物体、材质和灯光的 3D 模型，并能调用 Poly Haven 等资源。Blender-MCP 降低了 3D 建模门槛，适用于游戏开发、概念艺术、教育培训和建筑可视化等领域，其简易的安装和使用流程受到了社区的广泛欢迎，未来计划整合更多 AI 模型并优化性能。

7、微软开源 MAI-DS-R1 模型，大幅提升敏感话题响应并降低安全风险
微软开源了 MAI-DS-R1，该模型基于 DeepSeek-R1 进行了改进，显著提升了在敏感话题上的响应能力，达到了 99.3%，是原版的两倍多。与此同时，MAI-DS-R1 的有害内容降低了 50%，实现了更高的安全控制。为了提升模型性能，微软收集了大量屏蔽主题示例并进行了多语言翻译。评估结果显示，MAI-DS-R1 在敏感话题响应方面超越了原版及其他衍生模型，并在安全性方面表现良好，同时保持了原有的优秀推理能力，并增强了处理不当请求时的谨慎性。该模型已在 Hugging Face 和 Azure AI Foundry 上发布。

8、腾讯云大模型知识引擎首家接入 MCP，赋能 AI 应用开发新纪元
在2025腾讯全球数字生态大会成都峰会上，腾讯云宣布其大模型知识引擎成为业内首个正式接入 MCP（Model Context Protocol）的平台。这一突破性升级使得开发者和企业用户能够便捷地调用和定制 MCP 插件，显著提升 AI 应用的开发效率和功能丰富度。目前，该知识引擎平台已上线包括腾讯云 EdgeOne Pages、腾讯位置服务以及 Airbnb、Figma、Fetch 等合作伙伴提供的 MCP Server，覆盖专业信息获取、网页部署预览和解析等多种应用场景。腾讯云此举标志着中国 AI 应用开发进入新时代，其大模型知识引擎将成为重要的推动力量。

9、理想同学MindGPT 3.0上线，深度思考能力比肩DeepSeek
理想汽车发布了其智能助手“理想同学”的最新升级版，搭载了全新的 MindGPT 3.0 模型。该模型在深度思考能力上取得了显著提升，性能可与 DeepSeek-V3-0324 和 DeepSeek-R1 相媲美。MindGPT 3.0 支持结构化思维链展示和反思再检索，能够提供更精准全面的信息。其语音理解和容错能力也得到增强，并能更好地处理复杂指令。此外，升级后的工具生态和连续对话效果也为用户带来更便捷流畅的体验。值得一提的是，MindGPT 3.0 还具备无关历史对话过滤功能，有效提升了回复的准确性。用户现可通过理想同学手机 App 及网页版免费体验。

10、飞猪AI“问一问”上线，自然语言搞定旅行规划和机酒预订
飞猪近期推出的 AI 产品“问一问”在小红书上引发热议，其强大的功能在于能够通过自然语言交互，帮助用户快速完成机票和酒店的预订，实现“所见即所得”的旅行规划体验。与传统旅行 AI 不同，“问一问”模拟多专家协作，结合实时报价和景点信息，为用户提供个性化旅行方案，并支持直接编辑修改。用户只需输入需求，AI 即可生成行程，并能根据预算实时调整。这款产品标志着 AI 在旅行行业的深度应用进入新阶段，为用户带来了更便捷的出行规划方式。

11、WORLDMEM开源发布，革新长期一致性世界模拟技术
WORLDMEM 框架在 Hugging Face 开源发布，通过引入记忆机制，创新性地解决了传统世界模拟模型在长期一致性和 3D 空间保持方面的难题。该框架利用记忆银行和注意力机制，能够精确重建先前观察的场景，捕捉动态世界演变，并显著提升长时序 3D 空间一致性。WORLDMEM 采用模块化设计，兼容 DiT 模型，并在虚拟现实、机器人导航和游戏开发等领域展现出巨大潜力。其开源和详细文档吸引了广泛关注，未来有望与多模态大模型结合，进一步提升世界模拟技术。

12、Midjourney图像编辑器重大更新：引入图层、智能选择等强大功能
Midjourney 对其图像编辑器进行了重大更新，带来了全新的用户界面、图层功能、智能选择工具以及更智能的审核系统。新 UI 设计更加简洁直观，整合了各项编辑功能，提升了操作效率和用户体验。图层功能的加入显著增强了图像编辑的灵活性，而智能选择工具则提高了编辑的精准度。此次更新旨在进一步巩固 Midjourney 在 AI 艺术生成领域的领先地位，为用户提供更强大、更易用的图像编辑工具。

13、腾讯混元开源 InstantCharacter 插件，实现定制化角色一致性图像生成
该插件兼容开源文生图模型 Flux，专注于解决图像生成中角色一致性问题。InstantCharacter 能够确保角色在不同场景中的真实性和一致性，并具备高画质、高精度和灵活的文本编辑性。其技术核心在于利用 DiT 模型构建的创新框架，通过可扩展的适配器和多个 transformer encoder 处理角色特征，并与扩散变换器的潜在空间无缝交互。腾讯混元团队构建了包含千万级样本的角色数据集进行训练，使得模型在角色一致性和文本可编辑性上均表现出色，效果媲美 GPT-4o，适用于漫画和影片创作等多种场景。