【AI News | 20250418】每日AI进展

news2025/4/19 17:29:32

AI Repos

1、exa-mcp-server
AI助手通过Exa获得实时网络信息获取的能力,提供结构化的搜索结果,返回包括标题、URL以及内容片段在内的结构化结果;会把最近的搜索结果缓存为资源,下次再搜索相同的内容时可以直接使用缓存;提供了对速率限制和错误的处理机制,支持实时网络爬取。
在这里插入图片描述

2、CortexON
日常任务自动化的开源通用AI智能体,能执行复杂工作流程,比如自动化研究、技术操作、复杂业务流程自动化等。CortexON集成了Web智能体、文件智能体、编辑器智能体、执行器智能体、API智能体等,多智能体协作;它会根据具体需求和偏好调用不同的智能体协作完成任,比如执行旅行规划、市场分析、教育内容创建等个性化任务
在这里插入图片描述

3、BiliNote
开源的 AI 视频笔记助手,只需要输入视频链接,即可自动提取内容,并一键生成结构清晰、重点明确的 Markdown 格式笔记。此外,还可以在笔记中插入视频截图,并支持跳转到指定视频进度。目前已支持 B 站、YouTube 等平台,可使用 OpenAI、DeepSeek、Qwen 等模型。
在这里插入图片描述

AI News

1、Moonvalley完成4300万美元B轮融资,发布创新视频生成模型Marey
视频生成技术公司Moonvalley近期宣布完成4300万美元的B轮融资,总融资额达到1.13亿美元,用于技术创新和市场拓展。与此同时,Moonvalley推出了其首款视频生成模型Marey,该模型由Moonvalley与Asteria工作室合作开发,专注于精确控制镜头和物体运动,能够生成长达30秒的高质量视频,并细致模拟复杂动作。Marey的关键优势在于其训练数据拥有明确授权,规避了版权风险,有望吸引专业创作者。此轮融资和新模型的发布标志着Moonvalley正积极布局AI视频生成市场。

2、微软发布低内存占用新型语言模型 BitNet b1.58 2B4T
微软研究团队发布了一款名为 BitNet b1.58 2B4T 的开源大型语言模型,该模型拥有20亿参数,但内存占用仅为0.4GB,远低于同类模型。BitNet 采用创新的1.58位低精度架构进行原生训练,显著降低了计算资源需求。其通过定制的 BitLinear 层和三值权重系统(-1, 0, +1)实现了高效性能,并在 GSM8K 和 PIQA 等基准测试中表现出色,与主流全精度模型相当,且能耗和解码延迟更低。该模型已在 Hugging Face 上以 MIT 许可证发布,微软未来计划优化其功能和性能。

3、字节豆包开源 Seed 智能体模型 UI-TARS-1.5,GUI 和游戏任务表现SOTA
字节跳动豆包团队开源了多模态智能体模型 UI-TARS-1.5,该模型在多个图形用户界面评测基准中取得了领先水平,并在游戏中展现了优秀的长时推理和开放空间交互能力。UI-TARS-1.5基于“思考 - 再行动”机制,通过强化学习增强了高阶推理能力,使其在未知环境和任务中具备更强的泛化性。在 GUI 操作和 Minecraft 等游戏任务中,UI-TARS-1.5均展现出卓越性能,其成功的关键在于视觉感知增强、System2 推理机制、统一动作建模和可自我演化的训练范式。该模型的开源为多模态智能体技术的发展提供了有力支持。

4、通义万相2.1开源首尾帧生视频模型Wan2.1-FLF2V-14B
阿里通义开源了 Wan2.1 系列模型,其中首尾帧生视频模型 Wan2.1-FLF2V-14B 尤为引人注目。该模型采用 DiT 架构,通过高效视频压缩和 Full Attention 机制确保生成视频在时间和空间上的一致性。其独特之处在于引入了首尾帧作为条件控制,实现了流畅且精准的视频生成。在训练和推理方面,模型采用了流匹配、分布式策略、模型切分和混合精度量化等优化技术,实现了高效且高质量的视频生成。该模型的开源为开发者和创作者提供了强大的视频生成工具。

5、ABBYY 推出全新 OCR API ABBYY Document AI™,简化文档数据提取
ABBYY 发布了 ABB Document AI™ API,旨在帮助开发者更轻松地从商业文档中提取高精度结构化数据。这款自助服务 API 通过几行代码即可将非结构化文档转换为可用数据,简化了 OCR 和智能文档处理解决方案的集成和使用。ABBYY 强调其 API 具有低设置要求、丰富的社区资源和预训练模型,助力开发者构建概念验证,并支持客户尽职调查、发票处理等多种业务流程的自动化,为生成式 AI 和 RAG 等应用提供高质量数据基础。

6、Blender-MCP开源发布,Claude赋能自然语言3D创作
Blender-MCP 开源发布,实现了 Anthropic 的 Claude AI 与 Blender 的无缝集成,用户可以通过自然语言提示词直接生成复杂的 3D 场景。该工具利用 MCP 协议建立双向通信,支持快速场景生成、智能资产管理、实时反馈修正以及 Python 脚本执行。用户仅需文字描述即可创建包含物体、材质和灯光的 3D 模型,并能调用 Poly Haven 等资源。Blender-MCP 降低了 3D 建模门槛,适用于游戏开发、概念艺术、教育培训和建筑可视化等领域,其简易的安装和使用流程受到了社区的广泛欢迎,未来计划整合更多 AI 模型并优化性能。

7、微软开源 MAI-DS-R1 模型,大幅提升敏感话题响应并降低安全风险
微软开源了 MAI-DS-R1,该模型基于 DeepSeek-R1 进行了改进,显著提升了在敏感话题上的响应能力,达到了 99.3%,是原版的两倍多。与此同时,MAI-DS-R1 的有害内容降低了 50%,实现了更高的安全控制。为了提升模型性能,微软收集了大量屏蔽主题示例并进行了多语言翻译。评估结果显示,MAI-DS-R1 在敏感话题响应方面超越了原版及其他衍生模型,并在安全性方面表现良好,同时保持了原有的优秀推理能力,并增强了处理不当请求时的谨慎性。该模型已在 Hugging Face 和 Azure AI Foundry 上发布。

8、腾讯云大模型知识引擎首家接入 MCP,赋能 AI 应用开发新纪元
在2025腾讯全球数字生态大会成都峰会上,腾讯云宣布其大模型知识引擎成为业内首个正式接入 MCP(Model Context Protocol)的平台。这一突破性升级使得开发者和企业用户能够便捷地调用和定制 MCP 插件,显著提升 AI 应用的开发效率和功能丰富度。目前,该知识引擎平台已上线包括腾讯云 EdgeOne Pages、腾讯位置服务以及 Airbnb、Figma、Fetch 等合作伙伴提供的 MCP Server,覆盖专业信息获取、网页部署预览和解析等多种应用场景。腾讯云此举标志着中国 AI 应用开发进入新时代,其大模型知识引擎将成为重要的推动力量。

9、理想同学MindGPT 3.0上线,深度思考能力比肩DeepSeek
理想汽车发布了其智能助手“理想同学”的最新升级版,搭载了全新的 MindGPT 3.0 模型。该模型在深度思考能力上取得了显著提升,性能可与 DeepSeek-V3-0324 和 DeepSeek-R1 相媲美。MindGPT 3.0 支持结构化思维链展示和反思再检索,能够提供更精准全面的信息。其语音理解和容错能力也得到增强,并能更好地处理复杂指令。此外,升级后的工具生态和连续对话效果也为用户带来更便捷流畅的体验。值得一提的是,MindGPT 3.0 还具备无关历史对话过滤功能,有效提升了回复的准确性。用户现可通过理想同学手机 App 及网页版免费体验。

10、飞猪AI“问一问”上线,自然语言搞定旅行规划和机酒预订
飞猪近期推出的 AI 产品“问一问”在小红书上引发热议,其强大的功能在于能够通过自然语言交互,帮助用户快速完成机票和酒店的预订,实现“所见即所得”的旅行规划体验。与传统旅行 AI 不同,“问一问”模拟多专家协作,结合实时报价和景点信息,为用户提供个性化旅行方案,并支持直接编辑修改。用户只需输入需求,AI 即可生成行程,并能根据预算实时调整。这款产品标志着 AI 在旅行行业的深度应用进入新阶段,为用户带来了更便捷的出行规划方式。

11、WORLDMEM开源发布,革新长期一致性世界模拟技术
WORLDMEM 框架在 Hugging Face 开源发布,通过引入记忆机制,创新性地解决了传统世界模拟模型在长期一致性和 3D 空间保持方面的难题。该框架利用记忆银行和注意力机制,能够精确重建先前观察的场景,捕捉动态世界演变,并显著提升长时序 3D 空间一致性。WORLDMEM 采用模块化设计,兼容 DiT 模型,并在虚拟现实、机器人导航和游戏开发等领域展现出巨大潜力。其开源和详细文档吸引了广泛关注,未来有望与多模态大模型结合,进一步提升世界模拟技术。

12、Midjourney图像编辑器重大更新:引入图层、智能选择等强大功能
Midjourney 对其图像编辑器进行了重大更新,带来了全新的用户界面、图层功能、智能选择工具以及更智能的审核系统。新 UI 设计更加简洁直观,整合了各项编辑功能,提升了操作效率和用户体验。图层功能的加入显著增强了图像编辑的灵活性,而智能选择工具则提高了编辑的精准度。此次更新旨在进一步巩固 Midjourney 在 AI 艺术生成领域的领先地位,为用户提供更强大、更易用的图像编辑工具。

13、腾讯混元开源 InstantCharacter 插件,实现定制化角色一致性图像生成
该插件兼容开源文生图模型 Flux,专注于解决图像生成中角色一致性问题。InstantCharacter 能够确保角色在不同场景中的真实性和一致性,并具备高画质、高精度和灵活的文本编辑性。其技术核心在于利用 DiT 模型构建的创新框架,通过可扩展的适配器和多个 transformer encoder 处理角色特征,并与扩散变换器的潜在空间无缝交互。腾讯混元团队构建了包含千万级样本的角色数据集进行训练,使得模型在角色一致性和文本可编辑性上均表现出色,效果媲美 GPT-4o,适用于漫画和影片创作等多种场景。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2338137.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Dify LLM大模型参数(一)

深入了解大语言模型(LLM)的参数设置 模型的参数对模型的输出效果有着至关重要的影响。不同的模型会拥有不同的参数,而这些参数的设置将直接影响模型的生成结果。以下是 DeepSeek 模型参数的详细介绍: 温度(Tempera…

展示数据可视化的魅力,如何通过图表、动画等形式让数据说话

在当今信息爆炸的时代,数据的量级和复杂性不断增加。如何从海量数据中提取有价值的信息,并将其有效地传达给用户,成为了一个重要的课题。数据可视化作为一种将复杂数据转化为直观图形、图表和动画的技术,能够帮助用户快速理解数据…

时序预测 | Matlab实现基于VMD-WOA-ELM和VMD-ELM变分模态分解结合鲸鱼算法优化极限学习机时间序列预测

时序预测 | Matlab实现基于VMD-WOA-ELM和VMD-ELM变分模态分解结合鲸鱼算法优化极限学习机时间序列预测 目录 时序预测 | Matlab实现基于VMD-WOA-ELM和VMD-ELM变分模态分解结合鲸鱼算法优化极限学习机时间序列预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 1.Matlab…

基于EasyX库开发的球球大作战游戏

目录 球球大作战 一、开发环境 二、流程图预览 三、代码逻辑 1、初始化时间 2、设置开始界面大小 3、设置开始界面 4、让玩家选择速度 5、设置玩家小球、人机小球、食物的属性 6、一次性把图绘制到界面里 7、进入死循环 8、移动玩家小球 9、移动人机 10、食物刷新…

《系统分析师-第三阶段—总结(一)》

背景 采用三遍读书法进行阅读,此阶段是第三遍。 过程 第一章 第二章 总结 在这个过程中,对导图的规范越来越清楚,开始结构化,找关系,找联系。

AI——K近邻算法

文章目录 一、什么是K近邻算法二、KNN算法流程总结三、Scikit-learn工具1、安装2、导入3、简单使用 三、距离度量1、欧式距离2、曼哈顿距离3、切比雪夫距离4、闵可夫斯基距离5、K值的选择6、KD树 一、什么是K近邻算法 如果一个样本在特征空间中的k个最相似(即特征空…

用 NLP + Streamlit,把问卷变成能说话的反馈

网罗开发 (小红书、快手、视频号同名) 大家好,我是 展菲,目前在上市企业从事人工智能项目研发管理工作,平时热衷于分享各种编程领域的软硬技能知识以及前沿技术,包括iOS、前端、Harmony OS、Java、Python等…

TCP/IP和UDP协议的发展历程

TCP/IP和UDP协议的发展历程 引言 互联网的发展史是人类技术创新的辉煌篇章,而在这一发展过程中,通信协议发挥了奠基性的作用。TCP/IP(传输控制协议/互联网协议)和UDP(用户数据报协议)作为互联网通信的基础…

Function Calling的时序图(含示例)

🧍 用户: 发起请求,输入 prompt(比如:“请告诉我北京的天气”)。 🟪 应用: 将用户输入的 prompt 和函数定义(包括函数名、参数结构等)一起发给 OpenAI。 …

若依框架修改左侧菜单栏默认选中颜色

1.variables.sacc中修改为想要的颜色 2.给目标设置使用的颜色

搜广推校招面经七十八

字节推荐算法 一、实习项目:多任务模型中的每个任务都是做什么?怎么确定每个loss的权重 这个根据实际情况来吧。如果实习时候用了moe,就可能被问到。 loss权重的话,直接根据任务的重要性吧。。。 二、特征重要性怎么判断的&…

广搜bfs-P1443 马的遍历

P1443 马的遍历 题目来源-洛谷 题意 要求马到达棋盘上任意一个点最少要走几步 思路 国际棋盘规则是马的走法是-日字形,也称走马日,即x,y一个是走两步,一个是一步 要求最小步数,所以考虑第一次遍历到的点即为最小步数&#xff…

强化学习算法系列(六):应用最广泛的算法——PPO算法

强化学习算法 (一)动态规划方法——策略迭代算法(PI)和值迭代算法(VI) (二)Model-Free类方法——蒙特卡洛算法(MC)和时序差分算法(TD) (三)基于动作值的算法——Sarsa算法与Q-Learning算法 (四…

AI Agents系列之AI代理架构体系

1. 引言 智能体架构是定义智能体组件如何组织和交互的蓝图,使智能体能够感知其环境、推理并采取行动。本质上,它就像是智能体的数字大脑——集成了“眼睛”(传感器)、“大脑”(决策逻辑)和“手”(执行器),用于处理信息并采取行动。 选择正确的架构对于构建有效的智能…

2025海外代理IP测评:Bright Data,ipfoxy,smartproxy,ipipgo,kookeey,ipidea哪个值得推荐?

近年来,随着全球化和跨境业务需求的不断扩大“海外代理IP”逐渐成为企业和个人在多样化场景中的重要工具。无论是进行数据采集、广告验证、社交媒体管理,还是跨境电商平台运营,选择合适的代理IP服务商都显得尤为重要。然而,市场上…

Android守护进程——Vold (Volume Daemon)

简介 介绍:Vold 是用来管理 android 系统的存储设备,如U盘、SD卡、磁盘等移动设备的热插拔、挂载、卸载、格式化 框架结构:Vold 在系统中以守护进程存在,是一个单独的进程。处于Kernel和Framework之间,是两个层级连接…

vue3+vite 实现.env全局配置

首先创建.env文件 VUE_APP_BASE_APIhttp://127.0.0.1/dev-api 然后引入依赖: pnpm install dotenv --save-dev 引入完成后,在vite.config.js配置文件内加入以下内容: const env dotenv.config({ path: ./.env }).parsed define: { // 将…

AI 组件库是什么?如何影响UI的开发?

AI组件库是基于人工智能技术构建的、面向用户界面(UI)开发的预制模块集合。它们结合了传统UI组件(如按钮、表单、图表)与AI能力(如机器学习、自然语言处理、计算机视觉),旨在简化开发流程并增强…

OpenCV day6

函数内容接上文:OpenCV day4-CSDN博客 , OpenCV day5-CSDN博客 目录 平滑(模糊) 25.cv2.blur(): 26.cv2.boxFilter(): 27.cv2.GaussianBlur(): 28.cv2.medianBlur(): 29.cv2.bilateralFilter(): 锐…

【AI飞】AutoIT入门七(实战):python操控autoit解决csf视频批量转换(有点难,AI都不会)

背景: 终极目标:通过python调用大模型,获得结果,然后根据返回信息,控制AutoIT操作电脑软件,执行具体工作。让AI更具有执行力。 已完成部分: 关于python调用大模型的,可以参考之前的…