【AI News | 20250423】每日AI进展

news2025/4/24 11:00:43

AI Repos

1、suna
Suna是一款完全开源的AI助手,旨在通过自然对话帮助用户轻松完成现实世界的任务。它作为您的数字伙伴,提供研究、数据分析和日常问题解决等功能,并结合强大的能力与直观的界面,理解您的需求并交付成果。Suna的工具箱包括无缝浏览器自动化、文件管理、网络爬虫和扩展搜索、命令行执行、网站部署以及与各种API和服务集成,使其能够通过简单的对话解决复杂问题并自动化工作流程。
在这里插入图片描述

2、short-video-maker
Shorts Video Maker是一款开源工具,旨在通过简单的文本输入自动创建引人入胜的短视频内容。它结合了文本转语音、自动字幕、背景视频和音乐等功能,可用于生成TikTok、Instagram Reels和YouTube Shorts等平台的短视频。该工具推荐至少双核CPU,可选GPU以加速字幕生成和视频渲染,并利用模型上下文协议(MCP)和REST API实现自动化视频创作。该项目由AI Agents A-Z YouTube频道开源。

3、dia
一款超逼真的文本转语音生成模型,号称超越 ElevenLabs 和 Sesame。仅仅只有 1.6B 参数,能直接从文本生成高度逼真的对话,还支持控制情感和语调,甚至可以生成笑声、咳嗽等非语言声音。
通过 [S1] 和 [S2] 标签控制生成多角色对话;支持生成笑声、清嗓子、叹息等非语言表达;提供声音克隆功能,可复制特定声音风格;实时生成,A4000 GPU 上约 40 tokens/s。提供 Gradio UI 界面,操作简单易上手,同时还可以在 Hugging Face 上在线体验。

AI News

1、字节跳动发布Vidi多模态模型:引领超长视频精准理解与编辑
字节跳动推出全新多模态模型Vidi,专注于视频理解与编辑,核心能力为精准时间检索,支持长达一小时的超长视频分析。Vidi整合视觉、音频和文本输入,在时间检索任务上性能超越GPT-4o与Gemini等主流模型,准确率提升约10%。其技术架构包括时间增强变换器和多模态编码器,并采用高效推理优化。Vidi在内容创作、智能视频分析、教育培训和娱乐推荐等领域展现出广泛应用前景,代码与模型将在GitHub开源。

2、xAI发布Grok Vision:视觉与多语言智能交互新纪元
xAI为Grok AI助手推出全新Grok Vision功能,实现通过智能手机摄像头实时分析物体、文本和环境,并结合多语言语音支持与实时搜索的无缝智能交互体验。用户可通过视觉输入和多语言语音进行提问,Grok能实时识别、解析并提供答案,其视觉处理能力在RealWorldQA基准测试中超越GPT-4V和Claude3。Grok Vision已在iOS版Grok应用上线,Android版部分功能需订阅,其开源API为开发者提供了二次开发潜力,预示着多模态AI交互的新篇章。

3、百度发布“心响”App:全托管多智能体协作超级AI
百度正式推出移动端应用“心响”,定位为通用超级智能体,旨在通过智能化手段解决用户复杂需求。该App深度整合地图类MCP功能,提供行程自动标注和出行推荐等服务。更创新地在健康、法律等专业领域实现多智能体协作,例如调度多个“医生AI分身”进行联合会诊,或由“律师智囊团”提供法律咨询。目前已覆盖200个任务类型,未来计划扩展至10万种以上,全面满足用户多样化需求。安卓版本已上线,iOS版本即将推出。

4、腾讯发布“企鹅读伴”AI阅读助手,混元大模型赋能中小学趣味阅读
腾讯在世界读书日推出“企鹅读伴”App,由混元大模型和元器平台驱动,专为中小学生设计。该AI助手能根据学生情况精准推荐书目,通过数字人、语音朗读、听书等多元模式,将传统阅读转化为互动体验。它还提供AI引导的阅读练习和启发式提问,培养学生的思辨能力。结合角色扮演和游戏化设计,激发阅读兴趣。系统自动生成阅读报告,助力学生和教育者追踪阅读情况,旨在重构阅读教育生态,实现阅读过程可追踪、成果可量化、兴趣可持续。

5、腾讯混元3D生成模型发布2.5版本:建模精度大幅提升至超高清
腾讯正式发布混元3D生成模型2.5版本,实现了建模精细度的飞跃,有效几何分辨率达到1024,总参数量提升至10B。新版本支持4K高清纹理和细粒度bump贴图,并率先实现多视图输入生成PBR模型,显著增强了模型真实感。混元3D AI创作引擎同步更新,免费生成额度翻倍,API已上线腾讯云。此外,v2.5优化了骨骼蒙皮系统和3D生成工作流,提供专业管线模板,旨在降低3D内容创作门槛,提升效率,并推动其在游戏、动画等领域的应用。腾讯混元持续拥抱开源,助力3D AIGC生态发展。

6、Otto推出业界首个PIMS集成AI医疗记录自动写回功能
Otto公司发布了其AI驱动的Recap功能的自动写回功能,成为首个在兽医技术领域实现AI生成SOAP笔记与实践信息管理系统(PIMS)无缝集成的公司。该功能支持与Avimark、Cornerstone等主流PIMS系统自动同步AI生成的医疗记录,消除了手动复制粘贴的繁琐流程,显著减少了兽医的文书工作负担,使其能够更专注于动物护理和与宠物主人的互动。AI Recap通过转录咨询内容智能提取关键信息,并以SOAP笔记或要点形式呈现,夜间自动同步至PIMS系统。

7、OpenBMB开源“卷姬”:革新长文本生成,挑战传统综述模式
OpenBMB开源了名为“卷姬”(SurveyGO)的AI模型,专注于长文本生成。该模型利用信息熵和卷积算法高效梳理海量文献,生成高质量综述报告。用户只需提供关键词,即可快速获取结构清晰、分析深入、观点有理有据且引用精准的综述。“卷姬”的强大能力源于LLMxMapReduce-V2长文本整合生成技术,该技术在参考文献利用等方面表现卓越。通过SurveyEval基准测试,“卷姬”展现出在处理大规模信息整合任务上的强大实力,预示着其在长文本生成领域广阔的应用前景。

8、阿里巴巴推出VACE模型:统一处理文本、图像和视频输入,革新视频创作
阿里巴巴发布通用人工智能模型VACE,旨在统一处理多种视频生成和编辑任务。VACE采用增强的扩散Transformer架构,通过“视频条件单元”(VCU)整合文本、图像、视频和空间蒙版等多种模态输入。其“概念解耦”技术实现对视频内容编辑的精细控制。VACE支持文本到视频、基于参考的视频合成、视频到视频编辑和基于遮罩的目标编辑等任务,并在自建基准测试中优于开源模型。阿里巴巴视VACE为通往通用多模态视频模型的重要一步,未来将扩大数据和算力进行扩展,部分代码将在GitHub开源。

9、Character.AI发布AvatarFX模型:静态图片人物开口说话
Character.AI推出创新视频生成模型AvatarFX,能将静态图片转化为具有真实感的可说话视频角色,赋予其动态表情、唇部同步和自然肢体动作。该模型基于先进的扩散模型,通过音频条件化等技术实现高速、高保真和时间一致性的视频生成,支持长序列叙事和多角色对话。AvatarFX提供多样化的音频选择,并内置安全控制措施。用户只需上传角色图片并配上音频,即可轻松生成生动视频,为个人项目、社交媒体和教学演示等提供便利。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2341405.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【学习准备】算法和开发知识大纲

1 缘起 今年(2025年)的职业升级结果:不通过。没办法升职加薪了。 需要开始完善学习,以应对不同的发展趋势,为了督促自己学习,梳理出相关学习大纲。 分为算法和开发两部分。 算法,包括基础算法和…

第七篇:linux之基本权限、进程管理、系统服务

第七篇:linux之基本权限、进程管理、系统服务 文章目录 第七篇:linux之基本权限、进程管理、系统服务一、基本权限1、什么是权限?2、为什么要有权限?3、权限与用户之间的关系?4、权限对应的数字含义5、使用chmod设定权…

爬虫案例-爬取某企数据

文章目录 1、准备要爬取企业名称数据表2、爬取代码3、查看效果 1、准备要爬取企业名称数据表 企业名称绍兴市袍江王新国家庭农场绍兴市郑杜粮油专业合作社绍兴市越城区兴华家庭农场绍兴市越城区锐意家庭农场绍兴市越城区青甸畈家庭农场绍兴市袍江王新国家庭农场绍兴市袍江月明…

学习笔记—C++—string(一)

目录 string 为什么学习string的类 string类的常用接口 string类对象的常见构造 string类对象的访问及遍历操作 operator[] 迭代器 范围for auto 迭代器(二) string类对象的容量操作 size,length,max_size,capacity,clear基本用法 reserve 提…

GPLT-2025年第十届团体程序设计天梯赛总决赛题解(共计266分)

今天偶然发现天梯赛的代码还保存着,于是决定写下这篇题解,也算是复盘一下了 L1本来是打算写的稳妥点,最后在L1-6又想省时间,又忘记了insert,replace这些方法怎么用,也不想花时间写一个文件测试&#xff0c…

MySQL数据库精研之旅第十期:打造高效联合查询的实战宝典(一)

专栏:MySQL数据库成长记 个人主页:手握风云 目录 一、简介 1.1. 为什么要使用联合查询 1.2. 多表联合查询时的计算 1.3. 示例 二、内连接 2.1. 语法 2.2. 示例 三、外连接 4.1. 语法 4.2. 示例 一、简介 1.1. 为什么要使用联合查询 一次查询需…

15.FineReport动态展示需要的列

1.首先连接自带的sqlite数据库,具体方法参考下面的链接 点击查看连接sqlite数据库 2.文件 – 新建普通报表 3.新建数据库查询 4.查询自带的销售明细表 5.把数据添加到格子中,并设置边框颜色等格式 6.查询新的数据集:column 7.点笔 8.全部添…

Windows云主机远程连接提示“出现了内部错误”

今天有人反馈说有个服务器突然连不上了,让我看下什么问题,我根据他给的账号密码试了下发现提示“出现了内部错误”,然后就是一通排查 先是查看安全组,没发现特别的问题,因为也没有调过这块的配置 然后通过控制台登录进…

最新扣子(Coze)案例教程:Excel数据生成统计图表,自动清洗数据+转换可视化图表+零代码,完全免费教程

大家好,我是斜杠君。 知识星球群有同学和我说每天的工作涉及很多数据表的重复操作,想学习Excel数据表通过大模型自动转数据图片的功能。 今天斜杠君就带大家一起搭建一个智能体,以一个销售行业数据为例,可以快速实现自动清洗Exc…

如何安装Visio(win10)

首先下载下面这些文件 HomeStudent2021Retail.img officedeploymenttool_17531-20046.exe office中文语言包.exe 确保这些文件都在一个文件夹内(我已经上传这些资源,这些资源都是官网下载的) 官网资源下载教程 1.下载Office镜像&#xff0…

建筑安全员 A 证与 C 证:差异决定职业方向

在建筑行业的职业发展道路上,安全员 A 证和 C 证就像两条不同的岔路,它们之间的差异,在很大程度上决定了从业者的职业方向。 从证书性质和用途来看,A 证是从业资格证书,更像是一把开启安全管理高层岗位的 “金钥匙”。…

(19)VTK C++开发示例 --- 分隔文本读取器

文章目录 1. 概述2. CMake链接VTK3. main.cpp文件4. 演示效果 更多精彩内容👉内容导航 👈👉VTK开发 👈 1. 概述 本例采用坐标和法线(x y z nx ny nz)的纯文本文件,并将它们读入vtkPolyData并显示…

Redis从入门到实战先导篇

前言:本节内容包括虚拟机VMware的安装,Linux系统的配置,FinalShell的下载与配置,Redis与其桌面客户端的安装指导,便于后续黑马Redis从入门到实战的课程学习 目录 主要内容 0.相关资源 1.VMware安装 2.Linux与CentOS安装 3.Fi…

JavaScript 防抖和节流

方法一:使用lodash库的debounce方法 方法二:手写防抖函数 function debounce(fn,t){// 1.声明一个定时器变量 因为需要多次赋值 使用let声明let timer // 返回一个匿名函数return function(){if(timer){// 如果定时器存在清除之前的定时器 clearTimeout(…

Spring Boot 启动时 `converting PropertySource ... to ...` 日志详解

Spring Boot 启动时 converting PropertySource ... to ... 日志详解 1. 日志背景 在 Spring Boot 应用启动过程中,会加载并处理多种 配置源(如 application.properties、系统环境变量、命令行参数等)。这些配置源会被封装为 PropertySource…

分割数据集中.json格式标签转化成伪彩图图像

一、前言 图像分割任务中,分割数据集的转换和表示方式对于模型训练至关重要。目前主要有两种常见的分割结果表示方法: 1. 转化为TXT文件 这种方式通常使用一系列的点(坐标)来表示图像中每个像素的类别标签。每个点通常包含像素…

Linux之彻底掌握防火墙-----安全管理详解

—— 小 峰 编 程 目录: 一、防火墙作用 二、防火墙分类 1、逻辑上划分:大体分为 主机防火墙 和 网络防火墙 2、物理上划分: 硬件防火墙 和 软件防火墙 三、硬件防火墙 四、软件防火墙 五、iptables 1、iptables的介绍 2、netfilter/…

# 构建和训练一个简单的CBOW词嵌入模型

构建和训练一个简单的CBOW词嵌入模型 在自然语言处理(NLP)领域,词嵌入是一种将词汇映射到连续向量空间的技术,这些向量能够捕捉词汇之间的语义关系。在这篇文章中,我们将构建和训练一个简单的Continuous Bag of Words…

Collection集合,List集合,set集合,Map集合

文章目录 集合框架认识集合集合体系结构Collection的功能常用功能三种遍历方式三种遍历方式的区别 List集合List的特点、特有功能ArrayList底层原理LinkedList底层原理LinkedList的应用场list:电影信息管理模块案例 Set集合set集合使用哈希值红黑树HashSet底层原理HashSet集合元…

使用DDR4控制器实现多通道数据读写(九)

一、本章概括 在上一节中,我们概括了工程的整体思路,并提供了工程框架,给出了读写DDR4寄存器的接口列表和重点时序图。当然,对于将DDR4内存封装成FIFO接口,其中的重点在于对于读写DDR4内存地址的控制,相对于…