多镜头视频生成、机器人抓取、扩散模型个性化 | Big Model weekly第58期

news2025/3/4 21:14:35

点击蓝字

a76fa8ea6eea932147f1307513542c1a.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

01

GLM-4-Voice: Towards Intelligent and Human-Like End-to-End Spoken Chatbot

本文介绍了一种名为GLM-4-Voice的智能且类人化的端到端语音聊天机器人。它支持中文和英文,能够进行实时语音对话,并根据用户指令灵活调整语音的细微特征,如情感、语调、语速和方言。GLM-4-Voice采用了一种超低比特率(175bps)的单码本语音分词器,其帧率为12.5Hz,是通过在自动语音识别(ASR)模型的编码器中嵌入矢量量化瓶颈而开发的。为了高效地将知识从文本模态转移到语音模态,本利用研究文本到分词模型,从现有的文本预训练语料库中合成语音-文本交错数据。作者从预训练文本语言模型GLM-4-9B出发,结合无监督语音数据、交错语音-文本数据以及监督语音-文本数据,进一步进行预训练,扩展至1万亿个标记,实现了语音语言建模和口语问答的最新水平。最后,本研究使用高质量的对话语音数据对预训练模型进行微调,在对话能力和语音质量方面均优于现有基线模型。

015524165a38b62ceed66926e5f4bb31.png

4cf8bf16449eb0654f1b08c041cd9370.png

c3cce525323cf502fdf87cc165782b92.png

6d52ad8b5e4477602fbbcc485361ecf9.png

587b4c66253d3029b56e69d426ebf96d.png

文章链接:

https://arxiv.org/pdf/2412.02612

02

Let's Think Var-by-Var: Large Language Models Enable Ad Hoc Probabilistic Reasoning

本文提出了一种从大型语言模型(LLMs)中提取“常识”的方法,并将其转化为可用于概率推理的形式。这种能力被认为是智能的一个重要标志,即能够用“常识”来补充未明确说明的情况。本研究专注于估算类问题,例如“新泽西州纽瓦克市的Airbnb房源价格是多少?”在没有数据的情况下,合理回答此类问题需要调用并整合关于价格与地理位置可能与其他变量(如房屋类型)相关的常识片段。本文提出的框架通过合成一个临时的概率模型来回答这类问题。首先,提示LLM提出与问题相关的随机变量集合,然后对它们的联合分布施加矩约束。接着,在对数线性族内优化联合分布p,以最大化满足所有约束条件。实验表明,LLM能够成功地被提示提出合理的变量,尽管所提出的数值约束可能存在噪声,但通过联合优化以满足这些约束可以协调它们。在从三个真实世界表格数据集中衍生的概率问题上进行评估时,本文的方法在与数据集分布的总变差距离方面与直接提示的基线方法表现相当,并且对噪声具有类似的鲁棒性。

5f9d0eea68cc495dd5f42f3cd5ced8c7.png

ac3fe29e140c5ed1250e3b5ea39b7bfa.png

6985a85842b45534926cbffe76c7b5b5.png

文章链接:

https://arxiv.org/pdf/2412.02081

03

VideoGen-of-Thought: A Collaborative Framework for Multi-Shot Video Generation

当前的视频生成模型在生成短视频片段方面表现出色,但在创建多镜头、类似电影的视频方面仍面临挑战。现有的模型在大规模数据和丰富的计算资源支持下进行训练,由于通常以单镜头为目标进行训练,因此在维持连贯剧本的多个镜头之间的逻辑故事线和视觉一致性方面表现不足。为此,本文提出了VideoGen-of-Thought(VGoT),这是一种专为多镜头视频生成设计的协作式且无需训练的架构。VGoT的设计目标如下:

多镜头视频生成:本文将视频生成过程划分为一个结构化、模块化的序列,包括:(1)剧本生成,将简短的故事转化为每个镜头的详细提示;(2)关键帧生成,负责创建与角色表现一致且视觉上连贯的关键帧;(3)镜头级视频生成,将剧本和关键帧的信息转化为镜头;(4)平滑机制,确保多镜头输出的一致性。

合理的叙事设计:受电影剧本创作的启发,本文的提示生成方法涵盖五个关键领域,确保整个视频的逻辑连贯性、角色发展和叙事流畅性。

跨镜头一致性:通过利用跨镜头的身份保持(IP)嵌入来确保时间和身份一致性,这些嵌入是自动从叙事中生成的。此外,本文还引入了一种跨镜头平滑机制,整合了重置边界,有效结合相邻镜头的潜在特征,从而实现平滑过渡并保持视频的视觉连贯性。

实验表明,VGoT在生成高质量、连贯的多镜头视频方面优于现有的视频生成方法。

b59f10e6f41c70e5294cd62438725c19.png

17718573028be844d4b1517918c06179.png

87f620fb94d7794a6318d66af4b2ddcb.png

31152e1bd542e2df7d0835e5086b348a.png

00d3dd79392d3a4b80d57d0715d836c9.png

3951b3b3a89509f43496dea470d87821.png

文章链接:

https://arxiv.org/pdf/2412.02259

04

AniGS: Animatable Gaussian Avatar from a Single Image with Inconsistent Gaussian Reconstruction

从单张图像生成可动画化的人类虚拟形象对于各种数字人类建模应用至关重要。现有的3D重建方法通常难以捕捉可动画化模型中的细节,而用于可控动画的生成方法虽然避免了显式的3D建模,但在极端姿态下存在视角不一致和计算效率低下的问题。本文通过利用生成模型的强大能力来生成详细的多视角标准姿态图像,从而帮助解决可动画化人类重建中的歧义问题。随后,本文提出了一种用于不一致图像的鲁棒3D重建方法,能够在推理阶段实现实时渲染。具体而言,本文将基于Transformer的视频生成模型适应性地调整为生成多视角标准姿态图像和法线图,并在大规模视频数据集上进行预训练以提高泛化能力。为了解决视角不一致的问题,本文将重建问题重新定义为一个4D任务,并引入了一种基于4D高斯点绘制的高效3D建模方法。实验表明,本文的方法能够从野外图像中实现逼真且实时的3D人类虚拟形象动画化,展示了其有效性和泛化能力。

f8a8121c9dfa2811dfaac1049cda4dd7.png

8962726d22c4af223450baf607c9f3f2.png

c70e7f11c5da3ae898ed51534d2c5d25.png

11bf441da297e60ed03eaad6dcd3e001.png

c83d43a9286faef8d43787346b9058cf.png

文章链接:

https://arxiv.org/pdf/2412.02684

05

Motion Prompting: Controlling Video Generation with Motion Trajectories

运动控制对于生成富有表现力和吸引力的视频内容至关重要;然而,大多数现有的视频生成模型主要依赖于文本提示进行控制,这在捕捉动态动作的细微差别和时间构图方面存在困难。为此,本文训练了一种基于时空稀疏或密集运动轨迹的条件视频生成模型。与以往的运动条件工作相比,这种灵活的表示方法可以编码任意数量的轨迹,包括特定对象的运动或全局场景运动,以及时间上稀疏的运动。由于其灵活性,本文将其称为运动提示(motion prompts)。虽然用户可以直接指定稀疏轨迹,但本文还展示了如何将用户的高级请求转化为详细且半密集的运动提示,这一过程被称为运动提示扩展(motion prompt expansion)。通过多种应用,包括相机和对象运动控制、与图像“交互”、运动迁移以及图像编辑,本文展示了该方法的多功能性。实验结果展示了模型的新兴行为,例如逼真的物理效果,这表明运动提示在探索视频模型和与未来生成式世界模型交互方面的潜力。最后,本文通过定量评估、人类研究以及实验结果,展示了该方法的出色性能。

34ac77cea435c045dcf51cbcc2d6f6fd.png

cb2b25b3f66c9dd29fd59914a80f0ec8.png

604b16ad7ab798f68bb4a9b166bf3bb7.png

959825bd0b14218d146b699d214af454.png

文章链接:

https://arxiv.org/pdf/2412.02700

06

UniGraspTransformer: Simplified Policy Distillation for Scalable Dexterous Robotic Grasping

本文介绍了UniGraspTransformer,这是一种基于Transformer的通用网络,用于灵巧的机器人抓取,旨在简化训练过程,同时提升可扩展性和性能。与以往的方法(例如UniDexGrasp++)不同,UniGraspTransformer采用了一种简化的流程:首先,为单个物体训练专用的策略网络,通过强化学习生成成功的抓取轨迹;然后,将这些轨迹提炼到一个单一的通用网络中。这种方法使得UniGraspTransformer能够有效地扩展,通过多达12个自注意力模块来处理成千上万种具有不同姿态的物体。此外,它在理想化和现实世界的输入上均表现出良好的泛化能力,并在基于状态和基于视觉的设置中进行了评估。值得注意的是,UniGraspTransformer能够为各种形状和方向的物体生成更广泛的抓取姿态,从而实现更多样化的抓取策略。实验结果表明,在基于视觉的设置中,UniGraspTransformer在各种物体类别上相较于最先进的UniDexGrasp++实现了显著的性能提升,分别在已见物体、已见类别中的未见物体以及完全未见物体上获得了3.5%、7.7%和10.1%的成功率提升。

b475bbe5e89fb15121f0afdbe0f0a4fb.png

ffe4b9305efd57c633bfd68eeefdc525.png

652672f142fc98640a802573b077c49b.png

508570aa1a8913db8d2287d9a0ad09e9.png

d5669ca750cc94f6024661a363bbb334.png

文章链接:

https://arxiv.org/pdf/2412.02699

07

LoRA Diffusion: Zero-Shot LoRA Synthesis for Diffusion Model Personalization

低秩适应(LoRA)和其他参数高效的微调(PEFT)方法为个性化文本到图像模型提供了低内存、存储高效的解决方案。然而,与全模型微调相比,这些方法在实际训练时间或收敛所需的步数方面几乎没有改进。尽管PEFT方法假设生成分布的变化(从基础模型到微调模型)可以通过低秩子空间中的权重变化有效建模,但它们未能利用对常见用例的知识,而这些用例通常专注于捕捉特定的风格或身份。观察到期望的输出通常只是LoRA训练所涵盖的可能域的一个小子集,本文提出通过引入对感兴趣区域的先验来减少搜索空间。实验表明,训练一个超网络模型以生成LoRA权重,可以在特定领域实现竞争性的质量,同时允许近乎即时地根据用户输入进行条件化,这与传统训练方法(需要数千步)形成了鲜明对比。

e20f9f055364b71e347712b01bc03f79.png

fb3eb86a9b2050c9e5e71010abc0d619.png

28208fc062897a01f2c39022bd7eb8f3.png

97adc57660e09edd68b4099913b3bc39.png

文章链接:

https://arxiv.org/pdf/2412.02352

本期文章由陈研整理

往期精彩文章推荐

dc992a6d32c7ec7c47fc288547ff80b6.jpeg

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了2000多位海内外讲者,举办了逾700场活动,超800万人次观看。

49bb469d144c51cdd5f3611089eec739.png

我知道你 

在看

提出观点,表达想法,欢迎 

留言

54a00b237652910da5026f0767a859ce.gif

点击 阅读原文 查看更多!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2309667.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

第十四届蓝桥杯:(二分算法)字串简写

这道题我们的做法是开两个vector,分别把a和b字符的下标存进去,然后遍历a字符,我们要求长度必须大于等于k,我们可以画个图,也就是说b的下标减a的下标必须大于等于k-1 也就是b的下标必须大于等于a的下标k-1 我们用二分找…

制服小程序的“滑手”:禁用页面左右滑动全攻略

哈哈,看来你已经很聪明地发现了小程序中左右滑动的“顽皮”行为!😄 没错,我们可以通过设置 disableScroll 属性来“管教”它,同时结合 CSS 样式让页面既禁得住横向“乱跑”,又能顺畅地上下滚动。你的方案已…

webstorm的Live Edit插件配合chrome扩展程序JetBrains IDE Support实现实时预览html效果

前言 我们平时在前端网页修改好代码要点击刷新再去看修改的效果,这样比较麻烦,那么很多软件都提供了实时预览的功能,我们一边编辑代码一边可以看到效果。下面说的是webstorm。 1 Live Edit 首先我们需要在webstorm的settings里安装插件Live …

02 HarmonyOS Next仪表盘案例详解(一):基础篇

温馨提示:本篇博客的详细代码已发布到 git : https://gitcode.com/nutpi/HarmonyosNext 可以下载运行哦! 文章目录 1. 项目概述2. 技术架构2.1 文件结构2.2 ArkTS 语言特性装饰器的使用 3. 数据结构设计3.1 接口定义3.2 数据初始化 4. 生命周期与页面路由…

张岳教授:语言模型推理与泛化研究 | ICLR 2025 特邀报告与团队专场

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! AITIME 01 ICLR 2025预讲会特邀报告 AITIME 02 ICLR 2025预讲会西湖大学张岳老师实验室专场 01 AI生成文本的自动化检测 Glimpse: Enabling White-Box Methods to Use Proprietary Models for Zero-Shot LLM-Ge…

离散傅里叶变换(Discrete Fourier Transform, DFT)及其在图像处理中的应用

离散傅里叶变换(DFT)及其在图像处理中的应用 什么是离散傅里叶变换? 离散傅里叶变换(Discrete Fourier Transform, DFT)是一种强大的数学工具,用于将离散信号从时域(或空间域)转换…

记一次误禁用USB导致键盘鼠标失灵的修复过程

背景说明 在电脑上插入了一个USB hub,然后弹窗提示:“集线器端口上出现电涌”,点开让选择“重置”或者“关闭”,不小心点了关闭,结果这个usb口就被关了,再插任何东西都没反应,找了很多办法都恢…

Apache nifi demo 实验

Apache nifi 是个数据流系统,可以通过配置 自定义的流程来实现数据的转换。 比如可以配置一个流程,读取数据库里的数据,再转换,最后保存到本地文件。 这样可以来实现一些数据转换的操作,而不用特地编写程序来导入导出。…

Leetcode 57-插入区间

给你一个 无重叠的 ,按照区间起始端点排序的区间列表 intervals,其中 intervals[i] [starti, endi] 表示第 i 个区间的开始和结束,并且 intervals 按照 starti 升序排列。同样给定一个区间 newInterval [start, end] 表示另一个区间的开始和…

SpringCloud之Eureka、Ribbon、OpenFeign

目录1. SpringCloud Eureka(服务注册与发现组件)2. SpringCloud Ribbon(负载均衡与服务调用组件)3. SpringCloud OpenFeign(负载均衡与服务调用组件)SpringCloud:用于开发高度可扩展、高性能的分…

如何在MacOS 10.15上安装Docker Desktop

前文提到MacOS 10.15上无法通过Homebrew安装最新版本的docker,自然想到了去安装更早版本的docker。在MacOS上安装Docker Desktop比安装Docker Engine要更方便一些,具体原因可以自己搜索。通过Docker Desktop的Release notes得知最后一个支持MacOS 10.15的…

Moticon智能鞋垫传感器OpenGo:经济实用的运动科学研究与临床评估工具

Moticon智能鞋垫传感器OpenGo是运动科学研究领域的一款高性能工具,其无线设计和精准传感器为步态分析、平衡评估以及疾病诊断提供了稳定的数据支持。通过实时捕捉足底压力分布、动态变化及平衡状态,OpenGo 为研究人员和临床医生提供了深入洞察个体运动模…

打造高清3D虚拟世界|零基础学习Unity HDRP高清渲染管线(第一天)

打造高清3D虚拟世界|零基础学习Unity HDRP高清渲染管线(第一天) 前言最后 前言 说真的,用Unity工作这几年,经历的项目大大小小,对于场景的渲染算是有一定的经验,但涉及到HDRP高清渲染管线的了解&#xff0…

nlp第十节——LLM相关

一、模型蒸馏技术 本质上是从一个大模型蒸馏出小模型,从小模型训练出来的概率分布(如自回归模型预测下一个字的概率分布)分别与大模型预测的概率分布和ground label求loss。与大模型预测的概率分布用KL散度求loss,与ground label用…

Flutter管理项目实战

目录: 1、项目的构建和介绍 1、项目的构建和介绍 登录官网下载flutter的zip压缩包,解压到某个文件夹下即可,里面自带sdk的文件,无需再下载;创建项目时选定flutter的sdk的路径即可创建项目完成。 后续待完善&#xff0…

UniApp 中封装 HTTP 请求与 Token 管理(附Demo)

目录 1. 基本知识2. Demo3. 拓展 1. 基本知识 从实战代码中学习,上述实战代码来源:芋道源码/yudao-mall-uniapp 该代码中,通过自定义 request 函数对 HTTP 请求进行了统一管理,并且结合了 Token 认证机制 请求封装原理&#xff…

基于开源库编写MQTT通讯

目录 1. MQTT是什么?2. 开发交互UI3. 服务器核心代码4. 客户端核心代码5. 消息订阅与发布6. 通讯测试7. MQTT与PLC通讯最后. 核心总结 1. MQTT是什么? MQTT(Message Queuing Terlemetry Transport)消息队列遥测协议;是…

基于springboot+vue美食与健康分享推广网站

目录 项目介绍 图片展示 运行环境 项目介绍 管理员: 个人中心:修改个人信息、修改密码 美食分类管理:增删改查美食分类 商品分类管理:增删改查商品分类 热门美事管理:增删改查热门美食、以及查看评论、预览视频 在线…

计算机毕业设计SpringBoot+Vue.js装饰工程管理系统(源码+文档+PPT+讲解)

温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…

从波士顿动力到Figure AI:探寻人工智能驱动的机器人智能化

一、引言 1.1 研究背景与意义 在科技飞速发展的当下,机器人智能化已成为全球科技竞争的关键领域,深刻影响着人类社会的生产与生活方式。从工业制造到日常生活服务,从医疗保健到探索未知领域,机器人正逐步渗透进各个行业,展现出巨大的发展潜力与应用价值。其智能化水平的…