大家好,今日必读的大模型论文来啦!
1.中科大团队提出人像视频编辑方法 PortraitGen
中国科学技术大学团队提出了 PortraitGen,这是一种功能强大的人像视频编辑方法,它能通过多模态提示实现一致且富有表现力的风格化。
传统的人像视频编辑方法往往难以实现三维和时间上的一致性,而且通常缺乏渲染质量和效率。为了解决这些问题,他们将人像视频帧提升到统一的动态三维高斯场,从而确保各帧之间的结构和时间一致性。此外,他们还设计了一种新颖的神经高斯纹理机制,不仅能实现复杂的风格编辑,还能达到 100FPS 以上的渲染速度。他们的方法通过从大规模二维生成模型中提炼出的知识整合了多模态输入。他们的系统还结合了表情相似性指导和人脸感知肖像编辑模块,有效缓解了与数据集迭代更新相关的退化问题。
广泛的实验证明了他们的方法具有时间一致性、编辑效率和卓越的渲染质量。通过各种应用,包括文字驱动编辑、图像驱动编辑和重新照明,证明了所提方法的广泛适用性,凸显了其在推动视频编辑领域发展方面的巨大潜力。
论文链接:
https://arxiv.org/abs/2409.13591
项目地址:
https://ustc3dv.github.io/PortraitGen/
2.MuCodec:超低比特率音乐编解码器
音乐编解码器是音频编解码器研究的一个重要方面,超低比特率压缩对音乐的传输和生成具有重要意义。由于音乐背景的复杂性和人声的丰富性,仅仅依靠语义或声学信息建模无法有效地重建包含人声和背景的音乐。
为了解决这个问题,来自清华大学、腾讯 AI Lab 和香港中文大学的研究团队推出了 MuCodec,专门针对超低比特率下的音乐压缩和重构任务。MuCodec 采用 MuEncoder 提取声学和语义特征,用 RVQ 将其离散化,并通过流匹配获得 Mel-VAE 特征。然后使用预先训练好的 MEL-VAE 解码器和 HiFiGAN 重构音乐。
MuCodec 能以超低比特率(0.35kbps)或高比特率(1.35kbps)重建高保真音乐,在主观和客观指标方面都取得了 SOTA。
论文链接:
https://arxiv.org/abs/2409.13216
GitHub 地址:
https://xuyaoxun.github.io/MuCodec_demo/
3.视觉语言模型具备视觉透视能力吗?
视觉透视(VPT)是一种理解他人观点的能力,它能让人预测他人的行动。例如,司机可以通过评估行人的视角来避免事故。人类通常在儿童时代就具备了这种能力,但最近出现的视觉语言模型(VLMs)是否具备这种能力仍不清楚。此外,随着这些模型越来越多地应用于现实世界,了解它们如何执行 VPT 等任务至关重要。
在这项工作中,来自华沙大学和 IDEAS NCBR 的研究团队推出了两个人工编辑的数据集——Isle-Bricks 和 Isle-Dots 来测试 VPT 技能,并用它们来评估 12 种常用的 VLM。他们发现,在所有模型中,当需要进行透视时,性能会明显下降。此外,他们还发现,物体检测任务的性能与 VPT 任务的性能之间的相关性很低,这表明现有基准可能不足以了解这一问题。
论文链接:
https://arxiv.org/abs/2409.12969
项目地址:
https://sites.google.com/view/perspective-taking
4.OpenAI o1 的规划能力如何?初步评估结果来了
长期以来,通过规划行动方案来实现理想状态的能力,一直被认为是智能体(agent)的核心能力,也是人工智能(AI)不可或缺的一部分。随着大语言模型(LLM)的出现,人们对其是否具备这种规划能力产生了浓厚的兴趣。
PlanBench 是亚利桑那大学团队在 2022 年开发的可扩展基准,一直是评估 LLM 规划能力的重要工具。尽管自 GPT-3 发布以来,出现了大量新的私有和开源 LLM,但该基准的进展却出人意料的缓慢。OpenAI 声称,最近开发的 o1 模型经过专门构建和训练,摆脱了自回归 LLM 的常规限制,成为一种新型模型:大型推理模型(Large Reasoning Model,LRM)。
在这项工作中,他们全面考察了当前 LLM 和 LRM 在 PlanBench 上的表现。虽然 o1 的性能在基准上有了质的飞跃,超过了竞争对手,但仍远未达到饱和。这也凸显了在部署此类系统之前必须考虑的精度、效率和保证等问题。
论文链接:
https://arxiv.org/abs/2409.13373
5.Meta 团队推出个性化图像生成模型 Imagine Yourself
在这项工作中,Meta 团队推出了 Imagine Yourself ——一种专为个性化图像生成而设计的 SOTA 模型。
与传统的基于微调的个性化技术不同,Imagine Yourself 是一种无需额外微调模型,它使所有用户都能利用共享框架,而无需进行个性化微调。
之前的工作在平衡身份保护、遵循复杂提示和保持良好视觉质量方面遇到了挑战,导致模型具有很强的参考图像复制粘贴效果,很难根据需要对参考图像进行重大改变的提示生成图像,如改变面部表情、头部和身体姿势,而且生成图像的多样性很低。
为了解决这些局限性,他们提出的方法引入了:
1)一种新的合成配对数据生成机制,以鼓励图像多样性;
2)一种完全并行的注意力架构,包含三个文本编码器和一个完全可训练的视觉编码器,以提高文本的忠实度;
3)一种新颖的从粗到细的多级微调方法,逐步推进视觉质量的边界。
研究表明,Imagine Yourself 超越了其他 SOTA 的个性化模型,在身份保护、视觉质量和文本对齐方面表现出卓越的能力。该模型为各种个性化应用奠定了坚实的基础。与之前的个性化模型相比,人类评估结果验证了该模型在身份保持、文本忠实性和视觉吸引力都达到了 SOTA。
论文链接:
https://arxiv.org/abs/2409.13346
6.复旦团队提出大模型情商评估框架 EmotionQueen
大语言模型(LLM)中的情商在自然语言处理中具有重要意义。然而,以往的研究主要集中在基本的情感分析任务上,如情感识别,这不足以评估大语言模型的整体情商。
因此,来自复旦大学的研究团队及其合作者提出了 EmotionQueen 新框架,用于评估 LLM 的情商。该框架包括四个不同的任务:关键事件识别、混合事件识别、内隐情感识别和意图识别。他们要求 LLM 识别重要事件或隐含情绪,并产生共鸣反应。他们还设计了两个指标来评估 LLM 识别和响应情感相关语句的能力。
论文链接:
https://arxiv.org/abs/2409.13359
7.Prithvi WxC:用于天气和气候的基础模型
人们意识到人工智能(AI)模拟器可以与在高性能计算系统上运行的传统数值天气预报模型相媲美,因此,现在有越来越多的大型人工智能模型可以解决预报、降尺度或临近预报等问题。当前的人工智能研究侧重于基础模型——可有效微调以应对多种不同用例的模型,而天气和气候方面的发展则主要侧重于单一用例,尤其侧重于中期预报。
来自 IBM、亚拉巴马大学和 NASA 的研究团队及其合作者,通过推出 Prithvi WxC 缩小了这一差距,Prithvi WxC 是一个 23 亿参数的基础模型,使用了 Modern-Era Retrospective Analysis for Research and Applications 第 2 版(MERRA-2)中的 160 个变量。Prithvi WxC 采用基于编码器-解码器的架构,融合了近期各种 transformer 模型的概念,可有效捕捉输入数据中的区域和全球依赖关系。
该模型的设计可容纳大量 token 数,从而以精细分辨率对不同拓扑结构中的天气现象进行建模。此外,该模型还采用混合目标进行训练,将掩码重建与预测范例相结合。他们在一组具有挑战性的下游任务中测试了该模型,即自回归滚动预测、降尺度、重力波通量参数化和极端事件估计。
论文链接:
https://arxiv.org/abs/2409.13598