大模型日报|7 篇必读的大模型论文

news2024/9/24 1:10:53

在这里插入图片描述

大家好,今日必读的大模型论文来啦!

1.中科大团队提出人像视频编辑方法 PortraitGen

中国科学技术大学团队提出了 PortraitGen,这是一种功能强大的人像视频编辑方法,它能通过多模态提示实现一致且富有表现力的风格化。

传统的人像视频编辑方法往往难以实现三维和时间上的一致性,而且通常缺乏渲染质量和效率。为了解决这些问题,他们将人像视频帧提升到统一的动态三维高斯场,从而确保各帧之间的结构和时间一致性。此外,他们还设计了一种新颖的神经高斯纹理机制,不仅能实现复杂的风格编辑,还能达到 100FPS 以上的渲染速度。他们的方法通过从大规模二维生成模型中提炼出的知识整合了多模态输入。他们的系统还结合了表情相似性指导和人脸感知肖像编辑模块,有效缓解了与数据集迭代更新相关的退化问题。

广泛的实验证明了他们的方法具有时间一致性、编辑效率和卓越的渲染质量。通过各种应用,包括文字驱动编辑、图像驱动编辑和重新照明,证明了所提方法的广泛适用性,凸显了其在推动视频编辑领域发展方面的巨大潜力。

论文链接:
https://arxiv.org/abs/2409.13591
项目地址:
https://ustc3dv.github.io/PortraitGen/

2.MuCodec:超低比特率音乐编解码器

音乐编解码器是音频编解码器研究的一个重要方面,超低比特率压缩对音乐的传输和生成具有重要意义。由于音乐背景的复杂性和人声的丰富性,仅仅依靠语义或声学信息建模无法有效地重建包含人声和背景的音乐。

为了解决这个问题,来自清华大学、腾讯 AI Lab 和香港中文大学的研究团队推出了 MuCodec,专门针对超低比特率下的音乐压缩和重构任务。MuCodec 采用 MuEncoder 提取声学和语义特征,用 RVQ 将其离散化,并通过流匹配获得 Mel-VAE 特征。然后使用预先训练好的 MEL-VAE 解码器和 HiFiGAN 重构音乐。

MuCodec 能以超低比特率(0.35kbps)或高比特率(1.35kbps)重建高保真音乐,在主观和客观指标方面都取得了 SOTA。

论文链接:
https://arxiv.org/abs/2409.13216
GitHub 地址:
https://xuyaoxun.github.io/MuCodec_demo/

3.视觉语言模型具备视觉透视能力吗?

视觉透视(VPT)是一种理解他人观点的能力,它能让人预测他人的行动。例如,司机可以通过评估行人的视角来避免事故。人类通常在儿童时代就具备了这种能力,但最近出现的视觉语言模型(VLMs)是否具备这种能力仍不清楚。此外,随着这些模型越来越多地应用于现实世界,了解它们如何执行 VPT 等任务至关重要。

在这项工作中,来自华沙大学和 IDEAS NCBR 的研究团队推出了两个人工编辑的数据集——Isle-Bricks 和 Isle-Dots 来测试 VPT 技能,并用它们来评估 12 种常用的 VLM。他们发现,在所有模型中,当需要进行透视时,性能会明显下降。此外,他们还发现,物体检测任务的性能与 VPT 任务的性能之间的相关性很低,这表明现有基准可能不足以了解这一问题。

论文链接:
https://arxiv.org/abs/2409.12969
项目地址:
https://sites.google.com/view/perspective-taking

4.OpenAI o1 的规划能力如何?初步评估结果来了

长期以来,通过规划行动方案来实现理想状态的能力,一直被认为是智能体(agent)的核心能力,也是人工智能(AI)不可或缺的一部分。随着大语言模型(LLM)的出现,人们对其是否具备这种规划能力产生了浓厚的兴趣。

PlanBench 是亚利桑那大学团队在 2022 年开发的可扩展基准,一直是评估 LLM 规划能力的重要工具。尽管自 GPT-3 发布以来,出现了大量新的私有和开源 LLM,但该基准的进展却出人意料的缓慢。OpenAI 声称,最近开发的 o1 模型经过专门构建和训练,摆脱了自回归 LLM 的常规限制,成为一种新型模型:大型推理模型(Large Reasoning Model,LRM)。

在这项工作中,他们全面考察了当前 LLM 和 LRM 在 PlanBench 上的表现。虽然 o1 的性能在基准上有了质的飞跃,超过了竞争对手,但仍远未达到饱和。这也凸显了在部署此类系统之前必须考虑的精度、效率和保证等问题。

论文链接:
https://arxiv.org/abs/2409.13373

5.Meta 团队推出个性化图像生成模型 Imagine Yourself

在这项工作中,Meta 团队推出了 Imagine Yourself ——一种专为个性化图像生成而设计的 SOTA 模型。

与传统的基于微调的个性化技术不同,Imagine Yourself 是一种无需额外微调模型,它使所有用户都能利用共享框架,而无需进行个性化微调。

之前的工作在平衡身份保护、遵循复杂提示和保持良好视觉质量方面遇到了挑战,导致模型具有很强的参考图像复制粘贴效果,很难根据需要对参考图像进行重大改变的提示生成图像,如改变面部表情、头部和身体姿势,而且生成图像的多样性很低。

为了解决这些局限性,他们提出的方法引入了:
1)一种新的合成配对数据生成机制,以鼓励图像多样性;
2)一种完全并行的注意力架构,包含三个文本编码器和一个完全可训练的视觉编码器,以提高文本的忠实度;
3)一种新颖的从粗到细的多级微调方法,逐步推进视觉质量的边界。

研究表明,Imagine Yourself 超越了其他 SOTA 的个性化模型,在身份保护、视觉质量和文本对齐方面表现出卓越的能力。该模型为各种个性化应用奠定了坚实的基础。与之前的个性化模型相比,人类评估结果验证了该模型在身份保持、文本忠实性和视觉吸引力都达到了 SOTA。

论文链接:
https://arxiv.org/abs/2409.13346

6.复旦团队提出大模型情商评估框架 EmotionQueen

大语言模型(LLM)中的情商在自然语言处理中具有重要意义。然而,以往的研究主要集中在基本的情感分析任务上,如情感识别,这不足以评估大语言模型的整体情商。

因此,来自复旦大学的研究团队及其合作者提出了 EmotionQueen 新框架,用于评估 LLM 的情商。该框架包括四个不同的任务:关键事件识别、混合事件识别、内隐情感识别和意图识别。他们要求 LLM 识别重要事件或隐含情绪,并产生共鸣反应。他们还设计了两个指标来评估 LLM 识别和响应情感相关语句的能力。

论文链接:
https://arxiv.org/abs/2409.13359

7.Prithvi WxC:用于天气和气候的基础模型

人们意识到人工智能(AI)模拟器可以与在高性能计算系统上运行的传统数值天气预报模型相媲美,因此,现在有越来越多的大型人工智能模型可以解决预报、降尺度或临近预报等问题。当前的人工智能研究侧重于基础模型——可有效微调以应对多种不同用例的模型,而天气和气候方面的发展则主要侧重于单一用例,尤其侧重于中期预报。

来自 IBM、亚拉巴马大学和 NASA 的研究团队及其合作者,通过推出 Prithvi WxC 缩小了这一差距,Prithvi WxC 是一个 23 亿参数的基础模型,使用了 Modern-Era Retrospective Analysis for Research and Applications 第 2 版(MERRA-2)中的 160 个变量。Prithvi WxC 采用基于编码器-解码器的架构,融合了近期各种 transformer 模型的概念,可有效捕捉输入数据中的区域和全球依赖关系。

该模型的设计可容纳大量 token 数,从而以精细分辨率对不同拓扑结构中的天气现象进行建模。此外,该模型还采用混合目标进行训练,将掩码重建与预测范例相结合。他们在一组具有挑战性的下游任务中测试了该模型,即自回归滚动预测、降尺度、重力波通量参数化和极端事件估计。

论文链接:
https://arxiv.org/abs/2409.13598

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2158956.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SLAM面经1(百度)

百度面经 百度共三面,如果面试效果俱佳,会增加一个hr面。前二面主要是技术面,分为在线coding+代码知识+专业知识+工程能力。第三面是主管面,偏向于管理方面,和hr面相似。 一面 1)在线coding 在线coding的考试内容为下面力扣的变种。 2)专业面 (1)VINS-FUSION与ORB…

鲲鹏计算这五年:硬生态基本盘稳住,才能放手进击软生态

文 | 智能相对论 作者 | 叶远风 数智化深入发展、新质生产力成为主旋律的当下,本土计算产业的发展被寄予越来越多的关注和期待。自2019年开启以来,鲲鹏计算产业生态已经整整走过5个年头。 因此,今年华为全联接大会的鲲鹏之夜,在…

【网络安全】依赖混淆漏洞实现RCE

未经许可,不得转载。 文章目录 正文 依赖混淆是一种供应链攻击漏洞,发生在企业的内部依赖包错误地从公共库(如npm)下载,而不是从其私有注册表下载。攻击者可以在公共注册表中上传一个与公司内部包同名的恶意包&#xf…

java基础(2)方法的使用

目录 1.前言 2.正文 2.1方法的定义 2.2方法的调用过程 2.3方法的实参与形参 2.3.1形参 2.3.2实参 2.3.3参数传递 2.4方法的重载 3.小结 1.前言 哈喽大家好啊,今天博主继续带领大家学习java的基本语法,java的基础语法部分打算用六到七篇博文完…

关于uniapp wifi调用走过的坑

1. uniapp老脚手架与uni-wif带来的兼容性问题 且几乎找不到解决方法 2. uni-wif需要插件市场安装 3.还有一种可以使用导入安卓类的方式,可以正常获取到已经连接ssid(wifi名称),也可以获取到wifi列表 , 但ScanResul…

p18 docker镜像原理之联合文件系统,p19 docker镜像分层的理解

镜像是什么 镜像其实就是一种轻量级的,可执行的一种软件包,用来打包基于环境开发的软件,里面可以包括代码,环境,数据库,配置文件等信息 如何得到镜像? 可以从镜像仓库下载比方说dockerhub 比…

道路车辆功能安全 ISO 26262标准(2)—功能安全管理

写在前面 本系列文章主要讲解道路车辆功能安全ISO26262标准的相关知识,希望能帮助更多的同学认识和了解功能安全标准。 若有相关问题,欢迎评论沟通,共同进步。(*^▽^*) 1. 道路车辆功能安全ISO 26262标准 2. ISO 26262-2 功能安全管理 IS…

基于SpringBoot+Vue的旅游攻略平台管理系统

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码 精品专栏:Java精选实战项目…

论文不会写快来看!分享4款ai改写论文软件

在当今学术研究和写作领域,AI论文改写工具已经成为不可或缺的助手。这些工具不仅能够帮助研究人员提高写作效率,还能确保论文的质量和原创性。以下是四款值得推荐的AI改写论文软件,其中特别推荐千笔-AIPassPaper。 千笔-AIPassPaper 传送门&…

设计模式之命令模式:从原理到实战,深入解析及源码应用

命令模式 什么是命令模式? 命令模式(Command Pattern)是一种行为设计模式,它将一个请求封装为一个对象,从而允许使用不同的请求、队列或者日志来参数化对象,并支持可撤销的操作。命令模式的核心思想是将命令…

STM32在Keil5中利用Jansson库处理和组装JSON数据【详细版】

在Keil5中利用Jansson库处理和组装JSON数据 下载Keil.Jansson.1.0.0.pack https://keilpack.azureedge.net/pack/Keil.Jansson.1.0.0.packhttps://keilpack.azureedge.net/pack/Keil.Jansson.1.0.0.pack 下载完成后直接安装到keil5中即可 选择Jansson库的理由:轻量…

医学数据分析实训 项目三 关联规则分析预备项目---购物车分析

文章目录 1 预备项目关联规则分析实践———购物车分析1 产生频繁集2 产生关联规则 1 预备项目 关联规则分析实践———购物车分析 import warnings import numpy as np import pandas as pd from mlxtend.frequent_patterns import apriori from mlxtend.frequent_patterns …

【LVIO-SLAM】SVD分解,最小二乘与EKF

【LVIO-SLAM】SVD分解与应用推导 1.1 线性最小而二乘1.2 SVD分解算法流程问题描述算法流程算法复杂度总结 1.3 非线性最小二乘1.4 EKF融合 KF/ EKF推导过程 1.1 线性最小而二乘 针对A是任意矩阵的话使用SVD分解求解,其中U是AA转置的特征值,V是AA转置A的特…

iPhone 16 还剩一个月,微软开源新技术让手机以 6 倍速度提前跑上大模型

作者 | 微软亚洲研究院 责编 | 王启隆 出品 | AI 科技大本营(ID:rgznai100) 随着人工智能技术的飞速发展,将大语言模型(LLMs)部署到边缘设备上已成为当前 AI 领域的一个热门趋势。这一趋势不仅体现在微软 Windows 11 AI PC 等产品…

DFN:Data Filtering Networks

论文:https://arxiv.org/abs/2309.17425 代码:Data Filtering Networks | Papers With Code 阿里最近又开源了视觉多模态模型 Qwen2-VL,视觉编码器升级了,所以抓紧补一下DFN Qwen1-VL视觉编码器:OpenClip 的 ViT-bigG-14Qwen2-VL视觉编码器:DFN 的 ViT本文重点: 1:用…

选择排序(C语言实现)

目录 1.基本思想 2.代码实现 代码思路 代码实现 代码测试 3.复杂度分析 1)时间复杂度 2)空间复杂度 4.特性总结 1.基本思想 选择排序是一种简单直观的比较排序算法。该算法的基本思想是在每一轮中选出当前未排序部分的最小(或最大&a…

通义千问模型升级:2.5正式上线的使用体验

个人对比各AI大模型的使用体会 正在用的国内的AI大模型主要有“通义千问”、“文心一言”、“讯飞星火”,还有国外的"ChatGPT"和"Copilot",我觉得"通义千问"进步神速,因此现在我最常使用的就是"通义千问&…

【C++】C++11-新的类功能和可变参数模板

1、新的类功能 1.1 默认成员函数 原来C类中,有6个默认成员函数: 构造函数、析构函数、拷贝构造函数、赋值运算符重载、取地址重载、const取地址重载 C11增加了两个:移动构造函数、移动赋值运算符重载 自己实现这两个函数在上一篇文章中已…

Shelly实测天工的音乐创作功能,写了一首歌,来听听效果

​ 大家好,我是Shelly,一个专注于输出AI工具和科技前沿内容的AI应用教练,体验过300款以上的AI应用工具。关注科技及大模型领域对社会的影响10年。关注我一起驾驭AI工具,拥抱AI时代的到来。 在数字时代的洪流中,我始终…

16、斑马设备的ppocer-4进行文字识别,和opencv-mobile中文显示

基本思想:手上有个斑马设备,是客户的,简单记录一下开发过程和工程项目,同时记录跟着android小哥学习了很多anroid的知识,转ppocr-4参考之前的ppocr-3转换即可,整个框架仍然使用c++ ncnn jni框架推理和现实,图像库使用opencv-mobile 一、首先转paddle-cor-4 到ncnn的框架…