每日学术速递5.27

news2024/11/24 7:22:52

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 

Subjects: cs.CV

1.Control-A-Video: Controllable Text-to-Video Generation with Diffusion Models

标题:Control-A-Video:使用扩散模型生成可控的文本到视频

作者:Weifeng Chen, Jie Wu, Pan Xie, Hefeng Wu, Jiashi Li, Xin Xia, Xuefeng Xiao, Liang Lin

文章链接:https://arxiv.org/abs/2305.13840

项目代码:https://controlavideo.github.io/

摘要:

        本文介绍了一种名为 Video-ControlNet 的可控文本到视频 (T2V) 扩散模型,该模型可生成以一系列控制信号(例如边缘图或深度图)为条件的视频。Video-ControlNet 建立在预训练的条件文本到图像 (T2I) 扩散模型之上,通过结合时空自注意力机制和可训练的时间层来实现高效的跨帧建模。提出了一种第一帧调节策略,以促进模型以自回归方式生成从图像域传输的视频以及任意长度的视频。此外,Video-ControlNet 采用了一种新颖的基于残差的噪声初始化策略,从输入视频中引入运动先验,从而产生更连贯的视频。借助所提出的架构和策略,Video-ControlNet 可以实现资源高效收敛,并通过细粒度控制生成优质和一致的视频。广泛的实验证明了它在视频编辑和视频风格转换等各种视频生成任务中的成功,在一致性和质量方面优于以前的方法。

Subjects: cs.CL

2. QLoRA: Efficient Finetuning of Quantized LLMs(NeurlPS 2023)

标题:QLoRA:量化 LLM 的高效微调

作者:Tim Dettmers, Artidoro Pagnoni, Ari Holtzman, Luke Zettlemoyer

文章链接:https://arxiv.org/abs/2305.14314

项目代码:https://github.com/artidoro/qlora

摘要:

        我们介绍了 QLoRA,这是一种有效的微调方法,可以减少内存使用量,足以在单个 48GB GPU 上微调 65B 参数模型,同时保留完整的 16 位微调任务性能。QLoRA 通过冻结的 4 位量化预训练语言模型将梯度反向传播到低阶适配器~(LoRA)。我们最好的模型系列,我们命名为 Guanaco,在 Vicuna 基准测试中优于所有以前公开发布的模型,达到 ChatGPT 性能水平的 99.3%,同时只需要在单个 GPU 上进行 24 小时的微调。QLoRA 引入了多项创新,以在不牺牲性能的情况下节省内存:(a) 4 位 NormalFloat (NF4),一种新的数据类型,理论上是正态分布权重的最佳信息 (b) 双量化,通过量化减少平均内存占用量化常数,以及 (c) 分页优化器来管理内存峰值。我们使用 QLoRA 对 1,000 多个模型进行微调,提供跨 8 个指令数据集、多种模型类型(LLaMA、T5)和无法通过常规微调运行的模型规模(例如 33B 和65B参数模型)。我们的结果表明,即使使用比以前的 SoTA 更小的模型,QLoRA 在小型高质量数据集上进行微调也会产生最先进的结果。我们提供了基于人类和 GPT-4 评估的聊天机器人性能的详细分析,表明 GPT-4 评估是人类评估的廉价且合理的替代方案。此外,我们发现当前的聊天机器人基准测试无法准确评估聊天机器人的性能水平。柠檬挑选的分析表明与 ChatGPT 相比,Guanaco 失败的地方。我们发布了所有模型和代码,包括用于 4 位训练的 CUDA 内核。

3.PEARL: Prompting Large Language Models to Plan and Execute Actions Over Long Documents

标题:PEARL:提示大型语言模型在长文档上规划和执行操作

作者:Simeng Sun, Yang Liu, Shuohang Wang, Chenguang Zhu, Mohit Iyyer

文章链接:https://arxiv.org/abs/2305.14564

摘要:

        诸如思维链提示之类的策略通过将输入示例分解为中间步骤来提高大型语言模型 (LLM) 在复杂推理任务上的性能。然而,目前尚不清楚如何将这些方法应用于对长输入文档进行推理,其中每个中间步骤的分解和输出都非常重要。在这项工作中,我们提出了 PEARL,这是一个改进长文档推理的提示框架,它包括三个阶段:动作挖掘、计划制定和计划执行。更具体地说,给定一个关于长文档的问题,PEARL 将问题分解为一系列动作(例如,SUMMARIZE、FIND_EVENT、FIND_RELATION),然后在文档上执行它们以获得答案。PEARL 的每个阶段都是通过 LLM(在我们的工作中是 GPT-4)的零样本或少样本提示来实现的,需要最少的人工输入。我们在 QuALITY 数据集的一个具有挑战性的子集上评估 PEARL,其中包含需要对长篇叙述文本进行复杂推理的问题。PEARL 在此数据集上的表现优于零样本和思维链提示,并且消融实验表明 PEARL 的每个阶段对其性能都至关重要。总的来说,PEARL 是利用 LLM 对长文档进行推理的第一步。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/579531.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vcruntime140.dll无法继续执行代码如何修复,使用这个方法不求人

VCRUNTIME140.dll 是由微软公司开发的一个库文件,属于 Visual C Redistributable 软件包的一部分。它包含了许多与 C 应用程序运行时相关的函数和数据类型。这些函数和数据类型包括内存管理、异常处理、文件 I/O 等等。如果您在运行某个程序时发现缺少了 VCRUNTIME1…

PriorityQueue优先级队列

前言 优先级队列就是在堆的基础上进行改造,那么什么是堆,又什么是优先级队列呢? 我们一起来看看吧! 目录 前言 一、堆 (一)堆的创建 (二)堆的插入 (三)堆…

win10 nvprof的性能分析表

交叉访问是全局内存中最糟糕的访问模式&#xff0c;因为它浪费总线带宽 使用多个线程块对基于交叉的全局内存访问重新排序到合并访问 https://mp.weixin.qq.com/s/h2XKth1bTujnrxyXTJ2fwg <<<numBlocks, blockSize>>> 的两个参数应该怎么设置好呢。首先&…

lazada商品评论数据接口,支持多站点

可以使用Lazada的开放平台API来获取商品评论数据。以下是使用API获取Lazada商品评论数据的基本步骤&#xff1a; 1.注册Lazada开发者账号&#xff0c;创建API密钥和访问令牌。 2.调用Lazada Open API中的Product Review API&#xff0c;提供商品的SKU或Seller SKU参数&#x…

Spring Authorization Server 系列(二)获取授权码

Spring Authorization Server 系列&#xff08;二&#xff09;获取授权码 概述获取授权码获取授权码的url逻辑解析匹配url参数解析 三级目录 概述 Spring Authorization Server 是基于 OAuth2.1 和 OIDC 1.0 的。 只有 授权码&#xff0c;刷新token&#xff0c;客户端模式。 …

Python GUI:真的只知道PyQt?

B站|公众号&#xff1a;啥都会一点的研究生 有时候我们有需求将程序制作成GUI&#xff08;图形用户界面&#xff09;格式&#xff0c;以方便用户通过图形图标与电子设备进行交互&#xff0c;而大多数像我一样的小白基本上只知道PyQt&#xff0c;往往制作出来的界面一眼就可辨别…

如何编写快速高效的SQL查询(一)——MySQL8.0优化器查询优化处理与样例

当希望MySQL能够以更高的性能运行查询时&#xff0c;最好的办法就是弄清楚MySQL是如何优化和执行查询的。一旦理解了这一点&#xff0c;很多查询优化工作实际上就是遵循一些原则让优化器能够按照预想的合理的方式运行。 MySQL是如何执行一个查询的过程的&#xff1f;根据图8-1可…

SpringCloud高级篇 - 微服务保护

✨作者&#xff1a;猫十二懿 ❤️‍&#x1f525;账号&#xff1a;CSDN 、掘金 、个人博客 、Github &#x1f389;公众号&#xff1a;猫十二懿 学习课程视频 SpringCloud 高级篇 – 微服务保护 1.初识Sentinel 1.1.雪崩问题及解决方案 1.1.1.雪崩问题 微服务中&#xff0…

Spring IOC体系结构设计原理详解

Spring是一个开源的JavaEE全栈框架&#xff0c;其中最为重要的核心模块是Spring IOC&#xff08;Inversion of Control&#xff09;容器。它负责对象的生命周期管理及依赖注入&#xff0c;为开发者提供了一种主动参与对象创建过程的方式。本文将从IOC容器的设计原理出发&#x…

新增ES6中的扩展

1. ES6中数组新增了哪些扩展&#xff1f; Rest 参数与 Spread 语法 在 JavaScript 中&#xff0c;很多内建函数都支持传入任意数量的参数。 例如&#xff1a; Math.max(arg1, arg2, ..., argN) —— 返回参数中的最大值。Object.assign(dest, src1, ..., srcN) —— 依次将属…

Java 修饰符关键字

&#x1f49f;这里是CS大白话专场&#xff0c;让枯燥的学习变得有趣&#xff01; &#x1f49f;没有对象不要怕&#xff0c;我们new一个出来&#xff0c;每天对ta说不尽情话&#xff01; &#x1f49f;好记性不如烂键盘&#xff0c;自己总结不如收藏别人&#xff01; static …

【图神经网络】手把手带你快速上手OpenHGNN

手把手带你快速上手OpenHGNN 1. 评估新的数据集1.1 如何构建一个新的数据集 2. 使用一个新的模型2.1 如何构建一个新模型 3. 应用到一个新场景3.1 如何构建一个新任务3.2 如何构建一个新的trainerflow 内容来源 1. 评估新的数据集 如果需要&#xff0c;可以指定自己的数据集。…

【ROS】服务通信、话题通信的应用

Halo&#xff0c;这里是Ppeua。平时主要更新C语言&#xff0c;C&#xff0c;数据结构算法…感兴趣就关注我吧&#xff01;你定不会失望。 服务通信、话题通信的应用 0. 话题发布1.话题订阅2.服务调用3.话题通信与服务通信的比较 本章将来学习如何利用话题通信&#xff0c;服务…

【软件分析/静态分析】学习笔记02——中间表示Intermediate Representation

&#x1f517; 课程链接&#xff1a;李樾老师和谭天老师的&#xff1a;南京大学《软件分析》课程02&#xff08;Intermediate Representation&#xff09;_哔哩哔哩_bilibili 目录 第二章 Intermediate Representation 2.1 编译器与静态分析器的关系(Compilers & Static …

SpringCloudAlibaba(简介及核心组件使用)

微服务架构常见的问题 一旦采用微服务系统架构&#xff0c;就势必会遇到这样几个问题&#xff1a; 这么多小服务&#xff0c;如何管理他们&#xff1f;服务发现/服务注册---》注册中心 这么多小服务&#xff0c;他们之间如何通讯&#xff1f;Feign -> 基于 http 的微服务调…

使用【Python+Appium】实现自动化测试

一、环境准备 1.脚本语言&#xff1a;Python3.x IDE&#xff1a;安装Pycharm 2.安装Java JDK 、Android SDK 3.adb环境&#xff0c;path添加E:\Software\Android_SDK\platform-tools 4.安装Appium for windows&#xff0c;官网地址 Redirecting 点击下载按钮会到GitHub的…

使用golang 基于 OpenAI Embedding + qdrant 实现k8s本地知识库

使用golang 基于 OpenAI Embedding qdrant 实现k8s本地知识库 文章博客地址:套路猿-使用golang 基于 OpenAI Embedding qdrant 实现k8s本地知识库 流程 将数据集 通过 openai embedding 得到向量组装payload,存入 qdrant用户进行问题搜索,通过 openai embedding 得到向量,从…

“Jmeter WebSocket协议压测”,助你轻松应对高并发场景!

目录 引言 背景说明 步骤1&#xff1a;安装插件JMeter WebSocket Samplers 步骤2&#xff1a;采集器使用 步骤3&#xff1a;脚本执行 结语 引言 在当今高并发的网络环境下&#xff0c;WebSocket协议已经成为了最受欢迎的实时通信技术之一。然而&#xff0c;对于开发人员来…

CorelDRAW2023序列号及下载安装条件

始于1989年并不断推陈出新,致力为设计工作者提供更高效的设计工具&#xff01;CorelDRAW滋养并见证了一代设计师的成长&#xff01;在最短的时间内交付作品&#xff0c;CorelDRAW的智能高效会让你一见钟情&#xff01;CorelDRAW 全称“CorelDRAW Graphics Suite“&#xff0c;也…

Linux:命令tar、zip、unzip对文件或文件夹进行压缩与解压

Linux&#xff1a;命令tar、zip、unzip对文件或文件夹进行压缩与解压 .tar压缩操作&#xff1a; 创建要进行压缩的文件&#xff1a; 对文件进行压缩&#xff1a; 将三个文件压缩成text.tar文件&#xff0c;压缩到当前路径下(默认也是在当前路径) 对比体积&#xff1a; 发现&…