2023年2月的十篇深度学习论文推荐

news2024/11/17 4:45:22

本月的论文包括语言模型、扩散模型、音乐生成、多模态等主题。

1、MusicLM: Generating Music From TextPage

https://arxiv.org/abs/2301.11325

By Andrea Agostinelli, Timeo I. Denk, et al.

扩散模型和自回归离散模型都在生成音乐/音频显示出令人印象深刻的性能。

与最近使用连续扩散模型的其他生成音频工作不同,MusicLM 是一种完全自回归和完全离散的音乐生成模型。它巧妙地利用现有工作(SoundStream [1] 和 w2v-BERT [2])在不同的时间尺度引导表示学习,并在长达几分钟的长时间跨度内实现以前看不见的连贯性的音乐生成。作者将这种技术称为层次表示,因为自回归建模发生在不同的粒度级别,这是实现长期一致性的关键。

这个项目的关键组成部分之一是数据:对于 MuLan [3],他们采用冻结模型的方式,对于 SoundStream 和 w2v-BERT,他们使用免费音乐存档。为了训练分词器和自回归模型,他们使用自己的专有数据集,其中包含 5M 音频剪辑,总计 280,000 小时 24kHz 的音乐。这意味着在低级和高级表示之间,模型接受了大约 10 亿(高级)和 500 亿(低级)标记的训练。就训练数据而言,MusicLM 可与 GPT-2 相媲美,后者在大约 300 亿个令牌上进行了训练。

在他们的项目页面,有一些音乐样本。如果对音频生成主题感兴趣,请查看 archinet 在过去一个月中不断增加的音频 AI 作品列表(下表)。

https://github.com/archinetai/audio-ai-timeline

2、A Watermark for Large Language Models

https://arxiv.org/abs/2301.10226

John Kirchenbauer, Jonas Geiping, Yuxin Wen, Jonathan Katz, Ian Miers, Tom Goldstein.

随着 chatGPT 在主流中越来越受欢迎,对作弊的担忧也越来越多。应该在哪里使用这些模型?可以检测模型的输出吗?

这项工作提出了一种为专有语言模型(例如来自 OpenAI 的语言模型)的输出添加水印的方法。此水印的指导原则之一是它永远不会导致误报(即对某人的“诬告”)。该方法的工作原理如下:

  • 给定一个标记,确定性伪随机算法将语言模型词汇表分成白/黑名单标记。
  • 该模型在每个推理步骤仅从列入白名单的词汇表生成输出。
  • 为了避免生成降级,这个过程只应用于高熵令牌。该方法有点复杂,作者从信息论的角度提供了理论保证

现在,正如作者所展示的那样,这种技术对于一些攻击是稳健的,比如只是在这里和那里交换一些单词,但它不是无懈可击的,并且可以通过一些方式来规避(例如,让第三方语言模型改写第一个语言模型的输出)。不过,有传言称,OpenAI计划发布一款带有类似水印技术的产品,希望减少欺诈性使用该技术。

3、Demonstrate-Search-Predict: Composing retrieval and language models for knowledge-intensive NLP

https://arxiv.org/pdf/2212.14024.pdf

Omar Khattab, Keshav Santhanam, Xiang Lisa Li, David Hall, Percy Liang, Christopher Potts, Matei Zaharia.

检索增强 LM:用外部显式记忆增强 LM 有可能彻底改变我们查找信息的方式。这项工作代表了超越通过检索增强 LM 的一步。

大多数检索增强的LM以先检索后读取的方式工作:给定提示,对检索模型(RM)进行查询,然后将其用作生成LM的上下文。但有时复杂的信息需求需要LM和RM之间更复杂的交互,这就是本文提出的建模方法。

Demonstrate-Search-Predict (DSP)是一个用于上下文学习的框架,其中LM和冻结RM交互,交换自然语言和分数。这表明在知识密集型多跳问答场景下(即当不能立即找到答案时),性能得到了提高。作者提供了一个python实现,通过3个步骤定义LM和RM交互:演示(从训练样本中自动挖掘少量示例)、搜索(RM和LM交互)和预测(生成最终答案)。

4、The Flan Collection: Designing Data and Methods for Effective Instruction Tuning

https://arxiv.org/abs/2301.13688

Shayne Longpre, Le Hou, Tu Vu, Albert Webson, Hyung Won Chung, Yi Tay, Denny Zhou, Quoc V. Le, Barret Zoph, Jason Wei, Adam Roberts.

你可以自己部署和运行的最好的全面公开、完全开源的语言模型是什么?FLAN-T5。

最初在 FLAN [5] 中提出,指令调整(不要与 InstructGPT 混淆)是在 LM 的训练中以自然语言指令的形式包含标记数据的过程。

这项研究比较了现有的开源预训练指令调优模型在各种设置下的情况:保持或保持任务(模型在训练期间看到任务了吗?)和零或少样本学习。比较的所有模型都属于T5家族,除了OPT-IML-Max[8]有1750亿个参数外,其余型号都有30亿个参数。

最重要的是:(1)在训练过程中混合零样本和少样本的例子,有助于在所有设置下的性能,(2)指令调优再次证明,使更小的小模型能够达到更大一个数量级的模型的性能。

这些结果证实了一个现有的流行观点,即Flan T5是目前最适用于零样本和少样本学习的中等规模(3-10B)模型。

5、Tracr: Compiled Transformers as a Laboratory for Interpretability

https://arxiv.org/abs/2301.05062

David Lindner, János Kramár, Matthew Rahtz, Thomas McGrath, Vladimir Mikulik.

把Transformers 看作计算机可以让我们对这些模型的计算能力有新的认识。

Restricted Access Sequence Processing Language (RASP[6])是一种特定于领域的语言,用于表达Transformer可以执行的计算。将Transformer视为一个计算平台,其输入是一系列分类变量,操作符可以是:(1)进行选择,(2)进行元素计算,或(3)进行选择-聚合计算。

Tracr是一种将RASP直接编译为Transformer 权重值的方法。例如,下面是一个对序列进行排序的程序。

虽然目前这个论文提出的方法在实际应用中非常有限,但它可以作为一个工具,更好地理解Transformers 执行的那种计算。它可以作为在神经网络中实现符号操作的桥梁,或者在检测到实现某些算法的某些权重模式时,用更有效的算法替换神经网络组件。

本文还比较了编译权重与梯度下降学习权重的比较,从经验上证实了这两种方法如何收敛到相同的结果。

6、Extracting Training Data from Diffusion Models

https://arxiv.org/abs/2301.13188

Nicholas Carlini, Jamie Hayes, Milad Nasr, Matthew Jagielski, Vikash Sehwag, Florian Tramèr, Borja Balle, Daphne Ippolito, Eric Wallace.

在生成式人工智能的迅速崛起中,训练数据的所有权、归因和隐私已经成为一个激烈辩论的领域。这项工作突出了扩散模型在重现训练图像时的缺点和风险,这是令人担忧的,因为训练数据通常没有完全过滤,最终包括私人信息。

他们在论文中所做的工作的要点非常简单,即生成具有稳定扩散的图像,并带有与训练集中发现的提示相匹配的提示,并查看模型生成与训练图像完全相同的图像的频率。

主要要点是:

  • 模型越强大,检索到训练图像的可能性就越大。
  • 基于 GAN 的图像生成模型也可以从训练数据集中生成图像, 但不太容易受到直接记忆的影响。有趣的是,GANs和dm有很强的记忆相同图像的倾向,这表明这些图像/提示对之间存在一些共性,使它们“令人难忘”

这项工作并没有调查自回归图像生成模型,但考虑到它们也被训练成精确复制训练数据,看看它们与扩散模型相比如何肯定会很有趣。

7、Multimodal Chain-of-Thought Reasoning in Language Models

https://arxiv.org/abs/2302.00923

Zhuosheng Zhang, Aston Zhang, Mu Li, Hai Zhao, George Karypis, Alex Smola.

Chain-of-thought[9] 在一年前证明可以从现有的语言模型中提取大量推理。现在该技术应用于多模式设置(视觉+语言)。

这项工作调查了问答模型,包括图像生成模型。之前的研究发现,Chain-of-Thought小模型的推理性能,而联合视觉+语言模型会在推理中产生大量幻觉。作者建议通过将基本原理生成和回答分两个阶段解耦来解决这个问题。这可以提高性能,例如超过了 ScienceQA 基准测试中的先前技术水平(这是一种文本到文本的纯语言模型,通过 OpenAI 的 API 的 GPT-3.5)。

8、StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis

https://arxiv.org/abs/2301.09515

Axel Sauer, Tero Karras, Samuli Laine, Andreas Geiger, Timo Aila.

GANs在扩散模型的强势下依然可以一战

尽管扩散模型由于其令人印象深刻的多功能性和鲁棒性已经成为图像生成的焦点,GANs仍然具有一些优势。最突出的是,它们的效率要高得多:一次向前传递就足以生成一幅图像,而扩散模型则需要多个步骤来完成。

这项工作提出了最新的GAN迭代:StyleGAN-T,以解决大规模文本到图像合成的需求。包括:强文本对齐,可控输出变化,在不同数据上的训练稳定性等。总的来说,这是一项非常扎实的工程工作,将现代神经网络和优化实践应用于基于gan的图像生成。

StyleGan-T与现有的著名扩散模型(如DALL·e2)有一些相似之处,例如使用CLIP嵌入的条件生成引导。作者强调,这种GAN模型可以与文本提示更好地对齐-变化(即,希望生成的图像提示,但在多次生成时也具有合理的可变性)。

考虑到效率等限制因素,gan仍然具有竞争力,但我们不期望它们很快就会使扩散模型过时,因为这些模型在不断改进并找到新的用途。

9、Text-To-4D Dynamic Scene Generation (MAV3D)

https://make-a-video3d.github.io/

Uriel Singer, Shelly Sheynin, Adam Polyak, Oron Ashual, Iurii Makarov, Filippos Kokkinos, Naman Goyal, Andrea Vedaldi, Devi Parikh, Justin Johnson, Yaniv Taigman.

为生成图像增加了一个维度:生成3D视频。

这项工作最令人印象深刻的壮举之一是,与图像不同3D视频和文本数据对并不多。作者依靠现有的预训练文本到视频模型(Make-A-Video[7],也来自Meta)作为NeRF模型的“场景先验”,该模型经过优化以创建场景的3D表示。也就是说在优化过程中,NeRF模型从连续的时空坐标创建场景的一系列视图,然后使用扩散模型对图像的真实感和与文本提示的对齐进行评分,这种技术称为评分蒸馏采样。

可以被视为DreamFusion[8]的扩展,这是一个文本到3d图像模型,其中添加了时间维度。这种模型生成的视频很短,不包含任何故事情节,因为这仍然是长视频生成的一个挑战。

10、PADL: Language-Directed Physics-Based Character Control

https://arxiv.org/abs/2301.13868

Jordan Juravsky, Yunrong Guo, Sanja Fidler, Xue Bin Peng.

超越文本的 LM 应用程序。

这项工作使用 LM 将自然语言指令映射到角色控制。想一想使用任意复杂的高级语言指令在视频游戏中移动角色。这在可访问性(例如,通过减少显式输入更快地设计动画)、新的视频游戏体验,甚至是具有越来越复杂的指令的新颖的一般人机交互方面具有很大的潜力。

该方法涉及学习将语言指令与角色动作对齐的技能嵌入,训练策略,最后学习聚合策略以结合技能和任务(例如,涉及对象和复杂的交互)。

最后本文的一些其他引用

[1] “SoundStream: An End-to-End Neural Audio Codec” by Neil Zeghidour, Alejandro Luebs, Ahmed Omran, Jan Skoglund, Marco Tagliasacchi, 2021.

[2] “W2v-BERT: Combining Contrastive Learning and Masked Language Modeling for Self-Supervised Speech Pre-Training” by Yu-An Chung, Yu Zhang, Wei Han, Chung-Cheng Chiu, James Qin, Ruoming Pang, Yonghui Wu, 2021.

[3] “MuLan: A Joint Embedding of Music Audio and Natural Language” by Qingqing Huang, Aren Jansen, Joonseok Lee, Ravi Ganti, Judith Yue Li, Daniel P. W. Ellis, 2022.

[4] “DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature” by Eric Mitchell, Yoonho Lee, Alexander Khazatsky, Christopher D. Manning, Chelsea Finn, 2023.

[5] “Finetuned Language Models Are Zero-Shot Learners” by Jason Wei, Maarten Bosma, Vincent Y. Zhao, Kelvin Guu, Adams Wei Yu, Brian Lester, Nan Du, Andrew M. Dai, Quoc V. Le, 2021.

[6] “Thinking Like Transformers” by Gail Weiss, Yoav Goldberg, Eran Yahav, 2021.

[7] “Make-A-Video: Text-to-Video Generation without Text-Video Data” by Uriel Singer, Adam Polyak, Thomas Hayes, Xi Yin, Jie An, Songyang Zhang, Qiyuan Hu, Harry Yang, Oron Ashual, Oran Gafni, Devi Parikh, Sonal Gupta, Yaniv Taigman, 2022.

[8] “OPT: Open Pre-trained Transformer Language Models” by Susan Zhang, Stephen Roller, Naman Goyal, Mikel Artetxe, Moya Chen, Shuohui Chen, Christopher Dewan, Mona Diab, Xian Li, Xi Victoria Lin, Todor Mihaylov, Myle Ott, Sam Shleifer, Kurt Shuster, Daniel Simig, Punit Singh Koura, Anjali Sridhar, Tianlu Wang, Luke Zettlemoyer, 2022.

[9] “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models” by Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, Denny Zhou, 2022.

https://avoid.overfit.cn/post/5cdbc0916d7c4428b44305a2546cc898

作者:Sergi Castella i Sapé

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/349310.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

第45期:一条 SQL 语句优化的基本思路

SQL 语句优化是一个既熟悉又陌生的话题。面对千奇百怪的 SQL 语句,虽然数据库本身对 SQL 语句的优化一直在持续改进、提升,但是我们不能完全依赖数据库,应该在给到数据库之前就替它做好各种准备工作,这样才能让数据库来有精力做它…

FreeMarker生成word文档,固定word模板

该方法也就是通过freemarker生成固定的word文档,动态的word模板布局不能用该方法。 也就是必须有一个固定的模板文档是.ftl类型 如果初始文件为 需要手动改为: 也就是所有需要替换的地方,都需要有${XX}替换。 主要步骤为: 将 w…

JVM学习8: 字符串

基本特性 代表不可变字符序列final不可被继承实现了Serializable、Comparable等接口jdk8及以前使用final char[]存储,jdk9开始改为使用byte[]存储通过字面量方式给一个字符串变量赋值,此时字符串对象在字符串常量池里面 字符串常量池 字符串常量池不会…

《论文阅读》PAL: Persona-Augmented Emotional Support Conversation Generation

《论文阅读》PAL: Persona-Augmented Emotional Support Conversation Generation 前言简介思路出发点相关知识coefficient of determination任务定义模型框架实验结果前言 你是否也对于理解论文存在困惑? 你是否也像我之前搜索论文解读,得到只是中文翻译的解读后感到失望?…

企企通:企业供应商风险管理,如何用采购管理软件赋能?

企业采购过程中,最怕/最担心的事情无非是:供应链异常。供应链异常,也就是我们常说的供应链风险,可以简单分为需求风险、供应商风险、物流风险和财务风险四大类。其中,最为突出的风险便是供应商风险。从寻找合适的供应商…

用VSCode搭建Vue.js开发环境及Vue.js第一个应用

目录 一、VSCode安装 二、VSCode简单配置 三、Vue.js的下载和引入 四、Vue.js第一个应用 一、VSCode安装 Visual Studio Code是一个轻量级但功能强大的源代码编辑器,可在您的桌面上运行,可用于Windows,macOS和Linux。它内置了对JavaScrip…

阿里一P7员工为证明自己年入百万,晒出工资,却被网友...

阿里的工资在行业内确实是比较高的一类,之前网络上流传着阿里P7年入百万的消息也不是空穴来风,日前,有位阿里P7员工,为了证明自己的确年入百万,晒出了他的工资,网友们看完都沸腾了。什么情况?一…

BSN全球伙伴大会于本周五召开在即,重磅嘉宾演讲主题前瞻

“第三届区块链服务网络(BSN)全球合作伙伴大会”召开在即,将于2023年2月17日(本周五)在杭州市拱墅区举办。 BSN已邀请到来自国内外的行业专家学者与生态合作伙伴,与各界来宾就“建设数字中国”指导思想中的…

iOS 客户端 IM 消息卡片插件化

背景 目前探探 IM 聊天消息列表由于长年累月的代码堆积,对业务迭代产生了很多的困扰。所以趁着工作中的一些空隙,对聊天页消息卡片做了插件化,使得不同的消息类型,可以根据具体需求方便的增删迭代。下面分享一下自己重构过程中一…

项目经理,千万不要在这时候跳槽

早上好,我是老原。节后开工也一段时间了,有不少小友私信老原想要面试题库,大多都是想要跳槽涨薪的......当然除了在做准备的,也有不少朋友都在诉苦:其实,不少人回头去看自己过去经验感觉就像个打杂的&#…

PCB中的HDI板生产中的变化

关键词:HDI概述 HDI发展演变 HDI生产难点如果把一整个电子产业比作浩瀚的宇宙,那些智能电子设备就像宇宙中闪耀的星光,当你以“上帝”的视角手持放大镜去观察时,这些闪烁的星光点点其实都是一个个由精密的“自然规律”所“设计”好…

金三银四丨黑蛋老师带你剖析-CTF岗

作者丨黑蛋二进制是个庞大的方向,对应着许许多多方向的岗位,除了之前说过的逆向岗位,漏洞岗位,病毒岗位,还有专门打CTF的岗位,CTF是网络安全领域的一种比赛。普遍来讲,大学生学习网络安全都会参…

percona软件介绍 、 innobackupex备份与恢复

1. 常用的mysql备份工具 物理备份缺点: 跨平台差。备份时间长、冗余备份、浪费存储空间。 解释如下:如Linux操作系统和Windows操作系统之间,由于文件系统不一样,如Linux操作系统的文件系统是ext4、xfs,Windows操作系统…

K8s+SpringBoot+gRpc

本文使用K8s当做服务注册与发现、配置管理&#xff0c;使用gRpc用做服务间的远程通讯一、先准备K8s我在本地有个K8s单机二、准备service-providerpom<?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.…

浅谈性能测试监控系统,做好关键指标的监控

随着业务的增长&#xff0c;服务器部署由单一架构向分布式集群架构转变&#xff0c;性能测试过程中指标监控也由单一服务器向集群服务器转变。 对于性能测试团队来说&#xff0c;需要建立起适用于测试的多机监控系统&#xff0c;以便后期顺利且高效地进行监控分析调优&#xf…

Java程序员拿下高薪offer需要具备哪些能力?这份Java面试专题汇总助你拿下心仪offer!!

背景今天这篇文章的灵感来自一个粉丝的亲身经历&#xff0c;想必也是求职浪潮中很多朋友的经历&#xff0c;内卷大环境找不到满意工作的人太多了&#xff0c;之前也有很多人问过我怎么才能找到不错的工作&#xff0c;甚至是进大厂&#xff0c;所以今天就借这位粉丝的经历来聊聊…

对JAVA 中“指针“理解

对于Java中的指针&#xff0c;以下典型案例会让你对指针的理解更加深刻。 首先对于&#xff1a; 系统自动分配对应空间储存数字 1&#xff0c;这个空间被变量名称b所指向即: b ——> 1 变量名称 空间 明…

linux下yum安装consul实现动态配置管理

一、yum安装consul #安装yum-utils yum install -y yum-utils#配置consul的下载仓库 yum-config-manager --add-repo https://rpm.releases.hashicorp.com/RHEL/hashicorp.repo#必须上面步骤&#xff0c;不然会找不到仓库 yum -y install consul#查看版本 consul -v 二、启动…

基于深度学习的三维重建(二):pytorch的简单操作及DataLoader、Dataset类简介

目录 1.numpy举几个demo 2.pytorch基础 2.1 tensor介绍 3.简单版DataSet & DataLoader 4.模型构建 5.深度学习模型demo&#xff1a;手写文字识别 5.1 构建网络 5.2 前向传播过程 5.3 训练部分 5.4 测试部分 5.5 模型导出 5.6 模型测试 6.pytorch可视化工具ten…

MySQL数据库调优————索引数据结构

B-TREE B-TREE数据结构 B-TREE特性 根节点的子结点个数2 < X < m&#xff0c;m是树的阶 假设m 3&#xff0c;则根节点可有2-3个孩子 中间节点的子节点个数m/2 < y < m 假设m 3&#xff0c;中间节点至少有2个孩子&#xff0c;最多3个孩子 每个中间节点包含n个关…