2022年11月10篇论文推荐

news2025/1/22 20:54:06

随着最大的人工智能研究会议(NeurIPS 2022)即将到来,我们进入了2022年的最后阶段。让我们回顾一下人工智能世界最近发生了什么。

在介绍推荐论文之前,先说一个很有意思的项目:

img-to-music:想象图像听起来是什么样的模型! https://huggingface.co/spaces/fffiloni/img-to-music。有兴趣的可以看看。

下面我们开始介绍10篇推荐的论文。这里将涵盖强化学习(RL)、扩散模型、自动驾驶、语言模型等主题。

1、Scaling Instruction-Finetuned Language Models

https://arxiv.org/abs/2210.11416

Hyung Won Chung, Le Hou, Shayne Longpre, Barret Zoph, Yi Tay et al.

一年前Google 的 FLAN¹ 展示了如何通过将带标签的 NLP 示例重新表述为自然语言指令并将它们包含在预训练语料库中来提高语言模型 (LM) 的通用性。这篇论文则扩大该技术应用。

OpenAI 著名的 GPT系列的模型的一个成功关键是使用未标记数据进行训练。但这并不意味着自回归 LM 不能使用标记数据进行训练:注释可以注入到模型的训练中而无需任何架构更改。这里的关键思想是:不是让分类头为输入输出标签,而是将带标签的例子重新表述为用自然语言编写的指令。例如,可以将带有标签的情感分类示例转换为具有以下模板的语句:

文本:The film had a terrific plot and magnific acting. 标签[POSITIVE]

改为:

The film [is good because it] had a terrific plot and magnific acting.

这里有一个问题,就是要将零样本性能与 GPT-3 等完全自监督模型进行比较,必须确保评估中使用的任务不包含在训练集中!(也就是数据泄露的问题)

最初的 FLAN 论文在 137B 参数模型上,使用了有来自几十个 NLP 任务的 30k 额外指令展示了这种技术的强大功能。 在本文中,他们通过将 (1) 任务数量扩展到 1836,(2) 模型大小扩展到 540B 参数,以及 (3) 添加思维链提示来进入下一个级别。

结果表明,添加指令会提高性能,尤其是对于较小的模型,但模型规模仍然是最大的因素。

完整的模型在谷歌的Research Github Repository上公开发布:

https://github.com/google-research/t5x/blob/main/docs/models.md#flan-t5-checkpoints

2、Recitation-Augmented Language Models

https://arxiv.org/abs/2210.01296

Zhiqing Sun, Xuezhi Wang, Yi Tay, Yiming Yang, and Denny Zhou.

提示技术还在继续扩展预训练的语言模型的能力,而不需要新的复杂的建模技术。

检索增强语言模型(Retrieval Augmented Language Models)³通常从语料库中检索段落,并将它们作为文本附加到提示文本中。这使它们更加高效和正确,但代价是增加了训练和实施的复杂性。

RECITE是语言模型是prompting的一个新版本,通过提示模板使模型在生成答案之前从记忆中找到其训练语料库中的相关段落。通过在包含训练语料库段落的提示中提供示例,模型通常会正确地找到其中的确切段落。

这种方法利用了大型lm的记忆能力,无需从语料库中进行显式检索,提高了回答问题的性能,。与之前现成的高级提示技术chain-of-thought²类似。

但有一个重要的问题!这种方法不会开箱即用。为了让它运行良好通常需要多路径解码⁴,这包括在给定提示的情况下对多个结果进行采样,然后根据多数票选择答案,并且采样更多路径通常会带来更好的性能,但缺点是更高的推理成本。

3、Toward Next-Generation Artificial Intelligence: Catalyzing the NeuroAI Revolution

https://arxiv.org/abs/2210.08340

Anthony Zador and 26 other renowned researchers in AI and Neuroscience.

人工智能的创始人物,如Turin 或Minsky,是出于对大脑如何工作以及机器如何复制大脑的方向进行研究的。相比之下现代 ML 从业者大多是以计算机科学家、逻辑学家和统计学家的身份思考,与大脑工作原理的研究脱节。该领域会从更紧密的合作中受益吗?

更好地了解大脑将提供对如何构建智能机器的见解的想法并不新鲜,因为人脑和人工智能从一开始就联系在一起的。这个理论强调了人工智能的现有挑战,特别是在以合理的方式与世界互动方面。尽管语言是经常描绘成人类智慧的顶峰,但学习人类感官能力还远未解决,但自然语言生成一直有惊人的进展。

更好地理解神经计算将揭示智能的基本成分,并催化人工智能的下一次革命。

作为对这一挑战的回应,论文的作者建议将具象图灵测试作为原始图灵测试的继承者:一个更全面的测试,包括评估除显式推理能力外的感官技能。

解决下一代图灵测试的路线图依赖于3个主要支柱。(1)一个对两个领域同等重视的人工智能课程,这样新一代的人工智能研究人员就像对待神经科学一样对待计算机科学,(2)一个测试代理的共享平台,(3)增加对神经计算基础理论研究的资助。

4、You Only Live Once: Single-Life Reinforcement Learning

https://arxiv.org/abs/2210.08863

Annie S. Chen, Archit Sharma, Sergey Levine, and Chelsea Finn.

代理在部署时能否即时适应新环境?对于需要代理在看不见的环境中表现良好的问题,情景强化学习可能不是一个合适的框架。

论文作者制定了一个强化学习的形式,这是一种在看不见的环境中测试代理运行效果的范例。作者还提出了一种新算法,即 Q 加权对抗性学习 (QWALE),它使用“distribution matching”来利用以前的经验作为新情况下的指导。他们的方法大大优于基线,但与大多数具有范式挑战性的工作一样,目前尚不清楚评估的选择是否是为提出的特定模型量身定制的。

但是无论如何这种 RL 范式与零样本学习和泛化有有趣的相似之处,这些都是 ML 中越来越受欢迎的领域,因为古老的监督学习技术的脆弱性已经被发现。 single-shot RL 会成为 RL 论文中必须包含的新评估机制吗?让我们拭目以待

5、Model-Based Imitation Learning for Urban Driving

https://arxiv.org/abs/2210.07729

Anthony Hu, Gianluca Corrado, Nicolas Griffiths, Zak Murez, Corina Gurau, Hudson Yeo, Alex Kendall, Roberto Cipolla, and Jamie Shotton.

自动驾驶性能的飞跃(在模拟环境中!)

从与世界的互动中在线学习与从演示(模仿学习)中离线学习是RL中最基本的划分之一。广义上讲,前者是稳健但低效的,后者是高效但脆弱的。

本文在CARLA 35模拟器上对模仿学习在自动驾驶中的应用进行了研究。模仿学习的进步特别有用,因为它们可以更好地转化为现实世界所用。在现实世界中在线学习驾驶政策通常是非常危险和昂贵的。没人愿意每一次重置环境就买一辆新车!

论文提出的模型 (MILE) 通过尝试推断哪些潜在特征导致了训练中提供的专家观察结果,从而学习潜在空间中的世界动态。 可以在下图中找到模型工作原理的概述。

MILE在域外评估方面尤其突出:例如数据集中不包含的的城镇道路和天气条件。

6、DreamFusion: Text-to-3D using 2D Diffusion

https://arxiv.org/abs/2209.14988

Ben Poole, Ajay Jain, Jonathan T. Barron, and Ben Mildenhall.

扩散模型的迅速崛起超越了以前的简单的文本到图像生成。

3D生成是困难的,因为不像2D图像没有那么多的3D模型来训练端到端3D生成器。在这项工作中,论文作者通过利用现有2D图像生成器来引导3D物体的生成,从而绕过了这一限制。

使用 Score Distillation Sampling(SDS)。这种方法允许将2D文本到图像模型的输出转换为任何参数空间——例如3D模型(只要转换是可微的)。为了从文本合成一个场景,该方法随机初始化一个NeRF模型,并从不同的摄像机位置和角度为该NeRF重复渲染视图,然后使用这些渲染图作为扩散模型+SDS损失的输入再通过NeRF反向传播。这些视图看起来像噪音,但通过足够的扩散步骤,它们最终能够正确地表示3D对象的视图。

官方提供了演示:https://dreamfusion3d.github.io/,还有一个非官方的开源实现:https://github.com/ashawkey/stable-dreamfusion 有兴趣的可以看看,还挺好玩的

7、Imagic: Text-Based Real Image Editing with Diffusion Models

https://arxiv.org/abs/2210.09276

Bahjat Kawar, Shiran Zada, Oran Lang, Omer Tov, Huiwen Chang, Tali Dekel, Inbar Mosseri, Michal Irani.

使用扩散模型进行p图

扩散模型的强大应用又被发现了:可以进行特定的图像编辑,例如条件修复或风格转移。 这项工作展示了对图像应用不受约束的、复杂的、语义相关的、文本引导的编辑的能力。

该技术依赖于在输入图像和目标图像之间的嵌入空间的内插值。首先它们对齐文本和图像嵌入,这样在给定冻结的预训练扩散模型的情况下,相似的嵌入会产生相似的图像生成。然后在对齐嵌入上对扩散模型进行微调,最后对目标和对齐嵌入进行©插值,生成编辑后的图像。

这是一个非常有意思的项目,可惜目前没有找到代码和演示

8、GoalsEye: Learning High-Speed Precision Table Tennis on a Physical Robot

https://arxiv.org/abs/2210.03662

Tianli Ding, Laura Graesser, Saminda Abeyruwan, David B. D’Ambrosio, Anish Shankar, Pierre Sermanet, Pannag R. Sanketi, Corey Lynch.

这是模仿学习的又一展示,它可以将出色的性能转移到物理机器人上。

目前RL的最大挑战之一是让它们在真实世界中工作,而不是在模拟环境中。这一点尤其相关——正如我们刚刚在自动驾驶汽车的论文种所提到的——因为RL中的在线学习通常在物理世界中是不可实现的:它仍然是效率低下的,并且我们的设备会坏太多次。

本文展示了如何使用迭代监督模仿学习来教机器人打网球,即将自我对弈与目标导向行为克隆相结合。论文成功的关键是: (1) 从一个非目标导向的引导数据集开始,该数据集展示了机器人刚刚击球的演示,这样可以改善低效的初始探索阶段。 (2) 然后重新标记目标条件行为复制(例如,记录球的击打方式和落地位置,然后将其用作目标)。 (3) 以击中目标导向的迭代自监督游戏。

9、MTEB: Massive Text Embedding Benchmark

https://arxiv.org/abs/2210.07316

Niklas Muennighoff, Nouamane Tazi, Loïc Magne, and Nils Reimers.

由于目前已有大量现成的NLP嵌入模型,在其中进行选择已成为一项挑战。这项工作则改善了这个过程。

泛化语言嵌入非常受欢迎的主要原因之一是其方便性:在将文本转换为向量之后,执行诸如分类、语义相似、检索或聚类等NLP任务变得很容易。但是,让一个嵌入来统治所有任务还远远没有实现,这就是为什么对各种任务进行基准测试是为通用用例找到最佳模型的关键。

论文提出的基准由8个嵌入任务组成,覆盖了总共56个数据集和112种语言,并考虑了4个基本原则:

  • 多样性(8个任务):分类、聚类、配对分类、重排序、检索、语义文本相似性和摘要。
  • 简单性:基准可以通过即插即用的API访问。
  • 可扩展性:有一个特定的语法和过程,可以通过HuggingFace hub轻松地向现有基准测试添加新数据集。
  • 可复现性:版本控制是该基准的发行版的一个内置特性,使得在基准的任何版本上重新运行任何评估成为可能。

论文结果显示了基于transformer的现代模型如何优于GloVe等经典模型,但也显示了性能如何常常以速度为代价,这对某些应用程序来说是不可接受的。可以在HuggingFace排行榜上查看最新的结果。

https://huggingface.co/spaces/mteb/leaderboard

10、High Fidelity Neural Audio Compression

https://arxiv.org/abs/2210.13438

Alexandre Défossez, Jade Copet, Gabriel Synnaeve, and Yossi Adi.

压缩算法是互联网的面包和黄油。经过多年对神经编解码器的研究,它们不仅在质量上而且在便捷性上都在追赶经典的方案。

Meta提出的压缩音频的方法是由一个量化的自动编码器组成,训练结合了重建和对抗损失。重建损失既存在于原始音频信号上,也存在于mel谱图上,而对抗损失来自于鉴别器,它需要对压缩表示和生成的音频是否相互对应进行分类。最后在量化表示上增加一个额外的正则化损失来防止量化对压缩表示的过度改变。

这个方法不是特别新颖,但却经过了高度优化和并且泛化性非常好,可以在合理的音频质量下实现的压缩增益。音频编码到6kbps,保持与64kbps mp3编解码器相当的质量,而解码大约是10倍的实时因子。

性能并不是影响压缩编解码器的唯一因素,便捷性是经典编解码器难以超越的地方。从Meta关于这项研究的来看,他们认为这是一项关键的使能技术,可以实现他们涉及Metaverse的更广泛的公司使命,所以我们预计该公司将大力推动很快在生产中使用这些模型。

最后本文提到其他论文的引用:

[1] “Finetuned Language Models Are Zero-Shot Learners” by Jason Wei et al, 2021.

[2] “Chain of Thought Prompting Elicits Reasoning in Large Language Models” by Jason Wei et al, 2022.

[3] “REALM: Retrieval-Augmented Language Model Pre-Training” by Kelvin Guu et al. 2020.

[4] “Self-Consistency Improves Chain of Thought Reasoning in Language Models” by Xuezhi Wang et al. 2022.

https://avoid.overfit.cn/post/25ce9e587880476486c151a2920d37e6

作者:Sergi Castella i Sapé

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/25908.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

人工智能和自动驾驶业务将是百度未来的最强增长动力

来源:猛兽财经 作者:猛兽财经 虽然百度(BIDU)长期以来一直缺乏增长动力,但猛兽财经认为现在可能是投资百度股票的时候了。因为我们认为百度在未来有几个可以实现强劲增长的动力。首先,百度可以利用其在中国自动驾驶市场的领先地位…

如何验证ARP缓存表最多能缓存多少条动态条目

ARP协议原理、ARP缓存表目的,这些在我的文章中已经反复提及过多次了。ARP缓存表里有静态和动态条目两种,静态的是写死的,没有老化时间,不会随着时间的流逝而自动删除。动态条目是缓存的,有老化时间timeout,如果长时间没有刷新,老化时间到了就会自动删除。老化时间是一个…

智能服务机器人产品及解决方案

产品概述 随着人工智能(AI)领域技术的不断发展和演进,面向人工智能的领域应用也越来越被更多的企业关注。信迈作为中国领先的创新型软件及信息技术服务商,一直致力于人工智能领域技术的探索和实践。 信迈凭借自身雄厚的技术能力…

Cookie注入和X-Forwarded-For注入

💪💪Cookie注入和X-Forwarded-For注入一 .Cookie注入1.创建漏洞环境2.漏洞攻击2.1判断是否有注入2.2信息收集2.3注入获取数据库名2.4注入获取表名2.5注入获取列名2.6注入获取信息3.sql靶场实战二. X-Forwarded-For注入1.创建漏洞环境2.漏洞攻击2.1判断是…

浅析Betaflight中的OSD叠加程序【MAX7456AT7456】

前言:想要对OSD下手已经不是头一次了,前几次都浅尝辄止。一个是能力不够,BetaFlight的代码体系太庞大了,看不懂也摘不出来。 这次要做一款带osd功能的接收机(用在遥控车上),所以又来打飞控程序…

[附源码]java毕业设计校园快递管理系统

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

1万属性,100亿数据,每秒10万吞吐,架构如何设计?

有一类业务场景,没有固定的schema存储,却有着海量的数据行数,架构上如何来实现这类业务的存储与检索呢?58最核心的数据“帖子”的架构实现技术细节,今天和大家聊一聊。一、背景描述及业务介绍什么是58最核心的数据&…

深度学习入门(四十四)计算机视觉——多尺度目标检测

深度学习入门(四十四)计算机视觉——多尺度目标检测前言计算机视觉——多尺度目标检测教材1 多尺度锚框2 多尺度检测3 小结前言 核心内容来自博客链接1博客连接2希望大家多多支持作者 本文记录用,防止遗忘 计算机视觉——多尺度目标检测 教…

【Hack The Box】linux练习-- Postman

HTB 学习笔记 【Hack The Box】linux练习-- Postman 🔥系列专栏:Hack The Box 🎉欢迎关注🔎点赞👍收藏⭐️留言📝 📆首发时间:🌴2022年11月17日🌴 &#x1f…

大学生旅游风景主题dreamweaver网页设计大作业-陕西渭南HTML+CSS制作网页

家乡旅游景点网页作业制作 网页代码运用了DIV盒子的使用方法,如盒子的嵌套、浮动、margin、border、background等属性的使用,外部大盒子设定居中,内部左中右布局,下方横向浮动排列,大学学习的前端知识点和布局方式都有…

从不学无术到架构师Leader:这份java面试知识宝典,一举斩获京东T8

前言 面试了大大小小各种公司,有BAT的,上市的,AB各种轮的,初创的……今天大概列举了下,至少有30家公司。 在这里我总结了求职面试需要注意的各种问题,希望可以用我收集的《Java面试核心知识笔记》及面试经…

element UI 组件封装--搜索表单(含插槽和内嵌组件)

组件封装–搜索表单 searchForm.vue 可根据需要&#xff0c;参考姓名和工作自行增加更多常用的默认搜索项 <template><div style"padding: 30px; width: 300px"><el-formref"searchFormRef":model"searchData":label-width"…

伽马校正笔记(Gamma Correction)

在数字图像系统中&#xff0c;伽马&#xff08;Gamma&#xff09;是一个重要的但很少被正确理解的特性。它定义了一个像素的数值和对应的实际亮度之间的关系。 人眼感知的亮度和相机“看到”的亮度区别 对于数码相机来说&#xff0c;当检测的光子数增加一倍时&#xff0c;sens…

Win11蓝屏代码IRQL NOT LESS OR EQUAL的处理方法

蓝屏错误IRQL NOT LESS OR EQUAL是用户常见的系统故障了&#xff0c;升级到Win11新系统也遇到了同样的问题&#xff0c;那么Win11蓝屏问题IRQL NOT LESS OR EQUAL要如何解决&#xff1f;下面就来看看小编整理的解决办法。 什么是 IRQL_NOT_LESS_OR_EQUAL 错误&#xff1f; IRQL…

【Docker】Docker入门学习

【Docker】学习docker 1.Docker安装与启动 1.1.安装 【第一步】yum包更新到最新版本 sudo yum update【第二步】安装需要的软件包&#xff0c;yum-util提供的yum-config-manager功能&#xff0c;另外两个是devicemapper驱动依赖的 sudo yum install -y yum-utils device-m…

三菱FX3U——ST编程定时器和计数器

在部件选择——FB——选择定时器类型 双击弹出标签登录/选择对话框&#xff0c;点击应用&#xff1b; 编辑器自动插入TON_1; 光标放在TON_1后&#xff0c;按下CTRLF1&#xff0c;补全代码; IN&#xff1a; 输入&#xff0c;PT&#xff1a;定时时间&#xff0c;Q&#xff1a;输…

windows上使用Gitblit搭建git服务仓库

第一步: 由于要运行jar包&#xff0c;得先安装好java环境&#xff0c;安装环境的教程很多&#xff0c;这步不做赘述 第二步&#xff1a; 找到Gitblit的安装包 http://gitblit.github.io/gitblit/ 这是官网地址&#xff0c;我就没下载成功过&#xff0c;你要不信&#xff0c;也可…

PyQt5 QMediaPlayer播放不了视频

代码&#xff1a; 编辑器 pycharm: from PyQt5.QtWidgets import QApplication, QWidget, QFileDialog from PyQt5.QtMultimediaWidgets import QVideoWidget from PyQt5.QtMultimedia import QMediaPlayer, QMediaContent import sysapp QApplication(sys.argv)win QWidge…

数据库主键一定要自增的吗?有哪些场景下不建议自增?

我们平时建表的时候&#xff0c;一般会像下面这样。 CREATE TABLE user (id int NOT NULL AUTO_INCREMENT COMMENT 主键,name char(10) NOT NULL DEFAULT COMMENT 名字,PRIMARY KEY (id) ) ENGINEInnoDB DEFAULT CHARSETutf8mb4;出于习惯&#xff0c;我们一般会加一列id作为…

K8s基础之-Pod

第一章&#xff1a;什么是Pod 1.1 创建一个Pod1.2 更改Pod的启动命令和参数1.3 Pod状态及pod故障排查命令1.4 Pod镜像拉取策略1.5 Pod重启策略 第二章&#xff1a;Pod探针 2.1 Pod的三种探针2.2 Pod探针的实现方式 2.2.1 数据库建表语句2.2.2 数据库解析2.2.3 修改Hive数据库…