2023年3月的10篇论文推荐

news2025/2/28 16:59:35

三月有很多的重大产品发布,包括刚刚发布的GPT4,还有Meta刚发布就被泄露的LLaMA,midjourney V5,还有ChatGPT的API(非常便宜)等等。

但是本文整理的是本月应该阅读的10篇论文,将包括多模态语言模型、扩散模型、机器翻译等主题。

1、LLaMA: Open and Efficient Foundation Language Models

Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, Guillaume Lample

https://arxiv.org/pdf/2302.13971

开源的LLaMA,并且开放了模型权重,但是需要申请才可以下载,不过有网友已经将它全部公开下载了,这对我们来说是个好事。这个模型在超过一万亿令牌上进行训练,主要包括以下几个模型:

这些模型是在完全公开的数据上进行训练的,它们在各种QA和常识推理任务中都能在零样本和少样本中取得出色的表现。

这些开源的模型既没有经过微调,也没有RLHF化,所以还需要我们自行调教,这也正好适合我们的弯道超车,下载地址我们以前已经发布过了,有兴趣的可以去看看。

2、Consistency Models

Yang Song, Prafulla Dhariwal, Mark Chen, Ilya Sutskever.

https://github.com/cloneofsimo/consistency_models

扩散模型的计算是非常耗时的,因为他们需要解码输出迭代多次,使其比一次向前传递所允许的更具表现力。但这使得它们很慢,不像GANs、vae那样。

这个论文提出学习一个模型,该模型预测在任意深度水平上扩散过程的输出(见下图)。

构建这些模型的关键是认识到任何跳跃 f(x, t) 都需要与其步骤的组合保持一致;当从噪声到数据时,不同的跳跃需要以相同的图像结束;这就是他们需要保持一致,所以才叫Consistency Models 。

在之前的Progressive Distillation 研究中已经展示了一种将扩散模型提炼成需要更少解码步骤(例如,只有 4 个)的方法,但在本文中,提出了一种训练独立一致性模型的方法。

3、PaLM-E: An Embodied Multimodal Language Model

Danny Driess, Fei Xia, Mehdi S. M. Sajjadi, Corey Lynch, Aakanksha Chowdhery, Brian Ichter, Ayzaan Wahid, Jonathan Tompson, Quan Vuong, Tianhe Yu, Wenlong Huang, Yevgen Chebotar, Pierre Sermanet, Daniel Duckworth, Sergey Levine, Vincent Vanhoucke, Karol Hausman, Marc Toussaint, Klaus Greff, Andy Zeng, Igor Mordatch, Pete Florence.

https://arxiv.org/abs/2303.03378

这时google的多模态模型,为了编码图像,他们使用视觉转换器(ViT)和编码文本PaLM,模型菜蔬高达5620亿个(分别为22B + 540B)。

虽然这项工作标榜自己是端到端的解决方案,但事实是仍然严重依赖于传统技术,而且语言模型只提供高级动作指令。

4、In-context Instruction Learning

Seonghyeon Ye, Hyeonbin Hwang, Sohee Yang, Hyeongu Yun, Yireun Kim, Minjoon Seo.

https://arxiv.org/abs/2302.14691

指令调优是一种以自然语言指令格式在训练语料库中包含标记数据集的技术,该技术已被证明可以推广到训练任务之外的新任务,并在人类给出指令时使lm更可用。

本文研究了当在提示中这样做时会发生什么;给模型提供各种其他语言任务的例子,然后提示执行一个新的任务,而不是添加手头任务的例子(即少量学习)。这再次证明了非常复杂的信息可以通过上下文学习引入

5、How Good Are GPT Models at Machine Translation? A Comprehensive Evaluation

Amr Hendy, Mohamed Abdelrehim, Amr Sharaf, Vikas Raunak, Mohamed Gabr, Hitokazu Matsushita, Young Jin Kim, Mohamed Afify, and Hany Hassan Awadalla.

https://arxiv.org/abs/2302.09210

ChatGPT最不受重视的技能之一是翻译。论文将测试GPT模型的性能是否接近SOTA和传统机器翻译模型,并发现现有的神经机器翻译和基于GPT的翻译显示出互补的优势。

考虑到GPT 没有在并行语料库上进行训练,它避免了常见的缺陷,如噪声或低质量样本的数据记忆问题,或长尾错误,如物理单位或货币的翻译等。

翻译性能在很大程度上来自于无监督的修饰、指令调优和RLHF,而RLHF并不是特别针对翻译的,但是取得的结果令人印象深刻和兴奋。

6、Composer: Creative and Controllable Image Synthesis with Composable Conditions

Lianghua Huang, Di Chen, Yu Liu, Yujun Shen, Deli Zhao, Jingren Zhou.

https://arxiv.org/abs/2302.09778

扩散模型的基本优势之一是在使用条件数据进行训练时的便利性,这就是为什么它们在文本引导中如此成功。这项工作将可控性提升到了一个新的高度。作者开发了一种方法,允许在图像生成过程中控制更广泛的图像属性:空间布局、调色板、风格、强度等。

组合性是该模型背后的核心思想,它将图像分解为具有代表性的因子,然后在这些因子的条件下使用扩散模型重新组合输入。图像分解的元素包括标题(文本)、语义和风格(通过CLIP嵌入)、颜色(通过直方图统计)、草图(通过边缘检测模型)、实例(对象分割)、深度图(通过预训练的单目模型)、强度(通过灰度图像)和掩蔽。图像生成可以根据所有这些属性进行调整,并且可以使用之前的输出作为新的条件输入进行迭代优化。

这项工作展示了如何设计图像生成技术来更多地控制人类的创造力,并提升创造过程。

8、Prismer: A Vision-Language Model with Multi-Modal Experts

Shikun Liu, Linxi Fan, Edward Johns, Zhiding Yu, Chaowei Xiao, Anima Anandkumar

https://arxiv.org/abs/2303.02506

专家系统的回归?这篇论文采用了一种相当结构化的多模态语言建模方法,并带来了一些令人信服的好处:

  • 该论文采用结构化方法进行多模态语言建模,与其他模型相比,在减少一到两个数量级的数据的情况下实现了可比的性能。
  • “专家”是指在处理图像时输出深度图或对象分割等信息的冻结计算机视觉模型。只有适配器经过训练,允许设计与其他黑盒视觉模型即插即用。
  • 最大的 Prismer 模型有 1.6B 个参数,只有 360M 个可训练参数,性能低于大型模型但效率更高。
  • Prismer 对带有噪声的“专家”表现出很强的鲁棒性,并随着更多/更高质量的专家而改进,表明它在大规模多模态学习中的实用性。

总的来说,本文提出了一种有效的技术,可以在不降低性能的情况下安全地包括许多模态专家,从而实现一种实用的方法来缩小多模态学习。

8、Augmented Language Models: a Survey

Grégoire Mialon, Roberto Dessì, Maria Lomeli, Christoforos Nalmpantis, Ram Pasunuru, Roberta Raileanu, Baptiste Rozière, Timo Schick, Jane Dwivedi-Yu, Asli Celikyilmaz, Edouard Grave, Yann LeCun, Thomas Scialom.

https://arxiv.org/abs/2302.07842

LM 在稳健推理和准确性方面的局限性是众所周知的,这就是为什么有一个活跃的研究领域通过计算设备来增强它们的能力, 例如,LM 使用编译和运行生成的代码,或调用任意 API 来收集数据。

检索增强生成 (RAG) 是最常见的案例之一(我们在我们的平台上使用它,Bing 和 Google 都在积极致力于此)。例如,这里有 4 个研究检索增强 LM(RAG)以及对比:

该调查提出的一个有趣的观点是,使用工具和显式结构增强lm使其更具可解释性,因为它们的输出可以显式地归因于其模块,这使它们更适合人类使用。

9、Symbolic discovery of optimization algorithms

Xiangning Chen, Chen Liang, Da Huang, Esteban Real, Kaiyuan Wang, Yao Liu, Hieu Pham, Xuanyi Dong, Thang Luong, Cho-Jui Hsieh, Yifeng Lu, Quoc V. Le.

https://arxiv.org/abs/2302.06675

Adam 一直是我们默认的优化器,Lion可以应用符号搜索来学习一个训练器函数,该函数输出给定权重、梯度和网络的学习率的更新权重值。这里的学习优化器不是通过梯度下降学习的,而是通过符号发现学习的。这种方法在论文中展示的实验中效果非常好,与Adam等优化器相比,可以实现大约2倍的训练速度。

Lion我们已经在前几天优化器的文章中介绍了,个人测试效果并不好,反正我现在是使用 LookaHead + RAdam,各位需要的话请自行测试。

10、 MarioGPT: Open-Ended Text2Level Generation through Large Language Models

Shyam Sudhakaran, Miguel González-Duque, Claire Glanois, Matthias Freiberger, Elias Najarro, Sebastian Risi.

https://arxiv.org/abs/2302.05981

使用GPT-2生成马里奥兄弟世界。作者通过将《马里奥兄弟》中的元素标记成角色并训练基于文本提示的语言模型来实现程序内容生成(PCG,即基于算法生成游戏内容的想法)。

他们通过进化计算进一步增加了生成关卡的多样性,将MarioGPT嵌入到新奇搜索循环中,对现有关卡进行采样,更改,并应用选择标准来保留或丢弃它们。

结果关卡88%的时间是可玩的,并通过文本提示还可以提高可控性。这只是一个令人兴奋的开始,潜在的更具表现力和个性化的游戏体验!

https://avoid.overfit.cn/post/f1efb21c3ca54c9aa266aa9a623a42f6

作者:Sergi Castella i Sapé

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/415179.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux中shell内外命令讲解(下)

♥️作者:小刘在C站 ♥️个人主页:小刘主页 ♥️每天分享云计算网络运维课堂笔记,努力不一定有收获,但一定会有收获加油!一起努力,共赴美好人生! ♥️夕阳下,是最美的绽放&#xff0…

MySQL数据库:联合查询、子句查询、合并查询

一、联合查询 1.概念 简单理解就是将多张表合并到一起,然后进行数据查询,所有也叫多表联查。 如何将两张表合并到一起? 取两张表的笛卡儿积:将表1中的数据逐条与表2中的数据进行合并,最终形成的新的临时表&#xff0…

py征途4之无效思路

事件回顾: 近期班里组织了一个跑团,使用的是keep跑团助手(小程序)。每个人都有一个昵称,要对“每日跑量”进行统计,以明确到底有哪些人跑了步,哪些人没跑步。 为了解决这个问题,从3月…

springboot登录校验[JWT]

前言: 👏作者简介:我是笑霸final,一名热爱技术的在校学生。 📝个人主页:个人主页1 || 笑霸final的主页2 📕系列专栏:后端专栏 📧如果文章知识点有错误的地方,…

Spring Transaction 源码解读

Spring Transaction 规范的maven坐标如下&#xff1a; <dependency><groupId>org.springframework</groupId><artifactId>spring-tx</artifactId><version>...</version></dependency>该包提供了spring事务规范和默认的jta(ja…

【SSM】SSM整合步骤和流程细化

整合SSM参考文献一、SSM整合前概述1. 各个框架在三层架构模式中所担任的角色2. 两个IOC容器的创建1&#xff09;整合时Spring中IOC容器的创建时间2&#xff09;Spring提供的监听器&#xff08;ContextLoaderListener&#xff09;二、SSM整合步骤参考文献 卤蛋的SSM整合完整流程…

华为nat配置实验:内网能够访问外网,内网服务器80端口映射出去

一 需求分析1.1 需求公司A在北京&#xff0c;公司B在上海&#xff0c;本次实验仅仅模拟局域网内出口路由器的配置&#xff0c;公司A业务流量较大&#xff0c;并且预算有限。公司B模拟外网的一个小型局域网&#xff0c;要求公司B的主机能够访问公司A的web服务器。1.2 分析采用na…

Linux中滴计划任务

计划任务计划任务计划任务分类at命令load averagecrontab命令配置文件通常包含三个部分cron服务配置文件cron服务的日志文件时间数值的特殊表示方法应用实例案例anacron服务计划任务 计划任务&#xff08;Cron Job&#xff09;是指在预定的时间自动执行一些指定的任务或脚本。…

Pytorch使用预训练好的卷积神经网络进行推理预测

本小节将会介绍如何利用已经预训练好的卷积神经网络模型对一张图像进行预测&#xff0c;并且通过可视化的方法&#xff0c;查看模型是如何得到其预测结果的。 我们直接看一个实例&#xff0c;利用已经预训练好的VGG16卷积神经网络对一张图像获取一些特定层的输出&#xff0c;并…

通过python理解光的偏振

文章目录基本原理椭圆偏振光基本原理 光是横波&#xff0c;可以写成E⃗A⃗cos(ωt−k⃗r⃗)\vec E \vec{A}cos(\omega t-\vec k\vec r)EAcos(ωt−kr)&#xff0c;振动方向与传播方向垂直&#xff0c;而在三维空间中&#xff0c;与光线垂直的乃是法平面。换言之&#xff0c;光…

【Minecraft开服】Windows搭建我的世界MC服务器「公网远程联机」

文章目录1. Java环境搭建2.安装我的世界Minecraft服务3. 启动我的世界服务4.局域网测试连接我的世界服务器5. 安装cpolar内网穿透6. 创建隧道映射内网端口7. 测试公网远程联机8. 配置固定TCP端口地址8.1 保留一个固定tcp地址8.2 配置固定tcp地址9. 使用固定公网地址远程联机简单…

【计算机网络-网络层】IPv4 和 IPv6

文章目录第一部分&#xff1a;IPv4&#xff08;IP 协议版本 4&#xff09;1 IP 数据报1.1 IP 数据报格式1.2 相关例题2 分类编址&#xff08;两级结构&#xff0c;网络号定长&#xff09;2.1 IP 地址的表示方法2.2 IP 分类编址2.3 IP 地址的特殊用途3 无分类编址 CIDR&#xff…

PyTorch 之 神经网络 Mnist 分类任务

文章目录一、Mnist 分类任务简介二、Mnist 数据集的读取三、 Mnist 分类任务实现1. 标签和简单网络架构2. 具体代码实现四、使用 TensorDataset 和 DataLoader 简化本文参加新星计划人工智能(Pytorch)赛道&#xff1a;https://bbs.csdn.net/topics/613989052 一、Mnist 分类任…

recyclerview中树状结构的实现,加载本地中文件夹信息

引文&#xff1a; 在项目实现中&#xff0c;对于树状图结构的分析一直无法实现正确的效果&#xff0c;结果查看别人的项目都不要适合我的应用场景&#xff0c;但是查看其实原理是差不多的&#xff0c;但是我没有看明白&#xff0c;所以一直在看这方面的东西。查阅并修改他人的代…

ADSP21489之CCES开发笔记(九)

21489评估板调试SigmaStudio&#xff0c;录音&#xff0c;算法效果对比等等&#xff0c;依此写上该文章&#xff0c;以便有兴趣的朋友参考之用。 一、硬件链路图 二、导入21489Demo程序 2.1、Demo路径&#xff1a;2.2、导入ADI的21489的Demo程序 修改相关代码 oCommConfig.n…

小白学Pytorch系列--Torch.optim API Base class(1)

小白学Pytorch系列–Torch.optim API Base class(1) torch.optim是一个实现各种优化算法的包。大多数常用的方法都已得到支持&#xff0c;而且接口足够通用&#xff0c;因此将来还可以轻松集成更复杂的方法。 如何使用优化器 使用手torch.optim您必须构造一个优化器对象&…

下载和阅读Android源码

目录一、如何下载AOSP1.全量下载2.单个下载目录结构二、如何阅读AOSP1.要阅读哪些源码2.阅读源码的顺序和方式2.1 阅读顺序2.2 阅读方式3.用什么工具来阅读3.1 下载安装Source Insight3.2 导入AOSP源码3.3查看源码三、其他一、如何下载AOSP 源码下载是我们分析源码的开始&…

ctfshow愚人杯web复现

easy_signin 题目url base64解码是face.png&#xff0c;尝试flag.txt和flag.php&#xff0c;base64加密后传入都不对&#xff0c;用index.php加密后传入&#xff0c;看源码 将后面的base64解密得到flag 被遗忘的反序列化 源码 <?php# 当前目录中有一个txt文件哦 error_r…

Unity- 游戏结束以及重启游戏

文章目录游戏结束以及重启游戏建个游戏结束页面编写委托类 游戏主角 以及 ui管理类的脚本重启游戏游戏结束以及重启游戏 思路&#xff1a;利用Canvas创建好覆盖全屏的结束页面&#xff0c;默认关闭。游戏结束时&#xff0c;玩家控制的对象发起委托&#xff0c;ui管理收下委托&…

electron+vue3全家桶+vite项目搭建【六】集成vue-i18n 国际化

文章目录注意引入1.引入依赖2.集成vue i18n3.测试代码4.封装多语言切换组件5.测试多语言切换6.优化代码注意 已发现 9.2.2版本的vue-i18n 如果使用cnpm安装&#xff0c;打包会报错&#xff0c;使用npm或者pnpm安装依赖没有问题 引入 如果需要多语言支持&#xff0c;那么最好…