2022年AI顶级论文 —生成模型之年(下)

news2024/11/15 8:05:27

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  

过去十年来,人工智能技术在持续提高和飞速发展,并不断冲击着人类的认知。

  • 2012年,在ImageNet图像识别挑战赛中,一种神经网络模型(AlexNet)首次展现了明显超越传统方法的能力。

  • 2016年,AlphaGo在围棋这一当时人们认为其复杂性很难被人工智能系统模拟的围棋挑战赛中战胜了世界冠军。

  • 2017年,Google的Ashish Vaswani等人提出了 Transformer 深度学习新模型架构,奠定了当前大模型领域主流的算法架构基础。

  • 2018年,谷歌提出了大规模预训练语言模型 BERT,该模型是基于 Transformer 的双向预训练模型,其模型参数首次超过了3亿(BERT-Large约有3.4个参数);同年,OpenAI提出了生成式预训练 Transformer 模型——GPT,大大地推动了自然语言处理领域的发展。

  • 2018年,人工智能团队OpenAI Five战胜了世界顶级的Dota 2人类队伍,人工智能在复杂任务领域树立了一个新的里程碑;此后在2018年底,Google DeepMind团队提出的AlphaFold以前所未有的准确度成功预测了人类蛋白质结构,突破了人们对人工智能在生物学领域的应用的想象。

  • 2019年,一种人工智能系统AlphaStar在2019年击败了世界顶级的StarCraft II人类选手,为人工智能在复杂任务领域的未来发展提供了有力的证明和支持。

  • 2020年,随着OpenAI GPT-3模型(模型参数约1750亿)的问世,在众多自然语言处理任务中,人工智能均表现出超过人类平均水平的能力。

  • 2021年1月,Google Brain提出了Switch Transformer模型,以高达1.6万亿的参数量成为史上首个万亿级语言模型;同年12月,谷歌还提出了1.2亿参数的通用稀疏模型GLaM,在多个小样本学习任务的性能超过GPT-3。

  • 2022年2月,人工智能生成内容(AIGC)技术被《MIT Technology Review》评选为2022年全球突破性技术之一。同年8月,Stability AI开源了文字转图像的Stable Diffusion模型。也是在8月,艺术家杰森·艾伦(Jason Allen)利用AI工具制作的绘画作品《太空歌剧院》(Théâtre D’opéra Spatial),荣获美国科罗拉多州艺术博览会艺术竞赛冠军,相关技术于年底入选全球知名期刊《Science》年度科技突破(Breakthrough of the Year 2022)第2名。

        今年,我们看到生成模型领域取得了重大进展。Stable Diffusion 🎨 创造超现实主义艺术。ChatGPT 💬 回答关于生命意义的问题。Galactica🧬 学习人类科学知识的同时也揭示了大型语言模型的局限性。本文涵盖了 2022 年 20 篇最具影响力的 AI 论文,但是这篇文章绝不是详尽无遗的,今年有很多很棒的论文——我最初想列出 10 篇论文,但最后缺列出了 20 篇,涵盖不同主题的论文,例如生成模型(稳定扩散、ChatGPT)、AI 代理(MineDojo、Cicero)、3D 视觉(即时NGP、Block-NeRF)和新的state-of-the-基本 AI 任务中的艺术(YOLOv7,Whisper)。 

15. Robust Speech Recognition via Large-Scale Weak Supervision (Whisper)

通过大规模弱监督(耳语)进行鲁棒语音识别

作者:Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, Ilya Sutskever

文章链接:https://arxiv.org/abs/2212.04356

简介

        我们研究了经过简单训练以预测互联网上大量音频转录本的语音处理系统的能力。当扩展到 680,000 小时的多语言和多任务监督时,生成的模型可以很好地泛化到标准基准,并且通常与之前的完全监督结果具有竞争力,但在零样本迁移设置中不需要任何微调。与人类相比,这些模型接近其准确性和鲁棒性。我们正在发布模型和推理代码,作为进一步研究稳健语音处理的基础。

        Whisper 是一种多语言自动语音识别 (ASR) 系统,它接近人类级别的鲁棒性,并为零样本语音识别设定了新的最先进技术。有传言称,OpenAI 开发 Whisper 是为了从视频中挖掘更多信息,用于训练他们的下一代大型语言模型。

16. Galactica: A Large Language Model for Science

Galactica:科学的大型语言模型

作者:Ross Taylor, Marcin Kardas, Guillem Cucurull, Thomas Scialom, Anthony Hartshorn, Elvis Saravia, Andrew Poulton, Viktor Kerkez, Robert Stojnic

文章链接:https://arxiv.org/abs/2211.098 

简介

      信息过载是科学进步的主要障碍。科学文献和数据的爆炸式增长使得从大量信息中发现有用的见解变得越来越困难。今天,科学知识是通过搜索引擎获取的,但它们无法单独组织科学知识。在本文中,我们介绍了 Galactica:一种可以存储、组合和推理科学知识的大型语言模型。我们在大量的论文、参考资料、知识库和许多其他来源的科学语料库上进行训练。我们在一系列科学任务上的表现优于现有模型。在 LaTeX 方程式等技术知识探索上,Galactica 比最新的 GPT-3 高出 68.2% 和 49.0%。Galactica 在推理方面也表现出色,在数学 MMLU 上的表现优于 Chinchilla 41.3% 至 35.7%,在 MATH 上的 PaLM 540B 得分分别为 20.4% 和 8.8%。它还在 PubMedQA 和 MedMCQA 开发等下游任务上创下了 77.6% 和 52.9% 的新水平。尽管没有接受过一般语料库的训练,卡拉狄加在 BIG-bench 上的表现优于 BLOOM 和 OPT-175B。我们相信这些结果证明了语言模型作为科学新界面的潜力。为了科学界的利益,我们开源了模型。

        Galactica 是一种大型语言模型,在大量论文、参考资料和知识库的科学语料库上进行训练。不幸的是,与许多其他语言模型一样,Galactica 会产生统计上的胡说八道,这在科学环境中尤其有害。卡拉狄加在互联网上只存活了三天。

17. Instant Neural Graphics Primitives with a Multiresolution Hash Encoding

具有多分辨率哈希编码的即时神经图形基元

作者:Thomas Müller, Alex Evans, Christoph Schied, Alexander Keller

文章链接:https://arxiv.org/abs/2201.05989

简介

      由完全连接的神经网络参数化的神经图形基元的训练和评估成本可能很高。我们通过一种通用的新输入编码来降低成本,这种编码允许在不牺牲质量的情况下使用较小的网络,从而显着减少浮点数和内存访问操作的数量:一个小型神经网络通过可训练特征向量的多分辨率哈希表得到增强其值通过随机梯度下降优化。多分辨率结构允许网络消除哈希冲突的歧义,从而形成一个简单的架构,在现代 GPU 上并行化是微不足道的。我们通过使用完全融合的 CUDA 内核实现整个系统来利用这种并行性,重点是最大限度地减少浪费的带宽和计算操作。我们实现了几个数量级的综合加速,能够在几秒钟内训练出高质量的神经图形基元,并在几十毫秒内以 1920×1080 的分辨率进行渲染。Instant NGP 将神经图形原语(例如 NeRF、神经千兆像素图像、神经 SDF 和神经体积)的训练速度提高到几乎实时。

18. Block-NeRF: Scalable Large Scene Neural View Synthesis

Block-NeRF:可扩展的大场景神经视图合成

作者:Matthew Tancik, Vincent Casser, Xinchen Yan, Sabeek Pradhan, Ben Mildenhall, Pratul P. Srinivasan, Jonathan T. Barron, Henrik Kretzschmar

文章链接:https://arxiv.org/abs/2202.05263

简介

       我们介绍了 Block-NeRF,它是神经辐射场的一种变体,可以代表大规模环境。具体来说,我们证明了在缩放 NeRF 以渲染跨越多个街区的城市规模场景时,将场景分解为单独训练的 NeRF 至关重要。这种分解将渲染时间与场景大小分离,使渲染能够扩展到任意大的环境,并允许对环境进行逐块更新。我们采用了多项架构更改,使 NeRF 对在不同环境条件下捕获的数月数据具有鲁棒性。我们为每个单独的 NeRF 添加了外观嵌入、学习姿势细化和可控曝光,并引入了一个程序来对齐相邻 NeRF 之间的外观,以便它们可以无缝组合。我们从 280 万张图像构建了一个 Block-NeRF 网格,以创建迄今为止最大的神经场景表示,能够渲染整个旧金山社区。 

19. DreamFusion: Text-to-3D using 2D Diffusion

DreamFusion:使用 2D 扩散的文本到 3D

作者:Ben Poole, Ajay Jain, Jonathan T. Barron, Ben Mildenhall

文章链接:https://arxiv.org/abs/2209.14988、

简介

在数十亿图像文本对上训练的扩散模型推动了文本到图像合成的最新突破。将这种方法应用于 3D 合成将需要标记 3D 数据的大规模数据集和用于去噪 3D 数据的高效架构,目前两者都不存在。在这项工作中,我们通过使用预训练的 2D 文本到图像扩散模型来执行文本到 3D 合成来规避这些限制。我们引入了一种基于概率密度蒸馏的损失,它可以使用 2D 扩散模型作为参数图像生成器优化的先验。在类似 DeepDream 的过程中使用这种损失,我们通过梯度下降优化随机初始化的 3D 模型(神经辐射场或 NeRF),使其从随机角度的 2D 渲染实现低损失。给定文本的生成的 3D 模型可以从任何角度查看,通过任意照明重新点亮,或合成到任何 3D 环境中。我们的方法不需要 3D 训练数据,也不需要修改图像扩散模型,证明了预训练图像扩散模型作为先验模型的有效性。

20. Point-E: A System for Generating 3D Point Clouds from Complex Prompts

Point-E:根据复杂提示生成 3D 点云的系统

作者:Alex Nichol, Heewoo Jun, Prafulla Dhariwal, Pamela Mishkin, Mark Chen

文章链接:https://arxiv.org/abs/2212.08751

简介

        虽然最近关于文本条件 3D 对象生成的工作已经显示出可喜的结果,但最先进的方法通常需要多个 GPU 小时来生成单个样本。这与最先进的生成图像模型形成鲜明对比,后者在几秒或几分钟内生成样本。在本文中,我们探索了一种用于生成 3D 对象的替代方法,该方法仅需 1-2 分钟即可在单个 GPU 上生成 3D 模型。我们的方法首先使用文本到图像的扩散模型生成单个合成视图,然后使用以生成的图像为条件的第二个扩散模型生成 3D 点云。虽然我们的方法在样本质量方面仍未达到最先进的水平,但它的采样速度要快一到两个数量级,为某些用例提供了实际的权衡。我们在这个 https URL 上发布了我们预训练的点云扩散模型,以及评估代码和模型。

        Point-E 在单个 GPU 上将点云的文本到 3D 生成速度提高到几秒钟和几分钟。Point-E 首先使用文本到图像模型生成图像,然后使用扩散模型生成以图像为条件的 3D 点云。这会是 3D DALL-E 的前身吗?

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/377296.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

流媒体付服务器 ZLMediaKit 学习记录

1.官方github:ZLMediaKit 依赖于 media-server 库 #国内用户推荐从同步镜像网站gitee下载 git clone --depth 1 https://gitee.com/xia-chu/ZLMediaKit cd ZLMediaKit #千万不要忘记执行这句命令 git submodule update --init 之后 cd ZLMediaKit mkdir build…

嵌入式软件自动化测试的趋势

现在软件市场越来越推崇敏捷开发和持续交付,要在这样的环境下取得竞争优势,各个企业必须得开发出稳健的应用程序,为用户提供无可比拟的直观体验。而且,这些应用程序还要能够达到组织机构的业务目标。 自动化测试的重要意义 在这个竞争日益激…

和钟南山院士合影,被人民日报缅怀,吴孟达骨灰葬在马来西亚成谜

不知不觉当中,香港著名演员吴孟达,已经离开人世间两年了,可是关于他的话题却依然没有停息。在影迷的记忆里,吴孟达是星爷的黄金搭档,两个人曾经一起携手,拍摄出来很多部优秀的影视剧。 时光荏苒&#xff0c…

Revit中复合墙图层的规则和CAD识别翻模墙

一、Revit中用于指定复合墙图层的规则,具体内容? 在编辑复合墙的结构时,请使用“指定图层”工具将“编辑部件”对话框中的行指定给图层或预览窗格中的区域,并遵循这些原则。 在预览窗格中,样本墙的各个行必须保持从左到右的顺序显…

面试了1个自动化测试,开口40W年薪,只能说痴人做梦...

公司前段缺人,也面了不少测试,结果竟然没有一个合适的。一开始瞄准的就是中级的水准,也没指望来大牛,提供的薪资在10-20k,面试的人很多,但平均水平很让人失望。看简历很多都是3年工作经验,但面试…

Docker前端工程npm平滑过渡到pnpm v7的姿势

前言 pnpm挺多优点的,比如安装依赖速度很快,命令行也可以少打几个字符; 标题为啥说平滑,就是尽可能的少破坏性的迁移【针对现有的工程的改造】, 但是又能受用到pnpm的部分特性,使其效益符合我们的期望即可…

RK3588平台开发系列讲解(系统篇)init.d介绍

平台内核版本安卓版本RK3588Linux 5.10Android 12文章目录 一、Linux启动简介二、sysvinit配置三、inid.d介绍沉淀、分享、成长,让自己和他人都能有所收获!😄 📢本篇介绍init.d相关知识。 一、Linux启动简介 Linux用户空间启动时,第一个会启动init进程,用来引导启动其…

0101基础-认证授权-springsecurity

文章目录1 基础概念1.1 认证1.2 会话1.3 jwt1.4 授权2 授权的数据模型3 RBAC3.1 基于角色的访问控制3.2 基于资源的访问控制4 名词解析4.1 SSO4.2 CAS4.3 联合登陆4.4 多端登录:同一账号不同终端登录4.5 OAuth1 基础概念 1.1 认证 认证是为了保护系统的隐私数据和…

【高数】不定积分之有理函数的积分

文章目录前言有理函数积分的通用解法有理函数的特殊解法前言 这个专栏开始更新高等数学的解题方法,本专栏没有特别强调概念,主要是让大家熟悉考研中的一些题型以及如何求解 关键步骤用蓝色高亮提示 总结方法用红色高亮提示 注意事项用绿色高亮提示 希望…

【数据库】数据库基本概念和类型

一、数据库基本概念 1、数据 所谓数据(Data)是指对客观事物进行描述并可以鉴别的符号,这些符号是可识别的、抽象的。它不仅仅指狭义上的数字,而是有多种表现形式:字母、文字、文本、图形、音频、视频等。现在…

MAML算法详解(元学习)

文章目录回顾元学习MAML算法MAML和预训练模型的区别数学推导MAML实施细节总结回顾元学习 元学习的基本知识参考这篇博客元学习和机器学习的对比 MAML算法 学习初始化参数,所有任务的初始化的参数都是一样的 MAML和预训练模型的区别 MAML使用的是ϕ\phiϕ…

计算机网络笔记、面试八股(五)—— 浏览器输入URL

本章目录5. 从输入URL到浏览器显示页面过程中都发生了什么5.1 URL输入5.2 DNS解析5.2.1 域名的等级5.2.2 DNS解析的流程5.2.3 DNS查询方式5.3 建立TCP连接5.4 发送HTTP/HTTPS请求5.5 服务器处理请求并返回HTTP响应5.6 浏览器解析渲染页面5.7 HTTP请求结束,断开TCP连…

【C语言】“qsort函数详解”与“使用冒泡思想模拟使用qsort”

✨✨✨✨如果文章对你有帮助记得点赞收藏关注哦!!✨✨✨✨ 文章目录✨✨✨✨如果文章对你有帮助记得点赞收藏关注哦!!✨✨✨✨qsort的介绍:一、qsort函数的使用✨比较int类型数据比较字符型数据比较结构体数据冒泡思想…

2023湖北土建施工员证报考条件考试时间及报考流程 启程别

2023湖北土建施工员证报考条件考试时间及报考流程 启程别 土建施工员证是建设厅七大员中的施工员证的一种。分为土建、装饰装修、市政、设备安装。土建施工员证怎么报考等一系列相关问题启程别告诉你 施工员证报考条件 其实施工员证的报考条件没有那么复杂,基本上年…

一起学习 学习二叉树

前言 树是数据结构中的重中之重,尤其以各类 二叉树为学习的难点。一直以来,对于树的掌握都是模棱两可的状态,现在希望通过写一个关于二叉树的专题系列。在学习与总结的同时更加深入的了解掌握二叉树。本系列文章将着重介绍一般二叉树、完全二…

算法设计与分析期末考试复习(六)

分支限界法 广度优先搜索:处理某顶点时,一次性发现其所有相邻顶点,未处理顶点加入等待队列 先来先服务:队尾加入,队首离开 o 加入队列,𝑸. Enqueue( ) o 离开队列,𝑸. …

【设计模式】6.代理模式

概述 代理模式:为一个对象提供一个替身,以控制对这个对象的访问。即通过代理访问目标对象 这样做的好处是:可以在目标对象实现的基础上,增强额外的功能操作,即扩展目标对象的功能。 被代理的对象可以是:远程对象、创建开销大的对象或需要安全…

PMP支付考试费用相关介绍

只有符合支付条件(中文审核通过)的考生才能进行付费。付费流程:同意相关承诺书-填写开票信息-选择支付方式-缴费成功一、同意相关承诺书仔细查看承诺书内容,对承诺书中内容进行确认,确认无误后,勾选同意点击…

电子科技大学软件工程期末复习笔记(七):测试策略

目录 前言 重点一览 V模型 回归测试 单元测试 集成测试 重要概念 自顶向下的集成方法 自底向上的集成方法 SMOKE方法 系统测试 验收测试 α测试 β测试 本章小结 前言 本复习笔记基于王玉林老师的课堂PPT与复习大纲,供自己期末复习与学弟学妹参考用…

大数据系统自检

第一章 大数据计算系统概述 1.1 大数据计算框架概述 Hadoop Hadoop的运行过程(5个步骤?) split > map > shuffle > reduce > output Hadoop的详细运行过程?(4个大过程,6662) 创建…