GTC大会干货:8位大佬对Transformer起源和未来发展的探讨

news2025/1/11 9:48:14

在2024年的GTC大会上,黄仁勋特邀Transformer机器语言模型的七位创造者,共同探讨Transformer模型的过去、现在与未来。他们一致认为,尽管Transformer已经成为现代自然语言处理领域的基石,但这个世界仍然需要超越Transformer的新颖架构,能够引领我们到达新的性能高度。

Transformer 8位创造者

  • Ashish Vaswani,EssentialAI 联合创始人兼 CEO

  • Noam Shazeer,Character.AI 首席执行官兼联合创始人

  • Jakob Uszkoreit,Inceptive 联合创始人兼首席执行官

  • Llion Jones,SakanaAI 联合创始人兼首席技术官

  • Aidan Gomez,Cohere 联合创始人兼首席执行官

  • Lukasz Kaiser,OpenAI 技术人员

  • Illia Polosukhin,NEAR Protocol 联合创始人

  • Niki Parmar,EssentialAI 联合创始人(因家庭原因未出席)

黄仁勋表示在过去20年,PC变革使计算成本降低了1万倍,但目前趋势已趋向平缓,我们开始追求加速计算,在计算机图形和游戏领域不断推动者技术创新,如果我们能够加速代表 99% 运行时间的 1% 代码,那么在某些应用领域,我们将获得巨大的好处,实现巨大的差异。GPU加速计算和人工智能的结合,让生成式AI展示出巨大能力,生成式 AI 不仅可以识别图像,还可以根据文本描述生成相应的图像,这也将带来新的工业革命,能够创造一些从未存在过的东西。

01 Transformer诞生与价值

Noam Shazeer:早在 2015 年,我们就看到了这个规模效应。让模型变得更大,它就变得更聪明。你只需要扩大规模,模型能够执行数百万种不同的任务。

Ashish Vaswani:Transformer出现时,我就意识到梯度下降训练的模型是一个很好的老师。而且可扩展的通用架构终将赢得长期胜利。今天是tokens,明天可能是我们在计算机上执行的动作,它会开始模仿我们的活动,自动化我们大量的工作。

02Transformer进步空间

Aidan Gomez:我认为在推理方面,人们已经做了大量工作来加速这些模型,提高效率。但我仍然觉得有些不安,现在还是离我们最初的形式太相近了。我觉得世界需要比transformer更强的东西。

Llion Jones:现在的计算量太大了。我想人们处于大量的计算量浪费。我认为,计算是接下来必须解决的问题之一。我们需要知道针对特定问题应该投入多少计算资源。

Ashish Vaswani:我们最初的目标是模拟 token 的演变,实现线性生成。现在这个过程也适用于图像,扩散模型会迭代地进行改进和完善。根本的问题是,哪些知识应该存在于模型内部,哪些应该存在于模型外部?例如,推理应该在外部使用符号系统进行,这是一个效率的论点。

Jensen 向 Ashish Vaswani 赠送了签名的 DGX-1 封面

03创业的理念

Ashish Vaswani:一个超级智能AI是无法诞生在学术实验室的。我们必须要走出去,接触社会,让世界与这些模型互动,从中获取反馈,并让它们变得更聪明。做到这一点的方式就是走出去,创建新的学习体验。

Jakob Uszkoreit:AI真的可以帮助我们在实际生活生产中做很多有效率的事情,Alphafold2(DeepMind旗下研发蛋白质设计的人工智能公司)研发结果公布,Alphafold2和Alphafold1最关键的区别使用了Transformer架构,提升了算法模型效率。

Llion Jones:我们想做的是以自然界为灵感的AI公司,也会做开源,将现在所有可用模型放在了Huggng Face上,然后使用了大量的计算量进行进化计算(evolutionary computation)来探索合并、堆叠图层的方法。

Aidan. Gomez:我创办的Cohere是面向企业的AI公司。我们创建了一个平台,让每个企业都可以采用和集成这项技术到他们的产品中,而不是直接面向消费者。我们想用这种方式让社会接触AI的手段更加简便、成本更低。

04未来的AI模型发展的方向

Lllia Polosukhin:下一代模型更看重与用户的交互,需要来自大规模用户互动的数据。

Llion Jones:下一个更重要的方向是训练AI的推理和自主决策能力,现在大部分的机器训练和人机交互还是人工手动输入指令的,我们现在需要做的是训练机器强大的推理能力。

Jakob Uszkoreit:另一个方向是模型应该生产出人类世界的商品,也就是人们想要消费的东西,而在这之前机器必须接受所有刺激人类消费欲望的训练和指令。在那时,所有音视频等三维世界观察世界的信息都由AI自动化完成。

Lukasz Kaiser:是的,就像是用人的思维方式进行思考。只需要小规模的数据就可以得到像样的AI系统。因为AI的推理能力越强,所需要的数据训练量就越少,因为那时的AI更加智能了,可以自己检索信息、生成信息、进行规划。扫码加入沟通群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1537312.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用远程工具连接Mysql

(若想要远程连接Mysql需要下面解决四个问题) 1、目标地址 直接查询 2、端口号 3306 3、防火墙关闭 [rootlocalhost date]# systemctl stop firewalld.service 4、授权mysql数据库root用户权限(因为mysql开始不允许其他IP访问&#xff0…

Java 栈与队列

一、栈 在Java中,实现栈有两个方法: Java本身的集合类型Stack类型。Stack集合类型继承于Vector,由于Vector是通过数组实现的,所以Stack集合类型也是通过数组来实现的。借用LinkedList来间接实现栈。LinkedList是双向链表&#x…

【pcolor数据可视化】Matlab vs. Python

1、Matlab代码及结果 代码 clear;clc load(.\nclcolormap.mat)sl [0,50,100,200,500,0]; el [50,100,200,500,1000,200];for i 1:length(sl)file [..\data\static_result\VIS_Min-,num2str(sl(i)),to,num2str(el(i)),_yearly.npy];data readNPY(file);maskreadNPY(.\mas…

2024阿里云服务器99计划优惠活动_开年采购季优惠价格表

2024阿里云开年采购活动3月优惠,99计划云服务器99元一年、免费领取上云扶持优惠券,不只是云服务器、云数据库、存储、云电脑、域名等均有活动,阿里云服务器网aliyunfuwuqi.com整理阿里云开年采购上云无忧活动入口、优惠价格表和优惠券领取详细…

【Linux】信号的处理{信号处理的时机/了解寄存器/内核态与用户态/信号操作函数}

文章目录 0.对于信号捕捉的理解1.信号处理的时机1.1 何时处理信号?1.2 内核态和用户态1.3 内核态和用户态的切换 2.了解寄存器3.信号捕捉的原理4.信号操作函数4.1sighandler_t signal(int signum, sighandler_t handler);4.2int sigaction(int signum, const struct…

代码随想录算法训练营第三十一天 | 455. 分发饼干、376. 摆动序列、53. 最大子数组和

代码随想录算法训练营第三十一天 | 455. 分发饼干、376. 摆动序列、53. 最大子数组和 455. 分发饼干题目解法 376. 摆动序列题目解法 53. 最大子数组和题目解法 感悟 455. 分发饼干 题目 解法 class Solution { public:int findContentChildren(vector<int>& g, vec…

大模型时代,5个最顶级的向量数据库

介绍5个向量数据库。 大模型时代&#xff0c;向量数据库彻底的火了&#xff0c;今天我分享业内最频繁使用的向量数据库&#xff0c;更多实践经验&#xff0c;可以文末参加我们的技术落地的讨论&#xff0c;喜欢本文记得收藏、关注、点赞。 1 Chroma 使用ChromaDB构建LLM应用程…

D咖:颠覆传统,重塑无人自助饮品机新篇章

在当今的快节奏社会中&#xff0c;智能科技正在以前所未有的速度渗透到生活的各个方面&#xff0c;从智能手机到智能家居&#xff0c;它们不仅极大地提高了我们的生活效率&#xff0c;也在不断地改善和丰富我们的生活体验。而饮品行业&#xff0c;作为人们日常生活中不可或缺的…

TCP协议的粘包问题解决方式

粘包问题 首先说明一点&#xff0c;TCP有粘包问题&#xff0c;UDP没有粘包问题。 发送端可以是1KB地发送数据&#xff0c;而接收端的应用程序可以2KB地提走数据&#xff0c;当然也有可能一次提走3K或6K数据&#xff0c;或者一次只提走几个字节的数据&#xff0c;也就是说&…

VS Code 跳板机登录服务器(手打密码+秘钥登录)

目录 0.为什么要用跳班机登陆服务器&#xff1f; 1.VS Code插件安装及ssh安装 2.密码链接方式 1&#xff09;添加ssh设置&#xff0c;设置主机 2)设置跳板机 Tips:可以直接通过窗口连接文件管理 3.密钥连接方式&#xff08;更安全更方便&#xff09; 1&#xff09;mac版…

常见优化器对比:梯度下降法、带动量的梯度下降法、Adagrad、RMSProp、Adam

系列文章目录 李沐《动手学深度学习》线性神经网络 线性回归 李沐《动手学深度学习》优化算法&#xff08;相关概念、梯度下降法、牛顿法&#xff09; 李沐《动手学深度学习》优化算法&#xff08;经典优化算法&#xff09; 文章目录 系列文章目录一、梯度下降法&#xff08;一…

java 泛型(下)

本篇文章主要说明的是类型通配符、可变参数、可变参数的使用等。 在学习之前&#xff0c;希望能对泛型有个大概了解&#xff0c;可参考链接 java 泛型&#xff08;上&#xff09;-CSDN博客 也希望对泛型类、泛型接口、泛型方法有个大概的认识及使用&#xff0c;可参考链接 j…

Transformer学习【从零理解】

Transformer 一、整体框架 二、Encoder 1.输入部分: &#xff08;1&#xff09;Embedding&#xff1a;将输入的词转换为对应的词向量。 &#xff08;2&#xff09;位置编码&#xff1a;因为保证输出时&#xff0c;顺序不会打乱&#xff0c;所以要加入时序信息即位置编码。 公…

Linux:权限的概念与理解

目录 1. Linux权限的概念 2. Linux权限管理 01.文件访问者的分类 02.文件类型和访问权限 03.文件权限值的表示方法 04. 文件访问权限的相关设置方法 3. 使用 sudo分配权限 4. 目录的权限 ---------- 权限 用户角色(具体的人) 文件权限属性 ---------- 1. Linux权限的…

JavaScrpt学习笔记_一

一、Js编写位置 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Title</title> <!-- 可以将js代码编写到外部js文件中&#xff0c;然后通过script标签引入写到外部文件中可以在不同页面中…

乐得瑞科技PD协议芯片:OTG与充电并行,引领数据交互

在科技日新月异的今天&#xff0c;数据交互的方式对于我们的日常生活和工作都起到了至关重要的作用。但在OTG技术诞生之前&#xff0c;这一过程却显得相当繁琐和耗时。想象一下&#xff0c;你需要将数码相机的照片导入到笔记本电脑中&#xff0c;却不得不频繁地拔出内存卡&…

Java毕业设计-基于springboot开发的网吧管理系统-毕业论文+答辩PPT(附源代码+演示视频)

文章目录 前言一、毕设成果演示&#xff08;源代码在文末&#xff09;二、毕设摘要展示1、开发说明2、需求分析3、系统功能结构 三、系统实现展示1、系统登录2、管理员功能模块3、网管功能模块4、会员功能模块 四、毕设内容和源代码获取总结 Java毕业设计-基于springboot开发的…

【Qt】使用Qt实现Web服务器(六):QtWebApp用户名密码登录

1、示例 1)演示 2)登录 3)显示 2、源码 示例源码Demo1->LoginController void LoginController::service(HttpRequest& request, HttpResponse& response) {

基于Springboot的西安旅游系统(有报告)。Javaee项目,springboot项目。

演示视频&#xff1a; 基于Springboot的西安旅游系统&#xff08;有报告&#xff09;。Javaee项目&#xff0c;springboot项目。 项目介绍&#xff1a; 采用M&#xff08;model&#xff09;V&#xff08;view&#xff09;C&#xff08;controller&#xff09;三层体系结构&…

基于Springboot+Vue的前后端分离的简单Demo案例(二)

前端搭建 Vue router 来动态构建左侧菜单 导航1 页面1页面2导航2 页面3页面4导航3 页面5页面6 在views目录下创建四个页面 PageOne.vue <template><h1>这是页面1</h1> </template> <script> export default {name: "PageOne", }; …