GPT现状终于有人讲清楚了!OpenAI大牛最新演讲爆火,还得是马斯克钦点的天才

news2024/11/24 11:25:15

量子位 | 公众号 QbitAI

继Windows Copilot发布后,微软Build大会热度又被一场演讲引爆。

前特斯拉AI总监Andrej Karpathy在演讲中认为思维树(tree of thoughts)与AlphaGo的蒙特卡洛树搜索(MCTS)有异曲同工之妙!

网友高呼:这是关于如何使用大语言模型和GPT-4模型的最详尽有趣的指南!

此外Karpathy透露,由于训练和数据的扩展,LLAMA 65B“明显比GPT-3 175B更强大”,并介绍了大模型匿名竞技场ChatBot Arena:

Claude得分介于ChatGPT 3.5和ChatGPT 4之间。

网友表示,Karpathy的演讲一向很棒,而这次的内容也一如既往没有令大家失望。

随着演讲而爆火的,还有推特网友根据演讲整理的一份笔记,足足有31条,目前转赞量已超过3000+:

所以,这段备受关注的演讲,具体提到了哪些内容呢?

如何训练GPT助手?

Karpathy这次的演讲主要分为两个部分。

第一部分,他讲了如何训练一个“GPT助手”。

Karpathy主要讲述了AI助手的四个训练阶段:
预训练(pre-training)、监督微调(supervised fine tuning)、奖励建模(reward modeling)和强化学习(reinforcement learning)。

每一个阶段都需要一个数据集。

在预训练阶段,需要动用大量的计算资源,收集大量的数据集。在大量无监督的数据集上训练出一个基础模型。

Karpathy用了更多例子作补充:

接下来进入微调阶段。

使用较小的有监督数据集,通过监督学习对这个基础模型进行微调,就能创建一个能够回答问题的助手模型

他还展示了一些模型的进化过程,相信很多人之前已经看过上面这张“进化树”的图了。

Karpathy认为目前最好的开源模型是Meta的LLaMA系列(因为OpenAI没有开源任何关于GPT-4的内容)。

在这里需要明确指出的是,基础模型不是助手模型

虽然基础模型可以回答问题,但它所给出的回答并不可靠,可用于回答问题的是助手模型。在基础模型上进行训练的助手模型,通过监督微调,在生成回复和理解文本结构方面的表现将优于基础模型。

在训练语言模型时,强化学习是另一个关键的过程。

通过用人工标记的高质量的数据进行训练,可以使用奖励建模来创建一个损失函数,以改善其性能。然后,通过增加正向的标记,并降低负面标记的概率,来进行强化训练。

而在具有创造性的任务中,利用人类的判断力对于改进AI模型至关重要,加入人类的反馈可以更有效地训练模型。

经过人类反馈的强化学习后,就可以得到一个RLHF模型了。

模型训练好了,接下来就是如何有效利用这些模型解决问题了。

如何更好地使用模型?

第二部分,Karpathy主要讨论了提示策略、微调、快速发展的工具生态系统以及未来的扩展等问题。

Karpathy又给出了具体示例来说明:

当我们在写文章时候,我们会进行很多的心理活动,需要考虑自己的表述是否正确。而对于GPT来说,这只是一个序列标记(a sequence of tokens)。

提示(prompt)可以弥补这种认知差异。

Karpathy进一步解释了思维链提示的工作方式。

对于推理问题,要想让自然语言处理中Transformer的表现更好,需要让它一步一步地处理信息,而不能直接抛给它一个非常复杂的问题。

如果你给它几个例子,它会模仿这个例子的模版,最终生成的结果会更好。

模型只能按照它的序列来回答问题,如果它生成的内容是错误的,你可以进行提示,让它重新生成。

如果你不要求它检查,它自己是不会检查的。

这就涉及到了System1和System2的问题。

诺贝尔经济学奖得主丹尼尔卡尼曼在《思考快与慢》中提出,人的认知系统包含System1和System2两个子系统。System1主要靠直觉,而System2是逻辑分析系统。

通俗来说,System1是一个快速自动生成的过程,而System2是经过深思熟虑的部分。

这在最近一篇挺火的论文“Tree of thought”(思维树)中也有被提及。

深思熟虑指的是,不是简单的给出问题的答案,而更像是与Python胶水代码一起使用的prompt,将许多prompt串联在一起。模型必须要维护多个提示,还必须要执行一些树搜索算法,来找出要扩展的提示。

Karpathy认为这种思路与AlphaGo非常相似:

AlphaGo在下围棋时,需要考虑下一枚棋子下在哪里。最初它是靠模仿人类来学习的。

但除此之外,它还进行了蒙特卡洛树搜索,可以得到具有多种可能性的策略。它可以对多种可能的下法进行评估,仅保留那些较好的策略。我认为这在某种程度上相当于AlphaGo。

对此,Karpathy还提到了AutoGPT:

我认为目前它的效果还不是很好,我不建议大家进行实际应用。我只是认为,随着时间的推移,我们或许可以从它的发展思路中汲取灵感。

其次,还有一个小妙招是检索增强生成(retrieval agumented generation)和有效提示。

窗口上下文的内容就是transformers在运行时的记忆(working memory),如果你可以将与任务相关的信息加入到上下文中,那么它的表现就会非常好,因为它可以立即访问这些信息。

简而言之,就是可以为相关数据建立索引让模型可以高效访问。

如果Transformers也有可参考的主要文件,它的表现会更好。

最后,Karpathy简单讲了一下在大语言模型中的约束提示(Constraint prompting)和微调。
可以通过约束提示和微调来改进大语言模型。约束提示在大语言模型的输出中强制执行模板,而微调则调整模型的权重以提高性能。

我建议在低风险的应用中使用大语言模型,始终将它们与人工监督相结合,将它们看作是灵感和建议的来源,考虑copilots而不是让它们完全自主代理。

关于Andrej Karpathy

Andrej Karpathy博士毕业后的第一份工作,是在OpenAI研究计算机视觉。

后来OpenAI联合创始人之一的马斯克看上了Karpathy,把人挖到了特斯拉。但也因为这件事,马斯克和OpenAI彻底闹翻,最后还被踢出局。在特斯拉,Karpathy是Autopilot、FSD等项目的负责人。

今年二月份,在离开特斯拉7个月后,Karpathy再次加入了OpenAI。

最近他发推特表示,目前对开源大语言模型生态系统的发展饶有兴趣,有点像早期寒武纪爆发的迹象。

传送门:
[1]https://www.youtube.com/watch?v=xO73EUwSegU(演讲视频)
[2]https://arxiv.org/pdf/2305.10601.pdf(“Tree of thought”论文)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/596422.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MySQL数据库 4.SQL通用语法及分类

目录 🤔SQL通用语法: 😊语句: 😊注释: 🤔SQL语句分类: 😊1.DDL语句: 😊2.DML语句: 😊3.DQL语言: &…

springboot+vue+element-ui在线招投标系统

本在线招投标系统管理员管理个人中心,投标人管理,招标人管理,评标人管理,招标信息管理,投标信息管理,评标信息管理,中标信息管理,系统管理。管理员负责所有的管理信息,招…

DAY06_Mybatis

目录 1 MyBatis1.1 快速入门1.1.1 创建user表,添加数据1.1.2 创建模块,导入坐标1.1.3 编写 MyBatis 核心配置文件1.1.4 编写 SQL 映射文件1.1.5 编码 1.2 解决SQL映射文件的警告提示1.3 Mapper代理开发1.3.1 定义与SQL映射文件同名的Mapper接口&#xff…

NFS网络文件挂载【虚拟机到开发板】

注意:首先要确保虚拟机和开发板之间可以互相访问,即配置桥接网卡,如果在同一个网段下但是无法ping通可能是防火墙的问题。可以查看博文解决:vmware虚拟机设置双网卡 注意:当前虚拟机版本为18.04,若虚拟机版…

焊接铁件的一些常识

焊接整体过程 简单来说就是通过各种方式将金属熔化后冷却结合。而焊接过程中一般会有保护气体,例如氩气,二氧化碳。就是常听到的氩弧焊和二保焊。而最常见的是药皮包裹着金属心的焊条,而焊条的药皮就是加热后产生了保护气。弧光是焊条和焊件…

UnaBiz与纵行科技签署战略合作协议 为海量物联共建“融合的LPWAN全球网络”

新加坡、法国、中国,2023年5月30日,UnaBiz和纵行科技签署了战略合作协议,致力于促进“融合的LPWAN全球网络”的发展以实现全球大规模物联网。根据协议,UnaBiz和纵行科技将充分利用各自的网络资源,其中ZETA网络覆盖中国…

走进Linux编程的大门

随着Linux的不断普及,使用Linux的人也越来越多了。然而在Linux中如何进行程序设计,用什么样的开发工具好呢?本文就以我初学Linux编程的一点心得体会,和大家共同探讨。 在Linux中进行程序设计,可以使用各种编程语言和开发工具,以下是一些常用的方法&…

eBay如何实现多账号登录以及防关联?

随着跨境电商的快速发展,亚马逊,eBay已成为人们熟知的电商平台。“不把鸡蛋放在同一个篮子里”,多账号运营店铺有许多显而易见的好处。 但由于亚马逊平台封号状况愈演愈烈,不少卖家把战线转移到了eBay平台。随着入驻人数的增加&a…

windows安装minio

官方下载地址: MinIO | Code and downloads to create high performance object storage 官方快速入门文档: MinIO Object Storage for Windows — MinIO Object Storage for Windows 概述 最近熟悉公司框架,有使用到MinIO,故学习并记录总…

软考A计划-网络规划设计师-核心考点解密

点击跳转专栏>Unity3D特效百例点击跳转专栏>案例项目实战源码点击跳转专栏>游戏脚本-辅助自动化点击跳转专栏>Android控件全解手册点击跳转专栏>Scratch编程案例 👉关于作者 专注于Android/Unity和各种游戏开发技巧,以及各种资源分享&am…

性能测试设计阶段

性能测试设计阶段 性能测试是软件测试中的关键环节,它可以帮助我们评估软件系统在压力下的运行稳定性和性能表现。性能测试设计阶段是性能测试的基础,只有经过充分的设计,才能保证性能测试的有效性和准确性。 在性能测试设计阶段,…

C++STL之vector与list

文章目录 关于vector的用法关于List的用法vector和list的区别 关于vector的用法 #include<stdio.h> #include<iostream> #include<string.h> #include<vector> using namespace std;class PtrInt {int* ptr; public:PtrInt(int x 0) :ptr(new int[x]…

海外跨境电商商城源码-进出口电商平台网站-多语言多商户平台

欢迎探讨&#xff0c;名片交流 一、海外跨境电商系统源码包括以下几个部分&#xff1a; 前端&#xff1a;React框架、Bootstrap 后端&#xff1a;Node.js&#xff0c;Express框架、NoSQL数据库 支付系统&#xff1a;Stripe、PayPal等主流支付平台 物流系统&#xff1a;DHL…

idea 打开项目代码出错,但是编译没问题

一、说明 在使用idea的时候发现有时候编译没问题&#xff0c;代码没问题&#xff0c;但是就是项目报红&#xff1b;然后就找了一下解决方法&#xff0c;总结一下然后发一下博客给说明一下吧 二、问题和说明 1.问题 经常出现在pom的引入版本升级和版本依赖有修改 2.解决 2.…

Benewake(北醒) 单点TF系列雷达【通用指令串口助手】使用说明

目录 硬件准备1:连接设备2:串口连接以及读数 常见问题1 连接串口后无数据 硬件准备 1:连接设备 连接『TF系列产品』、『TTL - USB 转接板』和『USB 线』&#xff0c;确保无松动&#xff0c;再将『USB 线』与『电脑』连接。 2:串口连接以及读数 1.打开串口助手&#xff0c;选…

Zabbix 5.0如何升级至6.0?操作文档

Zabbix5.0升级至6.0的认证培训&#xff0c;仅需6小时&#xff08;无需5天&#xff09;点击报名。 感谢本文作者王会新&#xff0c;ZCP-Zabbix高级认证工程师 目录 1.方案说明 2.环境说明 3.Mysql环境部署 3.1 mysql安装 3.2 配置mysql 3.3 创建zabbix库 4.Zabbix Server升…

国产GPU重要应用场景迎来突破!摩尔线程发布重磅产品与创新解决方案

5月31日&#xff0c;摩尔线程举办2023夏季发布会&#xff0c;重磅宣布了一系列新产品与技术更新&#xff0c;涵盖数字办公、娱乐与创作、AI与云计算以及元宇宙等GPU重要应用场景&#xff0c;标志着摩尔线程为用户提供的高品质、易部署、创新性应用型解决方案取得重大进展。 主…

JetBrains的PHP集成开发环境PhpStorm 2023版本在Linux系统的下载与安装配置教程

目录 前言一、PhpStorm安装二、使用配置总结 前言 PhpStorm是一款专为PHP开发人员设计的集成开发环境&#xff08;IDE&#xff09;。它提供了丰富的功能和工具&#xff0c;可以帮助开发人员更高效地编写、调试和部署PHP应用程序。注&#xff1a;已在CentOS7.9和Ubuntu20.04安装…

【开发心得】一招减少msdtc时间3分钟,但还有未解之谜

最近解决了一个诡异的问题&#xff0c;MSDTC默认超时造成事务被取消&#xff0c;业务被迫中断&#xff0c;好在没有一直跟MSDTC耗着&#xff0c;而是通过其他方式解决了&#xff0c;但最后还是留下了两个未解之谜。对用到MSDTC处理SQL事务的朋友应该有借鉴作用&#xff0c;欢迎…

uniapp滚动加载 下拉刷新

前言 在日常开发中&#xff0c;滚动加载和下拉刷新是非常常见的功能&#xff0c;页面数据过多时&#xff0c;需要滚动加载优化性能&#xff0c;本篇技术分享博客将介绍如何在uniapp中实现滚动加载和下拉刷新。 预览 滚动加载 下拉刷新 一、滚动加载 滚动加载指的是当用户滑…