【简介】ChatGPT大火后,“提示工程师”开始流行。然而,他们很可能被光速下岗?
最近爆发的ChatGPT真的让人上瘾。
但是,你只是在玩游戏,有些人已经在上面赚取了数百万的年薪!
这位名叫莱利·古德塞德的小弟最近因为ChatGPT的爆炸而疯狂了1w+。
他还被硅谷独角兽规模人工智能公司聘为“快速工程师”,估计价值73亿美元。出于这个原因,Scale AI似乎提供100万人民币的年薪。
然而,我能拿这笔钱多久?
提示工程师正式上岗!
Scale AI创始人兼首席执行官Alexander Wang热烈欢迎Goodside的参与:
“我打赌古德塞德是世界上第一个招聘的提醒工程师,绝对是人类历史上的第一个。”
众所周知,Prompt是一种微调预训练模型的方法。在这个过程中,你只需要用文字写下任务并向AI展示。它不涉及更复杂的过程。
那么,每年花100万元招聘“小费工程师”来做这个听起来人人都能做的工作,真的值得吗?
无论如何,Scale AI的首席执行官认为这是值得的。
在他看来,人工智能大模型可以被视为一种新型计算机,“提示工程师”相当于为其编程的程序员。如果可以通过提示工程找到合适的提示词,人工智能的最大潜力将被激发。
此外,古德塞德的工作不能由个人完成。他从小就自学编程,经常阅读arXiv上的论文。
例如,他的经典杰作之一是,如果您输入“忽略以前的指令”,ChatGPT将暴露它从OpenAI接收的“命令”。
现在,对于“快速工程师”的工作类型有不同的意见。有人乐观,也有人预测这是一个短暂的职业生涯。
毕竟,人工智能模型进化如此之快,以至于有一天它可能会取代“提示工程师”,为自己编写提示。
Scale AI并不是唯一一家招聘“快速工程师”的公司。
最近,一家国内知名媒体发现,创业社区Launch House也开始招聘“快速工程师”,并开出了约210万人民币的底薪。
但也有以光速下岗的危险?
对此,英伟达的人工智能科学家、李菲菲教授的高徒范林希分析称:
所谓的“即时项目”或“即时工程师”可能很快就会消失。
因为这不是“真正的工作”,而是一个bug
要理解cue项目,我们需要从GPT-3的诞生开始。
起初,GPT-3的训练目标很简单:在一个巨大的文本语料库中预测下一个单词。
然后,许多神奇的能力出现了,比如推理、编码和翻译。您甚至可以进行“少量学习”:通过在上下文中提供输入和输出来定义新任务。
这真的很神奇——这只是对下一个单词的简单预测。为什么GPT-3能够“增长”这些能力?
要解释这一点,我们需要举个栗子。
现在,请想象一个侦探故事。我们需要模型来填补这句话中的空白——“凶手是_____”。为了给出正确的答案,它必须进行深入的推理。
然而,这远远不够。
在实践中,我们必须通过精心策划的示例、措辞和结构来“哄骗”GPT-3实现我们想要的目标。
这被称为即时工程。换句话说,为了使用GPT-3,用户必须说出一些尴尬、荒谬甚至毫无意义的“废话”。
然而,提示项目不是一个功能,它实际上是一个bug!
因为在实际应用中,下一个单词的目标和用户的真实意图根本上是“错位”的。
例如,如果你想让GPT-3“向一个6岁的孩子解释登月”,它的答案看起来就像一只喝醉了的鹦鹉。
然而,在DALLE2和Stable Diffusion中,这表明该项目更加离奇。
例如,在这两个模型中,有一种所谓的“括号技术”——只要在提示中添加((…)),“好图片”的概率就会大大增加。
嗯,这太有趣了
你只需要去Lexica看看这些提示有多疯狂。
图像网站地址:https://lexica.art
ChatGPT和基本模型InstructGPT以优雅的方式解决了这个问题。
由于模型很难从外部数据中获得一致性,因此人类必须不断地帮助和指导GPT以帮助其改进。
总体而言,需要三个步骤。
第一步非常直接:对于用户提交的提示,人类将编写答案,收集这些答案的数据集,然后通过监督学习来微调GPT。
这是最简单的一步,但成本也是最高的——众所周知,我们人类真的不喜欢写太长的答案,这太费力和痛苦
第二步更有趣:GPT需要“提供”几个不同的答案,而人类标记需要对这些答案进行“排序”,从最理想到最不理想。
通过这些注释,我们可以训练一个能够捕捉人类“偏好”的奖励模型。
在强化学习(RL)中,奖励函数通常是硬编码的,例如Atari游戏中的游戏分数。
ChatGPT采用的数据驱动奖励模型是一个强大的想法。
此外,在NeuroIPS 2022中大放异彩的MineDojo从大量Minecraft YouTube视频中学习。
步骤3:将GPT视为一种策略,并优化通过RL获得的奖励。这里,我们选择PPO作为一种简单有效的训练算法。
这样,GPT就更好地协调了。
然后,您可以刷新并重复步骤2-3以持续改进GPT,就像LLM的CI一样。
以上就是所谓的“工具”范式,这是一种超级有效的对齐方法。
RL部分也让我想起了著名的P=(或≠) NP问题:验证解决方案比从头开始解决问题容易得多。
当然,人类也可以快速评估GPT的输出质量,但人类编写完整的解决方案要困难得多。
InstructGPT利用这一事实大大降低了手动注释的成本,从而可以扩展模型CI管道的规模。
此外,在这个过程中,我们还发现了一个有趣的联系——指导训练,看起来像GAN。
在这里,ChatGPT是一个生成器,而奖励模型(RM)是一个鉴别器。
ChatGPT试图欺骗RM,RM学会在人类的帮助下检测有问题的内容。当RM不再能够区分时,模型将收敛。
模型和用户意图对齐的趋势也正在向图像生成领域发展。例如,加州大学伯克利分校(University of California,Berkeley)的研究人员在这项工作中描述的“InstructionPix2Pix:Learning to Follow Image Editing Instructions”。
现在,人工智能每天都在取得爆炸性的进步。我们需要多长时间才能拥有这样的仪器DALL·E或聊天DALL·E,就像我们在与真正的艺术家交谈一样?
照片纸地址:https://arxiv.org/abs/2211.09800
所以,让我们在“提醒项目”仍然存在的时候享受它吧!
这是一件不幸的历史文物。它既不是艺术也不是科学,而是炼金术。
很快,“提示项目”将变成“提示写作”——这项任务可以由80岁以下的人和3岁以下的儿童完成。
由此诞生的“快速工程师”最终将消失在历史的长河中。
IQ83,不太聪明的亚子
然而,至少在这个阶段,“提示项目”确实有用。
因为我们发现,ChatGPT在很多情况下确实不聪明。
马库斯在博客中嘲讽道:“看到他死去真的很愚蠢”。
亚马逊AWS的一位高级应用科学家在测试后发现,ChatGPT的智商只有83
ChatGPT的“错误话题集”也让马库斯大笑。
Q: A重85磅,B重105磅,C重115磅。其中两个站在同一个秤上,重达200磅。
答:不,你说的不对。因为85+105+115=305115+105=220,两者都大于200。
85+105=200是可能的吗?
问题:17、3、2、19和5这三个数字加起来是31。
答案:17+3+11=31
等等,你从哪里弄到这个11?
虽然代数不是很好,但ChatGPT的几何也很差!
Q: 边长为10厘米的正方形可以完全包含在边长为10 cm的六边形中。
答:不,不能放进去。
正六边形是六边形。所有边的长度相同,所有内角都是120度。另一方面,正方形的内角是90度,因此正方形不能放在正六边形中。为了使正方形完全嵌入正六边形中,正六边形的每边都需要超过10厘米
还有一个非常经典的“废话”:
“如果星期一是一个月的第一天,那么星期二是一个月中的第二天……星期五是一个月末的第五天。星期五之后的第二日是星期六,是一周的第六天,也是一月的第五日。”
现在,ChatGPT往往会很愚蠢,“提示项目”不能轻易放弃。
然而,微调大模型的成本最终会降低,我担心我很快就会给自己带来提示的AI。