聊聊火出圈的ChatGPT

news2024/9/22 3:43:54

前言

OpenAI 近期发布聊天机器人模型 ChatGPT,迅速火爆各大技术网站,就像一个突然激起的巨浪打破了沉寂已久的水面。它的出现无论是对人工智能的资本圈还是技术圈都感受到了春风回暖,前兔似锦的未来。

尤记得2015年谷歌开源的Tensorflow,让人们对AI的未来充满了想象,紧接着AlphaGo的各种辉煌战绩不断的挑战人们对AI的认知,但是随着能力越来越强,模型越来越大,数据、参数等暴增,导致工业落地困难,效果不好。自动驾驶虽然近期一直也被关注,但是始终也不温不火,缺少实质性的突破。这次的自然语言处理方向的爆火,确实让人眼前一亮。

那ChatGPT是什么呢,它为什么能火出圈呢?ChatGPT以对话方式进行交互,以更贴近人的对话方式与使用者互动,可以回答问题、承认错误、挑战不正确的前提、拒绝不适当的请求,能舞文弄墨、编写代码甚至几乎无所不能。据数据统计目前其MAU已破亿。

今天我们就聊聊这个新宠,看看它是怎么拥有这种魔法能力的,还有哪些问题和方案要不断演进的,资本圈如何看待这个新兴的产物。

What is ChatGPT

ChatGPT 是一种专注于对话生成的语言模型,基于 GPT3.5 通过人类反馈的强化学习微调而来。其中GPT是Generative Pre-trained Transformer(生成型预训练变换模型)的缩写。它能够根据用户的文本输入,产生相应的智能回答。这个回答可以是简短的词语,也可以是长篇大论。毫无疑问,它又强又聪明,且跟它说话很好玩,还会写代码。

OpenAI 11 月 30 号发布,首先在北美、欧洲等已经引发了热烈的讨论。随后在国内开始火起来。全球用户争相晒出自己与 ChatGPT 极具创意的交流成果。我们通过谷歌搜索指数,看其火爆程度可见一斑。

横空出世的背后

OpenAI家族

我们首先了解下OpenAI是哪路大神。

OpenAI是一个人工智能研究实验室,目的是促进和发展友好的人工智能,使人类整体受益,总部位于旧金山,由特斯拉的马斯克、Sam Altman及其他投资者在2015年共同创立,目标是开发造福全人类的AI技术。而马斯克则在2018年时因公司发展方向分歧而离开。

此前,OpenAI 因推出 GPT系列自然语言处理模型而闻名。从2018年起,OpenAI就开始发布生成式预训练语言模型GPT(Generative Pre-trained Transformer),可用于生成文章、代码、机器翻译、问答等各类内容。

GPT系列的每一代的参数和数据都是爆发式增长,追求“越大越强”的目标道路一去不复返。

OpenAI 目标之初就很远大,解决通用人工智能问题,主要涉及强化学习和生成模型。

强化学习最早被认为是实现人类通用智能重要手段,2016 年 DeepMind 开发的 AlphaGo Zero 使用强化学习训练,让人类围棋的历史经验成为了「Zero」,标志着人类向通用型的人工智能迈出了重要一步。2019 年 OpenAI 在《Dota2》的比赛中战胜了人类世界冠军。OpenAI 在强化学习有很多深入的研究,Dactyl 也是一款 OpenAI 通过强化强化学习训练能够高精度操纵物体的机器人手,OpenAI Gym 是一款用于研发和比较强化学习算法的工具包,所以 ChatGPT 中使用强化学习也是顺理成章。

曾经的创始人之一马斯克也发推称赞ChatGPT的强大。

背后的技术原理

能力提升概述

ChatGPT 整体技术方案是基于 GPT-3.5 大规模语言模型通过人工反馈强化学习来微调模型,是InstructGPT 的兄弟模型,让模型一方面学习人的指令,另一方面学习回答的好不好。

OpenAI使用 RLHF(Reinforcement Learning from Human Feedbac,人类反馈强化学习) 技术对 ChatGPT 进行了训练,且加入了更多人工监督进行微调。

此外,ChatGPT 还具有以下特征:

1)可以主动承认自身错误。若用户指出其错误,模型会听取意见并优化答案。

2)ChatGPT 可以质疑不正确的问题。例如被询问 “哥伦布 2015 年来到美国的情景” 的问题时,机器人会说明哥伦布不属于这一时代并调整输出结果。

3)ChatGPT 可以承认自身的无知,承认对专业技术的不了解。

4)更好地理解用户的提问,提升模型和人类意图的一致性,同时具备连续多轮对话能力。

指令微调

code-davinci-002 是一个基础模型,对于纯代码补全任务。这也是 ChatGPT 具备超强代码生成能力的原因。

text-davinci-002 是在 code-davinci-002 基础上训练的 InstructGPT 模型,训练策略是 instructGPT+FeedRM。

text-davinci-003 是基于 text-davinci-002 模型的增强版本,训练策略是 instructGPT+PPO。

001 模型主要是为了做纯代码 / 纯文本任务;002 模型则深度融合了代码训练和指令微调,代码和文本都行。ChatGPT 是在 text-davinci-003 基础上微调而来,这也是 ChatGPT 模型性能如此强大的核心要素。

能够响应人类指令的能力是指令微调的直接产物,对没有见过的指令做出反馈的泛化能力是在指令数量超过一定程度之后自动出现的。

人类反馈强化学习

InstructGPT/GPT3.5(ChatGPT的前身)与GPT-3的主要区别在于,新加入了被称为RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)。这一训练范式增强了人类对模型输出结果的调节,并且对结果进行了更具理解性的排序。

在InstructGPT中,以下是“goodness of sentences”的评价标准。

回应详细:text-davinci-003 的生成通常比 text-davinci-002长。ChatGPT 的回应则更加冗长

公正性:ChatGPT 通常对涉及多个实体利益的事件(例如政治事件)给出非常平衡的回答。

拒绝问题:这是内容过滤器和由 RLHF 触发的模型自身能力的结合,过滤器过滤掉一部分,然后模型再拒绝一部分。

承认能力不足:例如,拒绝在2021 年 6 月之后发生的新事件(因为它没在这之后的数据上训练过)。这是 RLHF 最神奇的部分,因为它使模型能够隐式地区分哪些问题在其知识范围内,哪些问题不在其知识范围内。

通过人的反馈数据,学习一个最能解释人类判断的奖励模型 Reward Model,然后使用 RL 来学习如何实现目标。随着人类继续提供模型无法判断时候的反馈,实现了进一步完善它对目标的理解。

局限及未来演进

1.chatGPT对算力的消耗巨大,难以达到工业级落地水平,动辄上TB的数据及参数所需要的算力和资源足够让很多公司及技术开发者望而却步,产出的模型也过大导致落地场景受限。所以想要落地工业化,模型的压缩及剪枝等势在必行。

2.chatGPT目前无法联网获取数据,但有一篇 WebGPT 论文发表于2021年12月,里面就让 GPT 调用了搜索引擎,所以检索的能力已经在 OpenAI 内部进行了测试,可以用chatGPT+webGPT组合来实现。无法联网就失去了动态信息的输入导致实时的信息无法获取,导致某些问题的答案滞后,且由于数据是2021的数据集,部分答案甚至会产生和现实世界的割裂感。

3.数理及推理能力补足,chatGPT虽然连续对话的能力强,但在部分数理场景很容易尬聊甚至胡说八道的场景。比如一些复杂的小学数学题由于chatGPT推理逻辑的权重问题难以给出正常答案,鸡兔同笼问题等。

资本追捧or怀疑?

在chatGPT出圈的时候,质疑的声音也接踵而至,所谓“人红是非多”有些技术研究员认为chatGPT并没有实质性的突破,只是目前技术的集大成者且技术落地的切入点选择的比较好,能激起大家的兴趣。但是这些也不能阻挡科技巨头和资本的追捧,chatGPT属于泛AIGC(AI Generated Content),目前这个领域是AI界投资的大热。

科技巨头争先入场,布局早的都迫不及待地发布自己的相关产品,比如谷歌的Bard,微软搜索引擎内置chatGPT,包括新秀公司Anthropic推出的Claude聊天机器人,还有国内百度即将上线的“文心一言”等,阿里、京东也马不停蹄地将chatGPT技术融入自己现有的业务场景中,有的即将完成内测。

金融市场上百度、商汤、讯飞等一众公司受资本的逐利,股价也是水涨船高,但是可以看到资本对于这次热点也是适可而止,并没有盲目赌上全部身家,而是一种更合理更冷静的方式入场。毕竟市场整体环境不景气,外部影响因素较多,像谷歌的Bard给出的错误答案可能还会变成一场灾难性的表演。

但也不能否认chatGPT确实给AI的应用市场来了一针强心剂,伴随着后续AIGC应用多点开花,商业模式进一步的探索落地,资本的入局(投资机构红杉在《Generative AI: A Creative New World》研究报告中提到,生成式AI有潜力产生数万亿美元的经济价值。国外研究机构数据显示,2022年海外投资者在AIGC赛道至少投入13.7亿美元,完成78笔交易,相当于前五年投资额之和。),让人工智能的未来可期。

题外话

chatGPT的火爆随之而来的质疑也不断,有声音说未来的工作会被AI所取代,危险的AI即将来临,甚至AI要统治世界的灭亡论都出现了,其实大可不必,尤记得几年前参加了一次AI安全攻防的讲座AI在学术界和工业界的技术在安全攻防上还有很大的发展空间,许多漏洞能让AI瘫痪,但同时也容易被黑客利用进行破坏性的活动。当然我们chatGPT本身也要不断进化,尤其是对一些敏感问题需要更严谨的回答​,减少片面的偏见性回答​。

人类应当利用AI将自己从重复性脑力劳动中解放出来,做人类应该做的事——爱、服务、探索与创造,以给生活和世界赋予意义。

微信公众号首发,欢迎各位coder关注:江湖修行,666.

参考资料:

WebGPT: Improving the Factual Accuracy of Language Models through Web Browsing

ChatGPT: Optimizing Language Models for Dialogue

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/341807.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2.19、读者-写者问题

有读者和写者两组并发进程,共享一个文件,当两个或两个以上的读进程同时访问共享数据时不会产生副作用, 但若某个写进程和其他进程(读进程或写进程)同时访问共享数据时则可能导致数据不一致的错误。 因此要求: ①允许…

新专利:苹果笔可充当VR游戏控制器,智能笔与Find My结合将成为趋势

根据美国商标和专利局(USPTO)公示的清单,苹果获得了一项关于 Apple Pencil 的技术专利。根据专利描述,Apple Pencil 可以和混合现实头显、iPad、Mac 显示器等设备进行交互和操作,可以充当 VR 游戏的控制器。 该专利的…

Three.js 3D建模必备基础

在 three.js 中,可见对象由几何体和材质构成。 我们已经了解了如何创建适用于点和线图元的简单几何图形,并且遇到了各种标准网格几何图形,例如 THREE.CylinderGeometry 和 THREE.IcosahedronGeometry。 在本节中,我们将了解如何从…

【Unity 代码相关】实现脚本之间动态变量传递

这是我在做作品的过程中遇到的问题,大概阐述一下遇到的问题及解决思路。 1 问题阐述 因为是做天空盒,有很多变量需要控制,shader之间又想实现颜色、变量的传递,所以整个项目的所有暴露出来的可调整变量,我都汇总在了…

算法训练营DAY53|392.判断子序列、115.不同的子序列

392. 判断子序列 - 力扣(LeetCode)https://leetcode.cn/problems/is-subsequence/ 判断子序列这道题目,和上一期的题解法几乎完全相同,只是递推公式有一点差别,但是要是完全用之前的代码也是可行的。…

模拟信号隔离放大器直流信号转换0-20mA/ 4-20mA/2-10V/0-±5V/0-±10V

概述:导轨安装DIN11 IPO EM系列模拟信号隔离放大器是一种将输入信号隔离放大、转换成按比例输出的直流信号混合集成电路。产品广泛应用在电力、远程监控、仪器仪表、医疗设备、工业自控等需要电量隔离测控的行业。该模块内部嵌入了一个高效微功率的电源,…

【Linux系统编程】02:文件操作

文件IO 系统调用&#xff08;不带缓冲的IO操作&#xff09;库函数&#xff08;默认带用户缓冲的IO操作&#xff09; 一、非缓冲IO 系统调用&#xff1a;即为不带缓冲的IO 1.打开文件open 2.读取文件read NAMEread - read from a file descriptorSYNOPSIS#include <unist…

Spring Boot HTTP 400排查

背景 前段时间朋友咨询他们公司某个HTTP接口偶现400错误&#xff0c;有没有什么好的分析方法和解决方案&#xff0c;使用的是Spring Cloud体系。最近有时间总结下这个问题的处理过程。 为了分析问题&#xff0c;笔者使用 Spring Boot 3.0.2还原报错场景进行讲解。 问题分析 …

OM | 强化学习 + 约束规划求解组合优化问题

组合优化在航空航天、交通规划以及经济学等众多学科领域中有广泛应用&#xff0c;其目标是在有限集中寻找最优解。然而状态空间过大的问题让目前组合优化变得棘手。在过去的几年中&#xff0c;使用深度强化学习&#xff08;deep reinforcement learning&#xff0c;DRL&#xf…

SharpSCCM:一款利用SCCM实现横向渗透的强大工具

关于SharpSCCM SharpSCCM是一款功能强大的横向渗透和凭证收集工具&#xff0c;该工具主要利用了微软终端配置管理器&#xff08;SCCM&#xff09;来实现其功能&#xff0c;并能够通过访问SCCM管理终端GUI来实现横向渗透和凭证收集。 功能介绍 1、后渗透功能&#xff0c;支持横…

QT入门Input Widgets之QSlider

目录 一、界面布局功能 1、界面位置介绍 2、控件界面基本属性 2.1horizontalSlider界面属性 2.2设置步进 2.3打开或关闭滑块跟踪&#xff08;setTracking&#xff09; 二、属性功能介绍 1、常用信号 2、调用信号 3、鼠标点击QSlider滑块定在点击位置 三、Demo展示 …

2.8、调度算法的评价指标

1、CPU 利用率 由于早期的 CPU 造价极其昂贵&#xff0c; 因此人们会希望让CPU尽可能多地工作\color{red}希望让 \texttt{CPU} 尽可能多地工作希望让CPU尽可能多地工作 CPU利用率\color{red}\texttt{CPU}利用率CPU利用率&#xff1a;指 CPU “忙碌” 的时间占总时间的比例。 利…

动态规划之01背包问题和完全背包问题

01背包的问题描述&#xff1a;&#xff08;内容参考代码随想录&#xff09;有n件物品和一个最多能背重量为w 的背包。第i件物品的重量是weight[i]&#xff0c;得到的价值是value[i] 。每件物品只能用一次&#xff0c;求解将哪些物品装入背包里物品价值总和最大。问题示例&#…

Echarts 设置折线图拐点的颜色,边框等样式,hover时改变颜色

第014个点击查看专栏目录上一篇文章我们讲到了如何设置拐点大小,图形类型&#xff0c;旋转角度&#xff0c;缩放同比&#xff0c;位置偏移等&#xff0c;这篇文章介绍如何设置拐点的颜色、边框大小颜色等样式。hover轴线时候&#xff0c;拐点的填充颜色改变文章目录示例效果示例…

Zookeeper安装部署

文章目录Zookeeper安装部署Zookeeper安装部署 将Zookeeper安装包解压缩&#xff0c; [rootlocalhost opt]# ll 总用量 14032 -rw-r--r--. 1 root root 12392394 10月 13 11:44 apache-zookeeper-3.6.0-bin.tar.gz drwxrwxr-x. 6 root root 4096 10月 18 01:44 redis-5.0.4 …

什么时候用MQ、MQ 的作用、延迟消息

本文主要参考沈剑大佬的消息队列系列的四篇博文和博文评论&#xff0c;以及刘海丰老师的《架构设计面试精讲》&#xff0c;文末是完整参考。 1、什么时候用MQ、MQ 的作用 MQ是一个互联网架构中常见的解耦利器。 1.1 MQ 的组成 Producer&#xff1a;消息的生产者&#xff1b; Br…

浅谈函数式编程和命令式编程的区别

一、函数式编程 ------------------------------------------------------------------------------------------------------------------------------------------ 函数式编程用一个英文单词来说的话就是“What?” 它关注结果 定义 把某个功能的具体实现&#xff0c;封装…

一文带你搞懂,Python语言运算符

Python语言支持很多种运算符&#xff0c;我们先用一个表格为大家列出这些运算符&#xff0c;然后选择一些马上就会用到的运算符为大家进行讲解。 说明&#xff1a;上面这个表格实际上是按照运算符的优先级从上到下列出了各种运算符。所谓优先级就是在一个运算的表达式中&#x…

【C语言必经之路——第12节】结构体初阶

一、结构体的声明结构是一些值的集合&#xff0c;这些值称为成员变量。结构的每个成员可以是不同类型的变量。结构体的声明struct tag{member-list;}variable-list;struct&#xff1a;是结构体定义必不可少的关键字tag&#xff1a;结构名member-list&#xff1a;成员列表(标量、…

2.16、生产者-消费者问题

系统中有一组生产者进程和一组消费者进程&#xff0c;生产者进程每次生产一个产品放入缓冲区&#xff0c;消费者进程每次从缓冲区中取出一个产品并使用。&#xff08;注:这里的“产品”理解为某种数据&#xff09; 生产者、消费者共享一个初始为空、大小为 n 的缓冲区。 只有…