AIGC专题报告:ChatGPT纪要分享

news2024/9/20 14:32:05

今天分享的AIGC系列深度研究报告:《AIGC专题报告:ChatGPT纪要分享》。

(报告出品方:久谦中台)

报告共计:135页

OpenAI 高管解密 ChatGPT

¶ GPT-3 是一种大型语言模型,被训练用来在给定上下文中预测下一个单词,使用 Transformer 架构

1 它很灵活,可以用于翻译、摘要、分类和问答等任务。GPT-3 的优势在于它的简 单性和不需要专门训练数据集就能表现良好的能力。

2 GPT-3 可以用于翻译任务,方法是提供比如“德语:英语”对的翻译样例(如果 是德英翻译),或者像问人一样要求模型翻译给定的句子。

3 尽管 GPT-3 主要是在英语数据上训练的,但仍然能够在翻译任务中表现良好,因 为它能够通过提供的样例中的模式,并利用自己的一般语言能力产生翻译。

  • a GPT-3 也可以用于摘要和问答等任务。GPT-3 在商业应用中也取得了成功,如 文本生成和问答。它明显比早期版本的 GPT(规模)更大、(功能)更强大, 训练的数据也更多。
  • b 它被用来生成创意写作任务的起点或变体,如产品描述,并已与 OpenAIAPI 集 成,使开发人员更容易使用。
  • c API 允许用户对 GPT-3 进行特定任务的微调,包括设置学习率和数据的过渡次 数,以及选择模型大小。

4 PeterWelinder 现任 OpenAI 产品与合作伙伴副总裁,负责 GPT-3 的运行和其他业 务,在此之前,他曾是 OpenAI 的研发主管。使用 GPT-3 解决现实世界的问题。

¶ 你觉得你和所有使用 GPT-3 进行自然语言任务的每个人之间的区别是模型本身的质量和性能吗?还是其他原因?是关于集成,还是生产中的监控,或者类似的东西?

1 当然,我们在构建 API 时所关注的关键事情是最重要的是模型的能力。

2 其次,你需要有快速的推理能力。在我们创建 API 之前,对于语言模型,没有人 关心推理。每个人都关心你能多快地训练他们,因为这才是最重要的。

3 因此,你可以在一天结束时解决基准测试问题。我们做了大量的工程设计来让推 理超级超级快。我还记得在最初的几个月里,我们将 API 的第一个原型交付客户 开始使用,我们将推理速度提高了 200 倍之类的。

  • a 我们做了很多努力来让它超快。第三件事是围绕安全的事情。我们投资这些 InstructGPT 模型的原因之一是,我们看到有时你可以得到出乎意料的模型输 出。例如,你可能写了一个非常无辜的句子。
  • b 但由于某些原因,它可能会变得非常黑暗,或者你可能会以不同的方式得到一些有偏见的输出。使用我们的推荐指令的模型,默认情况下,它们的行为更符 合预期,但你也可以以更好的方式指定行为。

4 事实证明,当安全和能力齐头并进时,当你能更好地控制它时,它就会变成一个更好的产品。这些肯定是我们一直关注的事情,我认为我们在这方面做得比现有 的其它替代方案要好得多。

5 最后,我们非常关注的事情是让它使用起来非常简单,事实上,你不需要加载模型,你只需要调用一个微调模型,只需要一行 Python 来调用 API,这也是我们的 核心,我们希望每个人都能轻松使用它。

国产 ChatGPT 何时问世?

¶ 事件

1 根据公开新闻报道,百度对标 ChatGPT 的 AI 产品中文名字叫做文心一言,英文名 ERNIEBot,3 月完成测试,对公众开放。

2 目前还在做上线前的冲刺,时间有可能提前。百度集团-SW 涨幅超 15%,此外其他百度系公司表现亮眼,应用公司表现亮眼,行情正往两头演绎,优秀的大模型+ 基于大模型的创新应用场景。

¶ 百度 ToC 产品的进度如何,使用体验如何?

1 百度有文心大模型的基础,去年 ChatGPT 刚发布后,他们基于对话的语料,做了 一个类似的新模型,是多轮对话的模型和百度搜索引擎相结合——用户问一个问题 AI 会给一个答案,同时搜索引擎会基于这个问题做一些相关的补充,比如答案 的来源和链接。

2 如果和搜索引擎结合起来后,整体使用效果还是可以的,因为结合后,不涉及到特别多轮对话,一般我问一句,它回一句,就结束了。至于多轮对话容易遗忘的 问题,可能需要在后续的优化过程中,重点考虑怎么捕捉更远的信息,怎么捕捉 用户长期讲话的意图。

¶ 字节内部目前在类 ChatGPT 产品方面的规划?

1 从我们看字节对搜索的重视程度,搜索现在也是一级部门,对搜索的重视程度很 高,因为搜索在现在在抖音、今日头条的重要性上很高,本次也是集合了几个核 心的部门,组成小团队来做模型。

2 目前来说可能还没有产品的计划,虽然是比百度晚一些,但后续要看产品的效果 和用户的体验,先发后发的影响不是很大,需要看后续的发展。

如何理解 ChatGPT 的强势出圈和国内发展

¶ 未来的发展方向

1 目前它的商业应用的场景是非常广泛的,只要它能够有效的克服以上提到那些制约因素,它在众多行业上都是可能会产生这种变革性的影响的,特别是在客戶服务、教育、家庭的陪护等等这些领域可能会率先落地。

  • a 今年 2023 年可能是 ChatGPT 非常受关注的一年,也有可能是制约因素逐步被 技术所迭代,后续克服的一年。ChatGPT 模型的出现对于这种文字模态的 AI 生 成内容的应用也是有非常重要的意义的。
  • b 未来可能会跟这种图像图形的 AI 生成内容的模型相结合,可以使得文字表述 到图片生成的这种 AI 创作辅助工具来进行更多应用。或者是能够接受这样使 用成本的一些领域可能会率先的去使用。
  • c 根据我目前的了解,目前很多业内的从业者对于 ChatGPT 还是保持一个观望的 态度,一方面还是在持续的考量模型的一个回复的准确性。

2 以及它在一些领域的适配程度。另一方面很多企业讲应用 ChatGPT 也是会受制于 它目前的一个高成本的使用成本,所以在商业化上还是一个比较谨慎的观望态度。

  • a 目前我觉我们觉得 ChatGPT 可能会构建一个新的技术生态,但他目前所学习的 还是互联网上公开的知识,他可能还不能解决一些具体行业、企业这些个性化的问题。
  • b 所以还需要企业在这种相关的行业纵深行业细分垂直行业去进行二次的训练, 这可能就涉及到很高的二次训练成本。所以可能是需要很多优秀的公司去不断的优化。
  • c 能够提出一些更贴近我们客戶需求的和痛点的一些解决方案产品。比如我们作为这种虚拟人的公司,可以针对政府、企业、医疗、银行等等某个行业当中的企业去单独形成一些垂直化的解决方案。
  • d 利用 ChatGPT 这些技术去进行专业私有化知识的迭代,使得它具备这种解决实 际问题的这种能力。可能是 ChatGPT 后面的一个应用方向。

¶ 目前国内相比于我们海外的差距到底有多少?是否有追赶的机会?

1 目前国内其实做这种 ChatGPT 类似的公司,也主要集中在大公司,或者是一些有 国家政策资金支持的一些机构,学术机构,比如我们的百度,微软小冰。

2 再包括阿里还有腾讯可能也在做。主要是这几个大的玩家可能会有成本去训练这 么一个 ChatGPT 这样的超大模型,这样的玩家相比于海外的差距,目前还是有一 定差距的。

3 目前的差距主要集中在我们的预训练模型,它的回复能力确实自然程度上,还有 包括回复的专业度上,以及内容的表述方面,相比于国外的 ChatGPT 模型相比还 是有一定差距的。

  • a 人主观去体验,还是感觉机器人的感觉会比较强,然后直接体验 ChatGPT 会感 觉回答的内容很自然。这是从主观体验上的一个差距。
  • b 从参数量的差距应该是没有什么差距了,目前我们都是千亿规模参数量的这样一个大规模的模型,不管是国外的 ChatGPT 还是国内的百度,还是阿里提出的 超大规模预训练模型。

4 还是我们清华提出的超大规模的预训练模型,他们的参数量上的差距已经是接近差不多了。所以我们都国内外,国内和国外都具备训练这种超大规模模型参数量模型的能力。

  • a 但是训练方法上可能还有一些技术,我们跟别人还是有一定差距的,所以后面可能主要在于训练方法,还有语料的标注上,可能是可以有更多的这样的语料。
  • b 国外这种英语的语料或者是英语的训练的训练的方法可能跟国内的中文的训练方法不太一样,所以导致我们现在训练的方法,这方面的技术上还是有一定的差距。
  • c 但我认为是有追赶的机会的。只要我们在这个成本足够低,足够可以大规模商业化之前,可以把这些差距给抹平。

5 我们在这个成本可以拉到可以降低到可以大规模使用的个时间点的时候,我们也是可以跟海外的这些竞争对手去 PK 的一个机会。目前使用成本还是比较高,所以导致还有一个可以追赶的时间可以让我们国内的这些公司去追赶。

全球科技创新核心 AI 发展

¶ 从训练的数据集、模型的体量来看,国内达到 ChatGPT3.5,模型能力、数据能力、标注能力,2 年之内有没有可能形成对标的类似产品?

1 国内从 NLP 角度来看,百度、华为、清华、鹏程实验室的大模型数据量、参数规 模不亚于 GPT3.5,达到千亿级数据,甚至数据量和模型都会更多。下一步要解决 的问题还是要更好地和知识做接入。

2 从目前来看,两年对国内信心较足,算力、数据量没有差距,追赶较快。未来做 教练模型、强化学习、经验模型,不一定要由少数大公司来做,可以由既掌握深 度学习大模型的核心技术、又有行业理解的公司来做,形成生态的丰富化,对于 本身有 AI 布局的公司来说都是机会 3 云从在计算机视觉、语音、NLP 上遵从模型和知识相结合、再做教练模型、再做 经验模型的思路推进,国内头部企业都会按照 CHATGPT 验证成功的这个范式来推进。

¶ GPT3.0 和 GPT3.5 的差别很大,对于知识点的回应比较全面,ChatGPT3.5 距离通 用型人工智能还有多远的距离?

1 通才是一件比较困难的事情,目前 GPT3.5 总是在讲“正确的废话”,具备了语言 组织的框架和逻辑,但是对于某个特定领域的回应不够深,内行人会觉得有所欠 缺,教练模型就是为了提升专业性,可以通过数据和知识(行业 KNOWHOW)来训练。

2 如果想让通用型人工智能在某个方面做的非常专业是比较容易的,能解决某个领 域已经具备很大的现实意义。

报告共计:135页

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1304877.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

百度文库下载要用券?Kotlin爬虫几步解决

百度作为国内知名的网站,尤其是文库里面有各种丰富的内容,对我们学习生活都有很大的帮助,就因为其内容丰富,如果看见好用有意思的文章还用复制粘贴等方式就显得有点落后了,今天我将用我所学的爬虫知识给你们好好上一课…

Mac 下 Python+Selenium 自动上传西瓜视频

背景 研究下 PythonSelenium 自动化测试框架,简单实现 Mac 下自动化批量上传视频西瓜视频并发布,分享给需要的同学(未做过多的异常处理)。 脚本实现 首先通过手工手机号登录,保存西瓜视频网站的 cookie 文件 之后加载…

有什么项目可以大量使用c++实现?

有什么项目可以大量使用c实现? 在开始前我有一些资料,是我根据自己从业十年经验,熬夜搞了几个通宵,精心整理了一份「c的资料从专业入门到高级教程工具包」,点个关注,全部无偿共享给大家!&#x…

《opencv实用探索·十七》calcBackProject直方图反向投影

在了解反向投影前需要先了解下直方图的概念,可以看我上一章内容:opencv直方图计算calcHist函数解析 直方图反向投影是一种图像处理技术,通常用于目标检测和跟踪。通过计算反向投影,可以将图像中与给定模式(目标对象&a…

工作流程flowable(二)流程节点跟踪

flowable 节点跟踪 一、发起1-1 流程模型1-1-1 流程模型定义1-1-2 部署流程模型 {modelId} 1-2 部署管理1-2-1 流程定义列表查询 新的改变 二、我的申请新的改变 三、我的待办新的改变 三、我的已办新的改变 一、发起 1-1 流程模型 1-1-1 流程模型定义 1-1-2 部署流程模型 {…

我的隐私计算学习——隐私集合求交(2)

笔记内容来自多本书籍、学术资料、白皮书及ChatGPT等工具,经由自己阅读后整理而成。 前篇可见:我的隐私计算学习——隐私集合求交(1) (三)PSI应用场景问题 ​在目前的实际应用中,衍生出一些新…

美食大赛的题解

目录 原题描述: 题目描述: 输入格式: 输出格式: 样例输入: 样例输出: 数据规模: 题目大意: 主要思路: 注: 代码: 原题描述&#xff1a…

updateBatch批量更新

java代码 Dao层 int updateBatch(Param("userList") List<User> userList);sql配置文件 <update id"updateBatch" parameterType"java.util.List" ><foreach collection"userList" item"user" separator&quo…

Next.js中的App Router与Page Router,各自的作用和使用方式,如何理解和配置使用?

App Router介绍 Next.js中的App Router是全局的路由器&#xff0c;它用于在应用程序的所有页面之间进行导航。它可以用于在页面之间传递状态和数据&#xff0c;类似于React中的Context。 App Router是通过_app.js文件中的getInitialProps方法来配置的。 在 Next.js 中&#xf…

算法通关村第十三关—数学与数学基础问题(青铜)

数学与数学基础问题 一、统计专题 1.1 符号统计 LeetCode1822给定一个数组&#xff0c;求所有元素的乘积的符号&#xff0c;如果最终答案是负的返回-1&#xff0c;如果最终答案是正的返回1&#xff0c;如果答案是0返回0。  题目比较简单&#xff0c;正数对结果完全没影响&…

RK3568驱动指南|第八篇 设备树插件-第75章ConfigFS的核心数据结构

瑞芯微RK3568芯片是一款定位中高端的通用型SOC&#xff0c;采用22nm制程工艺&#xff0c;搭载一颗四核Cortex-A55处理器和Mali G52 2EE 图形处理器。RK3568 支持4K 解码和 1080P 编码&#xff0c;支持SATA/PCIE/USB3.0 外围接口。RK3568内置独立NPU&#xff0c;可用于轻量级人工…

【Docker】进阶之路:(九)Docker网络

【Docker】进阶之路&#xff1a;&#xff08;九&#xff09;Docker网络 Docker网络模式简介bridge网络模式host网络模式none网络模式container网络模式user-defined网络模式1.创建自定义的bridge网络2.使用自定义网络 高级网络配置docker network命令 为什么要了解容器的网络模…

谈谈MYSQL主从复制原理

目录 概述 要点binlog日志 主从复制过程 总结 概述 MySQL 主从复制是指数据可以从一个MySQL数据库服务器主节点复制到一个或多个从节点。 MySQL 默认采用异步复制方式。从节点不用一直访问主服务器来更新自己的数据&#xff0c;数据的更新可以在远程连接上进行&#xff0…

Python应用利器:缓存妙用,让你的程序更出色更快速!

在 Python 应用程序中&#xff0c;使用缓存能够显著提高性能并降低资源消耗。本文将详细介绍如何在 Python 中实现缓存机制&#xff0c;包括内置 functools 模块提供的 lru_cache 装饰器以及自定义缓存机制。 使用 functools 模块的 lru_cache functools 模块提供了 lru_cach…

【CDP】CDP 集群通过Knox 访问Yarn Web UI,无法跳转到Flink Web UI 问题解决

一、前言 记录下在CDP 环境中&#xff0c;通过Knox 访问Yarn Web UI&#xff0c;无法跳转到Flink Web UI 的BUG 解决方法。 二、问题复现 登录 Knox Web UI 找到任一 Flink 任务 点击 ApplicationMaster 跳转 Flink WEB UI 出问题 内容空白&#xff0c;无法正常跳转到…

【MySQL】mysql | mysql5.7升级8.0注意事项

一、说明 1、应公司要求&#xff0c;mysql5.7安全漏洞较多&#xff0c;需要升级到8.0 2、记录注意事项备不时之需 二、注意事项 1、加密算法 1&#xff09;加密算法8.0改了&#xff0c;导致navicat无法连接 2&#xff09;解决&#xff1a; use mysql; ALTER USER root% IDENT…

利用冒泡排序了解如何将数组作为参数传递给函数

目录 前言:冒泡排序简介步骤动图演示 错误的冒泡排序函数数组名正确的冒泡排序函数 前言:冒泡排序 简介 冒泡排序是一种简单直观的排序算法。 它重复地访问要排序的数&#xff0c;一次比较两个元素&#xff0c;如果他们的顺序错误就把他们交换过来。访问数需要重复地进行直到…

DS冲刺整理做题定理(一)二叉树专题

&#xff08;只总结博主自己记得不熟的~&#xff09; 数据结构是计算机存储、组织数据的方式。数据结构是指相互之间存在一种或多种特定关系的数据元素的集合。通常情况下&#xff0c;精心选择的数据结构可以带来更高的运行或者存储效率。数据结构往往同高效的检索算法和索引技…

微服务——分布式事务

事务理论基础 分布式锁保证多线程下数据库操作安全保障 分布式事务发生异常可以回滚. 使用postman发送请求插入一条新订单。 然后现在库存只剩下8个商品&#xff0c;如果买10个的话应该统一失败。 CAP定理 假如node03在独立时将所有请求都堵塞并等待恢复和其余节点的连接的话以…