自己再造一个大规模预训练语言模型?可以的

news2025/1/15 22:59:44

1. 引言

自ChatGPT发布至今已近半年,一路走来,我们可以清楚地看到的一个趋势是,到了下半年,每位研究者都会拥有一个类似ChatGPT的模型。这种现象与当年BERT推出后,各种BERT变体层出不穷的情况颇为相似。实际上,我认为,这次ChatGPT的浪潮依然是一次技术迭代更新,不断推动我们迈向最终的AI目标。而之所以如此轰动,则是因为OpenAI只做了一个每个人都可以访问的网页,让大众体会到了最先进的科技水平。

那么,我们能否自己再造一个大规模预训练语言模型呢?回答是肯定的。不过在给出答案之前,我们会通过三张图阐述三个部分,揭开如今复刻ChatGPT模型的真实面纱。首先,我们将梳理自ChatGPT问世以来的重大事件;其次,我们将探讨类ChatGPT模型的再造方案;最后,我们将对近期国内相关模型进行梳理。

2. ChatGPT以来的大事件

自2022年11月30日ChatGPT发布以来,关键事件和发展节奏越来越紧凑。

2023年2月1日,在ChatGPT发布三个月后,付费版的ChatGPT Plus问世。从那时起,许多免费账户会因为网站繁忙而无法登录到界面,这间接影响了ChatGPT的推广。但是,在接下来的一周后,New Bing的发布使得检索增强生成(RAG)再次成为大家关注的焦点。New Bing丰富的情感表达使其与传统的ChatGPT表现截然不同,有人猜测它们使用了完全不同的基础模型,这也不无可能。New Bing的发布为后续检索增强生成相关工作奠定了基础。
在这里插入图片描述
到了3月2日,也就是一个月后,GPT-3.5的API发布。从那时起,复制ChatGPT变成了一项低成本且可实现的目标。因为通过API调用,可以大规模自动化地评估ChatGPT的各种能力,同时更方便地基于ChatGPT完成一些任务。

又过了两周,GPT-4发布了,但仅付费用户才能体验。根据我本人的使用经验,GPT-4确实比GPT-3.5更强大,特别是在安全性和事实性方面都有所提升。其98页的技术报告不仅揭示了技术细节,更展示了整个GPT-4团队的组成。大家可以了解如何构建这样一个顶尖模型所需的团队。(如果只是发布模型,那么可能不需要这么多人。但如果是一个负责任的公司开发一个真正能为大众服务的产品,确实需要这样的团队。)
在这里插入图片描述
一周后,GPT-3.5插件发布。尽管这是一个相对罕见的功能,但它展示了如何与其他应用程序进行外部连接的方式,类似于操作系统或浏览器。它能完成一些令人惊叹的工作,但如果不能确保100%准确执行命令,将其推广到任何程序中仍具有较大挑战。与现有编程语言的确定性不同,ChatGPT的回复并不总是遵循指令。在少量使用时可能感受不到,但一旦涉及到百万次调用,就会发现有相当数量的错误率。这使得其运行过程缺乏可信度,在某些高度严格的场景下,ChatGPT系列仍然难以胜任。

3. 梳理类ChatGPT模型再造方案

如果你还不了解大羊驼(LLaMA)、小羊驼(alpaca)和小小羊驼(vicuna),那么现在是时候了解一下了。自从Meta发布了优于GPT-3的LLaMA模型后,我们才拥有了复制ChatGPT的基础材料。因为自GPT-3时代起,模型就已经不再开源,更不用说ChatGPT系列了。不过,幸运的是,作为新晋模型,LLaMA比GPT-3要优秀很多。尽管没有经过指令微调,但仍然展示出一定的指令执行能力。值得注意的是,LLaMA是今年初发布的,比GPT-3的发布晚了两年半,理论上更加出色。

因此,可以说LLaMA实际上是GPT-3的替代品,只不过它更好(13B的LLaMA强于175B的GPT-3)。有了它,就有了复制ChatGPT的可能性。当然,其他大型模型,如BLOOM等,也可以作为替代品,并且也能取得不错的效果。
在这里插入图片描述
而在复刻ChatGPT的道路上,早期的设想复制ChatGPT的方法是,重新走一遍ChatGPT的发展道路。这条路既漫长又艰难,因此很难完全执行。这是最早的复制想法。

后来,斯坦福的Alpaca提供了第二条道路:既然人工指令很难收集,那么可以通过已经训练好的GPT-3.5进行自我指令学习。通过极少的人工构造模型,就可以生成大量的ChatGPT指令集,然后通过这样的指令集进行学习,是否就能训练出一个高级版的InstructGPT呢?Alpaca的成功证明了这一点。Alpaca是一个通过GPT-3.5模型进行数据增强,从而通过52K指令集训练出的真正的高阶InstructGPT。

这种方法已经成为目前的主流,可以将其称为第一代复制技术。然而,就在一周前,Vicuna模型的出现使得第二代复制技术成为可能。第二代技术的发展源于开源精神。既然ChatGPT不开源,那么为什么不众筹一个开源数据集呢?于是,基于ShareGPT众筹的真实用户与ChatGPT的70K的对话数据样本,蒸馏一个能够模拟ChatGPT表现的模型,就是Vicuna。值得注意的是,Vicuna使用的训练方法是微调方式,即在多轮对话中,只要拟合ChatGPT说的话语,将其Loss进行回传。

4. 国内的大模型发展

国内众多研究机构通过第一种或第二种方式训练了自己的中文ChatGPT。最早的一个要数复旦大学的MOSS模型,但直到现在仍在改造中。因此,我们并不清楚它究竟是基于何种基座模型训练的。不过在第一种复刻方法出现时,有人指出MOSS可能就是这样训练而来的。

紧接着,清华大学的ChatGLM亮相。根据ChatGLM博客的说法,它是经过约1T标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术加持训练而成的。

随后,基于BLOOM训练的BELLE和基于LLaMA的BAIZE等模型逐渐崭露头角,它们都具有自己的特色,如BLOOM的多语言支持和BAIZE的自我聊天等。由于以上研究涉及商业许可问题,仅可用于学术交流。然而,作为公司,仍需商业化运作,因此,仍需要自己重新走一遍ChatGPT的道路。因此,像百度发布的文心一言、阿里最近发布的通义千问等,都是类ChatGPT的模型。
在这里插入图片描述

5. 小结

当前的发展形势下,基于大模型的研究领域仍然广阔。例如,更优秀的数据收集方法、更高效的模型训练和部署,以及如何将LLM应用到下游任务等方面。尽管有人曾声称,NLP从未真正存在过,将来也不会存在,但我并不完全认同这一观点。虽然一些现有任务已经取得了很好的成果,但人工智能整体表现水平仍未达到我们的期望,也难以完全自主地创造价值。因此,对于NLPer来说,我更倾向于认为这波LLM实际上是GPT系列模型作为主流的发展趋势,正如曾经的BERT模型引领的五年发展潮流一样。每一次技术进步都让我们更接近最初的人工智能大师们所期望的场景,为此我们不断努力奋斗。

最近每天都要熬夜到2-3点,尽管如此,也依然跟不上技术的发展步伐。我只希望能够紧跟科技发展的脚步,不至于被甩得太远。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/415792.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Prophet学习(一) Python API实现

目录 Python API 详细介绍 完整代码: Python API 详细介绍 Prophet遵循sklearn模型API。我们创建Prophet类的实例,然后调用它的fit和predict方法。 Prophet的输入总是一个有两列的数据帧:ds和y。ds(日期戳)列应该是Pandas期望的格式,理想…

APIs --- DOM事件进阶

1. 事件流 事件流指的是事件完整执行过程中的流动路径 任意事件被触发时总会经历两个阶段:【捕获阶段】和【冒泡阶段】 事件捕获 概念:从DOM的根元素开始去执行对应的事件(从外到里) 捕获阶段是【从父到子】的传导过程 代码&…

基于SSM框架开发的小区物业管理系统JavaWeb项目源码

随着信息化时代的到来,小区的管理也日趋完善,开始逐步采用信息化系统对小区业主进行管理,对一些业务进行线上处理。小区物业管理系统正是为了满足这种需求而诞生的,也有不少同学会选择该课题作为毕业设计项目选题,下面…

【Unity入门】9.帧更新

【Unity入门】帧更新 大家好,我是Lampard~~ 欢迎来到Unity入门系列博客,所学知识来自B站阿发老师~感谢 (一)获取挂载对象的属性信息 (1)获取名字信息 首先在C#代码中,this代表着脚本本身&#…

MySQL 事务和视图

🎉🎉🎉点进来你就是我的人了 博主主页:🙈🙈🙈戳一戳,欢迎大佬指点!人生格言:当你的才华撑不起你的野心的时候,你就应该静下心来学习! 欢迎志同道合的朋友一起加油喔🦾&am…

Machine Learning-Ex3(吴恩达课后习题)Multi-class Classification and Neural Networks

目录 1. Multi-class Classification 1.1 Dataset 1.2 Visualizing the data 1.3 Vectorizing Logistic Regression 1.3.1 Vectorizing the cost function(no regularization) 1.3.2 Vectorizing the gradient(no regularization&#…

【ESP-IDF】如何安装ESP-IDF?

【ESP-IDF】如何安装ESP-IDF?Windows命令行安装ESP-IDFVs Code 图形IDE首先参考这篇视频:https://www.bilibili.com/blackboard/webplayer/embed-whitelist-other.html?aid520120377&bvidBV1hM411k7zz&cid888070526&page1本篇教程以Windows…

vue2路由守卫

全局前置_路由守卫 以前古代有一个职称叫御前侍卫:保护君王的安全,而路由守卫就是保护路由的安全(权限) 就是在Home组件中,我们需要先校验内容中的school是否满足要求,才能展示组件,否则不展示…

SpringBoot项目中遇到的订单支付超时未支付关闭订单的解决方案

1、扫表轮循 定时任务 > 获取数据 > 数据层 > 筛选出过期的数据 > 批量关闭超时订单 优点:实现简单、适用于小项目、数据量比较少 缺点:订单量过大的时候查询和修改数据库压力大、服务器内存消耗大、IO瓶颈 2、Redis懒删除 用户获取订单信…

java SSM选房管理系统idea开发mysql数据库java编程计算机网页源码maven项目

一、源码特点 SSM选房管理系统是一套完善的完整医院类型系统,结合SSM(SpringSpringMVCMyBatis)框架和bootstrap完成本系统,对理解JSP java编程开发语言有帮助系统采用SSM框架(MVC模式开发),系…

Twitter的推荐系统开源了,Twitter的推荐系统是什么样的呢?Twitter推荐系统的架构说明

Twitter的推荐系统开源了,Twitter的推荐系统是什么样的呢?Twitter推荐系统的架构说明01. Twitter的推荐系统是什么样的?02. Candidate Sources2.1 In-Network Source2.2 Out-of-Network Sources03. Ranking04. Heuristics, Filters, and Prod…

VR虚拟核电设备拆除模拟培训降低风险

核电站设备拆除是一项高危、复杂的任务,因此进行安全、有效的培训至关重要。为此,将VR虚拟现实技术应用于核电厂中,通过100%模拟还原真实的拆除操作场景,广泛应用到核电厂展示、巡检和拆除等环节中,极大提高了生产效率…

单片机学习之中断与定时/计数器

记录学习中断的使用。 1. 使用工具 使用开发板: 普中科技开发板 编译软件: keil 2. 复习中断及相关概念 CPU在处理 事件A 时,中断源 发出中断请求,请求cpu处理事件B ,cpu 中断 当前工作,转去处理事件B&a…

HTML5 视频 Video

文章目录HTML5 视频 VideoWeb站点上的视频浏览器支持HTML5 (视频)- 如何工作视频格式与浏览器的支持视频格式HTML5 \<video> - 使用 DOM 进行控制HTML5 Video 标签HTML5 视频 Video 很多站点都会使用到视频. HTML5 提供了展示视频的标准。 Web站点上的视频 直到现在&am…

详解数据恢复多少一个g以及如何恢复

整理电脑硬盘数据的时候不小心删除了重要的文件该如何么恢复呢?硬盘修复数据恢复价格都爱的贵不贵?今天小编就来给大家重点当前市场上硬盘数据恢复的价格相关内容&#xff0c;那么数据恢复多少钱一个g呢?下面就来给大家揭晓一下数据恢复多少钱一个g以及如何恢复。 工具/原料…

全国青少年电子信息智能创新大赛(决赛)python·模拟三卷,含答案解析

全国青少年电子信息智能创新大赛(决赛) python 模拟三卷 一、程序题 第一题:描述 现有 n 个人依次围成一圈玩游戏,从第 1 个人开始报数,数到第 m 个人出局,然 后从出局的下一个人开始报数,数到第 m 个人又出局,...,如此反复到只剩下 最后一个是胜利者。设 n 个人的编号…

常用 Composition API--工程文件及setup

官方文档: https://v3.cn.vuejs.org/guide/composition-api-introduction.html 分析工程结构 vue3新添加的东西或修改的内容 首先import { createApp } from vue引入的不再是Vue的构造函数了&#xff0c;而是一个createAPP的工厂函数&#xff0c;什么是工厂函数&#xff1f; …

【TimeSerias】Transformer

Sequence 1. rnn 和 cnn RNN 很难并行化CNN很难捕捉较远的信息 2. Self-attention 拿每个query q去对每个 key k做attention 计算输出 Self-attition 矩阵计算 qiWqaikiWkqiviWvaiQWqAKWkAVWvA(1.1)\begin{align*} q^i & W^q a^i \\ k^i & W^k q^i \\ v^i & W…

WordPress图片水印插件 Easy Watermark

1、概述 WordPress图片水印插件Easy Watermark 是一款实现上传图片自动添加水印LOGO功能的高效插件。当我们在WordPress网站后台上传图片文件到媒体库时&#xff0c;或者在发布文章上传图片时&#xff0c;Easy Watermark 都能为图片自动添加水印&#xff0c;同时&#xff0c;还…

《计算机网络-自顶向下》06. 链路层和局域网

文章目录链路层概述链路层提供的服务链路层在何处实现差错检测和纠正技术奇偶校验循环冗余检测多路访问协议信道划分协议随机接入协议时隙 ALOHAALOHA载波侦听多路访问 —— CSMA具有碰撞检测的载波侦听多路访问 —— CSMA/CDCSMA/CD 效率轮流协议DOCSIS&#xff1a;用于电缆因…