大模型之大模型技术生态

news2024/9/24 23:20:41

本文作为大模型综述第篇,介绍语言大模型技术生态。

随着大模型技术的快速发展,大模型的生态体系也在快速构建。典型的大模型平台如 ChatGPT、文心一言、讯飞星火等提供如 APP、网页版、 API 接口等多种形式的开放服务,并通过开放插件机制、Function Call 等实现大模型外部工具、服务的调用,加速应用生态的发展。与此同时,开源大模型也已经成为生态体系中的关键组成部分。通过大模型的开源共建,凝聚了来自企业、高校、科研院所等众多领域高水平开发者的力量,加速大模型的科研创新和产品迭代。伴随着大模型的开源开放,深度学习开源框架和工具更加注重分布式训练和推理能力,并加速与 AI 芯片开展适配和联合优化。大模型的训练数据作为生态中另一关键组成部分,相关数据集和配套工具也在加速汇聚和优化,愈发得到广泛重视。下文对以上几个方面分别展开介绍。

目录:

1.典型大模型平台

2.典型开源大模型

3.典型开源框架与工具

4.大模型的训练数据

1.典型大模型平台

(1) GPT 系列
OpenAI 的 GPT 系列模型是自然语言处理领域的重大突破,其中ChatGPT 和 GPT-4 是两个代表性模型。 ChatGPT 专注于对各种文本指令做出回应,模型的训练过程包括有监督的指令微调与强化学习。现在的 ChatGPT 支持最长达 32,000 个字符,它可以执行各种任务,包括代码编写、数学问题求解、写作建议等。 GPT-4 在推理方面的能力比 ChatGPT 更强,同时也减少了幻象的产生,能够更准确地理解和回应复杂的问题,从而提供更高质量的答案,但是引人注目的多模态功能尚未正式开放体验。由于单一的语言模型难以胜任所有任务,自从 ChatGPT 和 GPT-4 发布以来,许多开发者已经开始将各种工具和插件集成到这些模型中,以进一步增强它们的功能。现在, ChatGPTPlus 用户可以使用各种插件来增强模型以满足自己的需求,这极大地扩展了模型的用途和适用领域。
(2) Claude 系列

Claude 系列模型是由 Anthropic 开发的闭源语言大模型,目前包含 Claude 和 Claude-Instant 两种模型可供选择。最早的 Claude 于 2023年 3 月 15 日发布,并在 2023 年 7 月 11 日,更新至Claude-2。该系列模型通过无监督预训练、基于人类反馈的强化学习和 ConstitutionalAI 技术(包含监督训练和强化学习)进行训练,旨在改进模型的有用性、诚实性和无害性。值得一提的是, Claude 最高支持 100K 词元的上下文,而 Claude-2 更是拓展到了 200K 词元的上下文。相比于
Claude 1.3, Claude 2 拥有更强的综合能力,同时能够生成更长的相应。
(3) PaLM 系列
PaLM系列语言大模型由 Google 开发。其初始版本于 2022年 4 月发布,并在 2023 年 3 月公开了 API。 PaLM 基于 Google 提出的 Pathways 机器学习系统搭建,训练数据总量达 780B 个字符,内容涵盖网页、书籍、新闻、开源代码等多种形式的语料。目前 PaLM 共有 8B、 62B、 540B 三个不同参数量的模型版本。 Google 还开发了多种 PaLM 的改进版本。 Med-PaLM是 PaLM 540B 在医疗数据上进行了微调后的版本,在 MedQA 等医疗问答数据集上取得了最好成绩。 PaLM-E 是 PaLM 的多模态版本,能够在现实场景中控制机器人完成简单任务。 2023 年 5 月, Google 发布了 PaLM 2,但并未公开其技术细节。 Google 内部文件显示其参数量为 340B,训练数据为PaLM 的 5 倍左右。
(4) Bard
Bard 是 Google 开发的对话模型。在 OpenAI 发布 ChatGPT 后,Google 担心其会对自身的搜索业务产生威胁,因此推动了 Bard 的开发。 2023 年 2 月 6 日, Bard 正式发布,其基座模型是 Google 此前开发的语言大模型 LaMDA。后续 Google 为 Bard 开展了持续的升级,包括添加数学与逻辑能力、添加代码能力、支持更多语言等。 2023年 5 月, Google 发布了基于新一代语言大模型 PaLM 2 的 Bard。

(5)文心一言
文心一言是基于百度文心大模型的知识增强语言大模型,于 2023年 3 月在国内率先开启邀测。文心一言的基础模型文心大模型于 2019年发布。 8 月 31 日,文心一言率先向全社会全面开放,提供 APP、网页版、 API 接口等多种形式的开放服务。文心一言一方面采用有监督精调、人类反馈的强化学习、提示等技术,还具备知识增强、检索增强和对话增强等关键技术。当前,以文心一言为代表的大模型已经逐步赶超国外最优水平。文心一言基于飞桨深度学习框架进行训练,算法与框架的协同优化后效果和效率都得到提升,模型训练速度达到优化前的 3 倍,推理速度达到优化前的 30 多倍。文心一言还建设了插件机制,通过外部工具、服务的调用,拓展大模型的能力的边界。

(6)讯飞星火认知大模型
讯飞星火认知大模型是科大讯飞于 2023 年 5 月 6 日发布的语言大模型,提供了基于自然语言处理的多元能力,支持多种自然语言处理任务,同时联合中科院人工智能产学研创新联盟和长三角人工智能产业链联盟在业内提出了覆盖 7 大类 481 项任务的《通用人工智能评测体系》; 6 月 9 日星火大模型升级到 V1.5 版,实现了开放式知识问答、多轮对话、逻辑和数学能力的提升; 8 月 15 日星火大模型升级到 V2.0 版,对于代码和多模态能力进行了提升。同时,讯飞和华为还联合重磅发布了国内首款支持大模型训练私有化的全国产化产品“星火一体机”,可支持企业快速实现讯飞星火大模型的私有化部署、场景赋能和专属大模型训练优化。
(7)腾讯混元
腾讯混元大模型是腾讯于 2023 年 9 月 7 日发布的千亿参数量语言大模型,具有多轮对话、内容创作、逻辑推理、知识增强能力,训练数据截止于 2023 年 7 月。为了降低幻觉问题,混元大模型在预训练阶段,利用探真算法对目标函数进行了优化,使用强化学习等方法学会识别陷阱。混元大模型针对位置编码进行了优化,并结合指令跟随能力解决长难任务。此外,混元大模型还具备了问题分解和分布推理能力,从而解决逻辑推理问题。
(8)通义千问通义千问由阿里巴巴基于“通义”大模型研发,于 2023 年 4 月正式发布。 2023 年 8 月,阿里云开源了 70 亿参数通用模型和对话模型。它能够以自然语言方式响应人类的各种指令,拥有强大的能力,如回答问题、创作文字、编写代码、提供各类语言的翻译服务、文本润色、文本摘要以及角色扮演对话等。借助于阿里云丰富的算力资源和平台服务,通义千问能够实现快速迭代和创新功能。此外,阿里巴巴完善的产品体系以及广泛的应用场景使得通义千问更具可落地性和市场可接受程度。

2.典型开源大模型

 典型开源语言大模型


(1) LLaMA 系列
LLaMA系列模型是一组参数规模从 7B到 65B的基础语言模型,它们都是在数万亿个字符上训练的,展示了如何仅使用公开可用的数据集来训练最先进的模型,而不需要依赖专有或不可访问的数据集。这些数据集包括 Common Crawl、 Wikipedia、 OpenWebText2、RealNews、 Books 等。 LLaMA 模型使用了大规模的数据过滤和清洗技术,以提高数据质量和多样性,减少噪声和偏见。 LLaMA 模型还使用了高效的数据并行和流水线并行技术,以加速模型的训练和扩展。特别地, LLaMA 13B 在 CommonsenseQA 等 9 个基准测试中超过了 GPT-3 (175B),而 LLaMA 65B 与最优秀的模型 Chinchilla-70B和 PaLM-540B相媲美。LLaMA通过使用更少的字符来达到最佳性能,从而在各种推理预算下具有优势。与 GPT 系列相同&

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1971436.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

STL常用容器- set/ multiset 容器

set基本概念 set也叫做集合,它的特点就是所有的元素在插入的时候会自动完成排序(默认是升序排列)。 set在物理空间上也不是连续的,所以它就不支持随机存取(利用下标), 它的迭代器也不支持指针算术运算,只能进行和--。…

filebeat

1、作用 1、可以在本机收集日志2、也可以远程收集日志3、轻量级的日志收集系统,可以在非java环境运行。logstash是在jmv环境中运行,资源消耗很大,启动一个logstash要消耗500M左右的内存,filebeat只消耗10M左右的内存。收集nginx的…

在Jira中使用AI

Jira已经可以使用AI功能了。 如果您使用的是Jira Cloud,您需要请管理员在管理页面中打开AI功能开关。(AI功能在Standard版中未提供,请使用Premium或更高级的版本)如果您使用的是自己部署的Jira Data Center,您需要请管…

Java中实现文件上传

目录 1、文件上传本地 1.1 原理 1.2 如何使用文件上传 1.2.1 引入文件上传的依赖 1.2.2 配置文件上传拦截器 1.2.3 完成文件上传的代码 2、文件上传oss服务器 2.1 为什么需要上传到oss服务器 2.2 如何使用oss 2.2.1 开启oss服务 2.2.2 在Java中引入依赖 2.2.3 查看自…

HarmonyOS(47) onSizeChange和onAreaChange

onSizeChange和onAreaChange onSizeChangeonAreaChangeonAreaChange和onSizeChange的区别参考资料 onSizeChange 组件区域变化时触发该回调。仅会响应由布局变化所导致的组件尺寸发生变化时的回调。由绘制变化所导致的渲染属性变化不会响应回调,如translate、offse…

深度学习模型服务端部署——flask+gunicorn+supervisor+nginx+docker

前言:深度学习模型经过前期的训练调优评估,最终得到一个精度速度满足要求的模型(.pth, .ckpt,或者.onnx等等格式),但模型要实际用起来,还得部署起来,部署分为在移动端芯片上和服务器上。在移动端芯片部署通…

联邦学习开山之作论文解读与Pytorch实现FedAvg

参考文献:McMahan B, Moore E, Ramage D, et al. Communication-efficient learning of deep networks from decentralized data[C]//Artificial intelligence and statistics. PMLR, 2017: 1273-1282. 参考的文章: 1.联邦学习代码解读,超详细…

Object.defineProperty在Vue2双向绑定中的核心原理及应用

目录 1.Object.defineProperty方法 (1)介绍 (2)语法 (3)descriptor属性描述符 2.Object.defineProperty在Vue2双向绑定的核心原理 3.Object.defineProperty在vue2中的应用 (1&#xff09…

专业人士如何选?揭秘4款2024年常用的电脑录屏软件!

在这个数字化时代,无论是教学、演示、游戏直播还是软件操作,电脑录屏软件已经是我们日常工作中的好帮手。但市面上这么多的电脑录屏软件,要想挑一款既专业又好用的,还真是挺让人头疼的。今天,我们就来聊聊四款常用的电…

mybatis开启数据库的驼峰命名

在application.yml文件中添加 mybatis:configuration:map-underscore-to-camel-case: true

powerjob连接postgresql数据库(支持docker部署)

1.先去pg建一个powerjob-product库 2.首先去拉最新的包,然后找到server模块,把mysql的配置文件信息替换成pg的 spring.datasource.hikari.auto-committrue spring.datasource.remote.hibernate.properties.hibernate.dialecttech.powerjob.server.pers…

全自动迷你洗衣机什么牌子好?五款卓越内衣洗衣机大合集!

随着科技的发展,市面上也出现许多便利的小家电。其中被多次讨论起来的莫过于是内衣洗衣机,选择一款耐用、质量优秀的内衣洗衣机,不仅可以减少洗衣负担,还能提供高效的洗涤效果。然而,随着内衣洗衣机的爆火,…

maven仓库密码加密方案原理

前言 有一个要求就是说不能使用明文密码&#xff0c;需要对 settings.xml 文件中的password密码进行加密 原始配置是没有对密码进行加密的 <server><id>gleam-repo</id><username>admin</username><password>admin123</password>&l…

7.2 单变量(多->多),attention/informer

继续上文书写&#xff1a; 1 GRU Attention 收敛速度稳定的很多&#xff0c;你看这些模型是不是很容易搭&#xff0c;像积木一样&#xff1b; def create_model(input_shape, output_length,lr1e-3, warehouse"None"):input Input(shapeinput_shape)conv1 Conv…

怎么给电脑文件加密?实用的四种方法,「重磅来袭」!

小李&#xff1a;“嘿&#xff0c;小张&#xff0c;你上次提到的那个重要项目报告&#xff0c;我放在了电脑里&#xff0c;但总觉得不太安全&#xff0c;万一被误删了或者不小心泄露了怎么办&#xff1f;” 小张&#xff1a;“别担心&#xff0c;小李&#xff0c;给文件加密是…

如何提高工作效率?分享9个高效率工作的方法

如果您的企业正在面临以下问题&#xff1a; 员工敏捷性和生产力降低员工满意度不足利润下降 那么您需要创建一个运营改进指南。 这需要经常更新&#xff0c;因为这不是一次性的努力&#xff0c;而是必须定期进行的持续过程。然而&#xff0c;您的运营改进指南还必须强调优化…

java 垃圾回收器以及JVM调优方式

什么是垃圾&#xff1a; 没有被引用的对象 就是垃圾。 定位的方式 reference count: 引用计数&#xff0c;即在对象上记录着有多少个引用指向它。&#xff08;循环引用无法解决&#xff09; root searching: 根可达算法&#xff0c;根对象包含 线程栈变量&#xff0c;静态变…

bootStrap中操作行详情,删除,修改等操作

点击列表某一行的操作按钮&#xff0c;结合swtich case 出发不同操作

【2024算力大会分会 | SPIE出版】2024云计算、性能计算与深度学习国际学术会议(CCPCDL 2024)

【2024算力大会分会 | SPIE出版】 2024云计算、性能计算与深度学习国际学术会议(CCPCDL 2024) 2024 International conference on Cloud Computing, Performance Computing and Deep Learning CCPCDL往届均已完成EI检索&#xff0c;最快会后4个半月完成&#xff01; 2024中…

postgresql 11.17 开发环境rpm安装及扩展安装

进入postgresql安装文件rpm所在文件夹 cd /data460/software 执行 yum local install *.rpm 提示缺少啥依赖就对应yum安装 最后有个依赖比较特殊 Requires: llvm-toolset-7-clang > 4.0.1 You could try using --skip-broken to work around the problem 需要安装centos-re…