本文作为大模型综述第四篇,介绍语言大模型技术生态。
随着大模型技术的快速发展,大模型的生态体系也在快速构建。典型的大模型平台如 ChatGPT、文心一言、讯飞星火等提供如 APP、网页版、 API 接口等多种形式的开放服务,并通过开放插件机制、Function Call 等实现大模型外部工具、服务的调用,加速应用生态的发展。与此同时,开源大模型也已经成为生态体系中的关键组成部分。通过大模型的开源共建,凝聚了来自企业、高校、科研院所等众多领域高水平开发者的力量,加速大模型的科研创新和产品迭代。伴随着大模型的开源开放,深度学习开源框架和工具更加注重分布式训练和推理能力,并加速与 AI 芯片开展适配和联合优化。大模型的训练数据作为生态中另一关键组成部分,相关数据集和配套工具也在加速汇聚和优化,愈发得到广泛重视。下文对以上几个方面分别展开介绍。
目录:
1.典型大模型平台
2.典型开源大模型
3.典型开源框架与工具
4.大模型的训练数据
1.典型大模型平台
(1) GPT 系列
OpenAI 的 GPT 系列模型是自然语言处理领域的重大突破,其中ChatGPT 和 GPT-4 是两个代表性模型。 ChatGPT 专注于对各种文本指令做出回应,模型的训练过程包括有监督的指令微调与强化学习。现在的 ChatGPT 支持最长达 32,000 个字符,它可以执行各种任务,包括代码编写、数学问题求解、写作建议等。 GPT-4 在推理方面的能力比 ChatGPT 更强,同时也减少了幻象的产生,能够更准确地理解和回应复杂的问题,从而提供更高质量的答案,但是引人注目的多模态功能尚未正式开放体验。由于单一的语言模型难以胜任所有任务,自从 ChatGPT 和 GPT-4 发布以来,许多开发者已经开始将各种工具和插件集成到这些模型中,以进一步增强它们的功能。现在, ChatGPTPlus 用户可以使用各种插件来增强模型以满足自己的需求,这极大地扩展了模型的用途和适用领域。
(2) Claude 系列
Claude 系列模型是由 Anthropic 开发的闭源语言大模型,目前包含 Claude 和 Claude-Instant 两种模型可供选择。最早的 Claude 于 2023年 3 月 15 日发布,并在 2023 年 7 月 11 日,更新至Claude-2。该系列模型通过无监督预训练、基于人类反馈的强化学习和 ConstitutionalAI 技术(包含监督训练和强化学习)进行训练,旨在改进模型的有用性、诚实性和无害性。值得一提的是, Claude 最高支持 100K 词元的上下文,而 Claude-2 更是拓展到了 200K 词元的上下文。相比于
Claude 1.3, Claude 2 拥有更强的综合能力,同时能够生成更长的相应。
(3) PaLM 系列
PaLM系列语言大模型由 Google 开发。其初始版本于 2022年 4 月发布,并在 2023 年 3 月公开了 API。 PaLM 基于 Google 提出的 Pathways 机器学习系统搭建,训练数据总量达 780B 个字符,内容涵盖网页、书籍、新闻、开源代码等多种形式的语料。目前 PaLM 共有 8B、 62B、 540B 三个不同参数量的模型版本。 Google 还开发了多种 PaLM 的改进版本。 Med-PaLM是 PaLM 540B 在医疗数据上进行了微调后的版本,在 MedQA 等医疗问答数据集上取得了最好成绩。 PaLM-E 是 PaLM 的多模态版本,能够在现实场景中控制机器人完成简单任务。 2023 年 5 月, Google 发布了 PaLM 2,但并未公开其技术细节。 Google 内部文件显示其参数量为 340B,训练数据为PaLM 的 5 倍左右。
(4) Bard
Bard 是 Google 开发的对话模型。在 OpenAI 发布 ChatGPT 后,Google 担心其会对自身的搜索业务产生威胁,因此推动了 Bard 的开发。 2023 年 2 月 6 日, Bard 正式发布,其基座模型是 Google 此前开发的语言大模型 LaMDA。后续 Google 为 Bard 开展了持续的升级,包括添加数学与逻辑能力、添加代码能力、支持更多语言等。 2023年 5 月, Google 发布了基于新一代语言大模型 PaLM 2 的 Bard。
(5)文心一言
文心一言是基于百度文心大模型的知识增强语言大模型,于 2023年 3 月在国内率先开启邀测。文心一言的基础模型文心大模型于 2019年发布。 8 月 31 日,文心一言率先向全社会全面开放,提供 APP、网页版、 API 接口等多种形式的开放服务。文心一言一方面采用有监督精调、人类反馈的强化学习、提示等技术,还具备知识增强、检索增强和对话增强等关键技术。当前,以文心一言为代表的大模型已经逐步赶超国外最优水平。文心一言基于飞桨深度学习框架进行训练,算法与框架的协同优化后效果和效率都得到提升,模型训练速度达到优化前的 3 倍,推理速度达到优化前的 30 多倍。文心一言还建设了插件机制,通过外部工具、服务的调用,拓展大模型的能力的边界。
(6)讯飞星火认知大模型
讯飞星火认知大模型是科大讯飞于 2023 年 5 月 6 日发布的语言大模型,提供了基于自然语言处理的多元能力,支持多种自然语言处理任务,同时联合中科院人工智能产学研创新联盟和长三角人工智能产业链联盟在业内提出了覆盖 7 大类 481 项任务的《通用人工智能评测体系》; 6 月 9 日星火大模型升级到 V1.5 版,实现了开放式知识问答、多轮对话、逻辑和数学能力的提升; 8 月 15 日星火大模型升级到 V2.0 版,对于代码和多模态能力进行了提升。同时,讯飞和华为还联合重磅发布了国内首款支持大模型训练私有化的全国产化产品“星火一体机”,可支持企业快速实现讯飞星火大模型的私有化部署、场景赋能和专属大模型训练优化。
(7)腾讯混元
腾讯混元大模型是腾讯于 2023 年 9 月 7 日发布的千亿参数量语言大模型,具有多轮对话、内容创作、逻辑推理、知识增强能力,训练数据截止于 2023 年 7 月。为了降低幻觉问题,混元大模型在预训练阶段,利用探真算法对目标函数进行了优化,使用强化学习等方法学会识别陷阱。混元大模型针对位置编码进行了优化,并结合指令跟随能力解决长难任务。此外,混元大模型还具备了问题分解和分布推理能力,从而解决逻辑推理问题。
(8)通义千问通义千问由阿里巴巴基于“通义”大模型研发,于 2023 年 4 月正式发布。 2023 年 8 月,阿里云开源了 70 亿参数通用模型和对话模型。它能够以自然语言方式响应人类的各种指令,拥有强大的能力,如回答问题、创作文字、编写代码、提供各类语言的翻译服务、文本润色、文本摘要以及角色扮演对话等。借助于阿里云丰富的算力资源和平台服务,通义千问能够实现快速迭代和创新功能。此外,阿里巴巴完善的产品体系以及广泛的应用场景使得通义千问更具可落地性和市场可接受程度。
2.典型开源大模型
典型开源语言大模型
(1) LLaMA 系列
LLaMA系列模型是一组参数规模从 7B到 65B的基础语言模型,它们都是在数万亿个字符上训练的,展示了如何仅使用公开可用的数据集来训练最先进的模型,而不需要依赖专有或不可访问的数据集。这些数据集包括 Common Crawl、 Wikipedia、 OpenWebText2、RealNews、 Books 等。 LLaMA 模型使用了大规模的数据过滤和清洗技术,以提高数据质量和多样性,减少噪声和偏见。 LLaMA 模型还使用了高效的数据并行和流水线并行技术,以加速模型的训练和扩展。特别地, LLaMA 13B 在 CommonsenseQA 等 9 个基准测试中超过了 GPT-3 (175B),而 LLaMA 65B 与最优秀的模型 Chinchilla-70B和 PaLM-540B相媲美。LLaMA通过使用更少的字符来达到最佳性能,从而在各种推理预算下具有优势。与 GPT 系列相同&