大模型综述

大模型综述

news2026/2/14 4:48:52

1.概念

大模型是指人工智能预训练大模型，具有海量参数和复杂架构，用于深度学习任务的模型，拥有强大的处理能力和表征能力，以数据+算力为支撑，借助数据管理、模型训练、评估优化、服务平台、插件等辅助工具，开发基础大模型或行业大模型，再延伸至工业、金融、医疗、交通等下游场景应用。

2.发展

分为三个阶段：

• 萌芽期 （ 1950-2005 ）： CNN 为代表的传统神经网络模型

• 沉淀期 （ 2006-2019 ）： Google 提出的基于自注意力机制的神经网络结构 - Transformer 架构

• 爆发期 （ 2020- 至今）：

• GPT3 （ 2020 ）： 1750 亿参数规模

• ChatGPT （ 2022.11 ）：自然语言交互与多场景内容生成

• GPT-4 （ 2023.4 ）：多模态理解与多类型内容生成

3.GPT系列

GPT由OpenAI开发的一系列基于人工神经网络的自然语言处理模型，提出“生成式预训练（无监督）+判别式任务精调（有监督）”的范式来处理NLP任务。

模型由开源向闭源发展，构建技术壁垒。

4.LLaMa系列

• Chinese- LLaMA -Alpaca （中文 LLaMA-2 基座模型和 Alpaca-2 指令精调大模型） ：在原版 Llama-2 的基础上 扩充、优化了中文词表 ，使用了大规模中文数据进行增量预训练，进一步提升了中文基础语义和指令理解能力，最高支持 64K 上下文长度。

5.GLM系列

GLM是清华与智谱AI共同研制的一个开放的双语（英汉）双向密集预训练语言大模型，基于Transformer架构构建，具有强大的自然语言处理能力，能够实现对文本的理解、生成和生成式理解，被誉为“自然语言处理领域的黑科技”。

6.其它模型

Falcon：阿联酋阿布扎比的技术创新研究所（TII）开发，包含：Falcon-7B 、Falcon-40B和Falcon-180B，分别基于 1.5 万亿、 1 万亿、3.5 万亿 token数据训练而得，Falcon-180B是最大的开源预训练模型。
Vicuna：UC伯克利大学的研究人员联合其它几家研究机构共同推出的基于LLaMA微调的大语言模型， Vicuna 1.5系列包含Vicuna 7B、Vicuna 13B以及Vicuna 7B 16K和Vicuna 13B ，基于LLaMA2微调的，支持免费商用。

盘古：华为开发的一系列大规模自回归中文预训练语言模型，盘古3.0提供10B参数、38B参数、71B参数和 100B参数的基础大模型，提供NLP 大模型的知识问答、文案生成、代码生成，以及多模态大模型的图像生成、图像理解等能力。

文心一言：百度发布的人工智能大语言模型，文心大模型4.0拥有万亿级别参数，是国内首次用万卡集群训练的大预言模型，在语言理解和生成方面性能更优，具备更强的推理和创造能力，支持多语言处理，可以轻松应对不同国家和地区的语言需求。

星火认知大模型：科大讯飞发布的大预言模型，星火大模型V3.0版本，进一步升级了数学自动提炼规律、小样本学习、代码项目级理解能力、多模态指令跟随与细节表达等能力，进一步提升星火的落地应用能力。

百度-文心一言：是百度全新一代知识增强大语言模型，能够与人对话互动、回答问题、协助创作，高效便捷地帮助人们获取信息、知识和灵感。文心一言从数万亿数据和数千亿知识中融合学习，得到预训练大模型，在此基础上采用有监督精调、人类反馈强化学习、提示等技术，具备知识增强、检索增强和对话增强的技术优势。

科大讯飞-星火认知大模型：具有7大核心能力，即文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模态能力。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1435511.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Windows显示空的可移动磁盘的解决方案

Windows显示空的可移动磁盘的解决方案

123 大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式…

阅读更多...

macbookpro和macbookair的区别？cleanmymac 怎么清理mac空间

macbookpro和macbookair的区别？cleanmymac 怎么清理mac空间

苹果mac air和pro区别有：1、air采用了轻薄的设计，重量相对较轻，便于携带，而pro更加注重性能，所以比较重；2、air通常搭载较低功耗的处理器内存和存储容量相对较小，而pro配备了更强大的处理器、更…

阅读更多...

【最佳实践】el-admin多表CRUD最佳实践，不允许你只会搞单表CRUD了（源码错了，顺带升级了）

【最佳实践】el-admin多表CRUD最佳实践，不允许你只会搞单表CRUD了（源码错了，顺带升级了）

【最佳实践】el-admin多表CRUD最佳实践，不允许你只会搞单表CRUD了，（源码错了，顺带升级了） 一、el-admin前端通用核心组件二、如何使用？2.1 新建组件2.2 修改对象属性标记2.3 修改四类组件引用标记2.4 生效 …

阅读更多...

HarmonyOS鸿蒙ArkTS证件照生成模板（适合二次开发，全套源码版）

HarmonyOS鸿蒙ArkTS证件照生成模板（适合二次开发，全套源码版）

预览效果部分代码开发语言 HarmonyOS 鸿蒙 ArkTS语言 （Stage模型） 备注一键生成，自带证件照数集， 为开发者带来二次开发和学习体验， 在这祝福开发者们使用愉快。使用方法下载后通过DevEco Studio开发工…

阅读更多...

HarmonyOS开发工具DevEco Studio安装以及汉化

HarmonyOS开发工具DevEco Studio安装以及汉化

HUAWEI DevEco Studio 面向HarmonyOS应用及元服务开发者提供的集成开发环境(IDE)， 助力高效开发。应用内共享HSP开发支持在Stage模型和模块化编译方式下开发HSP，以及共享HSP给应用内其他模块使用;支持运行态共享HSP。Code Linter代码检查支持ArkTS/T…

阅读更多...

多模态论文串讲·上【论文精读·46】

多模态论文串讲·上【论文精读·46】

大家好，今天我们就来过一下多模态的串讲，其实之前我们也讲了很多工作了，比如说clip，还有 ViLT 以及 clip 的那么多后续工作。多模态学习在最近几年真的是异常的火爆，那除了普通的这种多模态学习，比如说视觉…

阅读更多...

【大数据】Flink 中的 Slot、Task、Subtask、并行度

【大数据】Flink 中的 Slot、Task、Subtask、并行度

Flink 中的 Slot、Task、Subtask、并行度 1.并行度2.Task 与线程3.算子链与 slot 共享资源组4.Task slots 与系统资源5.总结我们在使用 Flink 时，经常会听到 task，slot，线程以及并行度这几个概念，对于初学者来说，这…

阅读更多...

爬虫工作量由小到大的思维转变---＜第四十四章 Scrapyd 用gerapy管理多台机器爬虫＞

爬虫工作量由小到大的思维转变---＜第四十四章 Scrapyd 用gerapy管理多台机器爬虫＞

前言: 之前讲过关于如何在gerapy中部署本地爬虫, 爬虫工作量由小到大的思维转变---＜第三十四章 Scrapy 的部署scrapydGerapy＞_gerapy如何登录-CSDN博客爬虫工作量由小到大的思维转变---＜第三十五章 Scrapy 的scrapydGerapy 部署爬虫项目&…

阅读更多...

锦上添花！特征选择＋深度学习：mRMR-CNN-BiGRU-Attention故障识别模型！特征按重要性排序！最大相关最小冗余！

锦上添花！特征选择＋深度学习：mRMR-CNN-BiGRU-Attention故障识别模型！特征按重要性排序！最大相关最小冗余！

适用平台：Matlab2023版及以上特征选择方法："最大相关最小冗余"（Maximal Relevance and Minimal Redundancy，简称MRMR）是一种用于特征选择的方法。该方法旨在找到最相关的特征集，同时最小化特征…

阅读更多...

[UI5 常用控件] 06.Splitter，ResponsiveSplitter

[UI5 常用控件] 06.Splitter，ResponsiveSplitter

文章目录前言1. Splitter1.1 属性 2. ResponsiveSplitter 前言本章节记录常用控件Splitter,ResponsiveSplitter。主要功能是分割画面布局。其路径分别是： sap.ui.layout.Splittersap.ui.layout.ResponsiveSplitter 1. Splitter 1.1 属性 orientation &#x…

阅读更多...

Meta开源大模型LLaMA2的部署使用

Meta开源大模型LLaMA2的部署使用

LLaMA2的部署使用 LLaMA2申请下载下载模型启动运行Llama2模型文本补全任务实现聊天任务LLaMA2编程Web UI操作 LLaMA2 申请下载访问meta ai申请模型下载，注意有地区限制，建议选其他国家申请后会收到邮件，内含一个下载URL地址，…

阅读更多...

【python】绘制爱心图案

【python】绘制爱心图案

以下是一个简单的Python代码示例，它使用turtle模块绘制一个代表爱和情人节的心形图案。首先，请确保计算机上安装了Python和turtle模块。然后，将以下代码保存到一个.py文件中，运行它就可以看到爱心图案的绘制过程。 import turt…

阅读更多...

【ArcGIS微课1000例】0101：删除冗余节点或折点

【ArcGIS微课1000例】0101：删除冗余节点或折点

文章目录一、实验描述二、实验数据三、实验过程1. 手动删除2. 简化线工具四、注意事项一、实验描述矢量数据获取通常来源于手动或者ArcScan自动采集，其基本存储方式就是记录每个要素的点坐标，如点要素就是一个坐标、线要素由多个点要素连接形成。当某段线要素被过多的节点…

阅读更多...

【webpack】优化提升

【webpack】优化提升

webpack优化提升安装webpack相关内容向下兼容游览器-babel/polyfill进一步优化babel/polyfill模块联邦-共享模块如何提升构建性能通用环境下1，webpack更新到最新版本2，将loader应用于最少数量的必要模块3，引导（每个额外的loader/…

阅读更多...

pr如何导出mp4格式视频？手把手教你

PR是一款强大的视频编辑软件，广泛应用于电影、电视制作以及各类创意视频项目。在完成编辑后，将项目导出为MP4格式视频是常见的需求，因为MP4是一种通用且高度兼容的视频格式，适用于多个平台和设备。pr如何导出mp4格式视频&#xff…

阅读更多...

分享69个节日PPT，总有一款适合您

分享69个节日PPT，总有一款适合您

分享69个节日PPT，总有一款适合您 69个节日PPT下载链接：https://pan.baidu.com/s/1Y3tf2bStj595B2GD3v0dBQ?pwd8888 提取码：8888 Python采集代码下载链接：采集代码.zip - 蓝奏云学习知识费力气，收集整理更不易。…

阅读更多...

记录一下esp32模组固件开发流程

记录一下esp32模组固件开发流程

现在的esp32开发环境非常简单，参考如下： dl.espressif.cn/dl/esp-idf/ 在上面的链接中选择合适的版本进行安装，安装后环境自带源文件、编译连接工程脚本、图形化配置脚本、编译器、烧录调试工具。这里我选择安装在C盘，C:\Espr…

阅读更多...

Redis核心技术与实战【学习笔记】 - 17.Redis 缓存异常：缓存雪崩、击穿、穿透

Redis核心技术与实战【学习笔记】 - 17.Redis 缓存异常：缓存雪崩、击穿、穿透

概述 Redis 的缓存异常问题，除了数据不一致问题外，还会面临其他三个问题，分别是缓存雪崩、缓存击穿、缓存穿透。这三个问题，一旦发生，会导致大量的请求积压到数据库。若并发量很大，就会导致数据库宕机或故…

阅读更多...

网络安全大赛

网络安全大赛

网络安全大赛网络安全大赛的类型有很多，比赛类型也参差不齐，这里以国内的CTF网络安全大赛里面著名的的XCTF和强国杯来介绍，国外的话用DenCon CTF和Pwn2Own来举例 CTF CTF起源于1996年DEFCON全球黑客大会，以代替之前黑客们通过互相…

阅读更多...

GUI编程..

GUI编程..

1.GUI(Graphical User Interface 图形用户界面) 所谓GUI 指的是在计算机中采用图形方式展示用户的界面在GUI之前采用的是字符界面有了GUI之后采用的则是图形界面 2.Java的GUI编程方案常见的有四种 3.Swing 1.实现一个窗口 public class Main{public static void ma…

阅读更多...

推荐文章

最新文章