大模型综述

news2024/11/17 21:41:30

1.概念

大模型是指人工智能预训练大模型,具有海量参数和复杂架构,用于深度学习任务的模型,拥有强大的处理能力和表征能力,以数据+算力为支撑,借助数据管理、模型训练、评估优化、服务平台、插件等辅助工具,开发基础大模型或行业大模型,再延伸至工业、金融、医疗、交通等下游场景应用。

 2.发展

分为三个阶段:

萌芽期 1950-2005 ): CNN 为代表的传统神经网络模型
沉淀期 2006-2019 ): Google 提出的基于自注意力机制的神经网络结构 - Transformer 架构
爆发期 2020- 至今):
GPT3 2020 ): 1750 亿 参数规模
ChatGPT 2022.11 ):自然语言交互与 多场景 内容生成
GPT-4 2023.4 ): 多模态 理解与多类型内容生成

3.GPT系列

GPT由OpenAI开发的一系列基于人工神经网络的自然语言处理模型,提出“生成式预训练(无监督)+判别式任务精调(有监督)”的范式来处理NLP任务。

模型由开源向闭源发展,构建技术壁垒。

4.LLaMa系列

Chinese- LLaMA -Alpaca (中文 LLaMA-2 基座模型和 Alpaca-2 指令精调大模型) :在原版 Llama-2 的基础上 扩充、优化了中文词表 ,使用了大规模中文数据进行增量预训练,进一步提升了中文基础语义和指令理解能力,最高支持 64K 上下文长度。

5.GLM系列

GLM是清华与智谱AI共同研制的一个开放的双语(英汉)双向密集预训练语言大模型基于Transformer架构构建,具有强大的自然语言处理能力,能够实现对文本的理解、生成和生成式理解,被誉为“自然语言处理领域的黑科技”。

6.其它模型

Falcon阿联酋阿布扎比的技术创新研究所(TII)开发,包含:Falcon-7B Falcon-40BFalcon-180B分别基于 1.5 万亿、 1 万亿、3.5 万亿 token数据训练而得Falcon-180B是最大的开源预训练模型。
VicunaUC伯克利大学的研究人员联合其它几家研究机构共同推出的基于LLaMA微调的大语言模型, Vicuna 1.5系列包含Vicuna 7BVicuna 13B以及Vicuna 7B 16KVicuna 13B ,基于LLaMA2微调的,支持免费商用。

盘古:华为开发的一系列大规模自回归中文预训练语言模型,盘古3.0提供10B参数、38B参数、71B参数和 100B参数的基础大模型,提供NLP 大模型的知识问答、文案生成、代码生成,以及多模态大模型的图像生成、图像理解等能力。

文心一言:百度发布的人工智能大语言模型,文心大模型4.0拥有万亿级别参数,是国内首次用万卡集群训练的大预言模型,在语言理解和生成方面性能更优,具备更强的推理和创造能力,支持多语言处理,可以轻松应对不同国家和地区的语言需求。

星火认知大模型:科大讯飞发布的大预言模型,星火大模型V3.0版本,进一步升级了数学自动提炼规律、小样本学习、代码项目级理解能力、多模态指令跟随与细节表达等能力,进一步提升星火的落地应用能力。

百度-文心一言:是百度全新一代知识增强大语言模型,能够与人对话互动、回答问题、协助创作,高效便捷地帮助人们获取信息知识灵感。文心一言从数万亿数据和数千亿知识中融合学习,得到预训练大模型,在此基础上采用有监督精调、人类反馈强化学习、提示等技术,具备知识增强、检索增强和对话增强的技术优势。

科大讯飞-星火认知大模型:具有7大核心能力,即文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模态能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1435511.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Windows显示空的可移动磁盘的解决方案

123  大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式…

macbookpro和macbookair的区别?cleanmymac 怎么清理mac空间

苹果mac air和pro区别有:1、air采用了轻薄的设计,重量相对较轻,便于携带,而pro更加注重性能,所以比较重;2、air通常搭载较低功耗的处理器内存和存储容量相对较小,而pro配备了更强大的处理器、更…

【最佳实践】el-admin多表CRUD最佳实践,不允许你只会搞单表CRUD了(源码错了,顺带升级了)

【最佳实践】el-admin多表CRUD最佳实践,不允许你只会搞单表CRUD了,(源码错了,顺带升级了) 一、el-admin前端通用核心组件二、如何使用?2.1 新建组件2.2 修改对象属性标记2.3 修改四类组件引用标记2.4 生效 …

HarmonyOS鸿蒙ArkTS证件照生成模板(适合二次开发,全套源码版)

预览效果 部分代码 开发语言 HarmonyOS 鸿蒙 ArkTS语言 (Stage模型) 备注 一键生成,自带证件照数集, 为开发者带来二次开发和学习体验, 在这祝福开发者们使用愉快。 使用方法 下载后通过DevEco Studio开发工…

HarmonyOS开发工具DevEco Studio安装以及汉化

HUAWEI DevEco Studio 面向HarmonyOS应用及元服务开发者提供的集成开发环境(IDE), 助力高效开发。 应用内共享HSP开发 支持在Stage模型和模块化编译方式下开发HSP,以及共享HSP给应用内其他模块使用;支持运行态共享HSP。Code Linter代码检查 支持ArkTS/T…

多模态论文串讲·上【论文精读·46】

大家好,今天我们就来过一下多模态的串讲,其实之前我们也讲了很多工作了,比如说clip,还有 ViLT 以及 clip 的那么多后续工作。多模态学习在最近几年真的是异常的火爆,那除了普通的这种多模态学习,比如说视觉…

【大数据】Flink 中的 Slot、Task、Subtask、并行度

Flink 中的 Slot、Task、Subtask、并行度 1.并行度2.Task 与线程3.算子链与 slot 共享资源组4.Task slots 与系统资源5.总结 我们在使用 Flink 时,经常会听到 task,slot,线程 以及 并行度 这几个概念,对于初学者来说,这…

爬虫工作量由小到大的思维转变---<第四十四章 Scrapyd 用gerapy管理多台机器爬虫>

前言: 之前讲过关于如何在gerapy中部署本地爬虫, 爬虫工作量由小到大的思维转变---<第三十四章 Scrapy 的部署scrapydGerapy>_gerapy如何登录-CSDN博客 爬虫工作量由小到大的思维转变---<第三十五章 Scrapy 的scrapydGerapy 部署爬虫项目&…

锦上添花!特征选择+深度学习:mRMR-CNN-BiGRU-Attention故障识别模型!特征按重要性排序!最大相关最小冗余!

适用平台:Matlab2023版及以上 特征选择方法:"最大相关最小冗余"(Maximal Relevance and Minimal Redundancy,简称MRMR)是一种用于特征选择的方法。该方法旨在找到最相关的特征集,同时最小化特征…

[UI5 常用控件] 06.Splitter,ResponsiveSplitter

文章目录 前言1. Splitter1.1 属性 2. ResponsiveSplitter 前言 本章节记录常用控件Splitter,ResponsiveSplitter。主要功能是分割画面布局。 其路径分别是: sap.ui.layout.Splittersap.ui.layout.ResponsiveSplitter 1. Splitter 1.1 属性 orientation &#x…

Meta开源大模型LLaMA2的部署使用

LLaMA2的部署使用 LLaMA2申请下载下载模型启动运行Llama2模型文本补全任务实现聊天任务LLaMA2编程Web UI操作 LLaMA2 申请下载 访问meta ai申请模型下载,注意有地区限制,建议选其他国家 申请后会收到邮件,内含一个下载URL地址,…

【python】绘制爱心图案

以下是一个简单的Python代码示例,它使用turtle模块绘制一个代表爱和情人节的心形图案。 首先,请确保计算机上安装了Python和turtle模块。然后,将以下代码保存到一个.py文件中,运行它就可以看到爱心图案的绘制过程。 import turt…

【ArcGIS微课1000例】0101:删除冗余节点或折点

文章目录 一、实验描述二、实验数据三、实验过程1. 手动删除2. 简化线工具四、注意事项一、实验描述 矢量数据获取通常来源于手动或者ArcScan自动采集,其基本存储方式就是记录每个要素的点坐标,如点要素就是一个坐标、线要素由多个点要素连接形成。当某段线要素被过多的节点…

【webpack】优化提升

webpack优化提升 安装webpack相关内容向下兼容游览器-babel/polyfill进一步优化babel/polyfill模块联邦-共享模块如何提升构建性能通用环境下1,webpack更新到最新版本2,将loader应用于最少数量的必要模块3,引导(每个额外的loader/…

pr如何导出mp4格式视频?手把手教你

PR是一款强大的视频编辑软件,广泛应用于电影、电视制作以及各类创意视频项目。在完成编辑后,将项目导出为MP4格式视频是常见的需求,因为MP4是一种通用且高度兼容的视频格式,适用于多个平台和设备。pr如何导出mp4格式视频&#xff…

分享69个节日PPT,总有一款适合您

分享69个节日PPT,总有一款适合您 69个节日PPT下载链接:https://pan.baidu.com/s/1Y3tf2bStj595B2GD3v0dBQ?pwd8888 提取码:8888 Python采集代码下载链接:采集代码.zip - 蓝奏云 学习知识费力气,收集整理更不易。…

记录一下esp32模组固件开发流程

现在的esp32开发环境非常简单,参考如下: dl.espressif.cn/dl/esp-idf/ 在上面的链接中选择合适的版本进行安装,安装后环境自带源文件、编译连接工程脚本、图形化配置脚本、编译器、烧录调试工具。 这里我选择安装在C盘,C:\Espr…

Redis核心技术与实战【学习笔记】 - 17.Redis 缓存异常:缓存雪崩、击穿、穿透

概述 Redis 的缓存异常问题,除了数据不一致问题外,还会面临其他三个问题,分别是缓存雪崩、缓存击穿、缓存穿透。这三个问题,一旦发生,会导致大量的请求积压到数据库。若并发量很大,就会导致数据库宕机或故…

网络安全大赛

网络安全大赛 网络安全大赛的类型有很多,比赛类型也参差不齐,这里以国内的CTF网络安全大赛里面著名的的XCTF和强国杯来介绍,国外的话用DenCon CTF和Pwn2Own来举例 CTF CTF起源于1996年DEFCON全球黑客大会,以代替之前黑客们通过互相…

GUI编程..

1.GUI(Graphical User Interface 图形用户界面) 所谓GUI 指的是在计算机中采用图形方式展示用户的界面 在GUI之前采用的是字符界面 有了GUI之后 采用的则是图形界面 2.Java的GUI编程方案 常见的有四种 3.Swing 1.实现一个窗口 public class Main{public static void ma…