LLM的发展简述

news2025/1/10 16:28:19

文章目录

  • 1. NLP的发展简史
  • 2. LLM 的进展
  • 3. 参考


1. NLP的发展简史

信息理论的创立:20世纪50年代,Claude Shannon 奠定了信息理论的基础,引入了熵和冗余等概念,对 NLP 和计算语言学产生了深远影响。

形式语法的发展:1957年,Noam Chomsky 提出语法和语法规则的理论,为自然语言的形式化分析提供了结构,对早期计算语言学的发展产生了重要影响。

早期计算模型:隐马尔可夫模型(HMM)和 n-gram 模型是早期理解自然语言的计算模型,HMM在语音识别等领域发挥了关键作用,而 n-gram 模型则在语言建模方面成为长期标准。其中,HMM 相关可以查阅:
《NLP深入学习(五):HMM 详解及字母识别/天气预测用法》

神经网络模型的兴起:90年代初,循环神经网络(RNN)和长短期记忆(LSTM)网络被开发,它们能够学习序列数据中的模式,对语言建模至关重要。

词嵌入技术:随后,LSA 和 Word2Vec 等技术允许对单词进行向量化表示,词嵌入捕捉了单词间的语义关系,显著提升了 NLP 任务的性能。其中,词嵌入相关可以查阅:
《NLP 词嵌入向量即word embedding原理详解》

注意力机制与Transformer:2014年,Bahdanau 等人引入注意力机制,改进了机器翻译。2017年,Vaswani 等人提出 Transformer 架构,完全基于注意力机制,提高了训练效率和性能。其中,Transformer 相关可以查阅:
《NLP深入学习:大模型背后的Transformer模型究竟是什么?(一)》
《NLP深入学习:大模型背后的Transformer模型究竟是什么?(二)》

BERT及其衍生模型:2018年,Devlin等人提出的 BERT 引入了双向转换器模型,改变了 NLP 领域。随后出现了RoBERTa、ALBERT 和 T5 等模型,它们针对特定任务进行了优化,提高了效率和性能。其中,BERT 相关可以查阅:
《NLP深入学习:结合源码详解 BERT 模型(一)》
《NLP深入学习:结合源码详解 BERT 模型(二)》
《NLP深入学习:结合源码详解 BERT 模型(三)》

GPT模型的发展:从2018年的 GPT-1 到2020年的 GPT-3,这些模型通过在大型文本语料库上的预训练,然后在特定任务上微调,不断刷新 NLP 应用的性能标准。其中,GPT 相关可以查阅:
《详解GPT-1到GPT-3的论文亮点以及实验结论》
《详解GPT-4论文《GPT-4 Technical Report》》

2. LLM 的进展

下表是 LLM 近些年来的进展总结:

模型开发者架构参数量训练数据应用发布时间价值配置
BERTGoogleTransformer (Encoder)340 million (large)Wikipedia, BooksCorpusSentiment analysis, Q&A, named entity recognitionOct-18HighGPU (e.g., NVIDIA V100), 16GB RAM, TPU
GPT-2OpenAITransformer1.5 billionDiverse internet textText generation, Q&A, translation, summarizationFeb-19MediumGPU (e.g., NVIDIA V100), 16GB RAM
XLNetGoogle/CMUTransformer (Autoregressive)340 million (large)BooksCorpus, Wikipedia, Giga5Text generation, Q&A, sentiment analysisJun-19MediumGPU (e.g., NVIDIA V100), 16GB RAM
RoBERTaFacebookTransformer (Encoder)355 million (large)Diverse internet textSentiment analysis, Q&A, named entity recognitionJul-19HighGPU (e.g., NVIDIA V100), 16GB RAM
DistilBERTHugging FaceTransformer (Encoder)66 millionWikipedia, BooksCorpusSentiment analysis, Q&A, named entity recognitionOct-19HighGPU (e.g., NVIDIA T4), 8GB RAM
T5GoogleTransformer (Encoder-Decoder)11 billion (large)Colossal Clean Crawled Corpus (C4)Text generation, translation, summarization, Q&AOct-19HighGPU (e.g., NVIDIA V100), 16GB RAM, TPU
ALBERTGoogleTransformer (Encoder)223 million (xxlarge)Wikipedia, BooksCorpusSentiment analysis, Q&A, named entity recognitionDec-19MediumGPU (e.g., NVIDIA V100), 16GB RAM
CTRLSalesforceTransformer1.6 billionDiverse internet textControlled text generationSep-19MediumGPU (e.g., NVIDIA V100), 16GB RAM
GPT-3OpenAITransformer175 billionDiverse internet textText generation, Q&A, translation, summarizationJun-20HighMulti-GPU setup (e.g., 8x NVIDIA V100), 96GB RAM
ELECTRAGoogleTransformer (Encoder)335 million (large)Wikipedia, BooksCorpusText classification, Q&A, named entity recognitionMar-20MediumGPU (e.g., NVIDIA V100), 16GB RAM
ERNIEBaiduTransformer10 billion (version 3)Diverse Chinese textText generation, Q&A, summarization (focused on Chinese)Mar-20HighGPU (e.g., NVIDIA V100), 16GB RAM
Megatron-LMNVIDIATransformer8.3 billionDiverse internet textText generation, Q&A, summarizationOct-19HighMulti-GPU setup (e.g., 8x NVIDIA V100), 96GB RAM
BlenderBotFacebookTransformer (Encoder-Decoder)9.4 billionConversational datasetsConversational agents, dialogue systemsApr-20HighGPU (e.g., NVIDIA V100), 16GB RAM
Turing-NLGMicrosoftTransformer17 billionDiverse internet textText generation, Q&A, translation, summarizationFeb-20HighMulti-GPU setup (e.g., 8x NVIDIA V100), 96GB RAM
Megatron-Turing NLGMicrosoft/NVIDIATransformer530 billionDiverse internet textText generation, Q&A, translation, summarizationOct-20HighMulti-GPU setup (e.g., 8x NVIDIA A100), 320GB RAM
GPT-4OpenAITransformer~1.7 trillion (estimate)Diverse internet textText generation, Q&A, translation, summarizationMar-23HighMulti-GPU setup (e.g., 8x NVIDIA A100), 320GB RAM
Dolly 2.0DatabricksTransformer12 billionDatabricks-generated dataText generation, Q&A, translation, summarizationApr-23HighGPU (e.g., NVIDIA A100), 40GB RAM
LLaMAMetaTransformer65 billion (LLaMA 2)Diverse internet textText generation, Q&A, translation, summarizationJul-23HighMulti-GPU setup (e.g., 8x NVIDIA A100), 320GB RAM
PaLMGoogleTransformer540 billionDiverse internet textText generation, Q&A, translation, summarizationApr-22HighMulti-GPU setup (e.g., 8x NVIDIA A100), 320GB RAM
ClaudeAnthropicTransformerUndisclosedDiverse internet textText generation, Q&A, translation, summarizationMar-23HighMulti-GPU setup (e.g., 8x NVIDIA A100), 320GB RAM
ChinchillaDeepMindTransformer70 billionDiverse internet textText generation, Q&A, translation, summarizationMar-22HighGPU (e.g., NVIDIA A100), 40GB RAM
BloomBigScienceTransformer176 billionDiverse internet textText generation, Q&A, translation, summarizationJul-22HighMulti-GPU setup (e.g., 8x NVIDIA A100), 320GB RAM

3. 参考

https://dzone.com/articles/llms-progression-and-path-forward


欢迎关注本人,我是喜欢搞事的程序猿; 一起进步,一起学习;

欢迎关注知乎/CSDN:SmallerFL

也欢迎关注我的wx公众号(精选高质量文章):一个比特定乾坤

请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2086012.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

代码随想录(day8)—环形链表

题目 预备知识点: for和while的区别 while语句属于循环语句,在判断是,如果条件为true,则会继续判断,直到false为止,即会进行多次判断(除非一开始条件就是错的)。 if语句属于条件判…

炫光HUD杂散光测试方法及设备

HUD杂散光测试概述 HUD(Heads-Up Display)抬头显示器是现代汽车中的一项先进技术,它可以将重要信息如速度、导航等投射在驾驶员的视线前方,从而减少低头查看仪表盘的次数,提高行车安全。然而,HUD在实际使用…

数据主权与隐私保护的深入探讨

随着数字化进程的加速,数据已成为当今世界的重要资源。数据主权和隐私保护这两个概念也越来越受到关注。数据主权涉及到国家对数据的控制权和管理权,而隐私保护则关乎个人数据的安全性和隐私权利。两者相互交织,共同塑造了数字时代的法律、经…

PTA - python暑假题集1

目录 7-1 Hello World!7-2 计算摄氏温度7-3 计算物体自由下落的距离7-4 整数四则运算7-5 求整数均值7-6 输出带框文字7-7 整数152的各位数字7-8 计算火车运行时间7-9 计算存款利息7-10 逆序的三位数7-11 重要的话说三遍7-12 后天7-13 I Love GPLT7-14 是不是太胖了7-15 计算指数…

day44——C++对C的扩充

八、C对函数的扩充 8.1 函数重载(overload) 1> 概念 函数重载就是能够实现"一名多用",是实现泛型编程的一种 泛型编程:试图以不变的代码,来实现可变的功能 2> 引入背景 程序员在写函数时&#x…

某系统存在任意文件下载漏洞

穷者,谁不想达,达者,更畏惧穷。为求发达,穷人兢兢业业,辛辛苦苦,农耕其田,工利其器,商务其业,学读其书,人人都在独善其身,可除了那些少数的书生可…

VS2022打包Docker镜像

1. 前置环境 操作系统win10/win11 安装 Docker Desktop 2. 演示项目 https://gitee.com/izory/ZrAdminNetCore .net8 分支为例 3. 添加 docker支持 4. 配置工程文件 在.proj 文件加上 <ContainerRepository>ZrAdminCore</ContainerRepository> <Containe…

【C++ 面试 - 内存管理】每日 3 题(八)

✍个人博客&#xff1a;Pandaconda-CSDN博客 &#x1f4e3;专栏地址&#xff1a;http://t.csdnimg.cn/fYaBd &#x1f4da;专栏简介&#xff1a;在这个专栏中&#xff0c;我将会分享 C 面试中常见的面试题给大家~ ❤️如果有收获的话&#xff0c;欢迎点赞&#x1f44d;收藏&…

视频压缩工具哪个好?视频压缩工具安利

还在为视频文件过大而烦恼吗&#xff1f;想要快速分享或上传视频却受限于空间或时间&#xff1f; 别担心&#xff0c;今天我来告诉你们&#xff1a;视频压缩成文件怎么弄。 无需复杂操作&#xff0c;轻松几步&#xff0c;就能让你的视频文件瘦身成功&#xff0c;既保留关键内…

深度学习基础—结构化机器学习项目

1.正交化 这是一个老式电视&#xff0c;有一组旋钮可以对画面进行调节&#xff0c;例如高度、宽度、画面梯形角度、画面位置、画面旋转等等&#xff0c;但是如果有一个旋钮&#xff0c;旋转时可以调节上面所有参数&#xff0c;那么就会出现一种情况&#xff1a;当前的画面高度和…

jconsole远程连接

jconsole可以远程连接的前提&#xff08;需要在部署应用时像下面示例这样设置&#xff09;&#xff1a; -Djava.rmi.server.hostname127.0.0.1 -Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote.port3214 -Dcom.sun.management.jmxremote.sslfalse -Dcom.sun.m…

milvus使用milvus migration工具迁移数据

1.前提&#xff1a;这个数据迁移工具是collection 维度的 2.文章内是2.3.1–》2.4.5数据迁移&#xff0c;公司内部需求&#xff0c;各位看官注意哈 官方架构图&#xff1a; 想要迁移的milvus 官方称之为&#xff1a;源source milvus 要迁入的表 目标的milvus 官方称之为&…

JWT结构详解与JWT设置

JWT结构详解与JWT设置 1. 什么是token2. 为什么要使用token3. 什么是JWT4. JWT的格式4.1 header4.2 payload4.3 signature 5. JWT校验流程6. JWT使用案例6.1 token的创建6.2 判断token是否可以刷新6.3 刷新token6.4 token的校验6.5 用户验证流程 1. 什么是token Token是服务端…

Prometheus+Grafana的安装和入门

概念 什么是Prometheus? Prometheus受启发于Google的Brogmon监控系统&#xff08;相似kubernetes是从Brog系统演变而来&#xff09;&#xff0c; 从 2012年开始由google工程师Soundclouds使用Go语言开发的开源监控报警系统和时序列数据库 (TSDB)。&#xff0c;并且与2015年早…

2017年系统架构师案例分析试题一

目录 案例 【题目】 【问题 1】(12 分) 【问题 2】(13 分) 答案 【问题 1】答案 【问题 2】答案 相关推荐 案例 阅读以下关于软件架构评估的叙述&#xff0c;在答题纸上回答问题 1 和问题 2。 【题目】 某单位为了建设健全的公路桥梁养护管理档案&#xff0c;拟开发一套公…

USB PHY—— PHY 基础

芯片厂商开发了一些 USB PHY 芯片&#xff0c;可以把 DP、DM上的差模信号转成共模信号。 USB PHY 负责最底层的信号转换&#xff0c;作用类似于网口的 PHY。 USB 信号传输前&#xff0c;需要通过 PHY 把 USB 控制器的数字信号转成线缆上的模拟信号。USB 控制器和 PHY 之间的总…

中国严肃游戏开发的最佳实践

严肃游戏产业在中国迅速发展&#xff0c;将娱乐与教育、培训和宣传活动融为一体。旨在实现特定学习成果或行为改变的严肃游戏在从企业培训到医疗保健和教育的各个领域越来越受欢迎。然而&#xff0c;为中国市场开发成功的严肃游戏需要深入了解当地文化、用户偏好和技术趋势。以…

函数栈帧的创建和销毁(VS2022)

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 目录 前言 一、前面的困惑 二、什么是函数栈帧 三、关于函数栈帧的基础知识 1.栈 2.寄存器 2.1 什么是寄存器 2.2 相关的寄存器 2.3 相关汇编命令 2.4 预备知识 四、解析函数…

盘点4款可以免费使用的高效ai PPT制作工具。

平时我们自己制作一个PPT还是需要比较长的时间的&#xff0c;从构思内容&#xff0c;到制作主题和逻辑框架&#xff0c;然后是挑选模板、排版配色等&#xff0c;过程比较繁琐且费时。但是&#xff0c;现在出现了很多的AIPPT制作工具&#xff0c;能够快速的帮助用户生成一个完整…

来自工业界的知识库 RAG(六),独特的 RAG 框架 dsRAG 核心亮点解读

背景介绍 在前面介绍了较多的开源 RAG 框架&#xff0c;比如主打 Rerank 的 QAnything, 主打精细文件解析的 RagFlow, 主打模块化灵活组合的 GoMate。这些库的设计除了少量的独特之处外&#xff0c;相似的部分很多。 最近有注意到一款另类的 RAG 框架 dsRAG&#xff0c;使用了…