研究LLMs之前，不如先读读这五篇论文！

研究LLMs之前，不如先读读这五篇论文！

news2025/4/28 9:20:22

目标：了解 LMM 背后的主要思想

▪️ Neural Machine Translation by Jointly Learning to Align and Translate
▪️ Attention Is All You Need
▪️ BERT
▪️ Improving Language Understanding by Generative Pre-Training
▪️ BART

在这里插入图片描述

Neural Machine Translation by Jointly Learning to Align and Translate

论文链接：https://arxiv.org/pdf/1409.0473.pdf

提出Encoder-Decoder的经典seq2seq结构，对文本生成，文本摘要、翻译等生成式人物起到重要影响

Attention Is All You Need

论文链接：https://arxiv.org/pdf/1706.03762.pdf

在这里插入图片描述
前两年火爆的论文：transformer

BERT: Pre-training of Deep Bidirectional Transformers for Language

预训练模型经典之作

论文链接：https://arxiv.org/pdf/1810.04805.pdf

Improving Language Understanding By Generative Pre-Training

在这里插入图片描述
本论文探索一种基于半监督解决语言理解任务方法，使用无监督预训练和监督微调。目标是从大量未标注语料库学习一种普遍的表征，不要求目标任务与未标注语料库在相同领域。

论文链接：https://gwern.net/doc/www/s3-us-west-2.amazonaws.com/d73fdc5ffa8627bce44dcda2fc012da638ffb158.pdf

BART: Denoising Sequence-to-Sequence Pre-training for NaturalLanguage Generation, Translation, and Comprehension

BART：Bidirectional and Auto-Regressive Transformers ，字面意思为双向自回归Transformer，依旧是基于Transformer改造出的模型。在GPT分走了Transformer的解码器部分，BERT分走了Transformer的编码器部分之后，BART终于将“老父亲”的所有“家产”一起打包带走。

论文链接：https://arxiv.org/pdf/1910.13461.pdf

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/428467.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

引导程序、BIOS中断、检测内存容量、实模式切换到保护模式

引导程序、BIOS中断、检测内存容量、实模式切换到保护模式

初始化引导程序基本概念 BIOS会将磁盘的第0个扇区(大小为512字节)，加载到0x7c00处。引导程序负责操作系统的加载，主要用于为操作系统运行提供初始化环境，并运行加载操作系统。 BIOS只加载磁盘的第0个扇区(512字节)到内存中，次程…

阅读更多...

【论文阅读_序列推荐】Intent Contrastive Learning for Sequential Recommendation

【论文阅读_序列推荐】Intent Contrastive Learning for Sequential Recommendation

【论文阅读_序列推荐】Intent Contrastive Learning for Sequential Recommendation 文章目录【论文阅读_序列推荐】Intent Contrastive Learning for Sequential Recommendation1. 来源2. 介绍3. 准备工作3.1 问题定义3.2 用于下一个项目预测的深度 SR 模型3.3 SR中的对比SSL …

阅读更多...

基于springboot和ajax的简单项目 06 日志界面的delete功能（根据选择的checkbox）

基于springboot和ajax的简单项目 06 日志界面的delete功能（根据选择的checkbox）

01.这次后台开始； 顺序依次是dao->xml->service->serviceimpl->controller->html 02.dao接口 public int doDeleteObjects(Param("ids") Integer... ids);03.xml文件 <update id"doDeleteObjects" >delete from sys_lo…

阅读更多...

七项新发布，亚马逊云科技Amazon S3持续进化

七项新发布，亚马逊云科技Amazon S3持续进化

17年前的3月14日，亚马逊云科技推出了一项“非常简单的”对象存储服务（Amazon Simple Storage Service）。该服务允许开发人员创建、列出和删除私有存储空间（称为存储桶）、上传和下载文件以及管理其访问权限。当时&#…

阅读更多...

C++刷题--选择题1

C++刷题--选择题1

文章目录选择题选择题 1， 以下for循环的执行次数是（） for(int x 0, y 0; (y 123) && (x < 4); x);A 是无限循环 B 循环次数不定 C 4次 D 3次解析 ： C，for循环y 123 是赋值语句， 也就是一…

阅读更多...

PSO算法

PSO算法

🍎道阻且长，行则将至。🍓 目录1.PSO算法主要步骤🌱2.PSO更新方法🌾3.PSO求解TSP问题🌴粒子群算法（Particle Swarm Optimization，简称PSO）是一种优化算法，模拟…

阅读更多...

美国全力打击币圈 “一套花式组合拳”，打得从业者透不过气

美国全力打击币圈 “一套花式组合拳”，打得从业者透不过气

银行危机“平息”过后，美国监管机构对币圈接连出手，一套花式组合拳打得从业者透不过气，也使得加密行业在政府的拳头之下风声鹤唳。首先，切断加密货币与传统金融机构的联系。美国金融体系陷入混乱之际，一系列历史性的银…

阅读更多...

顺序表（数据结构）

顺序表（数据结构）

目录线性表顺序表 1、顺序表创建 2、初始化 3、扩容 4、尾插 5、尾删 6、头插 7、头删 8、指定位置插入 9、指定位置删除 10、查询 11、打印 12、销毁顺序表总代码 Leetcode编程题 1、移除元素题目链接： 题目描述： 题目解析： 2、删除有序…

阅读更多...

游戏内嵌社区服务开放，助力开发者提升玩家互动与留存

游戏内嵌社区服务开放，助力开发者提升玩家互动与留存

华为 HMS Core 游戏内嵌社区服务提供快速访问华为游戏中心论坛能力，支持玩家直接在游戏内浏览帖子和交流互动，助力开发者扩展内容生产和触达的场景。一、为什么要游戏内嵌社区？ 二、游戏内嵌社区的典型使用场景 1、游戏内打开论坛您可以在…

阅读更多...

[Linux]环境变量

[Linux]环境变量

目录基本概念常见的环境变量 PATH测试 HOME测试 SHELL测试和环境变量相关的命令 main函数的三个参数环境变量的组织方式通过代码如何获取环境变量通过系统调用获取或设置环境变量基本概念环境变量(environment variables)一般是指在操作系统中用来指定操作系…

阅读更多...

FreeRTOS 系统内核控制函数

FreeRTOS 系统内核控制函数

FreeRTOS 中有一些函数只供系统内核使用，用户应用程序一般不允许使用，这些 API 函数就是系统内核控制函数。内核控制函数顾名思义，内核控制函数就是 FreeRTOS 内核所使用的函数，一般情况下应用层程序不使用这些函数&#xff0…

阅读更多...

6基于二阶锥规划的主动配电网最优潮流求解

6基于二阶锥规划的主动配电网最优潮流求解

matlab代码：基于二阶锥规划的主动配电网最优潮流求解参考文献：主动配电网多源协同运行优化研究_乔珊摘要：最优潮流研究在配电网规划运行中不可或缺 ， 且在大量分布式能源接入的主动配电网环境下尤为重要。传统的启发式算…

阅读更多...

设计师一定要知道这5个免费样机素材网

设计师一定要知道这5个免费样机素材网

本期推荐5个设计师必备的样机素材网站，免费下载，建议收藏~ 1、菜鸟图库 https://www.sucai999.com/searchlist/3217----all-0-1.html?vNTYxMjky 网站有多种类型的设计素材，像平面、电商、UI、办公等素材这里面都能找到。样机素材分类清晰&…

阅读更多...

GitHub“疯狂”求阿里内部开源这份10W字Java面试手册，竟遭拒绝

GitHub“疯狂”求阿里内部开源这份10W字Java面试手册，竟遭拒绝

行业风向标，猎聘发布的数据报告显示： 相比以往，2023年企业招聘两大变化体现在：对人才各方面能力要求更高、对人岗的匹配性要求更细。不同规模的企业用人各有侧重，大中型企业更注重人的全面能力，小型企业更…

阅读更多...

我写系列博客的缘由

我写系列博客的缘由

我写系列博客的缘由每个经历不是一帆风顺的人，都将深刻地体会到，少走弯路对一个人来说是多么重要。人的生存不是浪漫的幻想，而是建立在能立足于现实社会上，教育的真正意义，是培养你的认识水平、提升智慧，借…

阅读更多...

JAVA语言-比较器Comparator

JAVA语言-比较器Comparator

目录一、什么是Comparator 二、Java compare方法和compareTo方法三、java中Comparable和Comparator的区别 Comparator的例子一、什么是Comparator Comparator 是javase中的接口，位于java.util包下。数组工具类和集合工具类中提供的工具方法sort方法都给出…

阅读更多...

Vector - CAPL - CAN x 总线信息获取

Vector - CAPL - CAN x 总线信息获取

在CAN&CANFD测试中，我们经常需要获取到CAN总线的负载、错误帧、过载帧、发送错误等等CAN总线上面的信息，这些信息如此重要，但是如果真的要写代码去实现也是相当不易的，那我们该如何去获取到的呢？下面我们就来一起看…

阅读更多...

系统集成作业——公司网络系统集成设计，总公司、分公司地跨两个不同城市。

系统集成作业——公司网络系统集成设计，总公司、分公司地跨两个不同城市。

一实验需求完成公司网络系统集成设计（2000台电脑），总公司、分公司地跨两个不同城市二实验分析本次实验继续建立在实验三的基础之上，对其升级改造为地跨不同城市的总公司和分公司的大型局域网网建设。实验三配置点击链接&…

阅读更多...

经营软件公司五年，从外包到SaaS的踩坑笔记

经营软件公司五年，从外包到SaaS的踩坑笔记

文章目录摘要开公司的两个误区关于管理关于合作关于SaaS其他经验大和强是两码事。大不是目的，强才是。小步试错、慢慢迭代不要掉入流量陷阱摘要经营公司已有五年，经历了三年的疫情停滞，现在正在转型为一家SaaS公司。虽然曾经迷茫过&#xf…

阅读更多...

包装类，String，String的方法

包装类，String，String的方法

针对八种基本数据类型相应的引用类型-----包装类。有了类的特点，就可以调用类中的方法基本数据类型包装类booleanBoolean char CharacterbyteByteshortShortintIntegerlongLongfloatFloatdoubleDouble Byte---Double类的父类是Number 关系图拆箱，装箱 …

阅读更多...

推荐文章

最新文章