Transformer学习笔记1

news2025/7/8 4:12:15

模型分类：

GPT类型： auto-regressive（decoder模型，过去时刻的输出也是现在的输入，例如要得到y8还需要知道y1到y7，但不能使用y9，例如用于文本生成任务）

GPT

GPT2

CTRL

Transformer XL

BERT类型：auto-encoding（encoder模型，对全部上下文有认识，例如序列分类任务）

bert

albert

distillbert

electra

roberta

BART类型： sequence-to-sequence(encoder-decoder模型，依靠输入的序列去生成新的序列；解码器使用特征向量组和已经产生的输出来预测新的输出，例如y3使用y1到y2；例如翻译任务)

BART

mBART

Marian

T5

encoder与decoder不共享权重，并且可以自己组合选择不同的预训练模型

语言模型：

models have been trained on large amounts of raw text in a self-supervised fashion

Self-supervised learning is a type of training in which the objective is automatically computed from the inputs of the model. That means that humans are not needed to label the data

transfer learning：the model is fine-tuned in a supervised way — that is, using human-annotated labels — on a given task.预训练虽然可以转移知识，但也会转移原模型的偏差。

Transformer架构

模型为编码器-解码器架构：编码器获得输入并构建其特征表达式；解码器利用编码器得到的特征和其他输入来得到最后的序列

Encoder-only models: Good for tasks that require understanding of the input, such as sentence classification and named entity recognition.

Decoder-only models: Good for generative tasks such as text generation

Encoder-decoder models or sequence-to-sequence models: Good for generative tasks that require an input, such as translation or summarization.

注意力机制attention is all you need

a word by itself has a meaning, but that meaning is deeply affected by the context, which can be any other word (or words) before or after the word being studied.

encoder:可以使用所有单词

decoder：只能使用已经输出的单词和全部的encoder的输出，例如翻译任务中，要得到y4需要知道y1到y3

attention mask： prevent the model from paying attention to some special words

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/168482.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Docker 容器监控

Docker 容器监控

目录 cAdvisor 安装cAdvisor 使用Prometheus监控cAdvisor cAdvisor暴露的Prometheus指标容器指标 1. 文档： 2. 指标硬件指标 1. 文档： 2. 指标： Node Exporter 安装Node Exporter 1. 启动容器，默认端口为9100 2. …

阅读更多...

2023免费电脑c盘磁盘数据恢复软件EasyRecovery

2023免费电脑c盘磁盘数据恢复软件EasyRecovery

无论是台式机还是笔记本电脑，我们都习惯将其划分成多个大小不一的磁盘，有的是用于安装系统，有的则是用于存储文件。今天小编就和大家解答一下关于电脑磁盘的问题，电脑只剩c盘是硬盘坏了吗，电脑突然就剩c盘怎么恢复。想…

阅读更多...

【BP靶场portswigger-客户端16】测试WebSockets安全漏洞-3个实验（全）

【BP靶场portswigger-客户端16】测试WebSockets安全漏洞-3个实验（全）

前言： 介绍： 博主：网络安全领域狂热爱好者（承诺在CSDN永久无偿分享文章）。殊荣：CSDN网络安全领域优质创作者，2022年双十一业务安全保卫战-某厂第一名，某厂特邀数字业务安全研究员&…

阅读更多...

CMMI落地4大工具助力CMMI3-5级高效落地

CMMI落地4大工具助力CMMI3-5级高效落地

CMMI落地4大工具近日正式上线，全面支持CMMI3-5级，助力CMMI高效落地。CoCode旗下的Co-ProjectV3.0智能项目管理平台全新发布：CMMI成熟度自测工具、量化管理工具（组织级过程改进工具和量化项目管理工具）、组织级过程资产…

阅读更多...

分享视频剪辑必备的三个素材软件（配音/文案/图片）

分享视频剪辑必备的三个素材软件（配音/文案/图片）

hello，大家好，相信现在很多小伙伴都需要制作视频，无论是从事短视频行业，还是单纯想分享生活视频的都需要对视频进行简单的处理吧？有时候会需要介绍视频内容或是给视频增加点配音，来让视频不那么单调&#x…

阅读更多...

C++11 解决内存泄露问题的智能指针：shared_ptr、unique_ptr、weak_ptr

C++11 解决内存泄露问题的智能指针：shared_ptr、unique_ptr、weak_ptr

我们经常听到内存泄漏，但是对这个抽象的概念一直没有什么理解，比如产生内存泄漏又将如何，我平时写程序从来不考虑这个等等。这篇的目的：第一，给大家实验实验内存泄露带来的问题，让大家直观感受内存泄露。第…

阅读更多...

[数据结构基础]链式二叉树及其前序、中序和后序遍历

[数据结构基础]链式二叉树及其前序、中序和后序遍历

一. 链式二叉树的结构和实现 1.1 链式二叉树的结构链式二叉树，即使用链来表示一颗二叉树。链式二叉树的存储又可分为二叉链和三叉链，其中二叉链存储节点数据、指向左子节点的指针和指向右子节点的指针，三叉链相对于二叉链多存储指向父亲节…

阅读更多...

一种基于肌电信号运动起点、波峰、终点实时自动检测的方法

一种基于肌电信号运动起点、波峰、终点实时自动检测的方法

一种基于肌电信号运动起点、波峰、终点实时自动检测的方法 (⊙o⊙)…，这篇是我写收费文章的第一篇。咱也尝试下知识付费，哈哈。先看下效果，在给定理想正弦波的情况下，可以准确识别到正弦波的起点、波峰和终点。机器实拍图如下。因为我的实际环境没有专利里面那么复杂，所…

阅读更多...

Android 蓝牙开发——基础开发（三）

Android 蓝牙开发——基础开发（三）

蓝牙开发这部分主要以 APP 端调用功能接口为开始，到 Framework 端的调用流程，最后到调用状态机结束，不涉及蓝牙协议栈的开发分析。一、BluetoothAdapter 1、APP获取适配器蓝牙权限 <mainifest><uses-permission android:name&…

阅读更多...

3.ESP32-S2/S3 USB 挂载SPI-SD，当作U盘使用，无线U盘

3.ESP32-S2/S3 USB 挂载SPI-SD，当作U盘使用，无线U盘

使用的 IDF_4.4 C语言开发 1.ESP32-S2/S3 USB烧录输出日志 2.ESP32-S2/S3 USB 挂载内部Flash，当作U盘使用，无线U盘 3.ESP32-S2/S3 USB 挂载SPI-SD，当作U盘使用，无线U盘目录1.打开 usb_msc_wireless_disk 工程 Confinguration2.…

阅读更多...

数学建模-数学规划（Matlab）

数学建模-数学规划（Matlab）

目录一、线性规划求解二、非线性规划问题三、整数规划（包括0-1规划） 四、最大最小化模型五、多目标规划模型注意：代码文件仅供参考，一定不要直接用于自己的数模论文中国赛对于论文的查重要求非常严格，代码雷同…

阅读更多...

微服务Spring Boot 整合 Redis 实现 UV 数据统计

微服务Spring Boot 整合 Redis 实现 UV 数据统计

文章目录⛄引言一、HyperLoglog基础用法⛅HyperLoglog 基本语法、命令⚡HyperLoglog 命令完成功能实现二、UV统计测试百万数据的统计☁️什么是UV统计⚡使用SpringBoot单元测试进行测试百万数据统计⛵小结⛄引言本文参考黑马点评项目在各个项目中，我们都可能需…

阅读更多...

DaVinci：限定器 - HSL

DaVinci：限定器 - HSL

调色页面：限定器Color：Qualifier限定器 - HSL Qualifier - HSL根据色相、饱和度和亮度等来选择画面上的对应区域，从而将二级调色与修饰限制在一定的范围。选择范围Selection Range拾取器Picker在检视器画面上按住并拖动，可以选择相…

阅读更多...

Linux FHS结构

Linux FHS结构

FHS是Filesystem Hierarchy Standard（文件系统层次化标准）的缩写，多数Linux版本采用这种文件组织形式，类似于Windows操作系统中c盘的文件目录，FHS采用树形结构组织文件。FHS定义了系统中每个区域的用途、所需要的最小构…

阅读更多...

格式化输出

格式化输出

1、golang不同输出语句的区别： 特点PrintPrintlnPrintf输出内容到控制台（终端输出）SprintSprintlnSprintf输出内容为字符串FprintFprintlnFprintf输出内容到文件特点输出内容不会换行。不能格式化字符串。输出内容换行,。不能格式化字符…

阅读更多...

【C语言进阶】枚举与联合体

【C语言进阶】枚举与联合体

目录一：枚举1.1：枚举类型的定义：1.1：枚举的优点：1.2：枚举的使用：二：联合（共用体）2.1：联合类型的定义：2.2：联合类型的特点&…

阅读更多...

cin、cin.getline(arr, size)、getline(cin, str)

cin、cin.getline(arr, size)、getline(cin, str)

一、cin使用空白（空格、制表符、换行符）来确定字符串的截止位置注意下方这段代码使用cin来接收姓名和甜点名，当我的名字长度大于一个单词长度时，cin直接按空格进行接收，将我输入的xiao接收到name中，wei接…

阅读更多...

swiftUI coreml deeplabv3去除背景

swiftUI coreml deeplabv3去除背景

现在手机的性能越来越好，好多深度学习的框架都能能够跑在手机上。因此就集成一下一个官方的深度学习model试一下。其他的框架生成的模型都能通过相应的工具转换成mlmodel用，转换也比较简单。下面以替换图像去背景为例，不过官方模型这个效果…

阅读更多...

概论_第3章_二维随机变量__边缘概率密度

概论_第3章_二维随机变量__边缘概率密度

边缘概率密度是二维随机变量中的重点内容， 经常作为一个重要的考点， 必须掌握。一定义对二维随机变量(X, Y) ,分量X, 或者Y的概率密度称为 (X, Y)的边缘概率密度，简称边缘密度，记为或者。边缘密度或者可由二维随机变量的密…

阅读更多...

什么是pod(容器组)

什么是pod(容器组)

pod（容器组） 术语中英文对照： 英文全称英文缩写中文翻译PodPod容器组ContainerContainer容器ControllerController控制器什么是 Pod 容器组？ Pod（容器组）是 Kubernetes 中最小的可部署单元。一个 Pod&a…

阅读更多...

推荐文章

最新文章