Transformer ZOOs:transformer在不同领域的应用

news2025/1/8 5:49:59

Natural Language Processing

Transformer:Attention is all you need URL(46589)2017.6

  • 提出Attention机制可以替代卷积框架。
  • 引入Position Encoding,用来为序列添加前后文关系。
  • 注意力机制中包含了全局信息
  • 自注意力机制在建模序列数据中的长期依赖关系方面表现出色,因为它能够在序列中的每个位置上计算所有其他位置的注意力权重,并且能够通过这些权重来捕获全局的语义信息。但其无法显式地建模序列中的局部结构。这意味着自注意力机制在处理某些序列数据时可能会出现一些问题,比如处理具有很强局部结构的序列时可能无法捕获这种结构的信息。
  • 详细见transformer
  • 【Transformer】10分钟学会Transformer | Pytorch代码讲解 | 代码可运行 - 知乎 (zhihu.com)
image-20230305172508153

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding URL(24662)2018.10

image-20230321165647106

Input/Output Representations

  • 采用WordPiece编码,又为了解决前后句子问题,BERT采用了两种方法去解决:

    • 在组合的一序列tokens中把**分割token([SEP])**插入到每个句子后,以分开不同的句子tokens。

    • 为每一个token表征都添加一个Segment Embedding来指示其属于句子A还是句子B。

  • 在每个序列队首位置添加一个**[CLS]标记,该分类token对应的最后一个Transformer层输出被用来起到聚集整个序列表征信息的作用(在之后的下游**任务中,对于句子级别的任务,就把C输入到额外的输出层中,对于token级别的任务,就把其他token对应的最后一个Transformer的输出输入到额外的输出层)

    image-20230321165921184

训练策略

  • Masked Language Model(MLM)改进了原始Transformer在预测时只能获取当前时刻前的信息,通过引入cloze(完形填空)的训练思路,让模型获得双向语言特征(部分语言问题本身需要通过获取双向信息才能达到更好的效果)。

  • Next Sentence Prediction(NSP),普通MLM任务只是倾向于对每个token层次的特征进行表征,但不能对相关token的句子层次特征进行表示,为了使得模型能理解句子间的关系,采用了NSP任务来进行训练。

    具体的做法是:对于每一个训练样例,我们在语料库中挑选出句子A和句子B来组成,50%的时候句子B就是句子A的下一句*(标注为IsNext),剩下50%的时候句子B是语料库中的随机句子(标注为NotNext)*。接下来把训练样例输入到BERT模型中,用**[CLS]对应的C信息**去进行二分类的预测。

Transformer-XL: Attentive Language Models beyond a Fixed-Length Context URL(1103)2019.1

  • Segment-Level Recurrence,对于每个被segment的序列,将前一个序列计算的隐状态序列进行缓存,并利用到当前状态下的前向计算中(可以缓存多个序列)

  • 提出相对位置编码:将序列每个位置信息表示为由位置偏移量和时间步数组成的向量,然后映射到固定的维度空间输入到注意力机制中

    image-20230321140028233

XLNet: Generalized Autoregressive Pretraining for Language URL (3062)2019.6

  • Permutation Language Modeling(随机置换语言模型),通过对序列进行permutation,让序列在以AR1模型进行输入的同时具备AE2模型能对上下文信息的优点,但此时位置编码需要修改,从而引入了Two-Stream Self-Attention。

    • 由于AR模型在处理序列时只能从左到右或从右到左,即使双向叠加效果也差于BERT,但是BERT的AE模型在推理过程又是看不到的,这导致性能丢失,从而通过PLM来平衡两个步骤。
  • Two-Stream Self-Attention,引入query stream和content stream,其中query stream是用来对随机置换的序列位置进行编码,以此具有位置关系信息。

    image-20230321135318606

Computer Vision

VIT:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale URL (976) 2020.10

image-20230321162924663
  • 采用将图片分为多个patch,再将每个patch投影为固定向量作为输入,为了更好的进行下游任务进行图像分类等操作,采用和[BERT](#Input/Output Representations)相似的操作,在输入序列最前面加一个**[CLS]**标记。从而,通过patch embedding将一个视觉问题转换为了一个seq2seq问题。

  • ViT(Vision Transformer)解析 - 知乎 (zhihu.com)

Pyramid Vision Transformer:A Versatile Backbone for Dense Prediction without Convs

[2102.12122] Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions (arxiv.org)

2023-11-17_10-51-15

2023-11-19_16-48-20

  • 利用了progressive shrinking pyramid,可以输出多分辨率的feature map,方便进行更多下游任务,通过人为限制kv的尺寸大小限制计算量
  • 使用层级式架构,能输出不同stage后的特征图,方便进行下游任务。

Swin Transformer : Hierarchical Vision Transformer using Shifted Windows URL (351) 2021.3

image-20230321183426196

  • 下采样的层级设计,能够逐渐增大感受野,从而使得注意力机制也能够注意到全局的特征

  • 滑窗操作包括不重叠的 local window,和重叠的 cross-window。不重叠的local windows将注意力计算限制在一个窗口(window size固定),而cross-windows则让不同窗口之间信息可以进行关联,达到更好的效果。

  • 论文详解:Swin Transformer - 知乎 (zhihu.com)

Object Detection

DETR: End-to-End Object Detection with Transformers URL(108) 2020.5

  • 绕过proposals、anchors、window center的传统目标检测方法,直接使用transformer的全局注意力实现对目标的预测,避免了一些人为因素影响的先验框。
  • 小物体不太好,其运行在分辨率最低的feature map上
  • set-based loss(实现端到端),采用匈牙利匹配
  • decoder中出现了cross attention,输入包含了object query 以及encoder的输出
  • Object queries是一个可学习的向量(num, b,dim)Num是人为给的值,这个东西的作用和cls token类似,也是在整合信息,远大于图片内物体数量。
  • end2end 丢弃Transformer,FCN也可以实现E2E检测 - 知乎 (zhihu.com)
  • (6) DETR - End to end object detection with transformers (ECCV2020) - YouTube

image-20230321185015283

Deformable DETR: Deformable Transformers for End-to-End Object Detection URL(183)2020.10

  • 引入多尺度特征,解决了DETR在小物体上检测的问题。

Footnotes



  1. AutoRegressive language model ↩︎

  2. AutoEncoder language model ↩︎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1242719.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

permission is only granted to system apps 权限错误提示处理

permission is only granted to system apps 消除清单文件中的权限Permission is only granted to system apps 错误 在manifest文件中我们注册一些权限,当我们用到某些权限是会有一个错误提示:Permission is only granted to system apps,该…

IDEA的插件市场无法打开,无法连接到https://plugins.jetbrains.com/

1:网上搜到的: 在这里测试https://plugins.jetbrains.com/ 能否连接到,可以的话就成功,但是我一直失败,网络配置与防火墙也没问题。 2:我成功的方法: 把这个勾取消再测试,成功&…

创建文件夹的shell脚本

作者:朱金灿 来源:clever101的专栏 为什么大多数人学不会人工智能编程?>>> 很简单,先判断文件夹是否存在,不存在则创建。具体如下: #!/bin/bash # 判断文件夹是否存在 if [ ! -d "$folder…

nn.linear()的用法

https://blog.csdn.net/zhaohongfei_358/article/details/122797190

如何使用ArcGIS Pro制作一张陆地和海洋对调后图

你是否有想过如果海洋和陆地对调一下——陆地变海洋,海洋变陆地后的世界地图会是什么样子,对于这个大胆的想法,我们可以通过ArcGIS Pro来制作地图,这里为大家介绍一下制作方法,希望能对你有所帮助。 数据来源 本教程…

经常喝羊奶,羊大师告诉你会有何不同

经常喝羊奶,羊大师告诉你会有何不同 羊奶,与人们日常饮用的牛奶相比,一直都没有得到足够的关注。然而,羊奶在一些特定方面却具有独特的优势。它不仅具有丰富的营养价值,还有助于提升人体的健康水平。本文小编羊大师将…

如何正确接入API接口通过淘宝商品ID和sku ID获取到淘宝商品SKU信息接口,可获取sku价格,sku销量,sku图片及sku库存参数等

接入API接口的正确方式可能因API的具体要求而有所不同,但一般来说,以下是一些通用的步骤: 获取API文档:API文档通常包括API的请求方式、请求参数、响应格式等信息。您需要仔细阅读文档,了解API的具体要求和使用方式。…

苹果怎么关闭悬浮球?让我来解答您的疑惑!

悬浮球是苹果设备上的一种可进行自定义的快捷操作功能,它可以位于手机屏幕的任意位置,以浮动的方式显示。然而,有时候悬浮球对某些朋友来说可能会变得多余,那么苹果怎么关闭悬浮球呢?接下来,小编将为大家揭…

ATFX汇市:11月美联储会议纪要提振美指,但中期跌势或将延续

ATFX汇市:11月21日公布的11月美联储利率决议会议纪要提到:过去一年通胀有所缓和,但目前通胀仍然高得令人无法接受,远高于委员会 2% 的长期目标;在消费者支出激增的推动下,第三季度实际 GDP 出人意料地强劲增…

maxwell采集数据到kafka报错

问题: 启动maxwell后出现数据更新后就出现以下报错。 13:29:14,727 ERROR MaxwellKafkaProducer - TimeoutException Position[BinlogPosition[binlog.000002:12215591], lastHeartbeat1700717043797] -- maxWellData: medical:consultation:[(id,212)] 13:29:14,7…

教育机构拒绝“数据陷阱”,群硕将英孚新一代教学管理系统搬上桌

为什么小机构年年担心招生不够,英孚却令学生家长趋之若鹜? 区别就在教学管理方式。为了更好地管理分布全球的校区、学生和老师,英孚应用了一套教学管理系统,帮助学校管理学员,帮老师智慧排课,帮助家长记录…

《实现领域驱动设计》笔记——上下文映射图

一个项目的上下文映射图可以用方式来表示。比较容易的一种是画一个简单的框图表示两个或多个限界上下文之间的映射关系。该框图表示了不同的限界上下文在解决方案空间中是如何通过集成相互关联的。另一种更详细的方式是通过限界上下文集成的源代码实现来表示。 上下文映射图为什…

section header

section header table 是一个section header的集合,每个section header是一个描述section的结构体。在同一个ELF文件中,每个section header大小是相同的。 每个section都有一个section header描述它,但是一个section header可能在文件中没有…

小白也看的懂的爬取视频操作

1.获取一段视频 可以直接从抖音下,也可以从b站上爬取(注意法律谢谢) 保护原创 b站的视频 直接复制网址链接到哔哩哔哩(bilibili)视频解析下载 - 保存B站视频到手机、电脑 去就好了,

Python计算DICOM图像两点真实距离

Python计算DICOM图像两点真实距离 对比测量结果图Code对比测量结果图 DICOM阅读器(小赛看看)测量结果 python测量结果 Code import numpy as np import cv2 import math import pydicom from pydicom.pixel_data_handlers.util import convert_color_spaceds = pydicom.dc…

YOLOv5 分类模型 预处理 OpenCV实现

YOLOv5 分类模型 预处理 OpenCV实现 flyfish YOLOv5 分类模型 预处理 PIL 实现 YOLOv5 分类模型 OpenCV和PIL两者实现预处理的差异 YOLOv5 分类模型 数据集加载 1 样本处理 YOLOv5 分类模型 数据集加载 2 切片处理 YOLOv5 分类模型 数据集加载 3 自定义类别 YOLOv5 分类模型…

OpenCV入门10——特征点检测与匹配

文章目录 特征检测的基本概念Harris角点检测Shi-Tomasi角点检测SIFT关键点检测SIFT计算描述子SURF特征检测OBR特征检测暴力特征匹配FLANN特征匹配实战flann特征匹配图像查找图像拼接基础知识图像拼接实战 特征点检测与匹配是计算机视觉中非常重要的内容。不是所有图像操作都是对…

腾讯又出王炸产品!使用混元大模型进行数据报表测试

最近腾讯出了自己的大模型,命名混元。 现在已经开始内测,感谢腾讯小伙伴卢晓明同学帮我们提前申请到了内测机会,接下来我们用腾讯混元大模型与实际工作结合,开始我的报表测试之旅。 腾讯混元大模型官方入口:https://hunyuan.ten…

深入了解前馈网络、CNN、RNN 和 Hugging Face 的 Transformer 技术!

一、说明 本篇在此对自然语言模型做一个简短总结,从CNN\RNN\变形金刚,和抱脸的变形金刚库说起。 二、基本前馈神经网络: 让我们分解一个基本的前馈神经网络,也称为多层感知器(MLP)。此代码示例将&#xff1…

玻色量子“揭秘”之集合划分问题与QUBO建模

摘要:集合划分问题(Set Partitioning Problem)是一种组合优化问题,其中给定一个集合S和其若干个不同的子集S1,S2,...,Sn后,需要找到子集的有效组合,使得集合S的每个元素正…