Bert and its family

news2024/9/22 23:32:44

 

 Bert没有办法一次性读入特别长的文本的问题。自注意力机制非常消耗时间和空间。

 

概率值最大取argmax,对应的下标

 

整体全部更新,所有参数都更新,比固定住pre-trained要好很多。

 

不做预训练,loss下降比较慢,收敛比较慢,而且有些时候还会有些问题

做了预训练就会平滑很多

 

左边非常陡峭,右边比较平缓

输入稍微改变一下,非常陡峭,loss跑的非常大,效果不好,泛化能力就不好

 

ELMo,双向LSTM

首先把句子正向读入一遍,得到一个embedding,反向读入一遍,得到一个embedding,然后将两个embedding concat,再去做我的下游任务。

实际在下层并不是双向的,我们可以这么想,假设LSTM有非常多层,在第一次的时候,单词从左往右,要预测w4,就是输入w4的时候,得到这个embedding,那这个embedding看到了后面的单词吗,没有,这个LSTM在第一层,从左往右是单向的。反向的LSTM也看不到左边的信息。所以在下层的时候并不是真正的双向,只是说,随着层数越来越高,越来越往上层走,最上面蓝色向量对双向信息越来越敏感

 

七八年前的word2vec非常像,唯一的不同点在,word2vec我们会设定一个窗口大小,只能看到左边两个、右边两个, 通过这些词的信息,来预测wt,Bert的窗口是无限的

Whole Word Masking

 

随机的选择多长的词被mask掉,是否会更好呢

 

 

 

XLNet

auto regressive角度

 auto encoder的角度

 

bart

 

 词被替换过

 

T5,非常庞大的计算任务

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/32803.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

BIM在工程中的20种典型功能

1、BIM模型维护 根据项目建设进度建立和维护BIM模型,实质是使用BIM平台汇总各项目团队所有的建筑工程信息,消除项目中的信息孤岛,并且将得到的信息结合三维模型进行整理和储存,以备项目全过程中项目各相关利益方随时共享。 由于…

Java 微信关注/取消关注事件

Java 微信关注/取消关注事件一、需求、思路二、文档、配置配置步骤1配置步骤2三、代码1、引入依赖包2、controller3、封装消息对象4、service、解密5、工具包一、需求、思路 需求:用户订阅/取消订阅公众号时接收消息并保存到数据库中以便后续功能的处理。 思路&…

【分类-SVDD】基于支持向量数据描述 (SVDD) 的多类分类算法附matlab代码

✅作者简介:热爱科研的Matlab仿真开发者,修心和技术同步精进,matlab项目合作可私信。 🍎个人主页:Matlab科研工作室 🍊个人信条:格物致知。 更多Matlab仿真内容点击👇 智能优化算法 …

机器学习-回归模型相关重要知识点

目录01 线性回归的假设是什么?02 什么是残差,它如何用于评估回归模型?03 如何区分线性回归模型和非线性回归模型?04 什么是多重共线性,它如何影响模型性能?05 异常值如何影响线性回归模型的性能&#xff1f…

Springboot Security 前后端分离模式自由接口最小工作模型

但凡讲解Springboot Security的教程,都是根据其本身的定义,前后端整合在一起,登录采用form或者basic。我们现在的很多项目,前后端分离,form登录已经不适用了。很多程序的架构要求所有的接口都采用application/json方式…

RabbitMQ顺序性、可靠性、重复消费、消息堆积解决方案

RabbitMQ顺序性、可靠性(消息丢失)、重复消费、消息堆积解决方案 顺序性 RabbitMQ使用过程中,有些业务场景需要我们保证顺序消费,例如:业务上产生三条消息,分别是对数据的增加、修改、删除操作&#xff0…

【Java八股文总结】之Linux常用指令

文章目录Linux简介一、Linux目录结构二、Linux常用指令Linux简介 一、Linux目录结构 bin(binaries):存放二进制可执行文件。 sbin(super user binaries):存放二进制可执行文件,只有root才能访…

怎么把图片转换成表格?分享三个简单方法给你

你们是否在工作的时候会遇到这样的情况:收到同事发来的一张表格图片,需要你进行汇总登记,通常这种时候,你们都会怎么做呢?是根据图片的内容,手动输入制作成一份表格吗?虽然这样子可以进行表格的…

c++ 旅行商问题(动态规划)

目录一、旅行商问题简介旅行商问题问题概述问题由来二、基本思路三、实现1、状态压缩2、状态转移四、代码复杂度分析一、旅行商问题简介 旅行商问题 TSP,即旅行商问题,又称TSP问题(Traveling Salesman Problem),是数学…

网络编程基础知识

文章目录1、网络概念2、协议3、网络分层4、网络传输流程5、端口号1、网络概念 先有计算机还是先有网络呢? 答案是先有计算机,为了数据研究和沟通的需求产生的网络,网络的产生是为了提升效率的。 那什么是网络呢? 网络指的是网络协…

实现一个自定义的vue脚手架

开发背景 博客很久没有更新了, 今天更新一个好玩的,等我将vue3的东西彻底搞明白我会更新一个vue3的系列,到时候会更新稍微勤一点,在使用vuecli的时候发现他的脚手架很有意思,用了几年了,但是一直没有好好研…

HTML CSS 网页设计作业「动漫小站」

HTML实例网页代码, 本实例适合于初学HTML的同学。该实例里面有设置了css的样式设置,有div的样式格局,这个实例比较全面,有助于同学的学习,本文将介绍如何通过从头开始设计个人网站并将其转换为代码的过程来实践设计。 文章目录一、网页介绍一…

Neon intrinsics 简明教程

文章目录前言SIMD & NEONNEON intrinsicsNEON intrinsics 学习资料寄存器向量数据类型NENO intrinsics 命名方式NEON Intrinsics 查询三种处理方式:Long/Wide/NarrowNENO intrinsics 手册Addition 向量加法Vector add: vadd{q}_type. Vr[i]:Va[i]Vb[i]Vector lo…

Python-Flask 模型介绍和配置(6)

Flask数据模型和连接数据库一、安装二、配置数据库连接、创建模型类三、使用命令创建数据库表四、以注册为例flask是基于MTV的结构,其中M指的就是模型,即数据模型,在项目中对应的是数据库。flask与数据库建立联系有很多方法,但一般…

《安富莱嵌入式周报》第292期:树莓派单片机100M双通道示波器开源,MDK5.38发布,万用表单芯片解决方案,8通道±25V模拟前端芯片,开源贴片拾取电机板

往期周报汇总地址:嵌入式周报 - uCOS & uCGUI & emWin & embOS & TouchGFX & ThreadX - 硬汉嵌入式论坛 - Powered by Discuz! 更新视频教程: GUI综合实战视频教程第3期:GUIX Studio一条龙设计主界面,底栏和…

【计算机毕业设计】32.学生宿舍管理系统源码

一、系统截图(需要演示视频可以私聊) 摘 要 随着计算机技术的飞速发展及其在宿舍管理方面应用的普及,利用计算机实现对学生宿舍管理势在必行。经过实际的需求分析,本系统采用Eclipse作为开发工具,采用功能强大的MySQL…

计算狗携手成都超算中心和重庆大学,共同助力“碳中和”

为了积极稳妥推进碳达峰碳中和,加快成渝双城经济圈建设。成都计算狗牵手国家超算中心和重庆大学,开展了关于二氧化碳电催化还原反应的路径计算工作,积极推动川渝两地实现产学研合作和成果落地转化,深入推进能源革命。 电催化还原二…

APS生产排单软件模拟排程功能

APS生产排单软件通过预先设定好相关基本资料与约束规则,当订单、机台、工具、材料、上下班时间等任何影响生产计划的因素变化后,执行“一键式排程计算”,系统即可生成生产详细排程。 通过选择不同的排产方案,可以实现不同的排程效…

3.60 怎么对OrCAD的网络标号进行统一批量修改?OrCAD中怎么设置复制位号的增加机制?

笔者电子信息专业硕士毕业,获得过多次电子设计大赛、大学生智能车、数学建模国奖,现就职于南京某半导体芯片公司,从事硬件研发,电路设计研究。对于学电子的小伙伴,深知入门的不易,特开次博客交流分享经验&a…

CANoe-vTESTstudio之Test Diagram编辑器(入门介绍)

1. 什么是Test Diagram编辑器 Test Diagram编辑器和Test Table编辑器不同 Test Table编辑器可以在编辑区域直接添加测试元素Test Case/Test Sequence/Test Fixture/Test Group,在CANoe软件的Test Unit里生成测试用例 Test Diagram编辑器以图形的方式定义实际的测试顺序、设…