机器学习:self supervised learning

news2024/11/18 13:28:08

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 340M 参数

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

BERT

自监督学习的目标跟目标越接近越好。
在这里插入图片描述
一个任务:预测句子中被mask的词:
BERT通过Masking Input来获得训练数据
在这里插入图片描述

mask有两种做法:

  • 将某个字token换成一个特殊符号(代表盖住)

  • 随机把某个字换成另外一个字
    在这里插入图片描述
    盖住的部分输出的向量作为Linear层的输入,然后送入softmax得到所有感兴趣词的概率分数。
    盖住的字就能作为标签
    在这里插入图片描述
    另外一个任务:预测下一句

  • cls

  • sep
    在这里插入图片描述
    两个句子应不应该接到一起,这项任务太简单了。改进的方法:RoBERTa,SOP(前后句子都能互相组队)
    在这里插入图片描述

使用BERT

  • 填空题
  • 预测下一句
    基于上面功能可以做一些downstream任务
    在这里插入图片描述
    用Pre-train训练,fine-tune Bert模型

模型评估

在这里插入图片描述
九个任务上的平均分是多少表示模型的好坏。
在这里插入图片描述
基于Bert模型,自然语言处理能力有比较大的提升。

使用

  • case1: 输入是序列,输出是类别。
    bert提取特征,加线性层+softmax分类,仍然需要一些标注数据
    在这里插入图片描述
    在这里插入图片描述

主要是学线性层的参数,bert得到的权重比随机初始化的要好。
在这里插入图片描述

  • case2: 输入是序列,输出也是序列,类似于输入,比如词性标注
    在这里插入图片描述
  • case3: 输入两个句子,输出一个类别,比如推理(基于输入能否推出某个论点)
    在这里插入图片描述
    在这里插入图片描述
  • case4: 问答系统(有点限制的问答,答案一定出现在文章里面)
    在这里插入图片描述
    输入一个问题,输出两个正整数,表示第s个字到第e个字作为答案。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    正确答案在文章中的起始位置和结束位置。
    把文章截成一小段一小段作为训练数据。

在这里插入图片描述

  • BERT
  • ALBERT

时间:

  • TPU V3 花费8天
    在这里插入图片描述
    在这里插入图片描述
    将句子弄坏,看看后续能不能还原出来。
    在这里插入图片描述
    在这里插入图片描述
  • T5 训练,公开数据1PB

BERT工作原理

将字转成embeeding后,相近的字特征空间里比较接近
在这里插入图片描述
计算特征之间的相似性:

在这里插入图片描述
在这里插入图片描述
BERT的输出,每个向量代表那个对应的输入的字。一个词汇的意思取决于上下文:
在这里插入图片描述
早期的cbow技术的思想与BERT的想法一样,word embedding, 两层线性层。Bert就是深度学习版本的cbow,还考虑上下问:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
DNA转成对应的文字,然后再做分类:
在这里插入图片描述
在这里插入图片描述

Multi-lingual BERT

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
用多种语言混合的训练填空题,结果在QA时候用英文训练,能够比较好的回答中文的QA;
在这里插入图片描述
不同语种之间相同意思在特征空间比较

在这里插入图片描述
在这里插入图片描述
两天没有变,一周突然就变了:
在这里插入图片描述
资料变多,训练效果就变好。

在这里插入图片描述
矛盾点:英文输出英文,中文输出中文,假如BERT能够学习不同语言的embedding,假如是英文句子空着的地方,为什么不推理出来的是中文呢?说明BERT还是能够识别出语种的差距:
在这里插入图片描述
加上差距后就能英文输入,中文输出:
在这里插入图片描述

GPT

任务是预测接下来后出现的token是什么
在这里插入图片描述
应用的是Transformer的decoder,不会看到之后的词:
在这里插入图片描述
有生成文字的能力:
在这里插入图片描述

使用

在这里插入图片描述
在这里插入图片描述

  • few shot learning
  • one-shot learning
  • zero-shot learning
    在这里插入图片描述
    在这里插入图片描述
    第3代GPT在42个任务上进行测试,效果还不是很好,但是在3.5及以后,效果基本上达到人类水平。
    GTP3的细节:
    在这里插入图片描述

其他方面

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
语音mask版本的bert和gpt,预测接下来出现的内容。缺评测的benchmark,文本类的有GLUE,语音上有superb
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/681853.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

chatgpt赋能python:Python程序怎么打包

Python程序怎么打包 Python作为一种功能强大的编程语言,它的很多应用都需要打包成可执行文件或者可以方便部署的代码。本篇文章将介绍Python程序打包的方法及步骤。 为什么需要打包? 分享代码或程序:当你编写了一个Python程序并且想要分享给…

【⑥MySQL多表查询】:让你的数据检索更高效

前言 ✨欢迎来到小K的MySQL专栏,本节将为大家带来MySQL中多表查询相关知识的讲解 目录 前言一、多表关系二、多表查询1、交叉连接2、内连接3、外连接 三、集合运算四、七种JOINS实现五、多表查询练习六、总结 一、多表关系 ✨项目开发中,在进行数据库表结…

MySQL生产环境高可用架构详解

一、MySQL高可用集群介绍 1、数据库主从架构与分库分表 随着现在互联网的应用越来越大,数据库会频繁的成为整个应用的性能瓶颈。而 我们经常使用的MySQL数据库,也会不断面临数据量太大、数据访问太频繁、数据 读写速度太快等一系列的问题。所以&#xf…

记录分享在10年老的商务本Dell E6230上安装Debian 12的过程,遇到的问题和解决方法

原先在笔记本上安装的是Debian 9,最近发现无法更新了,查一下发现,所有的“源”只支持deb10,11 和 12,所以特意订了一块新的硬盘来安装新系统,前后倒腾了两天多。 在此记录这个过程中遇到的问题和解决的方法…

Mysql主从复制和读写分离(期望日子清静,抬头皆是温柔)

文章目录 一、读写分离1.什么是读写分离?2.为什么要读写分离呢?3.什么时候要读写分离?4.读写分离原理5.读写分离方式(1)基于程序代码内部实现(2)基于中间代理层实现 二、主从复制1.主从复制与读写分离的关系2.mysql支持的复制类…

langchain源码阅读系列(一)之LLM输入输出管理

原文首发于博客文章OpenAI 文档解读 LangChain 主体分为 6 个模块,分别是对(大语言)模型输入输出的管理、外部数据接入、链的概念、(上下文记忆)存储管理、智能代理以及回调系统,通过文档的组织结构&#x…

如何编写一个最简单的 udp 版本的 echo server 和 echo client(小白也懂!)

目录 目的 第一步 编写Server(服务器) 第二步 创建Server的各类参数 第三步 实现具体的Server内容 第四步 编写Client(客户端) 实现具体的Client内容 总流程 总代码 源码下载 目的 我们编写一个udp 版本的 echo server 和 echo client 实现在自己电脑上通过客户端…

open【部署、使用教程】

目录 【1】创建证书 【2】安装openVPN-Server端并配置 【3】将证书移动到相对路径 【4】开启内核转发功能,否则会无法启动openVPN 【5】启动服务,加入开机自启 【6】启动后服务端会生成一个tun0的虚拟网卡,用于不同网段之间相互通信 【…

VUE2.0集成 Markdown 编辑器

Markdown编辑器的使用 这是一款基于Vue的markdown编辑器。既可以用来编辑Markdown语法,又可以用来解析 效果图,mavonEditor实现了Markdown集成 Markdown是一种标记语言,相较于word文档更加清晰方便,适合进行笔记等。将Markdown集成进入自己项…

Matlab使用S函数

什么是S函数? S-函数是系统函数(System Function)的简称,在 Simulink 中用非图形化的方式来描述一个模块。一个完整的S-函数结构体系包含了描述一个动态系统所需要的全部能力。使用S-函数用户可以向 Simulink 模型中添加自己的模块…

【PCB专题】Allegro中设置泪滴

PCB绘制完成后有时按需要对PCB进行添加泪滴的操作是非常必要的。 添加泪滴的作用主要是: 信号传输时平滑阻抗,减少阻抗的急剧跳变,避免高频信号传输时由于线宽突然变小而造成反射。 焊接时可以保护焊盘,避免多次焊接时焊盘的脱落,生产时可以避免蚀刻不均,以及过孔偏位出…

一键安装和导出当前Python项目的依赖包总结

创建python环境,配置一个python运行项目。在项目可以运行的环境下,导出该项目所依赖包到一个requirements.txt文档中。在另一个纯净环境中,快速批量安装项目所依赖的包,便于快速进行项目迁移 一、导出当前Python项目的依赖包1、方…

【数据结构与算法】3、虚拟头节点、动态数组的缩容、动态数组和单链表的复杂度、数组的随机访问

目录 一、虚拟头节点二、数组的随机访问三、动态数组、链表复杂度分析四、动态数组 add(E element) 复杂度分析五、动态数组的缩容 一、虚拟头节点 🌼 为了让代码更加精简,统一所有节点的处理逻辑,可以在最前面增加一个虚拟的头节点&#xf…

2023 年最佳 C++ IDE

文章目录 前言1. Visual Studio2. Code::Blocks3. CLion4. Eclipse CDT(C/C 开发工具)5. CodeLite6. Apache NetBeans7. Qt Creator8. Dev C9. C Builder10. Xcode11. GNAT Programming Studio12. Kite总结 前言 要跟踪极佳 IDE(集成开发环境…

嵌入式系统复习要点

目录 1、嵌入式系统的核心部分主要由硬件和软件两部分组成: 2、嵌入式系统硬件: 3、嵌入式处理器从体系上分类,可以分为冯诺依曼结构和哈佛结构两种: 4、几类常见的嵌入式处理器类型: 5、MCU组成结构:…

chatgpt赋能python:介绍:Python经典小游戏合集

介绍:Python经典小游戏合集 作为一门简洁易学、受到广泛喜爱的编程语言,Python已经在各个领域中得到了广泛应用,包括游戏开发。在这篇文章中,我们将为您介绍一些Python编程中的经典小游戏,让您感受到Python的多功能性…

idea乱码的相关问题

idea控制台乱码(即:tomacat等启动时的乱码) 第一步: 控制台tomcat启动信息乱码解决(红色字体) 1 在本地 tomcat 的配置文件中找到 logging.properties 文件设置日志输出的编码为 UTF-8 追加的配置信息为…

【Android复习笔记】Handler机制(一)

从 Android 初学者常见的一个错误开始: 导致这个错误的代码通常长下面这样: new Thread(){@Overridepublic void run() {new Handler(); } }.

chatgpt赋能python:Python编程中常见的问题和解决方案

Python编程中常见的问题和解决方案 Python作为一门高级编程语言,广泛用于数据分析、人工智能、Web开发等领域,然而在实际应用中我们不可避免地会遇到许多问题。在本文中,我们将探讨一些常见的Python编程问题以及解决方案。 1. 编码问题 Py…

碰撞检测算法详述

算法的分类 目录 一、基于空间域的碰撞检测算法分类 1. 基于图像空间的碰撞算法 2.基于几何空间的碰撞检测算法 (1)基于空间剖分算法 (2)裁剪扫掠法 (3)基于距离场的算法 (4)…