将一段文本映射到低纬向量空间

news2024/10/6 12:34:42

文本表示学习就是将一段文本映射到低纬向量空间,获取句子的语义表示,大致经历过四个阶段:

  • 阶段 1:统计类型,此阶段比较典型的是利用 TD-IDF 抽取关键词,用关键词表示表征整个句子。

  • 阶段 2:深度模型阶段,此阶段方式较多,自从 glove、word2vec 等词粒度的表示出现后,在此基础有比较多的魔改,从对句子中的词向量简单平均、到有偏平均 SIF [1],后来引入 CNN、LSTM 等模型利用双塔、单塔方式进行学习句子表示,比较典型的几个工作有:

  • 微软在排序搜索场景的 DSSM [2],将 word 进行 hash 减少词汇个数,对 word 的表示进行平均得到句子原始表达,经过三层 MLP 获取句子表示。

  • 多伦多大学提出的 Skip-Thought [3],是 word2vec 的 skip-ngram 在句子表达的延伸,输入三个句子,用中间一句话,预测前后两句话。

  • IBM 的 Siam-CNN [4],提出了四种单塔、双塔不同的架构,利用 pairwise loss 作为损失函数。

  • facebook 的 InferSent [5],在双塔的表示基础上,增加了充分的交互。

  • 阶段 3:Bert、Ernie 等预训练大模型阶段,在此阶段比较基础典型的工作有:

  • 由于 Bert 通过 SEP 分割,利用 CLS 运用到匹配任务场景存在计算量过大的问题,Sentence-BERT [6] 提出将句子拆开,每个句子单独过 encoder,借鉴 InferSent 的表示交互,来学习句子表达。

  • 阶段 4:20 年在图像领域兴起的对比学习引入到 NLP。

2.2 对比学习

对比学习是一种模型架构,也是无监督学习的一种,最开始是应用到了 CV 领域,通过对 M 图片进行数据增强得到 N 图片,将 M 和 N 图片输入 encoder 后得到表示 Vm 和 Vn,如果两个表达相近则说明 encoder 学习的效果比较好。

图片 图片 图片 图片

比如上面四张图片,对于有监督的分类任务来说,需要分辨出每张图片到底是孙悟空还是猪八戒,训练数据需要具体标注出每一张图片的 label。而对于无监督的对比学习来说,不需要区分图片是孙悟空还是猪八戒,只需要学习的表示能够表达前两张图片是相似的,后两张图片是相似的即可,也就是『相似的东西表示越相似,不相似的东西越不相似』。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/28301.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MySQL数据库增删改查进阶 — 聚合查询、分组查询、联合查询

文章目录1.聚合查询1.1 count 函数1.2 sum 函数1.3 avg 函数1.4 max 和 min 函数2.分组查询2.1 group by 子句2.2 分组查询可以指定条件2.2.1 分组之前,指定条件2.2.2 分组之后,指定条件2.2.3 分组前后都指定条件3.联合查询3.1 笛卡尔积3.1.1 笛卡尔积中…

YourKit Java Profiler 2022.9.X Crack

YourKit Java Profiler 2022.9.X Crack 从 CPU 和内存利用率的角度分析您的程序非常重要。它允许您最大限度地提高自身性能并限制其对服务器系统工具的影响,这将始终受到最终用户的重视。 在 YourKit Java Profiler 的支持下,可以很容易地运行基于 Java…

传奇单机架设教程及游戏GM设置方法

传奇技术教学 第二课:传奇单机架设教程及游戏GM设置方法 架设前关杀毒 确保自己的热血传奇客户端是13周年以后的 最好用最新的. 不要使用已经淘汰的10周年客户端和微端客户端 否则会出现显示不全情况. 注意HERO引擎版本在登录器方面不支持WIN8及WIN10系统的. 若你是以上系统…

Linux资源限制命令—ulimit

ulimit功能简述 假设有这样一种情况,当一台 Linux 主机上同时登陆了 10 个人,在系统资源无限制的情况下,这 10 个用户同时打开了 500 个文档,而假设每个文档的大小有 10M,这时系统的内存资源就会受到巨大的挑战。而实…

市面上主流源表软件全面对比,总有一款适合你!

在电测行业中,在对高精度的电压、电流或电流电压源进行测量扫描时就要请出我们的小伙伴“源表“。 它精确的采集能力以及为各种低电平测量应用提供额外的灵活性让它成为了电测行业中不和或缺的一员。而作为和它配合的搭档源表软件也在电测行业中有着重要的作用。 …

【排序专题】不会吧,不会吧居然还有人不懂排序算法?有彩蛋哦

文章目录1. 冒泡排序2. 选择排序3. 简单插入排序4. 希尔排序-->简单插入排序演变5. 归并排序(递归版本)6. 归并排序(非递归版本)7. 荷兰国旗问题8.由荷兰国旗问题进而引出快速排序 and 快速排序1.0版本9.快速排序2.0版本(挖坑法)10.快速排序 3.0版本(随机取数法)11.堆排序12…

AOP结合注解实现项目中接口调用情况监控

一、概述 项目中经常会遇到这样一个需求,需要监控每个controller中接口被调用的情况。 比如某个接口被调用的时间,哪个用户调用的,请求参数是什么,返回值是什么等等。 并且调用情况需要存储到数据库中,此时就可以AO…

三十二、Java LinkedList

Java LinkedList 链表(Linked list)是一种常见的基础数据结构,是一种线性表,但是并不会按线性的顺序存储数据,而是在每一个节点里存到下一个节点的地址。 链表可分为单向链表和双向链表。 一个单向链表包含两个值: 当…

JavaEE——Servlet中的session

之前的博客中提到,cookie是为了浏览器能够在本地保存数据而产生的机制,是在浏览器工作的。而session则是与之对应的,在客户端工作的。一个服务器对应多个客户端,每个客户端都有自己的session,以sessionId为key&#xf…

python进阶(28)import导入机制原理

前言 在Python中,一个.py文件代表一个Module。在Module中可以是任何的符合Python文件格式的Python脚本。了解Module导入机制大有用处。 1. Module组成 一个.py文件就是一个module。Module中包括attribute, function等。 这里说的attribute其实是module的global vari…

[ros2实操]2-ros2的消息和ros1的消息转换

记录一下ros2和ros1消息互传的操作 !!!需要注意的是,只有ros1订阅了相关ros2的消息时,ros1_bridge节点才会转发相关消息. 参考链接 1,docker镜像链接:待定 2,github教程:Bridge communication between ROS 1 and ROS 2 一.准备步骤 为在自己原来的系统ubuntu1804上同时安装…

[附源码]SSM计算机毕业设计基于ssm的电子网上商城JAVA

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

通过五个维度比较分析关键容灾技术

【摘要】每一种容灾技术方案,可以从实现的技术复杂度、需要投入的成本、需要承担的风险、技术的先进性、技术的成熟度等几个方面来综合评估,寻求适合企业的最佳技术组合方案。本文对几类关键容灾技术进行了比较分析。(文中涉及相关技术产品最新参数请以官网最新发布为准) …

【SpringBoot】SpringBoot开启MyBatis缓存+ehcache(一二级缓存和myBatis的差不多,第三方缓存是jar包的不一样)

文章目录第三方缓存1、导jar包2、配置文件ehcache.xml3、EnableCaching开启缓存4、application.yml读取配置文件5、使用缓存(注解Cacheable)Cacheable的三个属性:value、key和condition▶测试:root对象可以用来生成keyCachePutCac…

LeetCode HOT 100 —— 4.寻找两个正序数组的中位数

题目 给定两个大小分别为 m 和 n 的正序(从小到大)数组 nums1 和 nums2。请你找出并返回这两个正序数组的 中位数 。 算法的时间复杂度应该为 O(log (mn)) 思路 正序数组,立即推—>二分查找 如果本题不要求时间复杂度O(log…

光点数据可视化解决方案,助力新型智慧城市打造_光点科技

随着城市化进程的快速发展,智慧城市逐渐从理论理念演变为实践。智慧城市作为一个极其复杂的城市数字化建设和运营系统,涵盖了大量的智能交通、智能物流、智能公园等子系统。对于智慧城市解决方案提供商和集成商来说,其数据可视化产品的统一监…

View的绘制流程

view的绘制流程主要为measure,layout,draw三个阶段 View与window的逻辑结构如图所示: ViewRootImpl(替代ViewRoot)类,是连接WindowMannager和DecorView的纽带,View的三大流程均是通过ViewRoot完…

godoc安装与go文档查询

前言 最近在用go语言做项目,语法还是很简单的,但是API不熟悉,😅,另外也没有类似Java的Spring这样的独秀的IOC和AOP框架,灵活度很大,经常需要查询文档,但是godoc从go1.14.2开始就从内…

【CNN】MobileNet——卷积神经网络中轻量级的经典

前言 MobileNet 系列 是 Andrew G. Howard(Google Inc.) 等人于 2017 年(其实是 2016 年先于 Xception 已经提出,但是直到 2017 年才挂到 arXiv 上)在 MobileNets: Efficient Convolutional Neural Networks for Mobi…

干货 | 如何在子查询和联接之间选择

在 联接与子查询:哪个更快?文章我们了解到连接往往比子查询执行得更快。话虽如此,这并不是一条通用准则,因此你可能不希望自动假设联接更可取。正如那篇文章中提到的,如果你需要在查询添加许多联接,数据库服…