GloVe: Global Vectors for Word Representation论文笔记解读

news2024/11/15 12:58:16

基本信息

作者Jeffrey Penningtondoi10.3115/v1/D14-1162
发表时间2014期刊EMNLP
网址https://aclanthology.org/D14-1162.pdf

研究背景

1. What’s known 既往研究已证实
全局矩阵分解方法:LSA,考虑整个语料库词频的统计信息得到共现矩阵,通过矩阵分解得到潜在语义信息。【有效地利用了统计信息,但它们在单词类比任务上做得相对较差,这表明向量空间结构不是最优的。】

局部上下文窗口方法:skip-gram (以及cbow)。【在类比任务上做得更好,但它们很少利用语料库的统计数据,因为它们在单独的局部上下文窗口上训练,而不是在全局共出现计数上训练。】

2. What’s new 创新点
Glove模型:融合了当时最新的全局矩阵分解方法和局部文本框捕捉方法,即全局词向量表达,利用了全局词词共现矩阵中的非0数据来训练。

3. What’s are the implications 意义
这种新的词向量表达方法提高了很多NLP基础任务的准确率。

研究方法

1. GloVe
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
α 取值为0.75能得到最好的模型效果。

结果与讨论

  1. 该模型训练的高效性,且在语料库较小时,也能取得不错的效果。
  2. 窗口大小逐渐变大,GloVe词向量在语义任务表现最佳。
  3. 同时使用对称上下文对GloVe词向量在各个任务的表现有益处。

个人思考与启发

拓展学习:论文阅读 - Distributed Representations of Words
用来表示 word 的向量被称为 Embedding,因为这个词被嵌入到(embedded)了向量空间中。

重要图

文献中重要的图记录下来
图2:在类比任务上的准确性是向量大小和窗口大小/类型的函数。所有模型均在60亿令牌语料上进行训练。在( a )中,窗口大小为10 .在( b )和( c )中,向量大小为100。
展示了三个不同超参数对最终结果的影响。

第一个是保持窗口对称,且窗口大小固定的情况下,向量维度对最终模型表现的影响。可以看到最初随着维度增加,模型表现也愈佳,但是当维度增加到300以上后,模型表现没有很明显的变化。虽然semantic评估有略微增长,但是维度增加,对资源的消耗也会增加,所以考虑到成本,一般会选择300作为最终的维度。

第二个是指保持窗口对称,维度固定的情况下,窗口大小对模型的影响。

第三个是指窗口不对称,也就是说只考虑前面或者后面的单词,维度固定的情况下,窗口大小对模型的影响。
图4:词类比任务的总体正确率是训练时间的函数,它由GloVe的迭代次数和CBOW ( a )和skip - gram ( b )的负样本数决定。在所有情况下,我们在相同的6B token语料(维基百科2014 +千兆词5)上训练300维向量,词汇量相同为40万词,并使用大小为10的对称上下文窗口。
迭代次数越多越小,效果很稳定。

补充内容: 复习word2vec的核心思路

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1922945.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

访问 Postman OAuth 2.0 授权的最佳实践

OAuth 2.0 代表了 web 安全协议的发展,便于在多个平台上进行授权服务,同时避免暴露用户凭据。它提供了一种安全的方式,让用户可以授权应用程序访问服务。 在 Postman 中开始使用 OAuth 2.0 Postman 是一个流行的API客户端,支持 …

FlinkModule加载HiveModule异常

HiveModule这个模块加载不出来 加在不出来这个模块&#xff0c;网上查说是要加下面这个依赖 <dependency><groupId>org.apache.flink</groupId><artifactId>flink-connector-hive_${scala.binary.version}</artifactId><version>${flink.…

.Net Core 微服务之Consul(二)-集群搭建

引言: 集合上一期.Net Core 微服务之Consul(一)(.Net Core 微服务之Consul(一)-CSDN博客) 。 目录 一、 Consul集群搭建 1. 高可用 1.1 高可用性概念 1.2 高可用集群的基本原理 1.3 高可用集群的架构设计 1.3.1 主从复制架构 1.3.2 共享存储架构 1.3.3 负载均衡…

三维空间中的旋转方向(blender坐标系、python中两种旋转方式、VTK坐标系)

在三维空间中&#xff0c;旋转的方向 通常遵循右手定则&#xff08;右手螺旋法则&#xff09;&#xff1a; 右手握住旋转轴&#xff0c;拇指指向轴的正方向。 其余手指弯曲的方向就是正旋转方向&#xff08;被视为逆时针旋转&#xff09;。 当旋转角度为正值&#xff08;如90度…

基于pytesseract的OCR图片识别

简介 pytesseract是基于谷歌的tesseract的OCR包&#xff0c;支持识别一些简单的数字、字母、中文。 安装 安装引擎 下载地址&#xff1a;https://digi.bib.uni-mannheim.de/tesseract/ 一般是Windows 64位系统最新版&#xff1a; 如果要识别中文&#xff0c;注意选中中文…

数据结构(4.2)——朴素模式匹配算法

字符串模式匹配 在主串中找到模式串相同的子串&#xff0c;并返回其所在的位置。 子串和模式串的区别 子串&#xff1a;主串的一部分&#xff0c;一定存在 模式串&#xff1a;不一定能在主串中找到 字符串模式匹配 朴素模式匹配算法 主串长度为n&#xff0c;模式串长度为…

嵌入式C++、Qt/QML和MQTT:智能工厂设备监控系统的全流程介绍(附代码示例)

1. 项目概述 本项目旨在开发一套先进的智能工厂设备监控系统&#xff0c;集成嵌入式技术、工业通信协议和人机界面等多项技术&#xff0c;实现对工厂设备的全方位实时监控、高精度数据采集和智能化分析。该系统将显著提升工厂设备的运行效率&#xff0c;大幅降低维护成本&…

使用xacro作出摄像头和雷达

机器人模型由多个部件组成&#xff0c;可以将不同组建设置进单独文件&#xff0c;最终通过文件包含实现组建的拼装。 一、编写摄像头和雷达的xacro文件 二、组合文件 编写一个组合文件&#xff0c;组合底盘、摄像头和雷达 三、启动 搭建框架&#xff0c;创建三个文件 摄像…

Excel第31享:基于left函数的截取式数据裂变

1、需求描述 如下图所示&#xff0c;在“Excel第30享”中统计2022年YTD各个人员的“上班工时&#xff08;a2&#xff09;”&#xff0c;需要基于工时明细表里的“日期”字段建立辅助列&#xff0c;生成“年份”字段&#xff0c;本文说明“年份”字段是怎么裂变而来的。 下图为…

springboot 程序运行一段时间后收不到redis订阅的消息

springboot 程序运行一段时间后收不到redis订阅的消息 问题描述 程序启动后redis.user.two主题正常是可以收到消息的&#xff0c;发一条收一条&#xff0c;但是隔一段时间后&#xff1b;就收不到消息了&#xff1b; 此时如果你手动调用发送另外一个消息订阅redis.user.two2&…

解决elementUI列表的疑难杂症,排序显示错乱的问题

大家好&#xff0c;在使用elementUI表格时&#xff0c;有时会出现一些意料之外的问题&#xff0c;比如数据排序正常但表格显示、排序错乱等。在网上搜索后一般有2种解决方法&#xff1a;1.给表格每一项的el-table-column添加唯一的id用于区分。2.给表格每一项的el-table-column…

Linux安全技术与防火墙

一、安全技术和防火墙 1.1 安全技术 入侵检测系统&#xff1a;特点是不阻断网络访问&#xff0c;主要是提供报警和时候报警&#xff0c;不主动介入。 入侵防御系统&#xff1a;透明模式工作&#xff0c;对数据包、网络监控、服务攻击、木马蠕虫、系统漏洞等等进行准确的分析和…

全渠道AI智能商品管理软件平台 助力零售品牌占领技术高地

关于7thonline第七在线 1999年创立于纽约&#xff0c;7thonline第七在线全渠道AI智能商品管理平台&#xff0c;以先进的数学算法模型、人工智能和机器学习技术为核心驱动力&#xff0c;融合了众多零售商品管理的卓越实践经验&#xff0c;精心打造出一套深度适配零售业务场景的自…

JVM学习(day1)

JVM 运行时数据区 线程共享&#xff1a;方法区、堆 线程独享&#xff08;与个体“同生共死”&#xff09;&#xff1a;虚拟机栈、本地方法栈、程序计数器 程序计数器 作用&#xff1a;记录下次要执行的代码行的行号 特点&#xff1a;为一个没有OOM&#xff08;内存溢出&a…

RV1103 Luckfox Pico使用SPI NAND Flash烧录镜像

官网指导文档&#xff1a;https://wiki.luckfox.com/zh/Luckfox-Pico/Luckfox-Pico-RV1103/Luckfox-Pico-SDK 由于RV1103_Luckfox_Pico默认是使用sd卡烧录镜像的&#xff0c;但是给他焊了个spi nand flash&#xff0c;不用sd卡。 首先查看下flash信息 制作spi nand flash镜像…

微分方程建模

微分方程建模是数学建模的重要方法&#xff0c;因为许多实际问题的数学描述将导致求解微分方程的定解问题。在高教杯数学建模竞赛中每年都会有一道微分方程建模问题&#xff0c;大体上可以按以 下几步&#xff1a; 1. 根据实际要求确定要研究的量(自变量、未知函数、必要的参数…

第一百五十九节 Java IO教程 - Java输入流、文件输入流、缓冲输入流、推回输入流

Java IO教程 - Java输入流 抽象基本组件是InputStream类。 InputStream|--FileInputStream |--ByteArrayInputStream |--PipedInputStream|--FilterInputStream|--BufferedInputStream |--PushbackInputStream |--DataInputStream |--ObjectInputStream我们有FileInputStream&…

[Labview] 表格单元格外边框 二维图片叠加绘图

最终效果如下所示 转行做Labview都没到三个月&#xff0c;主程居然让我做这么复杂的功能&#xff0c;真是看得起我/(ㄒoㄒ)/~~ 思路大致分为两步 1、确定每个框体的左上/右下单元格位置&#xff0c;转换为表格表格坐标并在二维图片上绘制生成&#xff1b; 2、为二维图片添加…

【WebGIS】从设计层面设计系统

本项目在通过现代信息技术手段&#xff0c;对古村古镇进行多方位、多角度的数字化记录、展示与传播&#xff0c;实现文化遗产的数字化保护、活化利用与共享。项目内容主要包括&#xff1a;1&#xff09;古村古镇数据库的建立&#xff1a;通过多种渠道收集古村古镇的各类信息&am…

保时捷中石化油卡充值系统聚合支付系统源码

框架是java springboot 中石化 一个客户定制的。源码是java包需要有会java能力&#xff0c;前段时间运营的。 源码下载&#xff1a;https://download.csdn.net/download/m0_66047725/89520408 更多资源下载&#xff1a;关注我。