解锁概念测量类比完成任务如何改变词语表征

news2024/9/21 20:53:21

                欢迎来到雲闪世界。本文旨在讨论 word2vec 和 GloVe 算法的发展,因为这与这些算法的第二个应用目的有关:分析文本语料库中包含的概念。首先,根据 word2vec 算法的历史背景对其进行讨论。然后,描述类比完成任务,该任务突出了 word2vec 嵌入可能实现的语义算法的潜力。最后,将 GloVe 算法的发展与 word2vec 算法进行对比。

word2vec 算法 (Mikolov 等,2013a) 结合了两个主要技术见解:(1) 连续向量可用于表示语义信息 (2) 神经网络学习的内部表示具有概念意义。然而,当该算法于 2013 年推出时,语义信息的连续表示和内部表示的概念价值都不是新想法。更具体地说,在信息检索领域,潜在语义分析 (LSA;Deerwester 等,1990) 和潜在狄利克雷分配 (Blei 等,2003) 被提出作为统计方法,利用文本中潜在的语义信息来改进将单词视为指示特征(彼此独立存在)而不是有意义的符号(彼此相关存在)的方法。

此外,早在 1980 年代,人们就开始讨论神经网络在隐藏层中表示概念的能力(Hinton,1986 年)。虽然 Hinton(1986 年)讨论的概念不是使用现代词语表示法研究的那种人类可解释的概念(例如,Stoltz 和 Taylor,2019 年),但这项工作支持将在训练神经网络时学习到的内部表示用作非任意网络定义的概念,这些概念会在给定新数据时进行更新。尽管联结主义早期的工作具有理论见解,但它受到计算资源和数据可用性的限制,到 1990 年代,该领域进入了被称为 AI 寒冬的时代(McShane & Nirenburg,2021 年,第 1 章)。

然而,到了 2010 年代,大数据革命已如火如荼地展开,定量研究的重点开始从传统的数据建模技术(假设底层分布生成数据)转向算法技术(将底层分布置于黑匣子中)(Breiman,2001 年)。在这种背景下考虑神经语言建模时,可用的文本数据量超出了现有框架可以处理的处理能力。为了解决这个问题,Mikolov 等人(2009 年)发现,如果将训练分为两个步骤,语言模型的训练效率会更高:首先,可以通过简单的网络学习单词表示,然后,可以将这些表示作为输入传递给更复杂的网络,以便在单独的任务上进行进一步训练。

基于这一见解,Mikolov 等人 (2013a) 提出在以下任一任务中使用单层前馈神经网络对词语表征进行预训练:对于连续词袋 (CBOW) 任务,网络根据上下文预测单词;对于连续 skip-gram (SG) 任务,网络根据单词预测其上下文;在这两种情况下,上下文都定义为由中心词两侧可变数量的单词组成的窗口。Mikolov 等人 (2013a) 表明 SG 优于 CBOW(以及之前提出的两种方法),因此,SG 模型被扩展(Mikolov 等人,2013b)用于短语表征和进一步优化。具体而言,通过子采样,训练效率得到提高(由于训练期间预测频繁词的次数减少),并且学习了更规则的表征(由于频繁词对语义空间整体形状的拉动减少)。

除了将 word2vec 定位为可以解锁神经语言建模的预训练方法之外,Mikolov 等人 (2013a) 还提出了一种类比完成评估方案,强调了使用单词的连续表示可能进行的语义算法。在 Mikolov 等人 (2013a) 之前,单词表示质量通常通过检查具有相似表示的单词列表来评估(其中相似性定义为向量空间内的接近度,通常通过余弦距离计算);然而,Mikolov 等人 (2013a) 批评这种方法未能捕捉语言表现出的各种句法和语义相似性。例如,他们说,来自同一类别的单词之间的相似性(例如法国意大利这样的国家)可能很容易 在语义空间中捕捉,但他们询问其他关系(例如biggreater之间的屈折关系)是否可以在同一空间中很好地捕捉。为了解决这一限制,他们的测试评估了九种句法关系和五种语义关系的表示质量。

因为相似词列表对于一起评估各种类型的相似性是无效的(,相似词列表可能会显示以不同方式与给定单词相似的单词,但如果给定一个列表,则必须将这些差异区分开来),为了解决这个问题,Mikolov 等人(2013a)定义了一个类比完成任务,询问哪个单词D与单词C最相似,就像单词A与单词B最相似一样。通过这种方式,他们利用这样的洞察力来强制评估相似性类型:在语义空间内,可以执行诸如加法之类的简单向量运算,从而保留语义关系。语义空间的这一特征通常通过例如king − man + woman → queen来捕捉,自然语言处理文献及其他领域已对其进行了探索,以减轻偏见(例如 Caliskan,2016)和文化分析(例如 Kozlowski 等人,2019)。

鉴于 word2vec 作为预训练方法的价值以及它所实现的语义算法的奇特之处,此后不久就发表了一系列相关工作。也许最值得注意的是,Pennington 等人 (2014) 提出了用于单词表示的全局向量 (GloVe) 作为训练单词表示的替代方案。这项工作旨在通过阐明出现此类规律所需的属性来解决 word2vec 表示所捕获的语言规律起源的不透明性问题。为此,他们研究了不同类别的方法。更具体地说,根据 Pennington 等人 (2014) 的说法,有两类主要方法可用于训练单词表示:(1) 全局矩阵分解 (GMF) 方法(例如 LSA:Deerwester 等人,1990)和 (2) 局部上下文窗口 (LCW) 方法(例如 word2vec:Mikolov 等人,2013a、b)。 Pennington 等人 (2014) 坚持认为 LCW 方法没有充分利用词语与词语的共现,他们称其为“所有无监督学习词语表征的方法可用的主要信息来源” (p. 1533);然而,与 LCW 表征相比,使用现有 GMF 方法生成的表征在类比完成任务上表现不佳。

为了表明 word2vec 表示所展现的规律性并非 LCW 方法所特有,Pennington 等人 (2014) 构建了一个简单的共现概率矩阵,以表明可以直接从此类数据中提取语义信息。接下来,他们继续使用这个示例矩阵,讨论了共现概率比率的力量。如前所述,与原始共现概率相比,比率可以区分与探测词相关的单词和不相关的单词,重要的是,当以这种方式定义时,比率反映了类比任务的目标。换句话说,与原始概率不同,原始概率反映了 Mikolov 等人 (2013a) 批评的基本单词相似性任务,共现概率比率显示单词AB是否以相同的方式与单词C相似。最后,他们根据从更丰富的语料库计算出的共现率训练全局对数双线性回归模型,评估类比完成任务中得到的表征,并取得最佳性能。因此,通过将类比完成评估方案强加的类比结构作为数据预处理步骤,Pennington 等人 (2014) 表明 GMF 方法在类比完成任务中的表现优于 LCW 方法。

总而言之,虽然 word2vec 被提议作为一种有效的神经语言建模预训练方法,但它训练的表示很快就被改编用于文本分析,因为它们定义的语义空间具有有趣的特性。此外,GloVe 在围绕 word2vec 的不断增长的工作中被定位为一项改进,它更好地利用了共现统计,支持类比在文本分析中建立意义维度的价值。这样,尽管这些方法的预期目的不同,但它们也标志着解锁概念的经验测量的关键发展。

感谢关注雲闪世界。(亚马逊aws和谷歌GCP服务协助解决云计算及产业相关解决方案)

 订阅频道(https://t.me/awsgoogvps_Host)
 TG交流群(t.me/awsgoogvpsHost)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1974278.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【C语言篇】操作符详解(上篇)

文章目录 操作符详解(上篇)前言sizeof强制类型转换算术操作符赋值操作符逻辑操作符逻辑取反运算符逻辑与运算符逻辑或运算符 关系操作符自增自减操作符和-逗号表达式 操作符详解(上篇) 前言 操作符又被叫做运算符,是不…

深度学习中降维的几种方法

笔者在搞网络的时候碰到个问题,就是将特征维度从1024降维到268,那么可以通过哪些深度学习方法来实现呢? 文章目录 1. 卷积层降维2. 全连接层降维3. 使用注意力机制4. 使用自编码器 1. 卷积层降维 可以使用1x1卷积层(也叫pointwis…

AI新闻:近期AI领域最繁忙的一周!

本周AI领域发生了许多令人瞩目的大事,可以说是繁忙的一周了。下面我将为大家一一盘点这些精彩瞬间。 OpenAI的新功能和发展 高级语音功能:OpenAI开始推出全新的高级语音功能,之前展示时声音如同斯嘉丽约翰逊。这项功能已经开放给部分用户使用…

鸿蒙双向绑定组件:TextArea、TextInput、Search、Checkbox,文本输入组件,图案解锁组件PatternLock

对象暂不支持双向绑定, 效果: 代码: Entry Component struct MvvmCase {StateisSelect: boolean falseStatesearchText: String ""StateinputText: string ""StateareaText: string ""build() {Grid() {G…

「漏洞复现」百易云资产管理运营系统 comfileup.php 文件上传漏洞(XVE-2024-18154)

0x01 免责声明 请勿利用文章内的相关技术从事非法测试,由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失,均由使用者本人负责,作者不为此承担任何责任。工具来自网络,安全性自测,如有侵权请联系删…

武汉流星汇聚:亚马逊北美站引领中国跨境潮,全球商机触手可及

在当今全球跨境电商的浪潮中,亚马逊北美站以其独特的区域优势和强大的市场影响力,为中国跨境卖家提供了前所未有的发展机遇。根据最新统计数据显示,60%的中国跨境卖家将亚马逊视为他们海外拓展的首选平台,这一选择背后&#xff0c…

ASPCMS 漏洞

一、后台修改配置文件拿shell 登录后台后如下点击 点击保存并抓包 将slideTextStatus的值修改为1%25><%25Eval(Request(chr(65)))25><%25 放包&#xff08;连接密码是a&#xff09; 影响文件为 /config/AspCms_Config.asp 访问文件,使用工具连接

window10上配置typora图床

window10上配置typora图床 window10picgotypora 教程 picgo设定存储区域 picgo下载地址 安利一款截图贴图软件

Simulink代码生成:数学运算

文章目录 1 引言2 模块使用实例2.1 Math Function模块2.2 Trigonometric Function模块2.3 Abs模块 3 代码生成4 总结 1 引言 Simulink中提供了大量的数学运算模块&#xff0c;对应C语言中<math.h>中用于数学计算的函数&#xff0c;例如幂函数、开平方、三角反三角函数、…

FFmpeg源码:av_gcd函数分析

一、引言 公约数&#xff0c;是一个能同时整除几个整数的数。如果一个整数同时是几个整数的约数&#xff0c;称这个整数为它们的“公约数”&#xff1b;公约数中最大的称为最大公约数。对任意的若干个正整数&#xff0c;1总是它们的公约数。 公约数与公倍数相反&#xff0c;就…

数据科学 - 数据预处理 (数据清洗,结构化数据)

1. 前言 数据清洗与结构化数据在数据分析和机器学习项目中扮演着至关重要的角色。随着大数据时代的到来&#xff0c;数据的质量、准确性和可用性成为决定项目成功与否的关键因素。 数据清洗提高数据质量&#xff0c;保证数据集的一致性&#xff1b;促进数据分析与挖掘&#xf…

剪映课+短视频综合课程:抖音底层算法

课程内容&#xff1a; 01-直播回放精选&#xff1a;2024抖音4_5月新知识.mp4 02-直播回放&#xff1a;核心算法讲解.mp4 03-直播回放&#xff1a;推流人群顺序和赛马依据.mp4 04-直播回放&#xff1a;从0-1kw推流细节.mp4 05-直播回放&#xff1a;抖加投放①.mp4 06-直播回…

调试模式下如何调试看门狗?

大家在调试GD32 MCU系统的时候&#xff0c;若开了看门狗外设&#xff0c;是否会碰到进入调试模式看门狗就会咬狗造成无法调试的问题&#xff1f; 碰到这种情况&#xff0c;一般是将看门狗关闭&#xff0c;然后再进行调试&#xff0c;但这个时候看门狗外设就无法工作了&#xf…

SSH远程服务器MobaXterm PuTTY XShell Tabby

云服务器运维SSH远程工具软件&#xff0c; PuTTY 相比有很大的优势&#xff0c;有兼顾 SSH 和 FTP一体的工具。 SSH的软件&#xff0c;而且有支持 Mac 、Windows 、Linux等跨平台的。 1、XShell 官网地址&#xff1a;https://www.xshell.com/en/xshell/ 免费地址&#xff1a;h…

Kimi居然能做PPT了,是职场人的得力助手还是噱头满满?

你们有没有发现&#xff0c;Kimi最近搞了个大新闻——它竟然能做PPT了&#xff01;是的&#xff0c;你没听错&#xff0c;就是那个让我们又爱又恨的演示PPT。这不&#xff0c;我一看到公告&#xff0c;就激动得像打了鸡血&#xff0c;连夜把市面上其他的几款主流AI PPT产品测了…

数据工程解决的十大数据生命周期问题

欢迎来到雲闪世界。解决关键痛点的明确策略 使用Kandinsky 的AI 生成图像 在本文中&#xff0c;我想解决数据工程师在整个数据生命周期中使用管道时面临的一些最大挑战。了解如何管理数据生命周期是我们不断变化的领域的关键。作为一名数据工程师&#xff0c;我经常处理大量不同…

【Spring Boot】用 Spring Security 实现后台登录及权限认证功能

用 Spring Security 实现后台登录及权限认证功能 1.引入依赖2.创建权限开放的页面3.创建需要权限验证的页面4.配置 Spring Security4.1 配置 Spring MVC4.2 配置 Spring Security 5.创建登录页面6.测试权限 1.引入依赖 使用前需要引入相关依赖&#xff0c;见以下代码&#xff…

DeDe-cms 漏洞

一、文件管理上传shell 我们写一个一句话木马&#xff0c; 上传 点击访问后使用工具连接 连接成功 二、修改模板文件拿shell 找到index.html修改 保存,进行如下操作 更新html 访问返回的地址 拿工具连接 三、后台任意命令执行拿shell 写入一个木马 添加成功后点击代码 这里是文…

python-鼠标绘画线条程序

闲来无聊简单编写了一个绘图小程序。 主要思路 主要是基于Python中的内置模块turtle编写的&#xff0c;简单扩展了一下&#xff0c;通过绑定事件能够达到鼠标绘制、删除、存储已经绘制图案的线条这几个功能。 路径结构 -draw- define.py- main.py- myturtle.py使用 点住鼠…

zabbix7.0TLS-01-部署

文章目录 1 介绍1.1 架构1.2 主要概念和名词1.3 最新 7.0 TLS 版本的部分新特性更灵活的资源发现和管理 2 官方部署指导地址3 在 Rocky Linux 9 上安装 zabbix3.1 安装软件包3.2 创建初始化数据库3.3 配置zabbix-server3.4 启动Zabbix server和agent进程3.5 默认监听端口3.6 访…