NLP:词义分布的空间维度——从文本符号到词向量表征

news2024/12/23 17:46:57

自然语言处理的前提是文本表示(Representation),即如何将人类符号化的文本转换成 计算机所能“理解”的表征形式。早期的自然语言表征主要采用离散表示。近年来,随着深度 学习的不断发展,基于神经网络的分布式词向量技术在对海量语料进行算法训练的基础上, 将符号化的句词嵌入到低维的稠密向量空间中,在解析句法与分析语义等方面都显示出强大 的潜力与应用效果。 分布式词向量表征的核心思路是通过大量的上下文语料与算法学习,使得计算机能够自 动构建上下文与目标词之间的映射关系。其主要思想是词与上下文信息可以单独构成一个可 行的语义向量,这种假设具有深刻的语言学理论根源。泽利格·哈里斯(Zellig S. Harris, 1954)提出分布假说(Distributional Hypothesis),认为分布相似的词,其语义也相似,这成 为早期词向量表征的理论渊源之一。伦敦学派奠基人弗斯(John Rupert Firth,1957)继承并 发扬了人类学家布罗尼斯拉夫·马林诺夫斯基(Bronislaw Malinowski)的“情景语境”(Context of Situation)理论,提出语境对词义的重要作用,为词向量的分布式表示与语义计算提供了 思想基础。在分布假说与情景理论的基础上,词向量通过神经网络对上下文,以及上下文和 目标词之间的关系进行语言建模,自动抽取特征,从而表达相对复杂的语义关系并进行语义 计算。

2. 词的表征 作为表达语义的基本单位之一,词是自然语言处理的主要对象。进行词向量运算的前提 是要将人类符号化的词进行数值或向量化表征。目前的词表征方式主要有离散式和分布式两 种。

2.1 离散表示(One-hot Representation)

传统的基于规则的统计方法通常将词用离散的方式表示。这种方法把每个词表示为一个 长向量①,这个向量的维度由词表②大小确定,并且该向量中只有一个维度的值为 1,其余维 度的值都为 0。例如,一个语料库 A 中有三个文本,如下: 文本 1: never trouble trouble until trouble troubles you. 文本 2: trouble never sleeps. 文本 3: trouble is a friend. 那么,该语料库的词表便由[never, trouble, until, you, sleep, is, a, friend]八个单词组成。每 个单词可以分别表示成一个维度为八的向量,根据单词在词表中所处的位置来计算,具体如 下:{“never”: [1 0 0 0 0 0 0 0]}、{“trouble”: [0 1 0 0 0 0 0 0]}、…、{“a”: [0 0 0 0 0 0 0 1 0]}、 {“friend”: [0 0 0 0 0 0 0 0 1]}。可以发现,随着语料库的变大,词表也随之增大,每个词维度 也会不断变大,每个词都将成为被大量 0 所包围的 1。因此,这种稀疏的表达方式又被形象 地称为独热表示。离散表示相互独立地表示每个词,忽略了词与词在句子中的相关性,这与 传统统计语言学中的朴素贝叶斯假设③不谋而合。然而,越来越多的实践表明,离散表达存 在两大缺陷。首先是“语义鸿沟”现象,由于独热表示假定词的意义和语法是互相独立的,这 种独立性显然是不适合词汇语义的比较运算,也不符合基本的语言学常识,因此,整篇文本中容易出现语义断层现象。例如我们知道“端午节”与“粽子”是有联系的——端午节通常应该 吃粽子。但是这两个词对应的离散向量是正交的,其余弦相关度为 0,表明两者在相似度上 没有任何关系;其次是“维度灾难”,随着词表规模的增加(视语料大小,一般会达到十万以 上),词向量的维度也会随之变大,向量中的 0 也会越来越多,这种维度的激增会使得数据 过于稀疏,计算量陡增,并对计算机的硬件和运算能力提出更高的要求。 2.2 分布式表示(Distributed Representation) 为解决离散表示的两大局限性,机器需要通过分布式表示来获得低维度、具有语义表达 能力的词向量(Hinton, 1986; Bengio et al. 2003)。分布式表示一般有两种方法:基于统计学 和基于神经网络(详见后文三)。早期,分布式词向量的获取主要通过统计学算法,包括共 现矩阵、奇异值分解等。近年来,随着深度学习技术的不断成熟,神经网络开始被用于训练 分布式词向量,取代了早期的统计方法。目前分布式词向量通常特指基于神经网络获取的低 维度词向量。这种词向量表示的理论源于哈里斯分布假设(Harris, 1954):上下文相似的词, 其语义也相似。分布式表示通过统计或神经网络的方法构建语言模型并获取词向量,具体方 法为利用词和上下文的关系,通过算法将原本离散式的词向量嵌入到一个低纬度的连续向量 空间中,最终把词表达成一个固定长度④的短向量。因此,这种表示方法也被称为词嵌入 (Word Embedding)。此外,根据分布假设——出现在类似上下文中的单词具有类似的语义, 词嵌入利用上下文与目标词的联合训练,可以获取词语的某种语义表达。例如,通过 Python 程序引入 Word2Vec 包并加载训练好的 60 维词向量模型,获得的词嵌入的形式如下:“never” [1.6839292, 0.14593178, …, 0.5776881]。 In[1]: from gensim.models import Word2Vec # 引入 Word2Vec 包 mode = Word2Vec.load(“word60.model”) # 加载训练好的 60 维词向量模型 mode[“never”] # 获取“never”的词向量 

*词嵌入结果基于 Li 等(2018)的 Word2Vec 预训练词向量 3. 词向量训练与语言模型 目前的词表示很少采用离散表示,一般采用分布式表示。分布式词向量的获取方式可分 为两种:基于统计的方法和基于神经网络的方法。 3.1 基于统计的方法 3.1.1 共现矩阵

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/653047.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

对象存储?CRUD Boy实现对文件的增删改查

大家好!我是sum墨,一个一线的底层码农,平时喜欢研究和思考一些技术相关的问题并整理成文,限于本人水平,如果文章和代码有表述不当之处,还请不吝赐教。 以下是正文! 对象存储是什么&#xff1f…

代码随想录算法训练营第五十九天|503.下一个更大元素II|42. 接雨水

LeetCode503.下一个更大元素II 基本思路:本题思路与739.每日方法思路相似,但是需要使用到循环数组,将两个nums数组拼接在一起,使用单调栈计算出每一个元素的下一个最大值,最后再把结果集即result数组resize到原数组大…

java 高校宿舍管理系统Myeclipse开发mysql数据库web结构jsp编程计算机网页项目

一、源码特点 java 高校宿舍管理系统是一套完善的java web信息管理系统,对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采用B/S模式开发。开发环境为 TOMCAT7.0,Myeclipse8.5开发,数据库为Mysql5.0…

第六章 番外篇:webdataset

参考教程: https://github.com/pytorch/pytorch/issues/38419 https://zhuanlan.zhihu.com/p/412772439 https://webdataset.github.io/webdataset/gettingstarted/ 文章目录 背景WebDatasetwebdataset的生成webdataset的加载示例代码 背景 训练数据通常是以个体的…

霹雳吧啦 目标检测 学习笔记

霹雳吧啦Wz的个人空间-霹雳吧啦Wz个人主页-哔哩哔哩视频 目标检测篇github地址;GitHub - WZMIAOMIAO/deep-learning-for-image-processing: deep learning for image processing including classification and object-detection etc. 数据集 实例分割vs语义分割&a…

【强烈推荐】 十多款2023年必备国内外王炸级AI工具 (免费 精品 好用) 让你秒变神一样的装逼佬感受10倍生产力 (7) AI语言模型

🚀 个人主页 极客小俊 ✍🏻 作者简介:web开发者、设计师、技术分享博主 🐋 希望大家多多支持一下, 我们一起进步!😄 🏅 如果文章对你有帮助的话,欢迎评论 💬点赞&#x1…

云安全的第一站:CSPM

在企业数字化转型和云计算技术的加持下,企业上云趋势势不可挡。与此同时,数据量加大,网络攻击日趋频繁,对企业来说,包括云计算安全在内的网络安全部署的重要性日益显现。 在Gartner2022年CIO技术执行官问卷调查中&…

chatgpt赋能python:Python怎么绕过短信验证

Python怎么绕过短信验证 短信验证以及其他形式的验证码已经成为了许多网站和应用程序保护用户隐私的常见方式。然而,对于某些特定的情况,用户可能需要绕过这些验证码,例如自动化测试或者爬取数据。那么,在Python中,我…

安装Hive

安装Hive 准备 安装Java环境:Hive需要Java环境支持,所以需要先安装Java。安装文档:http://t.csdn.cn/deBJu 安装MySQL数据库。http://t.csdn.cn/d24pN 下载Hive 下载Hive的二进制文件。 链接:https://pan.baidu.com/s/1fdg7…

管理类联考——英语二——技巧篇——写作——书信作文——经典方法论

第一节 书信作文谋篇布局 考研英语从2005年开始考查书信作文,迄今为止共考查过几十次。书信作文考查的信件种类繁多,其中建议信是考查最为频繁的信件类型。从考查内容来看,校园学习生活、职业发展、民生热点成为重点考查对象,这一…

hadoop 相关环境搭建

21.Windows下安装Hadoop; Hive MySQL版_hadoop hive windows安装_学无止境的大象的博客-CSDN博客 https://www.cnblogs.com/liugp/p/16244600.html 备注。因为beeline一直报错,最有一怒之下把hive的lib下所有jar都拷贝到hadoop的share\hadoop\common\lib…

2023 年 5 大机器人趋势

原创 | 文 BFT机器人 国际机器人联合会报告 法兰克福,2023 年 2 月 16 日——全球操作机器人的存量创下约 350 万台的新纪录——安装价值估计达到 157 亿美元。国际机器人联合会分析了 2023 年影响机器人技术和自动化的 5 大趋势。 2023 年 5 大机器人趋势 © 国…

2000-2021年全国1km分辨率的逐日PM10栅格数据

空气质量数据是在我们日常研究中经常使用的数据!之前我们分享了来自于Zendo平台的1km分辨率的PM2.5栅格数据(可查看之前的文章获悉详情): 2000-2021年全国1km分辨率的逐日PM2.5栅格数据 2000-2021年全国1km分辨率的逐月PM2.5栅格…

双功能螯合剂Me-Tetrazine PEG7 NOTA,应用于生物和材料科学的研究中

文章关键词:双功能螯合剂,大环化合物 MeTz-PEG7-NOTA,NOTA PEG7 Me-Tetrazine,甲基四嗪-PEG7-NOTA (文章编辑来源于:西安凯新生物科技有限公司小编WMJ)​ 一、Product structure:…

组合逻辑毛刺消除

目录 组合逻辑毛刺消除 1、简介 2、实验任务 3、程序设计 1、组合逻辑输出加寄存器 2、信号同步法 (1)信号延时同步法 (2)状态机控制 3、格雷码计数器 4、仿真验证 组合逻辑毛刺消除 信号在 IC/FPGA 器件中通过逻辑单元…

管理类联考——英语——翻译篇——新题型——经典方法论

第一节 英语(一)翻译 根据考试大纲,考研英语(一R翻译部分主要考查考生准确理解概念或结构较复杂的英语文字材料的能力。具体考查方式是要求考生阅读一篇约400词的文章,并将其中5个画线部分(约150词)译成汉语,要求译文准确、完整、通顺。 可以看出&#…

js数组高阶函数——filter()方法

js数组高阶函数——filter方法 filter()方法⭐⭐⭐例1⭐⭐⭐例2⭐⭐⭐例3⭐⭐⭐例4⭐⭐⭐例5 filter()方法 ⭐一般来说,filter() 方法用于过滤数组中的元素,并返回一个新数组。 语法: array.f…

Python多线程编程详解

概要 进程(process)指的是正在运行的程序的实例,当我们执行某个程序时,进程就被操作系统创建了。而线程(thread)则包含于进程之中,是操作系统能够进行运算调度的最小单元,多个线程可…

【AntDB数据库】AntDB数据库告警管理

告警历史 功能概述 数据库系统的主机、单节点集群的被监测指标达到告警阀值时,AMOPS就会产生告警并展示在告警分类页面上。 告警分类页面提供告警搜索查看功能,用户可以指定监控项、集群、事件级别、时间范围和告警对象对告警进行搜索。 查询的告警数…

Android12之执行adb disable-verity后android无法启动(一百五十六)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 人生格言: 人生…