自然语言处理从入门到应用——词向量的评价方法

news2024/9/20 9:25:44

分类目录:《自然语言处理从入门到应用》总目录


对于不同的学习方法得到的词向量,通常可以根据其对词义相关性或者类比推理性的表达能力进行评价,这种方式属于内部任务评价方法(Intrinsic Evaluation)。在实际任务中,则需要根据下游任务的性能指标判断,也称为外部任务评价方法(Extrinsic Evaluation)。本文首先介绍两种常用的内部任务评价方法,然后以情感分类任务为例,介绍如何将预训练词向量应用于下游任务。

词义相关性

对词义相关性的度量是词向量的重要性质之一。可以根据词向量对词义相关性的表达能力衡量词向量的好坏。利用词向量低维、稠密、连续的特性,可以方便地度量任意两个词之间的相关性。例如,给定词 w a w_a wa w b w_b wb,它们在词向量空间内的余弦相似度就可以作为其词义相关性的度量:
sim ( w a , w b ) = cos ⁡ ( v w a , v w b ) = v w a × v w b ∣ ∣ v w a ∣ ∣ × ∣ ∣ v w b ∣ ∣ \text{sim}(w_a, w_b)=\cos(v_{w_a}, v_{w_b})=\frac{v_{w_a}\times v_{w_b}}{||v_{w_a}||\times ||v_{w_b}||} sim(wa,wb)=cos(vwa,vwb)=∣∣vwa∣∣×∣∣vwb∣∣vwa×vwb

基于该相关性度量,即可实现K近邻(K-Nearest Neighbors,KNN)查询。

类比性

词的类比性(Word Analogy)是对于词向量的另一种常用的内部任务评价方法。对词向量在向量空间内的分布进行分析可以发现,对于语法或者语义关系相同的两个词对 [ w a , w b ] [w_a, w_b] [wa,wb] [ w c , w d ] [w_c, w_d] [wc,wd],它们的词向量在一定程度上满足: v w a − v w b ≈ v w c − v w d v_{w_a} - v_{w_b}\approx v_{w_c} - v_{w_d} vwavwbvwcvwd的几何性质。例如,在下图的示例中有以下类比关系:
v women − v men ≈ v queen − v king v queens − v queen ≈ v kings − v king \begin{aligned} v_{\text{women}} - v_{\text{men}}& \approx v_{\text{queen}} - v_{\text{king}}\\ v_{\text{queens}} - v_{\text{queen}}&\approx v_{\text{kings}} - v_{\text{king}} \end{aligned} vwomenvmenvqueensvqueenvqueenvkingvkingsvking
词的类比性
这两个例子分别从词义和词法两个角度展示了词向量的类比性。根据这一性质,可以进行词与词之间的关系推理,从而回答诸如“ w a w_a wa之于 w b w_b wb,相当于 w c w_c wc之于什么”的问题。对于下画线处的词,可以利用下式在词向量空间内进行搜索得到:
w d = arg ⁡ min ⁡ w ( cos ⁡ ( v w , v w c + v w b − v w a ) ) w_d=\arg\min_w(\cos(v_w, v_{w_c} + v_{w_b} - v_{w_a})) wd=argwmin(cos(vw,vwc+vwbvwa))

一般来说,词向量在以上评价方法中的表现与训练数据的来源及规模、词向量的维度等因素密切相关。在实际应用中,需要根据词向量在具体任务中的表现来选择。

参考文献:
[1] 车万翔, 崔一鸣, 郭江. 自然语言处理:基于预训练模型的方法[M]. 电子工业出版社, 2021.
[2] 邵浩, 刘一烽. 预训练语言模型[M]. 电子工业出版社, 2021.
[3] 何晗. 自然语言处理入门[M]. 人民邮电出版社, 2019
[4] Sudharsan Ravichandiran. BERT基础教程:Transformer大模型实战[M]. 人民邮电出版社, 2023
[5] 吴茂贵, 王红星. 深入浅出Embedding:原理解析与应用实战[M]. 机械工业出版社, 2021.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/656456.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux学习[15]bash学习深入1---bash的功能---变量详解

文章目录 前言:1. bash功能2. 变量2.1 变量赋值2.2 unset取消变量2.3 环境变量 总结 前言: 之前在学树莓派相关内容的时候,对bash脚本的简单上手做了一个总结,并且归纳到下面三个博客。 当时参考的书为《从树莓派开始玩转linux》…

Gitlab CI/CD入门(一)Python项目的CI演示

本文将介绍CI/CD的基本概念,以及如何使用Gitlab来实现CI/CD。   本文介绍的CI/CD项目为个人Gitlab项目:gitlab_ci_test,访问网址为:https://gitlab.com/jclian91/gitlab_ci_test。 CI/CD的含义 在现代软件工程中,CI…

【主跑例子】 Framework01、02;QFramework00(我跟着视频的旧版本,但推荐用最新的)、01(无)、02(无)、03(无)

总体介绍 做的是 00,10,13,考虑做10。 11,12没下载,当时把这两个误认为 00,10 用到了UniRx Framework有2个 00 Unity 游戏框架搭建 2019 第一季 C# 核心知识与简易 Manager Of Managers 框架搭建 120课数 01 Unity 游戏框架搭建 2019 第二季 模块/系统…

前端Vue仿滴滴打车百度地图定位查找附近出租车或门店信息(更新版)

前端vue仿滴滴打车百度地图定位查找附近出租车或门店信息, 下载完整代码请访问uni-app插件市场地址:https://ext.dcloud.net.cn/plugin?id12982 效果图如下: # #### 使用方法 使用方法 <!-- 官方文档&#xff1a; https://dafrok.github.io/vue-baidu-map/#/zh/start/b…

五子棋:起源、原理与游戏规则、vue实现五子棋案例游戏

目录&#xff1a; 引言五子棋的历史背景五子棋的原理五子棋的游戏规则五子棋游戏的实现 5.1 创建 Vue 组件 5.2 初始化棋盘 5.3 下棋与判断胜负 5.4 渲染棋盘与棋子总结 更多知识 学习&#xff1a;https://www.processon.com/view/60504b5ff346fb348a93b4fa#map 引言 五子棋…

解密大型语言模型:从相关性中发现因果关系?

深度学习自然语言处理 原创作者&#xff1a;wkk 因果推理是人类智力的标志之一。因果关系NLP领域近年来引起了人们的极大兴趣&#xff0c;但其主要依赖于从常识知识中发现因果关系。本研究提出了一个基准数据集(CORR2CAUSE)来测试大语言模型(LLM)的纯因果推理能力。其中CORR2CA…

I/O体系结构和设备驱动程序(一)

I/O体系结构 让信息在CPU、RAM和I/O设备之间流动的数据通路称之为总线&#xff0c;即计算机内的主通信通道。所有计算机都有一条系统总线&#xff08;一种典型的系统总线是PCI总线&#xff09;&#xff0c;连接内部大部分的硬件设备。计算机内不同的总线可以通过“桥”进行连接…

lua语言的闭包设计和LClosure解读

什么是闭包 闭包是一种特殊的函数&#xff0c;它可以访问其创建时所处的环境中的变量&#xff0c;即使在函数创建后&#xff0c;环境已经不再存在&#xff0c;这些变量仍然可以被访问。 为了更好地理解闭包&#xff0c;我们可以看一个例子&#xff1a; function counter()lo…

Appium知多少

Appium我想大家都不陌生&#xff0c;这是主流的移动自动化工具&#xff0c;但你对它真的了解么&#xff1f;为什么很多同学搭建环境时碰到各种问题也而不知该如何解决。 appium为什么英语词典查不到中文含义&#xff1f; appium是一个合成词&#xff0c;分别取自“applicatio…

OpenAI官方提示词课(七)制作一个聊天机器人

大型语言模型的一个令人兴奋的方面是&#xff0c;你可以利用它来构建一个定制的聊天机器人&#xff0c;并且只需付出少量的努力。ChatGPT 的网页界面可以让你与一个大型语言模型进行对话。但其中一个很酷的功能是&#xff0c;你也可以利用大型语言模型构建你自己的定制聊天机器…

案例 | 标杆引领!人大金仓智绘数字金融

随着中央数字经济政策推进金融业数字化建设&#xff0c;数字金融已初见成效&#xff0c;但尚存在信息安全缺乏保障、转型覆盖不全面等问题。 为实现金融行业全面数字化转型升级&#xff0c;作为数据库领域国家队&#xff0c;人大金仓紧跟国家战略&#xff0c;自主研发的系列数据…

msvcp110.dll丢失原因——msvcp110.dll丢失怎么修复(最新可修复)

昨天卸载了一个垃圾软件以后&#xff0c;我的其他软件就无法打开运行&#xff0c;提示msvcp110.dll丢失&#xff0c;无法继续执行此代码。今天早上找了很多方法&#xff0c;终于把msvcp110.dll丢失的原因以及修复的方法都弄明白了。msvcp110.dll是一个非常重要的文件&#xff0…

【CVE-2022-0185】Linux kernel [文件系统挂载API] 堆溢出漏洞分析与利用

0x00.一切开始之前 CVE-2022-0185 是 2022 年初爆出来的一个位于 filesystem context 系统中的 fsconfig 系统调用中的一个堆溢出漏洞&#xff0c;对于有着 CAP_SYS_ADMIN 权限&#xff08;或是开启了 unprivileged namespace&#xff09;的攻击者而言其可以利用该漏洞完成本地…

Hugging News #0616: 有几项非常重要的合作快来围观、最新中文演讲视频回放发布!...

每一周&#xff0c;我们的同事都会向社区的成员们发布一些关于 Hugging Face 相关的更新&#xff0c;包括我们的产品和平台更新、社区活动、学习资源和内容更新、开源库和模型更新等&#xff0c;我们将其称之为「Hugging News」&#xff0c;本期 Hugging News 有哪些有趣的消息…

【MySQL】SQL的函数用法

文章目录 聚合函数Count()Max()Min()Sum()Avg() 其他常用函数时间函数字符串函数SUBSTRING函数:切割字符串([start:end])SUBSTRING_INDEX函数:切割字符串(split)LOWER&UPPER函数:大小写转化CONCAT&CONCAT_WS函数:连接字符串REPLACE函数:字符串替换 数学函数ROUND函数:四…

rhce8考试

rhce考试模拟环境准备&#xff1a; cat /etc/rht 确认当前是否为294环境&#xff0c;真实考试有5台被管理节点&#xff0c;借助bastion当做第5台。 将考试所需的文件放到这个目录&#xff0c;/content/courses/rh294/rhel8.0/materials目录&#xff0c;虚拟机看br0网卡信息ifc…

使用LOAD DATA INFILE命令加载数据文件到MySQL数据库的方法和常见错误及解决方法

文章目录 使用LOAD DATA INFILE命令加载数据文件到MySQL数据库的方法和常见错误及解决方法LOAD DATA INFILE的语法详细1.创建&#xff08;选择&#xff09;目标数据库和表2.将数据从 CSV 文件导入已创建的表常见错误和解决方法错误1&#xff1a;ERROR 1290 (HY000): The MySQL …

linux_centos7.9/ubuntu20.04_下载镜像及百度网盘分享链接

1、镜像下载站点 网易开源镜像&#xff1a;http://mirrors.163.com/ 搜狐开源镜像&#xff1a;http://mirrors.sohu.com/ 阿里开源镜像&#xff1a;https://developer.aliyun.com/mirror/ 首都在线科技股份有限公司&#xff1a;http://mirrors.yun-idc.com/ 常州贝特康姆软件技…

TFTP是什么,一文带你了解

目录 一、TFTP协议简介 TFTP协议的主要特点包括&#xff1a; 二、TFTP包格式 1. 读/写请求包 2. 文件数据包 3. 回应包 4. 错误信息包 三、TFTP的工作流程 TFTP协议的工作流程包括以下几个步骤&#xff1a; 四、TFTP的传输模式 1. 二进制传输模式 2. ASCII码传输模式…