词义和词义消歧

news2025/1/26 15:41:09

Synsets(“synonym sets”, effectively senses) are the basic unit of organization in WordNet.同义词集
对于许多应用程序,我们希望消除歧义
• 我们可能只对一种含义感兴趣
• 在网络上搜索chemical plant 化工厂,我们不想搜到香蕉中的化学物质
所以词义消歧任务是给定一个词,找到给定的含义上下文。并且对于一些热门话题,data driven 方法表现良好。
给定上下文中的一个词和潜在词义的固定清单,能够确定这是哪个词义

WSD 任务的两种变体
词汇样本任务 Lexical Sample task
• 预选的小目标词集(线条、植物)
• 以及每个词的意义清单
• 监督机器学习:为每个词训练分类器
全词任务 All-words task
• 一个词中的每个词整个文本
• 每个单词都有含义的词典
• 数据稀疏:无法训练特定单词的分类器

评估方法:
外部:作为信息检索、问答或机器翻译系统的一部分进行测试
内在:根据黄金标准感官,评估分类准确性或精确度/召回率
Baseline:选择出现次数最频繁的sense

词义消歧的方法

基于字典的方法

Lesk’s Algorithm (1986),使用字典条目执行消歧
1.提取上下文词(仅内容词)
2.与不同含义的字典定义/示例进行比较
3 .选择最匹配的含义

监督机器学习

一个训练语料库,在语境中标记了它们的意义,用于训练可以在新文本中标记单词的分类器
所以需要:
• 标记集(意义清单)
• 训练语料库
• 从训练语料库中提取的一组特征
• 分类器

两种特征向量:
Collocational features
• 关于目标词附近特定位置的词的搭配特征
• 通常仅限于单词身份和词性
bag-of-words features
• 关于出现在窗口中任何地方的词的词袋特征(无论位置如何)
• 通常仅限于频率计数

输入:
• 文本窗口 d 中的单词 w(我们称之为文档)
• 一组固定的类 C = {c1, c2, …, cJ }
• 再次训练一组 m 个手工标记的文本窗口称为文档 (d1, c1), …, (dm, cm)

输出:
• 学习分类器 γ : d → c

词性相似度

单词相似度:同义词或可以在上下文中粗略地替换另一个 • car 类似于自行车
单词相关性:单词之间的一组更大的关系 • car 与 gasoline 相关

两种求词性相似度的算法
基于词库:使用本体,例如 WordNet
分布方法:通过查看词在大型语料库中的分布情况

基于词库的方法

WordNet 具有图形结构。该图中两个同义词集之间的路径长度可以用作它们之间相似性的度量。通常路径来自上位关系或 A is-a B 关系
pathlen(c1,c2) = 节点 c1 和 c2 之间图中最短路径中的边数
计算两个词的所有意义对之间的相似度并取最大值
这可能产生的问题:可能不是每种语言都有同义词库 ,即使我们有,许多单词和短语也会丢失。因此,也有无需昂贵资源即可计算相似度的方法

一些老生常谈的计算

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

PMI 的范围从 −∞ 到 +∞ ,但负值是有问题的, 因此我们只需将负 PMI 值替换为 0 。也就是ppmi

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/104955.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【SpringBoot扩展点】 容器刷新前回调ApplicationContextInitializer

本文将作为Spring系列教程中源码版块的第一篇,整个源码系列将分为两部分进行介绍;单纯的源码解析,大概率是个吃力没人看的事情,因此我们将结合源码解析,一个是学习下别人的优秀设计,一个是站在源码的角度看…

【MySQL】索引和事务重点知识汇总

目录1.索引:1.1 索引的使用:1.2 索引背后的核心数据结构:1.2.1 先认识 B 树(N叉搜索树):1.2.2 再认识 B 树(N叉搜索树):2.事务:2.1 隔离性:2.1.1 脏读问题:2.1.2 不可重复读问题:2.1.3 幻读问题:2.1.4 总结:2.1.5 隔离级别:1.索引: 索引存在的意义就是为了提高查询到效率.索引…

【AI理论学习】Python机器学习中的特征选择

Python机器学习中的特征选择特征选择方法特征选择的Python库使用Scikit-learn实现特征选择方差卡方检验ANOVALasso正则化递归特征消除使用Feature-engine进行特征选择单变量特征选择相关性Python 中的更多特性选择方法参考资料任何数据科学项目的一个重要步骤是选择最具预测性的…

vue实现文件下载

引言 最近在自己做项目的需求的过程中,需要vuespringboot实现文件的下载功能(导出博客文件)。 问题重现 在我后端文件下载接口开发完成后,使用vue前端去进行对接时出现了问题。 我是直接使用的axios去进行请求接口&#xff0c…

Python 炫技操作:条件语句的七种写法

原代码 这是一段非常简单的通过年龄判断一个人是否成年的代码,由于代码行数过多,有些人就不太愿意这样写,因为这体现不出自己多年的 Python 功力。 if age > 18:return "已成年" else:return "未成年"下面我列举了六…

SwiftUI 中创建谷歌字体浏览器

Google Fonts是设计用户界面时使用的免费字体的转到站点。本教程将展示如何编写一个简单的工具来预览这些字体,而无需在系统中注册每种字体。 该应用程序包含一个拆分视图,该视图在左侧面板中包含字体列表。右侧面板将显示字体样式选项的预览。 项目设置 创建一个名为 Googl…

Vue2之webpack篇(一)

目录 前言 1、什么是webpack? 2、传统开发模式 一、传统开发模式 1、场景 2、问题 3、原因 4、解决方案 二、ES6模块化 1、ES6的解决方案 3、拓展 4、取别名 5、*搭配取别名 6、导出default{} 三、CommonJS规范 1、推荐文档 2、使用CommonJS规范解决方…

十二、DockerFile构建过程解析

1、概述 Dockerfile是用来构建Docker镜像的文本文件,是由一条条构建镜像所需的指令和参数构成的脚本。 在Docker 常用命令篇中,我们已经知道了2中构建镜像的方式 export\import 和 commit方式。这两种方式都需要先运行并创建容器,然后在容器…

python自学之《21天学通Python》(5)

第8章 复杂程序组织 当一个应用程序简单时,将程序代码写入一个文件即可。但随着应用程序或项目复杂度增加时,如果将所有代码都写入同一个文件中时,会出现文件过长或过大,即不方便代码浏览,也不方便代码的管理、使用与维…

人工智能人才缺口暴增,想转行的你赶紧把Python学起来...

当前AI人才极度紧缺,据《中国ICT人才生态白皮书》研究分析,到2018年底,我国人工智能人才缺口将突破100万,到2020年,这一数字将攀升到226万。 在过去的几年中,Python已经成为现代软件开发,基础设…

Web测试的各个测试点,居然这么全!(文末送web测试方法大全一份)

1 什么是Web测试? Web测试测试Web或Web应用程序的潜在错误。它是在上线前对基于网络的应用程序进行完整的测试。 UI测试功能测试数据库测试性能测试兼容性测试安全测试自动化测试 2 WEB测试主要测试场景 1.UI测试 界面是否美观,风格、字体、样式是否…

初识: 对象的属性特征

1. 前言 2. 什么是对象的属性特征 3. 灵活控制对象的属性特征 4. configurable: false 是单向设置的 1. 前言 众所周知,默认情况下我们可以任意对自己定义的对象进行增删改的。但是,在某些情况下,我们不能让别人去随便修改我们定义的对象的…

《数据结构》二叉数

学习目录树型结构概念树的重要概念树的表示形式二叉数概念特殊的二叉树二叉树的性质练习题树型结构 概念 树是一种非线性的数据结构,由 n 个有限节点组成一个有层次关系的集合 它具有以下的特点: 有一个特殊的结点,称为根结点,…

【 Threejs 】- Shader 着色器实例渲染教程

着色器在threejs中是一个难点,话不多说,先来看看着色器是什么? 如果您已经有使用计算机绘图的经验,您就会知道在这个过程中您先画一个圆,然后画一个矩形、一条线、一些三角形,直到您组成您想要的图像。这个…

面试真题 | 什么是 Redis ? Redis缓存应用场景有哪些?

面试官问题 redis击穿、穿透有什么区别?如何设计用例及测试 Redis 的基本概念 在没有添加 Redis 的时候,后端的查询流程是: 用户访问页面。请求后端服务。经过逻辑处理后,去数据库查询信息。 在添加 Redis 的之后,…

MySQL 服务端口大全

介绍 MySQL默认服务端口3306/TCP都不会陌生,但MySQL提供服务只有单纯的这个端口吗。在8.0版本默认启动的时候会发现,出现新的端口。 可以说MySQL使用的端口数量取决于所启用的特性、所使用的组件、应用程序连接的方式以及环境的其他方面。 按照官方说…

转速传感器信号隔离变送器正弦波输入方波信号输出

特点 转速传感器信号直接输入,方波信号输出正弦波、锯齿波信号输入,方波信号输出200mV峰值微弱信号的放大与整形不改变原波形频率,响应速度快电源、信号:输入/输出 3000VDC三隔离辅助电源:5V、12V、15V或24V直流单电源…

Huffman编码

目录背景Huffman编码代码部分背景 在数据传输,保存的时候,特别是在数据量特别大的时候传输,保存数据是一件特别麻烦的事。比如逛淘宝的时候,首页会有很多商家展示自己产品的高清图片,如果不对图片进行压缩服务端保存图…

经历百度、美团两次被裁后,我能在小公司躺平吗?

百度裁员后我进入体制内,专心学习自动化 百度被裁后,我意识到自学效果不佳,跟不上职场的所需,于是有了系统学习的想法。 这时的新工作是在体制内,工作强度不大,时间上也比较自由,便正式成为了…

非零基础自学Golang 第12章 接口与类型 12.5 类型断言

非零基础自学Golang 文章目录非零基础自学Golang第12章 接口与类型12.5 类型断言12.5.1 ok-pattern12.5.2 switch-type第12章 接口与类型 12.5 类型断言 类型断言是使用在接口变量上的操作。 简单来说,接口类型向普通类型的转换就是类型断言。 类型断言的语法是…