自然语言处理(八):Lexical Semantics

news2024/10/7 18:21:23

目录

1. Sentiment Analysis

2. Lexical Database

2.1 What is Lexical Database

2.2 Definitions

2.3 Meaning Through Dictionary

2.4 WordNet

2.5 Synsets

2.6 Hypernymy Chain

3. Word Similarity

3.1 Word Similarity with Paths

3.2 超越路径长度

3.3 Abstract Nodes

3.4 Concept Probability Of A Node

3.5 Similarity with Information Content

4. Word Sense Disambiguation

4.1 Word Sense Disambiguation

4.2 Supervised WSD 有监督词义消歧

4.3 Unsupervised: Lesk 无监督:Lesk

4.4 Final Words


1. Sentiment Analysis

Bag of words, kNN classifier. Training data 词袋模型,kNN分类器。训练数据:

  • “This is a good movie.” → ☺
  • “This is a great movie.” → ☺
  • “This is a terrible film.” → ☹
  • “This is a wonderful film.” → ?

Two problems:

  • The model does not know that "movie" and "film' are synonyms. Since "film" appears only in negative examples the model learns that it is a negative word. 模型不知道“电影”和“影片”是同义词。因为“影片”只出现在负面例子中,所以模型认为它是一个负面词。
  • "wonderful" is not in the vocabulary (OOV ---- Out-Of-Vocabulary). “wonderful”不在词汇表里

Comparing words directly will not work. How to make sure we compare word meanings instead?

Solution: add this information explicitly through a lexical database. 通过 lexical database 显式添加此信息。

2. Lexical Database

2.1 What is Lexical Database

Their dictionary definition 

  • But dlictionary definitions are necessarily circular
  • Only useful if meaning is already understood

Their relationships with other words

  • Also circular, but better for text analysis

2.2 Definitions

A word sense describes one aspect of the meaning of a word 词义描述了一个词的意义的一个方面

If a word has multiple senses, it is polysemous 如果一个词有多个义项,它就是多义词

2.3 Meaning Through Dictionary

Gloss: textual definition of a sense, given by a dictionary

Bank

  • financial institution that accepts deposits and channels the money into lending activities
  • sloping land (especially the slope beside a body of water)

Another way to define meaning: by looking at how it relates to other words

Synonymy: near identical meaning

  • vomit vs. throw up
  • big vs. large

Antonymy: opposite meaning

  • long vs. short
  • big vs. little

Hypernymy: is-a relation

  • cat is an animal
  • mango is a fruit

Meronymy: part-whole relation

  • leg is part of a chair
  • wheel is part of a car

2.4 WordNet

  • A database of lexical relations 词汇关系数据库
  • English WordNet includes ~120,000 nouns, ~12,000 verbs, ~21,000 adjectives, ~4,000 adverbs 包括大约120,000个名词,12,000个动词,21,000个形容词,4,000个副词
  • On average: noun has 1.23 senses; verbs 2.16 平均名词有1.23个义项;动词有2.16个义项
  • WordNets available in most major languages
  • English version freely available (accessible via NLTK)

2.5 Synsets

Nodes of wordNet are not words or lemmas, but senses

There are represented by sets of synonyms, or synsets

Bass synsets:

 

Another synset:

2.6 Hypernymy Chain

3. Word Similarity

  • Synonymy: film vs. movie
  • What about show vs. film? opera vs. film?
  • Unlike synonymy (which is a binary relation), word similarity is a spectrum
  • We can use lexical database (e.g. WordNet) or thesaurus to estimate word similarity

3.1 Word Similarity with Paths

  • 利用WordNet,找到基于路径长度的相似度
  • 两个词汇间的相似度计算方法:
    • simpath(c1, c2) = 1 / pathlen(c1, c2)
    • wordsim(w1,w2) = max{c1∈senses(w1),c2∈senses(w2)} simpath(c1, c2)

  • simpath(nickel,coin) = 0.5
  • simpath(nickel,currency) = 0.25
  • simpath(nickel,money) = 0.17
  • simpath(nickel,Richter scale) = 0.13

3.2 超越路径长度

  • 问题:边缘在实际语义距离上的变化很大
    • 接近等级制度顶端的跳跃要大得多
  • 解决方案1:包含深度信息(Wu & Palmer)
    • 使用 path 查找最小公共子包(LCS)
    • Something 比较使用深度

simwup(c1, c2) = 2 × depth(LCS(c1, c2)) / (depth(c1) + depth(c2))

3.3 Abstract Nodes

  • But node depth is still poor semantic distance metric
    • simwup (nickel, money) = 0.44
    • simwup (nickel, Richter scale) = 0.22
  • Nodes high in the hierarchy is very abstract or general
  • How to better capture them?

3.4 Concept Probability Of A Node

Intuition :

Intuition: general node → high concept probability (e.g. object)

narrow node → low concept probability (e.g. vocalist)

Example

 

3.5 Similarity with Information Content

4. Word Sense Disambiguation

4.1 Word Sense Disambiguation

Task: selects the correct sense for words in a sentence 为句子中的词选择正确的词义

Baseline: Assume the most popular sense 假设最常见的词义

Good WSD potentially useful for many tasks 良好的词义消歧对许多任务可能有用

  • Knowing which sense of mouse is used in a sentence is important! 知道句子中mouse的哪个词义很重要!
  • Less popular nowadays; because sense information is implicitly captured by contextual representations (lecture 11) 如今不太受欢迎;因为词义信息被上下文表示隐含地捕获

4.2 Supervised WSD 有监督词义消歧

Apply standard machine classifiers 应用标准的机器分类器

Feature vectors typically words and syntax around target 特征向量通常是目标词周围的单词和语法

  • But context is ambiguous too! 但上下文也是模糊的!
  • How big should context window be? (in practice small) 上下文窗口应该有多大?(实际上较小)

Requires sense-tagged corpora 需要有词义标注的语料库

  • E.g. SENSEVAL, SEMCOR (available in NLTK) 例如 SENSEVAL,SEMCOR(可在NLTK中找到)
  •  Very time consuming to create! 创建非常耗时!

4.3 Unsupervised: Lesk 无监督:Lesk

Lesk:选择WordNet释义与上下文重叠最多的词义

4.4 Final Words

  • Creation of lexical database involves expert curation (linguists) 词汇数据库的创建涉及专家策展(语言学家)
  • Modern methods attempt to derive semantic information directly from corpora, without human intervention 现代方法试图直接从语料库中获取语义信息,无需人工干预
  • Distributional semantics 分布式语义

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/417841.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

波形失真总结

失真是输入信号与输出信号在幅度比例关系、相位关系及波形形状产生变化的现象。音频功放的失真分为电失真和声失真两大类。电失真是由电路引起的,声失真是由还音器件扬声器引起的。电失真的类型有:谐波失真、互调失真、瞬态失真。声失真主要是交流接口失…

idea使用之 单词拼写检查设置 分级管理

前言 idea的智能提示使用起来非常顺手, 拼接检查也是其中一项, 有些字段什么的, 不小心将单词的字母顺序写错了, idea的拼接检查就会提示(前提是字段命名规范,并且乱序之后的不再是一个具有意义的单词), 如此一来, 就能规避很多粗心大意的错误. 但是呢, 有些时候,项目中有些自…

用Claude和Stable Diffusion绘制《武松打虎》

绘制四大名著的经典画面 现在最火爆的AI,分为两类,一个是文本生成,一个是图片生成。如果让这两种结合到一起来,会是什么样的效果的。 这样是不是可能帮我们绘制很多场景下的图片,比如四大名著,帮我们的四…

Numpy基础用法

Numpy 【Numerical Python】是一个开源的Python科学计算库,用于快速处理任意维度的数组。Numpy支持常见的数组和矩阵操作。对于同样的数值计算任务,使用Numpy比直接使用Python要简洁的多。Numpy使用ndarray对象来处理多维数组,该对象是一个快…

【项目分析】基于工艺融合的数控编程方法的设计与实现

系列综述: 💞目的:本系列是个人整理为了秋招项目的,按照面试常问及项目核心点整理 🥰来源:该项目源于数控系统迭代的实验项目 🤭结语:如果有帮到你的地方,就点个赞和关注…

新版 Spring Security 配置的变化

进入到 SpringBoot2.7 时代,有小伙伴发现有一个常用的类忽然过期了: 在 Spring Security 时代,这个类可太重要了。过期的类当然可以继续使用,但是你要是决定别扭,只需要稍微看一下注释,基本上就明白该怎么玩…

机器视觉公司,在玩一局玩不起的游戏

导语 有个著名咨询公司曾经预测过:未来只有两种公司,是人工智能的和不赚钱的。 它可能没想到,还有第三种——不赚钱的AI公司。 去年我们报道过“正在消失的机器视觉公司”,昔日的“AI 四小龙”( 商汤、旷视、云从、依图…

大数据 | HBase基本工作原理

前文回顾:MapReduce基本原理 目录 📚HBase基本介绍 🐇HBase的设计目标和功能特点 🐇HBase在Hadoop中的生态环境 📚HBase的数据模型 🐇逻辑数据模型 🐇物理存储格式 📚HBase基…

rust网络编程以及unsafe模块

网络层目前 IPv4 和 IPv6 分庭抗礼,IPv6 还未完全对 IPv4 取而代之;传输层除了对延迟非常敏感的应用(比如游戏quic协议),绝大多数应用都使用 TCP;而在应用层,对用户友好,且对防火墙友…

PageRank算法介绍

互联网上有数百亿个网页,可以分为这么几类:不含有用信息的,比如垃圾邮件;少数人比较感兴趣的,但范围不是很广的,比如个人博客、婚礼公告或家庭像册;很多人感兴趣的并且十分有用的,比…

基于DBN神经网络的语音分类识别

目录 背影 DBN神经网络的原理 DBN神经网络的定义 受限玻尔兹曼机(RBM) DBN的语音分类识别 基本结构 主要参数 数据 MATALB代码 结果图 展望 背影 DBN是一种深度学习神经网络,拥有提取特征,非监督学习的能力,是一种非常好的分类算法,本文将DBN算法应用于语音分类 DBN神…

排污口漂浮物监测系统 yolov5

排污口漂浮物监测系统通过YOLOV5网络模型技术,排污口漂浮物监测算法模型对河道两岸各处排污口进行7*24小时不间断实时监测,当监测到河道两岸的排污口违规乱排乱放时,不需人为干预系统立即抓拍存档告警。我们选择当下YOLO卷积神经网络YOLOv5来…

实现数字化转型升级,快速开发平台流辰信息来助力!

在如今迅猛发展的年代里,科技的力量是伟大的,可以让老百姓的生活变得丰富多彩,也可以让各行各业的企业实现办公自动化,朝着数字化转型升级,快速提升办公协作效率。快速开发平台流辰信息作为一家低代码平台服务商&#…

(顺序栈)有效括号序列

文章目录前言:问题描述:问题解析:代码实现:总结:前言: 此篇是针对顺序栈的经典练习题。 问题描述: 给定一个只包括 ‘(’,‘)’,‘{’,‘}’,‘…

iOS / iPadOS 15.7.4发布安全更新 旧版iPhone和ipad无法升级系统解决方法

苹果于昨日面向无法升级到 iOS / iPadOS 16 的旧款 iPhone 和 iPad,发布了 iOS / iPadOS 15.7.4 更新。本次更新并未引入新的功能,而是重点修复了存在于 WebKit 的两个“关键”漏洞。 iOS / iPadOS 15.7.4发布安全更新: 目前已经有充足的证据…

adb基本操作操作

Mumu模拟器 进入终端 cd C:\Program Files\Netease\MuMuPlayer-12.0\shell 获取root权限 adb root 连接手机 adb connect 127.0.0.1:7555 adb shell 查看连接多少台设备 adb devices 安装程序apk adb install C:\Android\CalcTest.apk adb install -r C:\Android\CalcT…

遥感常用库的比较:Rasterio vs GDAL

一、前言本博客对三种栅格处理工具做一个小小的比较:Python (rasterio) 和 GDAL。当我开始使用 GIS 和栅格处理时,我并没有真正关注我编写的脚本和使用的工具的性能。 但现在,处理更大的数据、更高的空间分辨率、快速处理我的光栅文件是成功的…

国产PIE-SAR软件

1.产品定位 PIE-SAR是一款针对国内外主流星载SAR传感器的数据处理分析软件,提供图形化操作界面。目前已支持国内外主流星载SAR传感器的数据处理与分析,包括强度图像基础处理、区域网平差处理(含异源匹配、RD/RPC区域网平差)、InS…

TensorFlow 1.x 深度学习秘籍:1~5

原文:TensorFlow 1.x Deep Learning Cookbook 协议:CC BY-NC-SA 4.0 译者:飞龙 本文来自【ApacheCN 深度学习 译文集】,采用译后编辑(MTPE)流程来尽可能提升效率。 不要担心自己的形象,只关心如…

知识图谱学习笔记——(二)知识图谱的表示

一、知识学习 声明:知识学习中本文主体按照浙江大学陈华钧教授的《知识图谱》公开课讲义进行介绍,并个别地方加入了自己的注释和思考,希望大家尊重陈华钧教授的知识产权,在使用时加上出处。感谢陈华钧教授。 (一&…