Lecture 9 Lexical Semantics

news2024/11/24 4:23:01

目录

      • Introduction: sentiment analysis 引言:情感分析
      • Word Semantics 单词语义
      • Word meanings 单词含义
      • WordNet
      • Synsets 同义词集
      • Noun Relations in WordNet
      • Hypernymy Chain 上位链
      • Word Similarity
      • Word Similarity with Paths
      • Beyond Path Length
      • Abstract Nodes
      • Concept Probability of A Node
      • Similarity with Information Content
      • Word Sense Disambiguation
      • Supervised WSD
      • Unsupervised WSD: Lesk
      • Unsupervised WSD: Clustering

Introduction: sentiment analysis 引言:情感分析

在 NLP 中,我们为什么要关注词汇语义学?我们先来看一个情感分析的例子:假设现在我们有一个情感分析任务,我们需要预测一段给定文本的情感极性。

  • Bag-of-words, KNN classifier. Training data: 词袋模型,KNN分类器。训练数据

    • This is a good movie -> positive
    • This is a great movie -> positive
    • This is a terrible film -> negative
    • This is a wonderful film -> ?
  • Two problems here: 这里存在两个问题

    • The model does not know that movie and film are synonyms. Since film appears only in negative examples, the model learns that it is a negative word. 模型不知道 moviefilm 是同义词。由于film只在负面示例中出现,模型学习到它是一个负面词语
    • wonderful is not in the vocabulary (OOV: Out-Of-Vocabulary) wonderful这个单词在词汇表中并没有出现过(OOV, Out-Of-Vocabulary)
  • Comparing words directly will not work. How to make sure we compare word meanings? 直接比较单词并不是一种很好的方法。我们应当如何保证我们是在比较单词的含义呢?

  • Solution: Add this information explicitly through a lexical database 解决方案:通过一个 词汇数据库(lexical database)来显式地加入这些信息。

Lexical Database 词汇数据库

Word Semantics 单词语义

  • Lexical Semantics: 词汇语义

    • How th meanings of words connect to one another 单词含义之间如何相互联系
    • Manually constructed resources 手动构建的资源:词汇表 (lexicons)、同义词词典 (thesauri)、本体论 (ontologies) 等。

      我们可以用文本来描述单词的含义,我们也可以观察不同单词之间是如何相互联系的。例如:单词filmmovie实际上是 同义词(synonym),所以,假如我们不知道film的意思,但是我们知道movie的意思,并且假如我们还知道两者是同义词关系的话,我们就可以知道单词film的意思。我们将看到如何通过手工构建这样的词汇数据库,这些同义词词典或者本体论捕获了单词含义之间的联系。
  • Distributional Semantics: 分布语义学

    • How words relate to each other in the text 文本中的单词之间如何互相关联。
    • Automatically created resources from corpora 从语料库中自动创建资源。

      我们也可以用另一种方式完成同样的事情。我们的任务仍然是捕获单词的含义,但是相比雇佣语言学家来手工构建词汇数据库,我们可以尝试从语料库中直接学习单词含义。我们尝试利用机器学习或者语料库的一些统计学方法来观察单词之间是如何互相关联的,而不是从语言学专家那里直接得到相关信息。

Word meanings 单词含义

  • 物理或社交世界中的被引用的对象

    • 但通常在文本分析中没有用

      回忆你小时候尝试学习一个新单词的场景,对于人类而言,单词的含义包含了对于物理世界的引用。例如:当你学习 dog(狗) 这个单词时,你会问自己,什么是dog?你不会仅通过文本或者口头描述来学习这个单词,而是通过观察真实世界中的狗来认识这个单词,这其中涉及到的信息不止包含语言学,而且还包括狗的叫声、气味等其他信息,所有这些信息共同构成了dog这个单词的含义。但是这些其他的信息通常在文本分析中并没有太大作用,并且我们也不容易对其进行表示。
  • Dictionary definition: 字典定义

    • Dictionary definitions are necessarily circular 字典定义必然是循环的
    • Only useful if meaning is already understood 仅在已经理解含义的情况下才有用

      因此,我们希望寻找一种其他方法来学习单词的含义:通过查词典学习单词含义。但是,我们会发现词典定义通常带有循环性质,我们用一些其他单词来解释目标单词。
    • E.g

      red: n. the color of blood or a ruby

      blood: n. the red liquid that circulates in the heart, arteries, and veins of animals

      Here the word red is described by blood and blood is described by red. Therefore, to understand red and blood both meaning has to be understood

      可以看到,在定义red(红色) 这个单词时,我们将其描述为blood(血液)的颜色;然后在定义blood(血液)这个单词时,我们将其描述为心脏中的一种red(红色) 液体。所以,我们用 blood定义red,然后又用red定义 blood。如果我们本身不知道这两个单词的含义,那么我们无法从定义中获得词义。但是,字典定义仍然是非常有用的,因为当我们通过字典学习一个新的单词时,我们通常已经具有了一定的词汇背景,例如当我们学习一门新的语言时,字典可以提供一些非常有用的信息。

  • Their relationships with other words. 它们与其他单词的关系

    • Also circular, but better for text analysis 也是循环的,但更实用

      另一种学习词义的方法是查看目标单词和其他单词的关系。同样,这种方法也涉及到循环性的问题,但是,当我们需要结合上下文使用某个单词时,这种方法非常有用,就像之前filmmovie的例子。所以,单词之间的关系是另一种非常好的表征词义的方式。
  • Word sense: A word sense describes one aspect of the meaning of a word 单词义项:单词义项描述了单词含义的一个方面

    • E.g. mouse: a quiet animal like a mouse
  • Polysemous: If a word has multiple senses, it is polysemous. 多义词:如果一个单词有多个义项,那么它就是多义词。

    • E.g.
      • mouse1: a mouse controlling a computer system in 1968
      • mouse2: a quiet animal like a mouse
  • Gloss: Textual definition of a sense, given by a dictionary 词义释义:由字典给出的一个义项的文本定义

  • Meaning Through Relations: 通过关系理解含义

    • Synonymy(同义): near identical meaning 几乎相同的含义
      • vomit - throw up
      • big - large
    • Antonymy(反义): opposite meaning 相反的含义
      • long - short
      • big - little
    • Hypernymy(上位关系): is-a relation is-a 关系
      • 前者为下位词 (hyponym),表示后者的一个更加具体的实例,例如cat
      • 后者为上位词 (hypernym),表示比前者更宽泛的一个类别,例如animal
      • cat - animal
      • mango - fruit
    • Meronymy(部分-整体关系): part-whole relation 部分-整体关系
      • 前者为部件词 (meronym),表示后者的一部分,例如leg
      • 后者为 整体词 (holonym),表示包含前者的一个整体,例如chair
      • leg - chair
      • whel - car

    Eg:
    在这里插入图片描述

WordNet

  • A database of lexical relations 一个词汇关系的数据库

  • English WordNet includes ~120,000 nouns, ~12,000 verbs, ~21,000 adjectives, ~4,000 adverbs

  • On average: noun has 1.23 senses, verbs 2.16 平均来说:名词有1.23个义项,动词有2.16个义项

  • Eg:在这里插入图片描述

  • 可以看到,名词bass的词义基本上可以分为两大类:音乐和鲈鱼。而 WordNet 又将其细分为了 8 个类别。但是,这种分类对于一般的 NLP 任务而言可能太细了,所以,在使用这些词义之前,我们通常会进行一些聚类(clustering)操作。

Synsets 同义词集

  • Nodes of WordNet are not words or lemmas, but senses WordNet 的节点不是单词或词形,而是义项

  • There are represented by sets of synonyms, or called synsets 这些都由一组同义词表示,或称为同义词集

  • E.g. Bass:

    • {bass, deep}
    • {bass, bass voice, basso}

Noun Relations in WordNet

在这里插入图片描述

Hypernymy Chain 上位链

在这里插入图片描述

Word Similarity

Word Similarity

  • Synonymy: file - movie

  • What about show - file and opera - film?

  • Unlike synonymy which is a binary relation, word similarity is a spectrum

  • Use lexical database or thesaurus(分类词词典) to estimate word similarity

Word Similarity with Paths

  • Given WordNet, find similarity based on path length

  • pathlen(c1, c2) = 1 + edge length in the shortest path between sense c1 and c2

  • Similarity between two senses:

  • Similarity between two words:

  • E.g.

    在这里插入图片描述

Beyond Path Length

  • Problem of simple path length: Edges vary widely in actual semantic distance

    • E.g. from last example tree:
      • simpath(nickel, money) = 0.17
      • simpath(nickel, Richter scale) = 0.13
      • From the simple path length, similarity of nickel-money and nickel-Richter scale are very close. But in actual meanings nickel is much similar to money then Richter scale
  • Solution 1: include depth information

    • Use path to find lowest common subsumer (LCS)

    • Compare using depths:



      High simwup when parent is deep or senses are shallow

    • E.g.

      在这里插入图片描述

Abstract Nodes

  • Node depth is still poor semantic distance metric. E.g.:

    • simwup(nickel, money) = 0.44
    • simwup(nickel, Richter scale) = 0.22
  • Node high in the hierarchy is very abstract or general

Concept Probability of A Node

  • Intuition:

    • general node -> high concept probability
    • narrow node -> low concept probability
  • Find all the children of the node, and sum up their unigram probabilities:

    • child©: synsets that are children of c
  • E.g.

    在这里插入图片描述


    Abstract nodes in the higher hierarchy has a higher P©

Similarity with Information Content

  • Information Content:

    • general concept = small values
    • narrow concept = large values
  • simlin :

    • High simlin when concept of parent is narrow or concept of senses are general
  • E.g


Word Sense Disambiguation

Word Sense Disambiguation

  • Task: Selects the correct sense for words in a sentence
  • Baseline: Assume the most popular sense
  • Good WSD potentially useful for many tasks:
    • Knowing which sense of mouse is used in a sentence is important
    • Less popular nowadays because sense information is implicitly captured by contextual representations

Supervised WSD

  • Apply standard machine classifiers
  • Feature vectors are typically words and syntax around target
  • Requires sense-tagged corpora
    • E.g. SENSEVAL, SEMCOR
    • Very time-consuming to create

Unsupervised WSD: Lesk

  • Lesk: Choose sense whose WordNet gloss overlaps most with the context

  • E.g.

    在这里插入图片描述

Unsupervised WSD: Clustering

  • Gather usages of the word

  • Perform clustering on context words to learn the different senses

    • Rationale: context words of the same sense should be similar
  • Disadvantages:

    • Sense cluster not very interpretable
    • Need to align with dictionary senses

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/614011.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

GO 性能分析

GO 性能分析 简介 ​ go提供了内存分析工具,pprof利用它可以看cpu和内存的情况。 包含下面的几种类型: cpu内存阻塞锁 pprof分为大体分为两个部分 数据采集数据分析 数据采集有两种方式: 官方 官方提供了两种方式 runtime/pprof 这是用…

【AI】惠普暗夜精灵9安装Ubuntu20.04+nvidia驱动

1、关闭快速启动 NVIDIA驱动安装很是矫情,为了谨慎起见,还是禁用快速启动吧 在Win11下,进入控制面板–》硬件和声音–》电源选项–》更改电源按钮的功能 禁止“启用快速启动” 2、关闭设备加密 关闭设备加密,否则安装过程中会报:bitlocker加密需要解除 3、设置bios…

SpringMVC《学习笔记(21版尚硅谷)》

一、SpringMVC简介 1、什么是MVC MVC是一种软件架构的思想,将软件按照模型、视图、控制器来划分 M:Model,模型层,指工程中的JavaBean,作用是处理数据 JavaBean分为两类: 一类称为实体类Bean&#xff1…

Form表单(antd-design组件库)简单使用以及单一检查规则

1.Form表单 高性能表单控件,自带数据域管理。包含数据录入、校验以及对应样式。 2.何时使用 用于创建一个实体或收集信息。 需要对输入的数据类型进行校验时。 组件代码来自: 表单 Form - Ant Design 3.本地验证前的准备 参考文章【react项目antd组件-de…

chatgpt赋能python:Python如何变大字体的SEO技巧

Python如何变大字体的SEO技巧 在网页设计和优化中,使用合适的字体和字体大小是至关重要的。对于使用Python编程的开发人员和网站管理员来说,如何使Pyhton代码中的字体变大是一个非常有用的技巧。在本文中,我们将介绍几种方法来增大Python代码…

C语言7:输入若干个学生的成绩,统计出平均成绩

在程序编辑区编写程序,给定程序功能是: 从键盘上输入若干个学生的成绩,统计出平均成绩,并输出低于平均分的学生成绩,用输入负数结束输入。 例如输入: 70 80 90 -1 输出: ave 80.00 --------OUTPUT----------- 70.0 程序有…

【茶话数据结构】查找最短路径——Dijkstra算法详解(保姆式详细图解,步步紧逼,保你学会)

💯 博客内容:【茶话数据结构】查找最短路径——Dijkstra算法详解 😀 作  者:陈大大陈 🦉所属专栏:数据结构笔记 🚀 个人简介:一个正在努力学技术的准前端,专注基础和实…

软考A计划-电子商务设计师-模拟试题卷一

点击跳转专栏>Unity3D特效百例点击跳转专栏>案例项目实战源码点击跳转专栏>游戏脚本-辅助自动化点击跳转专栏>Android控件全解手册点击跳转专栏>Scratch编程案例 👉关于作者 专注于Android/Unity和各种游戏开发技巧,以及各种资源分享&am…

chatgpt赋能python:Python抢票的绝招

Python 抢票的绝招 随着互联网技术的不断发展,越来越多的人开始享受网购的便利。但是,随着一些热门事件的到来,如演唱会、体育比赛等,大家面临同一个问题:如何抢到热门事件的门票?这时,Python …

Win10利用剪贴板多次粘贴

工作中需要经常复制粘贴图片,每次ctrl C, ctrl V来回切换效率很低 网上有很多剪贴板增强工具,但win10本身有增强版的功能 多次复制后,在需要粘贴的地方按下,Windows徽标 V,就会出现所有复制过的内容 需要哪个直接点…

2023/06/05 PM Day4 软件项目生存期和生命周期

视频参考地址: B站闫波软件项目管理视频学习. 视频资源:video P4-P6 本篇重点:项目生存期 简书日更计划同步记录🏃… 项目生命周期 软件项目生命周期 *项目生命周期的阶段 C概念/启动阶段:确立项目需求和目标D开发/计…

chatgpt赋能python:Python如何把数据存到字典

Python如何把数据存到字典 字典是Python中非常有用的数据类型之一,它允许您将值与唯一的键相关联,从而快速地查找、插入和删除数据。在这篇文章中,我们将介绍如何使用Python将数据存储到字典中。 什么是字典? 字典是Python中的…

[开发板]001瑞芯微3588s开发记录--装一个仿真环境

文章目录 前言1. 构建python环境2 模型转换 前言 我是一个开发板的新手,刚买了一个瑞芯微3588s的板子,目标是要学习嵌入式的开发,也就是说把深度学习的框架,跑到板子上。万丈高楼平地起步。先把仿真环境搭建起来。 仿真环境可以跑…

趣未来科技董事长黄婵娇:专注创新研发,把公司当做科研机构来运作!

身为研发型董事长,黄婵娇女士谈及“技术”,眼中总是透着由衷的自豪。她的办公室摆满了各类技术文件以及图纸,以身作则将技术研发基因带入公司核心运维,强势带动深圳市趣未来(B2GO)科技有限公司一步步成长为…

电赛备赛日记(一):K210与STM32串口通信

拖更了n久的备赛日记终于来啦,最近实现了关于K210图像识别并将所需数据(即目标类别,目标在图像中的加权坐标)其中,加权坐标指K210识别到的目标并框出的框的宽和高与框左上顶点的坐标加权,希望以此来判断目标…

海云捷讯杯 赛后总结 目标检测——缺陷检测(模型训练部分)

在这次比赛中,本人在队伍中主要负责模型训练部分,所以本文主要讲述如何使用PaddleDetection代码自定义数据集进行目标检测,欢迎大家纠错讨论哦,不胜荣幸~ 参考项目: SSDquexianjiance - 飞桨AI Studio (baidu.com) 感…

云上高校导航

2023042719 - 云上高校导航 中国大学生计算机设计大赛 广西赛区 软件应用与开发 - 移动应用开发(非游戏类) 三等奖 “云上高校导航”是一套基于小程序云开发的校园导航类系统开发方案。 该开发方案可供开发者进行二次开发,用于解决师生和访客…

MySQL数据库理论基础

数据库-理论基础 1.什么是数据库2.数据库管理系统(DBMS)3.数据库与文件系统的区别4.数据库的发展史5. 常见数据库5.1 关系型数据库5.2 非关系型数据库 6.MySQL简介7. MySQL的特性8.MySQL获取9.MySQL在企业中应用10.MySQL体系结构 1.什么是数据库 数据: 描述事物的符…

Linux 高级篇-定制自己的Linux 系统

Linux 高级篇-定制自己的Linux 系统 基本介绍 通过裁剪现有Linux 系统(CentOS7.6),创建属于自己的min Linux 小系统,可以加深我们对linux 的理解。利用centos7.6,搭建一个小小linux 系统, 很有趣。 基本原理 启动流程介绍: 制…

LeetCode25. K 个一组翻转链表

给你链表的头节点 head ,每 k 个节点一组进行翻转,请你返回修改后的链表。 k 是一个正整数,它的值小于或等于链表的长度。如果节点总数不是 k 的整数倍,那么请将最后剩余的节点保持原有顺序。 你不能只是单纯的改变节点内部的值…