Lecture 5 Part of Speech Tagging

news2024/10/7 12:26:14

目录

        • POS application: Information Extraction 词性应用:信息提取
      • POS Open Class 开放类词性
      • Problem of word classes: Ambiguity 词类问题:模糊性
      • Tagsets 标记集
      • Penn Treebank Tags:
      • Derived Tags: 衍生标签
      • Tagged Text Example 标记文本示例
      • Reasons for automatic POS tagging 自动词性标注的原因
      • Automatic Taggers 自动标注器
      • Unknown Words

Part of Speech(POS)

  • Also called word classes, morphological classes, syntactic categories 也称为词类、形态类、句法类别

  • E.g.: nouns, verbs, adjective 例如:名词、动词、形容词

  • POS tells information about a word and its neighbors: 词性提供了关于单词及其相邻单词的信息

    • Nouns are often preceded by determiners 名词通常由限定词前置
    • Verbs preceded by nouns 动词通常由名词前置
    • content as a noun pronounced as /'kɑ:ntent/
    • content as an adjective pronounced as /kən’tent/

POS application: Information Extraction 词性应用:信息提取

  • Given sentence: “Brasilia, the Brazilian capital, was founded in 1960”

  • Extract information: 提取信息

    • capital(Brazil, Brasilia)
    • founded(Brasilia, 1960)
  • First step of information extraction is finding all POS tags: 信息提取的第一步是找到所有的词性标签

    • nouns: Brasilia, capital
    • adjective: Brazilian
    • verbs: founded
    • numbers: 1960

POS Open Class 开放类词性

  • Open vs. closed: How readily do POS categories take on new words? 开放类 vs. 封闭类:词性类别接受新词的频率如何?

  • E.g. of open classes: 开放类的例子

    • Nouns:
      • Proper(专有名词) vs. common(普通名词): Australia, wombat
      • Mass(集合名词) vs. count(可数名词): rice, bowls
    • Verbs:
      • Rich inflection: go/goes/going/gone/went 富有变化
      • Auxiliary verbs(助动词): be, have, do 助动词
      • Transitivity: wait, hit, give 及物性
    • Adjectives:
      • Gradable(等级形容词) vs. non-gradable(非等级形容词): happy/happier/happiest, computational
    • Adverbs:
      • Manner(情状副词): slowly
      • Locative(处所副词): here
      • Degree(程度副词): really
      • Temporal(时间副词): today
  • E.g. of closed classes: 封闭类的例子

    • Prepositions(介词):
      • in, on, with, for, of, over
    • Particles:
      • off
    • Determiners(限定词):
      • Articles(冠词): a, an, the
      • Demonstratives(指示词): this, that, these, those
      • Quantifiers(数量词): each, every, some, two
    • Pronouns(代词):
      • Personal(人称代词): I, me, she
      • Possessive(所有格代词): my, our
      • Interrogative(疑问代词): who, what
    • Conjunctions(连词):
      • Coordinating(并列连词): and, or, but
      • Subordinating(从属连词): if, although, that
    • Modal verbs(情态动词):
      • Ability: can, could
      • Permission: can, may
      • Possibility: may, might, could, will
      • Necessity: must

Problem of word classes: Ambiguity 词类问题:模糊性

  • Many word types belong to multiple classes 许多单词类型属于多个类别

  • POS depends on context 词性取决于上下文

  • E.g.: flies

    在这里插入图片描述

    • The word flies in the first sentence is an inflection of the verb “fly” 在第一句中,flies 是动词 “fly” 的变形
    • The word flies in the second sentence is the plural form of the noun “fly” 在第二句中,flies 是名词 “fly” 的复数形式

Tagsets

Tagsets 标记集

  • A compact representation of POS information 词性信息的紧凑表示

    • Usually less than 4 capitalized characters. E.g. NN = noun 通常少于4个大写字符。例如 NN = noun
    • Often includes inflectional distinctions 经常包括形态变化的区别
  • Major English tagsets: 主要的英语标记集

    • Brown: 87 tags
    • Penn Treebank: 45 tags
    • CLAWS/BNC: 61 tags
    • Universal: 12 tags
  • At least one tagset for all major languages 所有主要语言至少有一个标记集

Penn Treebank Tags:

  • Open classes: 开放类

    • NN: noun 名词
    • VB: verb 动词
    • JJ: adjective 形容词
    • RB: adverb 副词
  • Closed classes: 封闭类

    • DT: determiner 限定词
    • CD: cardinal number 基数
    • IN: preposition 介词
    • PRP: personal pronoun 人称代词
    • MD: modal 情态动词
    • CC: coordinating conjunction 并列连词
    • RP: particle 助词
    • WH: wh-pronoun 疑问代词
    • TO: to

Derived Tags: 衍生标签

  • Open classes: 开放类

    • NN (noun singular): 单数名词
      • NNS (plural) 复数
      • NNP (proper) 专有名词
      • NNPS (proper plural) 复数专有名词
    • VB (verb infinitive): 不定式动词
      • VBP (1st/2nd person present) 第一/第二人称现在时
      • VBZ (3rd person singular) 第三人称单数
      • VBD (past tense) 过去时
      • VBG (gerund) 现在分词
      • VBN (past participle) 过去分词
    • JJ (adjective): 形容词
      • JJR (comparative) 比较级
      • JJS (superlative) 最高级
    • RB (adverb): 副词
      • RBR (comparative) 比较级
      • RBS (superlative) 最高级
  • Closed classes: 封闭类

    • PRP (pronoun personal): 人称代词
      • PRP$ (possessive) 所有格
    • WP (wh-pronoun): 疑问代词
      • WP$ (possessive) 所有格
      • WDT (wh-determiner) 疑问限定词)
      • WRB (wh-adverb) 疑问副词

Tagged Text Example 标记文本示例

在这里插入图片描述

Automatic Tagging

Reasons for automatic POS tagging 自动词性标注的原因

  • Important for morphological analysis. E.g. lemmatization 对形态分析很重要。例如:词形还原

  • For some applications, we want to focus on certain POS 对于某些应用,我们希望关注某些词性

    • E.g. nouns are important for information retreieval, adjectives for sentiment analysis 例如:名词对于信息检索很重要,形容词对于情感分析很重要
  • Very useful features for certain classification tasks. 对于某些分类任务,这是非常有用的特性

    • E.g. genre attribution 体裁属性
  • POS tags can offer word sense disambiguation 词性标签可以提供词义消歧

    • E.g. cross/NN, cross/VB, cross/JJ all have different means
  • Can use them to create larger structures 可以用它们来创建更大的结构

Automatic Taggers 自动标注器

  • Rule-based taggers 基于规则的标注器
  • Statistical taggers 统计标注器
    • Unigram tagger 一元标注器
    • Classifier-based tagger 基于分类器的标注器
    • Hidden Markov Model tagger 隐马尔科夫模型标注器

Rule-Based Tagging

  • Typically starts with a list of possible tags for each word. Source from a lexical resource or a corpus 通常从词典或语料库中为每个单词列出可能的标签开始
  • Often includes other lexcial information. E.g. verb subcategorization 经常包括其他词汇信息。例如:动词下类化
  • Apply rules to narrow down to a single tag 应用规则以缩小到一个标签
  • Large systems have thousands of constraints 大型系统有数千个约束

Unigram Tagger

  • Assign most common tag to each word type 为每个单词类型分配最常见的标签
  • Requires a corpus of tagged words 需要一个标记过的词语的语料库
  • Just a look-up table 只是一个查找表
  • Approximately 90% accuracy 精度约为90%
  • Often considered the baseline for more complex approaches 通常被认为是更复杂方法的基线

Classifier-Based Tagging

  • Use a standard discriminative classifier like logistic regression or neural network with features: 使用如逻辑回归或神经网络这样的标准判别式分类器,其特征包括

    • Target word 目标词
    • Lexical context around the word 词周围的词汇上下文
    • Already classified tags in the sentence 句子中已分类的标签
  • Can suffer from error propagation: wrong predictions from previous steps affect the next ones 可能受到错误传播的影响:前一步的错误预测影响下一步

Hidden Markov Models

  • A basic sequential model 一个基本的序列模型
  • Like sequential classifiers, use both previous tag and lexical evident 与序列分类器一样,使用前一个标签和词汇证据
  • Unlike classifiers, considers all possibilities of previous tag and treat previous tag evidence and lexical evidence as independent from each other 与分类器不同的是,它考虑了前一个标签的所有可能性,并将前一个标签的证据和词汇证据视为相互独立的
    • Less sparsity 稀疏度较小
    • Fast algorithms for sequential prediction 针对序列预测的快速算法

Unknown Words

  • Huge problem in morphologically rich languages 在形态丰富的语言中是一个巨大的问题

  • Can use things already seen only once to best guess for things never seen before 可以使用已经看到一次的事物来对从未见过的事物进行最佳猜测

    • Tend to be nouns, followed by verbs 倾向于是名词,然后是动词
    • Unlikely to be determiners 不太可能是限定词
  • Can use sub-word representations to capture morphology 可以使用子词表示来捕获形态

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/608630.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java 字符串基本操作

一、Java 字符串比较 1、equals用法 String类覆盖了Object类的equals()方法,并提供了自己的实现,它根据它们的内容比较两个字符串的相等性。 equals() 方法用于将字符串与指定的对象比较。 语法 public boolean equals(Object anObject)参数 anObje…

Dockerfile常用指令及其含义

编写dockerfile文件中常用指令: 指令说明FROM指明当前的镜像基于哪个镜像构建:LABEL标记镜像信息,添加元数据ARG定义构建镜像过程中使用的变量ENV指定环境变量VOLUME创建一个数据卷挂载点USER指定运行容器时的用户名或 UIDWORKDIR配置工作目录EXPOSE容器…

chatgpt赋能python:Python区分:为什么选择python?

Python区分:为什么选择python? Python是一种高级语言,一种功能强大且易于学习的编程语言。 它可用于各种领域,包括科学计算,Web开发和数据分析等。 Python的简单性和灵活性使其成为许多行业和开发者的首选编程语言。 …

R语言 tidyverse系列学习笔记(持续更新)

tidyverse 译 “洁净的宇宙” > “极乐净土” 以 iris 鸢尾花数据集为例 ** 查看数据集** ** 查看维度dimention** dim(iris)iris 数据集有150个对象(observation),5列 ( Sepal.Length , Sepal.Width , Petal.Length , Petal.Width , Spe…

大疆无人机 MobileSDK(遥控器/手机端)开发 v5版<2>

前言 v5.x版本的功能与v4.x基本相同,都是获取飞机的姿态信息、获取无人机多媒体文件、操作多媒体文件、航线规划等。不过在上一章节中也大致说了一些两个版本的中API的差别,下面是根据一些API使用所完成的一些功能,因为项目原因只能提供部分代码供参考,后续如果有这方面需…

零基础开发小程序第五课-修改数据

目录 1 创建修改页面2 创建远程数据3 给组件绑定默认值4 从详情页跳转到更新页5 刷新页面总结 新手开发往往对修改和删除的功能不是特别理解。我们先按照开发的思路捋一下逻辑,如果想修改数据,首先需要知道修改哪一条数据,然后要把上一次存储…

DINO代码学习笔记(一)

先上官方架构图: 论文地址:https://arxiv.org/pdf/2203.03605.pdf 代码地址:GitHub - IDEA-Research/DINO: [ICLR 2023] Official implementation of the paper "DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Objec…

什么是数据可视化测试?

在我们日益由数据驱动的世界中,拥有可访问的方式来查看和理解数据比以往任何时候都更加重要。毕竟,员工对数据技能的需求每年都在稳步增长。各级员工和企业主都需要了解数据及其影响。 这就是数据可视化派上用场的地方。为了使数据更易于访问和理解&…

在nodejs addon 环境下抓视频和音频数据包

在node addon 环境下开发音视频,需要用到 gyp 。这个配置比较简单,很快可以配置好。比较坑的是,在vscode 开发环境下, 如果装了conda 或者 mini conda . 有可能会影响gpy程序的编译。谨慎起见,可以看看控制台是否有 …

好物周刊#2:AI 写作助手

不要哀求,学会争取。若是如此,终有所获。 🎈 项目 vue-fabric-editor 基于 fabric.js 和 Vue 的图片编辑器,可自定义字体、素材、设计模板。 目前已支持以下功能: 导入 JSON 文件保存为 PNG、SVG、JSON 文件插入 S…

我与 INDCODE AI 创作助手的一次对话

本文由 大侠(AhcaoZhu)原创,转载请声明。 链接: https://blog.csdn.net/Ahcao2008 我与INDCODE AI 创作助手的一次对话 🧊摘要🧊前言🧊对话内容🧊结束语 🧊摘要 本文介绍了 CSDN 嵌入式INSCODE AI 创作助手…

msvcr120.dll丢失怎样修复

MSVCR120.dll是Windows操作系统上一个非常重要的动态链接库文件,它包含了一些运行时库函数,被许多应用程序用来进行编译和运行。如果该文件丢失或损坏,很多应用程序就无法正常运行,这可能会带来一些麻烦。本篇文章将详细介绍MSVCR…

FAT32文件系统详解

FAT32文件系统详细分析 (续FAT文件系统详解) 文章目录 FAT32文件系统详细分析 (续FAT文件系统详解)1. 前言2. 格式化SD nand/SD卡3. FAT32文件系统分析3.1 保留区分析3.1.1 BPB(BIOS Parameter Block) 及BS区分析3.1.2 FSInfo 结构…

SpringCloud_微服务基础day1(走进微服务,认识springcloud,微服务(图书管理)项目搭建(一))

官方网站:柏码 - 让每一行代码都闪耀智慧的光芒! (itbaima.net) p1:前言,走进微服务 注意:此阶段学习推荐的电脑配置,至少配备4核心CPU(主频3.0Ghz以上)16GB内存,否则卡到你怀疑人生…

【CH32V】CH32V307驱动4P_OLED

前言 手上正好有 CH32V307 的板子就耍耍,网上4P的OLED例程也不少 4P OLED 屏驱动例程。在加上一些 STM32 标准库的知识,改改引脚定义,就可以将 OLED 屏连接到板子上进行显示了。当然,我也将会分享我整理好的库文件代码和完整的工程…

【22】SCI易中期刊推荐——计算机 | 人工智能(中科院4区)

🍀🍀>>>【YOLO魔法搭配&论文投稿咨询】<<<🍀🍀 ✨✨>>>学习交流 | 温澜潮生 | 合作共赢 | 共同进步<<<✨✨ 📚📚>>>人工智能 | 计算机视觉 | 深度学习Tricks | 第一时间送达<<<📚📚 🚀🚀🚀…

【java 基础二 】- 面向对象、类、接口等

一、定义 Java面向对象编程(OOP)是一种编程范式&#xff0c;其旨在通过将程序逻辑封装在对象中来使代码更易于理解和维护。Java是一种面向对象的编程语言&#xff0c;它支持封装、继承和多态等概念。以下是Java面向对象编程的核心概念&#xff1a; 对象(Object)&#xff1a;对…

BM7 算法

描述 给一个长度为n链表&#xff0c;若其中包含环&#xff0c;请找出该链表的环的入口结点&#xff0c;否则&#xff0c;返回null。 数据范围&#xff1a; n≤10000n≤10000&#xff0c;1<结点值<100001<结点值<10000 要求&#xff1a;空间复杂度 O(1)O(1)&#x…

Linux进程间通信——管道,共享内存,消息队列,信号量

进程间通信 文章目录 进程间通信进程间通信的方式进程间通信的概念如何实现进程间通信管道什么是管道 进程间怎么通信 匿名管道pipe函数创建管道通信读写特征写慢读快写快读慢写端关闭&#xff0c;读端读完读端关闭&#xff0c;写端&#xff1f; 管道特征 命名管道命名管道特性…

近期学习论文总结 2

公众号&#xff1a;EDPJ 目录 0. 摘要 1. Artificial Fingerprinting for Generative Models: Rooting Deepfake Attribution in Training Data 1.1 核心思想 1.2 步骤 2. HyperDomainNet: Universal Domain Adaptation for Generative Adversarial Networks 2.1 核心思想…