nlp工具库spacy

news2025/4/5 0:54:15

文章目录

  • spacy能做什么
  • 如何安装
  • 案例 分词功能

spacy是一个辅助自然语言处理的工具库。

spacy能做什么

它集成了各种实用的句子分析功能,包括分词、词性分析、词性还原等等,所有功能特性可参考官网 spacy-101的features一章,有Tokenization、Part-of-speech (POS) Tagging等等。

如何安装

它易于安装。参考官网 Install spaCy,完整的spacy安装分两步:
1. 用pip安装spacy。
2. 根据你要分析的语言,安装语言模型。比如对于英语,可以安装en_core_web_sm。因为网络原因,这条命令大概率失败,可参考NLP Spacy中en_core_web_sm安装问题,及最新版下载地址下载语言模型。

案例 分词功能

阅读官网 spacy-101的Tokenization一节,可以了解该库的分词功能。由于某个rnn教程用到了它的分词功能,笔者会试图翻译这一节。

在处理时,spacy会先将文本分词,比如把它分成单词、标点符合,等等。比如句子尾部的标点符号应当被分开,而"U.K."应当维持一个单词。每个Doc对象包含了一些token对象,可供遍历:

import spacy

nlp = spacy.load("en_core_web_sm")
doc = nlp("Apple is looking at buying U.K. startup for $1 billion")
for token in doc:
    print(token.text)

它们会按顺序被分成下图的11个单词。

首先,文本被以空格分割,类似于text.split(' ')。然后分词器会从左向右处理文本,对于每个子串,它会作两个检查:

  1. 这个字串是否符合例外规则?比如"Don’t"不包含空格,但应当被分割为两个单词,“do"和"n’t”,然而"U.K."应当始终是一个单词。
  2. 是否有前缀、后缀、中缀应当被分割?比如各种标点符号,如逗号、句号、中划线、引号。

如果有符合的情况,那么就会触发规则,然后分词器会从新分割的字串继续处理。这样,spacy有能力分割复杂、多层的单词,比如缩写与各种标点符号的组合。


如图所示:

  1. 先按空格分割,得到第一行
  2. 再触发exception规则,对作为前缀prefix的双引号分割,得到第二行
  3. 再触发suffix规则,对作为后缀suffix的单引号分割,得到第三行
  4. 再触发suffix规则,对作为后缀suffix的双引号分割,得到第四行
  5. 再对触发exception规则,对感叹号分割,得到第五行
  6. 再分割得到最后一行

标点符号规则通常是宽泛的,分词器的例外规则很大程度上依赖于语言特性。这就是为什么每种语言都有其特有的子类,比如英语或者德语,它们各自加载一系列硬编码的数据和例外规则。

由于精力关系,笔者不会去翻译更多例子。请读者自己继续阅读英文的教程。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/45304.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ROS MarkerArray的几种常见用法

ros使用过程中,经常会用到rviz可视化各种数据。而在rviz中,marker与markerarray是常用的一种可视化工具,最近也用到过几次了,这里随手记录一下。 1、makerarray画线 在marker中常见的就是表示两点之间的连线,而marke…

【LeetCode】1752. 检查数组是否经排序和轮转得到

题目描述 给你一个数组 nums 。nums 的源数组中,所有元素与 nums 相同,但按非递减顺序排列。 如果 nums 能够由源数组轮转若干位置(包括 0 个位置)得到,则返回 true ;否则,返回 false 。 源数组…

怎么提高外贸开发信的回复率?

写客户开发信是每个外贸人都必备的技能。对于成本预算小的企业来讲,开发信是性价比非常高的一种方式。但是,很多人在写完开发信之后并没有收获到比较好的回复效果,可能是因为他们没有把握写开发信的技巧。怎么提高外贸开发信的回复率&#xf…

挖掘数据价值,华为云大数据BI解决方案有绝招

在没有接触电子商务时,就一直很好奇,他们是怎么知道我需要什么并及时推送给我的,直到后来自己也开始做电商的时候,才知道原来电子商务必不可少的是大数据分析方案。在这里我强烈给同业者们安利一下华为云的大数据BI解决方案&#…

大厂都在用MyBatis,跳槽的时候MyBatis更是面试必问的内容,那你对于MyBatis又掌握了多少呢?这份MyBatis源码解析值得拥有!

MyBatis作为一个流行的半自动ORM框架,里面融合了许多优秀的设计理念,分析其源码骨架能够帮你建立良好的项目设计经验。由于其比较复杂,我会分成几篇来讲,一起踏上征服的旅程吧! 首先把MyBatis源码包导入到idea&#x…

PC_非连续内存分配方式@分页存储管理@地址变换机构@快表@有效访存时间

文章目录非连续内存分配方式🎈分页存储管理基本分页存储管理页面和页面大小分块和碎片逻辑地址结构页表页表项结构页表项和地址比较🎈页表项地址地址变换机构基本地址变换机构结构图映射过程Note:页表长度页表项长度页表大小例小结ref具有快表的地址变换…

xxl-job安装部署

一、简介 XXL-JOB是一个分布式任务调度平台,其核心设计目标是开发迅速、学习简单、轻量级、易扩展。现已开放源代码并接入多家公司线上产品线,开箱即用。 中文文档English Documentation 二、安装 xxl-job需要的提前安装好以下环境:jdk、m…

A-Level物理例题解析及练习Projectile Motion

今日知识点:Magnetic Force例题 Q: A proton p and an electron e, with the same velocity, enter a magnetic field which is perpendicular to the direction of their motion. The field acts into the page. Which of the following diagrams best represents …

Spire.XLS for Java 12.11.8 Excel to PDF bug Fix

谷歌找破解版Spire.XLS for Java is a professional Java Excel API that enables developers to create, manage, manipulate, convert and print Excel worksheets without using Microsoft Office or Microsoft Excel. Spire.XLS for Java supports both for the old Excel …

Spark系列之Spark的Shuffle详解及相关参数调优

title: Spark系列 第七章 Spark的Shuffle详解及相关参数调优 ​ 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网 络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程…

数图互通高校房产管理——公房管理功能详解

数图互通房产管理系统在这方面做得比较全面; 公用房管理 1 房屋档案 可维护校区信息、公房的楼栋信息、公房的房间信息,记录校区的名称、建成年份、占地面积、建筑面积等基本信息。记录楼栋的编号、名称、建筑面积、使用面积等基本信息,同…

[附源码]计算机毕业设计springboot超市商品管理

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

企业研发数据:省级工业企业研发费用、企业非真实研发支出原始数据加计算stata do代码两大维度指标

1、省级工业企业研发费用 1、数据来源:Wind 2、时间跨度:2008-2019年 3、区域范围:全国31省(区分了东中西部地区) 4、指标说明: 包含如下指标: 省级规模以上工业企业R&D经费 省级规模以上工业企…

Kotlin高仿微信-第8篇-单聊

Kotlin高仿微信-项目实践58篇详细讲解了各个功能点,包括:注册、登录、主页、单聊(文本、表情、语音、图片、小视频、视频通话、语音通话、红包、转账)、群聊、个人信息、朋友圈、支付服务、扫一扫、搜索好友、添加好友、开通VIP等众多功能。 Kotlin高仿…

http和dubbo接口调用主动设置超时时间

http接口超时方案 方案1:多个resttemplate,不同超时时间的使用不同的template,优点:简单,扩展起来复制粘贴,缺点:代码冗余,多个template占用内存不够优雅 方案2:单个res…

MySQL事务和锁

目录 1、四大特性 2、事务引发的问题 3、事务控制演进 3.1、排队 3.2、排它锁 3.3、读写锁 3.4、MVCC 4、事务的隔离级别 4.1、四种隔离级别 4.2、事务隔离级别和锁的关系 4.3、MySQL隔离级别控制 5、锁机制和实战 5.1、锁分类 5.1.1、按操作粒度分类 5.1.2、按…

CDMP选修课都有什么?

大家都知道CDMP认证考试有四个级别。分别是A级(基础级)P级(实践级)M级(专业级)F级(大师级)。级别越高,考试难度就越大,分数比例要求也更高,相对应…

在Linux命令行中查找空目录

在 Linux 系统中,出现空的目录这是很正常的事情,而且,也是有办法一次性把它们都找出来的。 但是,仅仅列出空目录并不是我们的目的,我们今天了解一下如何删除这些空的目录。 在Linux中查找空目录 查找空目录&#xf…

ThinkPHP5文档学习——配置

文章目录一、配置目录二、配置格式PHP数组定义其它格式的支持二级配置三、配置加载惯例配置应用配置拓展配置场景配置四、读取配置参数五、动态配置设置配置参数六、独立配置独立配置文件V5.0.1版本已经废除该写法自动读取扩展配置七、配置作用域八、环境变量配置一、配置目录 …

语文课内外杂志语文课内外杂志社语文课内外杂志社2022年第14期目录

幼儿教育《语文课内外》投稿:cn7kantougao163.com 家园协同视域下幼儿心理危机的预防与干预对策 曹锭1-3 幼小衔接阶段幼儿时间观念的培养对策 陈晶晶4-6 有效支持 助力幼儿在书海中徜徉 胡玲珊7-9 东西部幼儿园结对帮扶,助力乡村教育扶贫——以广州市人民政府机关幼…