NLTK与StanfordNLP工具包结合使用

news2024/10/3 2:23:26

(一) 概述

1.NLTK

NLTK是一款著名的python自然语言处理工具包,其内收集了NLP领域大量的公开数据集以及常用模型,涵盖了分词,词性标注,命名实体识别,句法分析,依存分析等各种NLP领域的子任务。

2.Stanford NLP

Stanford NLP 是由斯坦福大学的NLP小组开源的用Java实现的NLP工具包,同样对 NLP 领域的各个问题提供了解决办法。相比NLTK,Stanford NLP提供了更多高质量的解决办法,因此我们希望能够在NLTK中使用它们。在 2004年Steve Bird在NLTK中加上了对Stanford NLP 工具包的支持,通过调用外部的jar文件来使用Stanford NLP工具包的功能。现在的NLTK中,通过封装提供了 Stanford NLP 中的以下几个功能:

  • 分词
  • 词性标注
  • 命名实体识别
  • 句法分析
  • 依存分析

(二) Standford NLP工具包配置

配置Standford NLP工具包需要提前安装好Java环境,Java环境的安装这里就不介绍了,可以自行百度,本文使用的是JDK1.8版本。本文配置的Standford NLP工具包都是3.9.2版本。

1.下载.jar包

  1. 分词压缩包:The Stanford Natural Language Processing Group
    点进链接后找到Download下的下载链接,获取stanford-segmenter-2018-10-16.zip,如下图:
  2. 词性标注压缩包:The Stanford Natural Language Processing Group
    点进链接后找到Download下的下载链接,获取stanford-postagger-full-2018-10-16.zip,如下图:
  3. 命名实体识别压缩包:The Stanford Natural Language Processing Group
    点进链接后找到Download下的下载链接,获取stanford-ner-2018-10-16.zip,如下图:
  4. 句法分析、依存分析压缩包:The Stanford Natural Language Processing Group
    点进链接后找到Download下的下载链接,获取stanford-parser-full-2018-10-17.zip,如下图:

2.配置环境变量

将上述下载的四个压缩包解压,将其中的部分文件添加到CLASSPATH环境变量下,部分文件添加到STANFORD_MODELS环境变量***:是CLASSPATH不是PATH,如果没有CLASSPATH环境变量就创建一个,STANFORD_MODELS需要自己创建):

  1. 分词:将stanford-segmenter-2018-10-16文件夹下的stanford-segmenter-3.9.2.jar重命名为stanford-segmenter.jar并添加到CLASSPATH环境变量下。
  2. 词性标注:将stanford-postagger-full-2018-10-16文件夹下的stanford-postagger.jar添加到CLASSPATH环境变量下,并将models文件夹添加到STANFORD_MODELS环境变量下。
  3. 命名实体识别:将stanford-ner-2018-10-16文件夹下的stanford-ner-3.9.2.jar添加到CLASSPATH环境变量下,并将classifiers文件夹添加到STANFORD_MODELS环境变量下。
  4. 句法分析、依存分析:将stanford-parser-full-2018-10-17文件夹下的stanford-parser.jar、stanford-parser-3.9.2-models.jar、slf4j-api.jar文件分别添加到CLASSPATH环境变量下。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/380165.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Linux】动静态库-概念制作

文章目录前置知识:库的命名C标准库动静态库安装C/C静态库完整的库需要的东西制作静态库制作使用一个小疑惑:制作动态库制作使用总结:前置知识: 一般库分为两种:动态库和静态库 静态库和动态库本质就是文件!也有inode 库的命名 库文件的命名一般为: libXXXXX.so 或…

基于部标JT808的车载视频监控需求与EasyCVR视频融合平台解决方案设计

一、方案背景 众所周知,在TSINGSEE青犀视频解决方案中,EasyCVR视频智能融合共享平台主要作为视频汇聚平台使用,不仅能兼容安防标准协议RTSP/Onvif、国标GB28181,互联网直播协议RTMP,私有协议海康SDK、大华SDK&#xf…

谷歌seo做的外链怎样更快被semrush识别

本文主要分享做谷歌seo外链如何能让semrush工具快速的记录并能查询到。 本文由光算创作,有可能会被剽窃和修改,我们佛系对待这种行为吧。 谷歌seo做的外链怎样更快被semrush识别? 答案是:多使用semrush搜索目标网站可加速爬虫抓…

SOLIDWORKS Premium 2023 SP1.0 三维设计绘图软件

SOLIDWORKS 中文完美正式版提供广泛工具来处理最复杂的问题,并提供深层技术完成关键细节工作。新功能可助您改善产品开发流程,以更快地将创新产品投入生产。Solidworks 是达索公司最新推出的三维CAD系统,它可让设计师大大缩短产品的设计时间,让产品得以快速、高效地投向市场…

2023年/2024届 暑期实习 【汇总+更新】

文章目录百度2024届暑期实习生招聘米哈游2023春季校园招聘正式启动(含暑期实习)拼多多2024届暑期实习生招聘百度2024届暑期实习生招聘 百度2023届校园招聘春季补录仍在持续进行中,本周日(3月5日)截止网申,…

ARM基础

文章目录1.ARM成长史1.1 ARM发展的里程碑11.2 ARM发展的里程碑21.3 ARM发展的里程碑31.4 ARM发展的里程碑42.ARM的商业模式和生态系统3.先搞清楚各种版本号3.1 ARM 的型号命名问题3.2 ARM 的几种版本号3.3 ARM型号的发展历程4.SoC和CPU的区别 & 外设概念的引入4.1 SoC和CPU…

面试问到不会的技术问题?大小公司?程序员、校招面试技巧

大家好,欢迎来到停止重构的频道。本期我们分享一下程序员面试的相关经验。可能是3月离职高峰,又或者毕业生准备找工作的缘故,最近有一些朋友问我们关于面试方面的经验。问题五花八门:面试总是紧张?项目、工作经验怎么介…

2023功能测试真的没有出路了吗?不会自动化测试的我留下了悔恨的泪水...

直接抛出我的结论:手工做业务类测试,没有前途。10K的工资已经是天花板 个人建议赶紧从业务测试跳出来,立即学习代码,走自动化测试方向。目前趋势,业务测试需要用自动化做。 为了让大家能够信服我的观点,本…

python-爬虫-字体加密

直接点 某8网 https://*****.b*b.h*****y*8*.com/ 具体网址格式就是这样的但是为了安全起见,我就这样打码了. 抛出问题 我们看到这个号码是在页面上正常显示的 F12 又是这样就比较麻烦,不能直接获取.用requests库也是获取不到正常想要的 源码的,因为字体加密了. 查看页面源代码…

开发一个会员管理系统

背景 由于现在公司内客户量剧增, 简单的靠电话及笔记本记录,来维护客户有些困难,但又不想去花钱购买那些专业版的会员管理系统,只能自己动手撸一个相对简易的会员系统来使用了。 开发语言及使用技术 后端:java、mys…

滑动窗口(同向)同向双指针 leetcode713 3 1004 1234

同向双指针的理解 双指针从同一侧开始走一般是right进行无脑遍历,left控制边界(导致模板化)深刻理解题目概念以及**(right - left 1)** 的含义多思考画图 模板 class Solution { public:int numSubarrayProductLess…

NLP中一些工具列举

文章目录StanfordcoreNLPStanzaTankitspaCySuPar总结StanfordcoreNLP 这个老早就出来了,用java写的,但是已经有很多比他效果好的了。 Stanza 2020ACL发表的,看名字就知道和上一个是同一家的。 用已经切好词的句子进行依存分析。 这个功能…

百度“文心一言”携手酷开科技,实现AI智能领域新突破!

进入21世纪,AI人工智能一直都是讨论度非常高的话题之一,各行各业的领导者都开始在智能领域进行了初步探索,这也证明了AI人工智能在未来一定会在很大程度上影响我们的生活、工作。 近日,深圳市酷开网络科技股份有限公司成为百度文…

Kuangbin 线性DP 最大和加强加强版

呃呃,一道题写了我一下午4546. 最大和加强加强版 - AcWing题库题意:思路:首先这道题没有明显的阶段,因此状态设计不能按照阶段去设计我们按照题目给的量去设计状态:设dp[i][j]为考虑前i个数分为j组的最大可能和如果这样…

百度前端二面vue面试题指南

Vue 组件间通信有哪几种方式? ​ Vue 组件间通信是面试常考的知识点之一,这题有点类似于开放题,你回答出越多方法当然越加分,表明你对 Vue 掌握的越熟练。Vue 组件间通信只要指以下 3 类通信:父子组件通信、隔代组件通…

5个好用的视频素材网站

推荐五个高质量视频素材网站,免费、可商用,赶紧收藏起来! 1、菜鸟图库 视频素材下载_mp4视频大全 - 菜鸟图库 网站素材非常丰富,有平面、UI、电商、办公、视频、音频等相关素材,视频素材质量很高,全部都是…

Java——异常

目录 什么是异常 异常处理主要的5个关键字 异常的体系结构 异常语法 异常的分类 异常的处理流程 异常的处理 防御式编程 异常的抛出 throw的注意事项 异常的捕获 异常声明throws try-catch捕获处理 finally 自定义异常类 throw和throws区别 什么是异常 程序在运行时出现错…

什么情况下Java程序会产生死锁?如何定位、修复?

第18讲 | 什么情况下Java程序会产生死锁?如何定位、修复? 今天,我会介绍一些日常开发中类似线程死锁等问题的排查经验,并选择一两个我自己修复过或者诊断过的核心类库死锁问题作为例子,希望不仅能在面试时,…

NOC2021年测试卷1

一、单项选择题(共15题,每题3分,共45分) 1.下列应用不能体现人工智能技术的是()。 A、使用语音输入法输入文字B、使用OCR软件从图像中识别汉字C、某软件支持在线中英文互译D、某网站自动统计歌曲下载次数2.点击绿旗执行图中的脚本,若角色的坐标为 (25, 20) ,则说出的内…

元数据管理实践数据血缘

元数据管理实践&数据血缘 什么是元数据?元数据MetaData狭义的解释是用来描述数据的数据,广义的来看,除了业务逻辑直接读写处理的那些业务数据,所有其它用来维持整个系统运转所需的信息/数据都可以叫作元数据。比如…