(一) 概述
1.NLTK
NLTK是一款著名的python自然语言处理工具包,其内收集了NLP领域大量的公开数据集以及常用模型,涵盖了分词,词性标注,命名实体识别,句法分析,依存分析等各种NLP领域的子任务。
2.Stanford NLP
Stanford NLP 是由斯坦福大学的NLP小组开源的用Java实现的NLP工具包,同样对 NLP 领域的各个问题提供了解决办法。相比NLTK,Stanford NLP提供了更多高质量的解决办法,因此我们希望能够在NLTK中使用它们。在 2004年Steve Bird在NLTK中加上了对Stanford NLP 工具包的支持,通过调用外部的jar文件来使用Stanford NLP工具包的功能。现在的NLTK中,通过封装提供了 Stanford NLP 中的以下几个功能:
- 分词
- 词性标注
- 命名实体识别
- 句法分析
- 依存分析
(二) Standford NLP工具包配置
配置Standford NLP工具包需要提前安装好Java环境,Java环境的安装这里就不介绍了,可以自行百度,本文使用的是JDK1.8版本。本文配置的Standford NLP工具包都是3.9.2版本。
1.下载.jar包
- 分词压缩包:The Stanford Natural Language Processing Group
点进链接后找到Download下的下载链接,获取stanford-segmenter-2018-10-16.zip,如下图: - 词性标注压缩包:The Stanford Natural Language Processing Group
点进链接后找到Download下的下载链接,获取stanford-postagger-full-2018-10-16.zip,如下图: - 命名实体识别压缩包:The Stanford Natural Language Processing Group
点进链接后找到Download下的下载链接,获取stanford-ner-2018-10-16.zip,如下图: - 句法分析、依存分析压缩包:The Stanford Natural Language Processing Group
点进链接后找到Download下的下载链接,获取stanford-parser-full-2018-10-17.zip,如下图:
2.配置环境变量
将上述下载的四个压缩包解压,将其中的部分文件添加到CLASSPATH环境变量下,部分文件添加到STANFORD_MODELS环境变量***:是CLASSPATH不是PATH,如果没有CLASSPATH环境变量就创建一个,STANFORD_MODELS需要自己创建):
- 分词:将stanford-segmenter-2018-10-16文件夹下的stanford-segmenter-3.9.2.jar重命名为stanford-segmenter.jar并添加到CLASSPATH环境变量下。
- 词性标注:将stanford-postagger-full-2018-10-16文件夹下的stanford-postagger.jar添加到CLASSPATH环境变量下,并将models文件夹添加到STANFORD_MODELS环境变量下。
- 命名实体识别:将stanford-ner-2018-10-16文件夹下的stanford-ner-3.9.2.jar添加到CLASSPATH环境变量下,并将classifiers文件夹添加到STANFORD_MODELS环境变量下。
- 句法分析、依存分析:将stanford-parser-full-2018-10-17文件夹下的stanford-parser.jar、stanford-parser-3.9.2-models.jar、slf4j-api.jar文件分别添加到CLASSPATH环境变量下。