spaCy 是一个基于 Python 编写的开源自然语言处理(NLP)库,它提供了一系列的工具和功能,用于文本预处理、文本解析、命名实体识别、词性标注、句法分析和文本分类等任务。
spaCy支持多种语言模型对文本进行处理,包括中文、日语、韩语、西班牙语等。安装有spacy模块的可以通过下面命令对语言模型进行下载安装:
# 支持中文语言的NLP模型
python -m spacy download zh_core_web_sm
除此之外,还可以在代码中动态下载使用语言模型,示例如下:
import spacy
nlp = spacy.load("zh_core_web_sm")
import zh_core_web_sm
nlp = zh_core_web_sm.load()
doc = nlp("这是一个用于示例的句子。")
print([(w.text, w.pos_) for w in doc])
由于网络或者其它因素经常导致下载失败,例如执行命令行下载时出现下面错误:
requests.exceptions.ConnectionError: HTTPSConnectionPool(host='raw.githubusercontent.com', port=443): Max retries exceeded with url: /explosion/spacy-models/master/compatibility.json (Caused by NewConnecti
onError('<urllib3.connection.HTTPSConnection object at 0x00000187750BE790>: Failed to establish a new connection: [Errno 11004] getaddrinfo failed'))
可以直接登录spaCy官网下载NLP语言模型,这里是下载链接。