wordnet报错
明明已经按照了nltk包,但使用 WordNet 语料库时依然报错提示数据不存,依据以下代码在python中下载wordnet仍然报错:
import nltk
nltk.download('wordnet')
运行后始终提示:
[nltk_data] Error loading wordnet: <urlopen error [Errno 11004]
[nltk_data] getaddrinfo failed>
False
下载这个语料库需要翻墙,挂了梯子仍然报错,估计是网络原因已经不支持在线下载了。于是尝试手动下载。
NLTK数据库官网:https://github.com/nltk/nltk_data
再运行代码就没有问题了,但需要注意在代码中加入下面的代码以定位到自己的路径:
nltk.data.path.append('/path/to/custom/nltk_data')
#引号里是自己保存nltk数据的路径
punkt报错
好不容易解决了wordnet问题,运行到一半又提示punkt找不到了。在刚刚下载的文件夹中找到“tokenizers”文件夹,发现里面是有“punkt”文件夹的,但没有解压,把它解压一下就行。
需要注意:解压后一般会自动再创建一个punkt文件夹将解压后的文件嵌套在其中,由此出现/tokenizers/punkt/punkt的情况,这样会导致路径读取失败,所以需要删掉一个,挪一下位置,保证最后的路径是 /tokenizers/punkt,具体如下图所示。再回头运行代码就不会报错了。