1.前言
使用EDA(Easy Data Augmentation)做数据增强时,需要借助Synonyms库,完成同义词的提取。
Synonyms 是一个中文近义词工具包,它可用于如文本对齐、推荐算法、相似度计算、语义偏移、关键字提取、概念提取、自动摘要、搜索引擎等很多自然语言理解 (NLP) 任务。该工具包目前能搜索近义词和比较语句相似度等任务,且词汇量达到了 125,792。该中文近义词工具包采用的基本技术是 Word2vec。
2.遇到问题
synonyms安装后初次使用会下载词向量文件, 但报错下载词向量文件的网址:https://gitee.com/chatopera/cskefu/attach_files/610602/download/words.vector.gz出现403错误,通过浏览器访问该网址被拒绝。
3.解决方案
通过GitHub中提供的下载地址,手动下载词向量文件,然后将词向量文件放到指定位置即可。
下载链接:
https://github.com/chatopera/Synonyms/releases/download/3.15.0/words.vector.gz
词向量文件存放位置:/home/zhenhengdong/anaconda3/lib/python3.9/site-packages/synonyms/data
将词向量文件下载并放到指定位置后,再次import synonyms 无误。