剔除来自unknown的机构与作者文献文献——数据清洗
- 背景
- 实例
- 解决方法
-
- 方法一: 使用专门处理bibx文件的库
- 方法二: 直接处理纯文本数据
背景
有时在研究过程中,会遇到不同类型的文献,但是有些文献中的数据会有部分缺失,常见的比如机构,作者和年份等字段,因此为了使用科研工具进行有效的文献计量,数据清洗就显着十分重要
实例
以Scopus数据库下载的数据为例,这里使用pybibx论文提供的数据集,其中是没有数据确实。构造缺失数据集,这里就是将前两条文献中的作者Author字段原来内容替换为UNKOWN(为了保证原始数据的准确性,建议备份一份文件操作),如下。
打开python软件,导入相关的库,对数据进行加载
# 加载第三方库