使用CiteSpace软件对知网文献进行关键词共现/聚类/突现分析

news2025/1/10 16:58:19

🤵‍♂️ 个人主页:@艾派森的个人主页

✍🏻作者简介:Python学习者
🐋 希望大家多多支持,我们一起进步!😄
如果文章对你有帮助的话,
欢迎评论 💬点赞👍🏻 收藏 📂加关注+


目录

一、CiteSpace软件介绍

二、CiteSpace软件应用实例-CNKI

2.1确定主题

2.2数据准备

2.3数据格式转化

2.4关键词共现分析 

2.5关键词聚类分析

2.6关键词突现分析

2.7发文机构分析

三、分析总结

3.1关键词共现/聚类分析

3.2关键词突现分析

3.3发文机构分析


一、CiteSpace软件介绍

一、基本概念

CiteSpace(引文空间)是一款专注于分析科学分析中蕴含的潜在知识的软件。它是在科学计量学、数据可视化背景下逐渐发展起来的引文可视化分析软件。通过可视化的手段,CiteSpace能够呈现科学知识的结构、规律和分布情况,并因此将这种分析得到的可视化图形称为“科学知识图谱”。

二、主要功能和用途

  1. 知识图谱构建:根据科学文献的引用关系,CiteSpace可以生成知识图谱,帮助研究人员更好地理解学术领域中不同文献之间的联系和演化过程。
  2. 主题聚类分析:通过关键词和引文共现等信息,CiteSpace可以对文献进行主题聚类分析,帮助研究人员从海量的科技文献中提取出关键主题和热点问题。
  3. 可视化分析:提供了多种可视化方法,如时序图、地图、对比图等,使研究人员能够更直观地展示和分析科学文献数据。
  4. 科研辅助:主要用于科学研究前期的文献综述、科学研究方向的探索、科学研究团队合作与关系的梳理等。

三、应用领域

  1. 论文的文献综述
  2. 国内外期刊分析汇报
  3. 课题研究方向探索
  4. 核心期刊研究

四、开发者和发布信息

CiteSpace是由美国雷德塞尔大学信息科学与技术学院的陈超美博士,以及大连理工大学的WISE实验室共同研发的。用户可以在其官网进行免费下载,网址为:https://citespace.podia.com/download。

五、用户评价

根据华军软件等平台的用户评价,CiteSpace(可视化文献分析软件)下载安装使用过程简单流畅,界面设计容易上手,功能丰富,且实用性高。许多用户都对其给予了高度评价,认为它是一款方便、实用的科研工具。

六、使用方法

在使用CiteSpace时,主要包括文献数据的导入、分析参数的设置、可视化结果的呈现等几个步骤。用户可以从多个权威的数据源获取文献,如Web of Science、中国知网(CNKI)以及谷歌学术等,并通过软件内置的转换工具将数据导入软件进行分析。

二、CiteSpace软件应用实例-CNKI

2.1确定主题

确定研究主题及关键术语,运用尽可能广泛的专业术语来确定所关注的知识领域。本文以国内的“文本挖掘”研究为例,在CNKI数据库中进行检索,通过Citespace探讨近2019年-2024年国内的学术成果分布与合作、研究前沿等

2.2数据准备

在中国知网中以“文本挖掘”为关键词,以年份2019-2024为条件进行检索,发现共有1865篇学术期刊和1994篇硕博论文。

接着将这些期刊和硕博论文以Refworks格式进行导出,注意CNKI每次只能导出500篇文献。(步骤:将显示改为一页50条,点击全选,点击写一页,再点击全选,直到有500条时导出一次,接着重复操作直到将全部文献选中并导出)

最后将导出的全部txt文件内容,复制到同一个txt文件中,并将此txt文件命名为“download_1”。例如我将前面每次导出的1-10个txt文件内容进行合并为download_1.txt文件。

新建一个文档,在里面建立“input、output、data、project”四个文件夹把download_1文档复制到input里面。

data:从output复制过来的数据
input:下载的原始数据
output:经转换后的数据
project:处理后的结果和过程性数据

2.3数据格式转化

打开CiteSpace软件,点击Aggre即可(默认是英文界面)。如果想要中文界面,点击English后再点击Aggre即可。

Citespace分析的数据以Web ofscience数据为基础,其他数据库下载的数据需转换为Wob of Scionce的数据格式才能分析。而本文使用的是CNKI数据库,故需要进行数据转化处理。

点击菜单栏中的数据,并点击“输入/输出”。

点击CNKI,接着将刚才的输入、输出文件夹路径进行填写,最后点击格式转化,运行结束关掉页面即可。 

将转换后的数据从output文件夹中复制到data文件夹里面。

点击“新建”,输入项目名称,修改文件地址,选择数据库和语言,点击Save,项目新建完成。

2.4关键词共现分析 

①修改时间划分,只勾选关键词,勾选下面“精简”里的两个指标,最后点击绿色“开始!”按钮即可。

如果遇到下图这种情况,只需要缩小g-index里面的k值(缩小k值不影响后面的分析), 直到不出现这个报错信息。或者也可以缩短年份,同样可以解决这个问题。

点击可视化

左边的画面为黑色,表明程序还在运行,可以等运行完变成白色,也可以点击停止按钮。画面的左边是关键词出现的频次以及最早出现的年份,右边是控制面板。

在控制板中修改排列方式为“By Freq”,接着可以修改框框中的三个属性的值(控制词语的数量、字大小、节点大小),直到得到满意的图形。

如果觉得词语重叠不好看,可以点击标签中的标签大小,使其均匀分布,这样能是关键词不会重叠,但是就没有频次越高词语越大的效果。

如果不喜欢方形的节点,可以在节点中修改节点形状为圆形。

或者点击功能栏中的节点年轮

如果想修改标签的颜色,按照下面操作即可。

也可以修改标签背景颜色。

也可以去掉背景颜色,将背景颜色透明度拉满即可。

 同时在画面左边还有关键词出现的频次以及出现的平均年份

最后要想保存图片的话,点击文件,另存为PNG。

2.5关键词聚类分析

点击功能栏里的聚类按钮,在弹出来的输入框中输入K,最后点击ok

 聚类之后,在控制板中进行微调即可

最后保存图片如下图: 

如果想做关键词时间线图,就需要在聚类的基础上,点击功能栏中的“TimeLine View”按钮,或者点击控制板里面布局中的TimeLine。

先调整一下背景颜色

如果画面卡白的情况下,可以点击重新运行,然后结束运行。

 如果不想要黄色方框形式的节点,可以点击功能栏中的节点年轮按钮。

最后在控制板中进行微调,保存为PNG图片如下图:

2.6关键词突现分析

点击控制板中的“热点”,点击View,弹出的弹窗中会告诉你共有多少个突变词,然后你要输入显示多少个词,如果突变词个数较少,可以缩小Y【0,1】中的值,比如改为0.5,数值越小,突变词越多。

点击确定后,如下结果

2.7发文机构分析

在节点类型中勾选机构,接着点击开始按钮

画面的左边会统计机构发文的频次以及最早发文的时间

三、分析总结

3.1关键词共现/聚类分析

分析结果如下:

  1. 核心关键词与主题
    • “文本挖掘”和“文本分析”作为最高频次的关键词,显然是该领域的研究核心。它们代表了文本数据处理和分析的基础技术。
    • “机器学习”、“深度学习”、“数据挖掘”等关键词的出现,说明文本挖掘技术通常与这些先进的数据分析技术相结合,以实现更复杂的任务。
  2. 研究热点
    • “情感分析”和“情感分类”的高频次表明,情感分析在文本挖掘领域具有重要地位,尤其是在社交媒体分析、消费者行为预测等方面。
    • “政策工具”、“政策文本”、“政策评价”、“政策变迁”等关键词的出现,表明政策分析是文本挖掘的一个重要应用领域,尤其是在政策制定、政策效果评估等方面。
    • “大数据”和“人工智能”作为现代科技的核心技术,与文本挖掘技术的结合也显示出该领域的前沿性和广阔的应用前景。
  3. 应用领域
    • “在线评论”、“网络文本”、“网络舆情”等关键词表明,文本挖掘技术在处理和分析网络数据方面具有广泛应用,特别是在电商、社交媒体等领域。
    • “乡村振兴”、“数字经济”、“金融科技”等关键词则揭示了文本挖掘技术在不同领域(如农业、经济、金融等)的应用场景。
  4. 研究方法与技术
    • “主题模型”、“内容分析”、“量化分析”、“关联规则”等关键词代表了文本挖掘研究中所采用的主要方法和技术。
    • “知识图谱”和“可视化”等关键词则显示了研究者如何将复杂的文本数据转化为易于理解和分析的图形或图像。
  5. 趋势与变化
    • 从关键词的平均年份来看,大多数高频关键词都出现在2020年,这可能与COVID-19疫情的影响有关,导致了对文本挖掘技术的更广泛关注和应用。
    • 近年来,“政策量化”、“政策协同”、 金融科技”、“事故致因”等关键词的出现,可能预示着政策分析领域、金融领域、交通领域对文本挖掘技术的需求正在增加,同时也显示出该领域研究方法的多样性和深入性。

综上所述,文本挖掘领域的研究呈现出多样化、深入化和应用化的趋势,不仅涉及先进的技术和方法,还广泛应用于不同领域和场景。未来,随着数据量的不断增加和技术的不断进步,文本挖掘领域的研究将会更加广泛和深入。

3.2关键词突现分析

对文本挖掘领域在近几年内的发展动态和趋势进行如下分析:

  1. 早期趋势(2019-2020年)
    • 大数据与网络爬虫:从2019年到2020年,大数据和网络爬虫作为获取和分析大量文本数据的关键技术,得到了广泛的关注和应用。这表明在这一阶段,研究者们开始重视从各种数据源中自动获取文本信息,并对这些信息进行初步的处理和分析。
    • 电子商务:随着电子商务的快速发展,相关的文本挖掘技术也受到了关注。这可能涉及到对消费者评价、产品描述等文本数据的挖掘和分析,以支持商业决策和市场营销活动。
    • 特征提取:特征提取是文本挖掘中的一个重要步骤,用于从文本数据中提取出有意义的特征。这一阶段的关注表明,研究者们开始重视文本数据的预处理和特征工程。
  2. 中期趋势(2020-2021年)
    • 神经网络与文本分类:随着深度学习技术的兴起,神经网络在文本分类中的应用逐渐增多。从2020年到2021年,这一趋势尤为明显,表明研究者们开始尝试使用更复杂的模型来提高文本分类的准确性和效率。
    • 新冠肺炎与微博舆情分析:2020年新冠肺炎的爆发使得社交媒体上的舆情分析变得尤为重要。微博作为中国主要的社交媒体平台之一,其上的文本数据成为了研究者们分析疫情舆情的重要来源。
  3. 近期趋势(2020-2022年)
    • 文本聚类、情感倾向与满意度:从2020年到2022年,文本聚类、情感倾向分析和满意度评价成为了研究的热点。这表明研究者们开始关注文本数据中的群体特征、情感倾向以及用户满意度,以支持更精细化的分析和决策。
    • 情感分析、深度学习、机器学习等技术的深入应用:在这一阶段,情感分析、深度学习、机器学习等技术得到了更深入的应用和研究。研究者们开始探索这些技术在文本挖掘中的新应用和新方法,以应对更复杂和多样的文本数据。
  4. 新兴趋势(2022年至今)
    • 金融科技与事故致因:从2022年开始,金融科技和事故致因等主题开始受到关注。这可能表明文本挖掘技术开始被应用于金融领域的风险管理和事故预防等方面,以支持更智能的决策和风险管理。

总结来说,文本挖掘领域在近几年内经历了从大数据获取和预处理到深度学习、机器学习等技术的深入应用,再到金融科技和事故致因等新兴领域的探索和应用。

3.3发文机构分析

结果分析:

  1. 研究实力与影响力:这些大学在文本挖掘领域的发文频次高,表明它们在该领域具有较强的研究实力和学术影响力。这些机构可能拥有优秀的师资团队、先进的实验设备和丰富的研究资源,能够支持高质量的研究工作。
  2. 学科优势与特色:这些大学中,不少是以财经、经济、管理等学科为主的综合性大学,如中南财经政法大学、东北财经大学、上海财经大学等。这些学科领域与文本挖掘技术密切相关,需要处理和分析大量的文本数据,因此这些机构在文本挖掘领域的研究具有天然的优势和特色。
  3. 研究热点与趋势:这些机构在2019年和2020年开始在文本挖掘领域发表大量论文,可能反映了当时该领域的研究热点和趋势。随着大数据和人工智能技术的快速发展,文本挖掘技术得到了广泛的应用和关注,这些机构也抓住了这一机遇,加大了在该领域的研究投入。
  4. 学术成果与应用前景:这些机构在文本挖掘领域的研究取得了丰硕的学术成果,并可能在实际应用中发挥了重要作用。例如,在金融领域,文本挖掘技术可以用于分析市场趋势、评估投资风险、优化投资策略等;在社交媒体领域,文本挖掘技术可以用于分析用户行为、情感倾向、舆论动态等。这些应用前景广阔的研究领域为这些机构提供了广阔的研究空间和发展机遇。

资料获取,更多粉丝福利,关注下方公众号获取

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1889394.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【前端】vue 报错:The template root requires exactly one element

【前端】vue 报错:The template root requires exactly one element 写在最前面Prettier - Code formatter插件解决 Vue 报错:The template root requires exactly one element错误原因示例 解决方法更复杂的示例使用 Fragment 解决问题 小结 &#x1f3…

深度学习——卷积神经网络(convolutional neural network)CNN详解(一)——概述. 步骤清晰0基础可看

在CNN的学习过程中我会提供相应的手算例子帮助理解训练过程。 其他关于神经网络的学习链接如下: 一、了解卷积神经网络 卷积神经网络的作用 总的来说,卷积神经网络的第一个主要作用是对图像进行特征提取,所谓特征提取,就是明白…

亚马逊测评策略全攻略:详析各方案优势与局限,你精通了吗?

亚马逊测评,一个绕不开的话题。不管是对于新手卖家还是资深卖家来说,它都是提升产品销量和排名的有效手段之一。接下来,我将为大家详细解析亚马逊测评的各种方式和注意事项。 一、精准筛选真人测评资源 在寻找真人测评资源时,许多…

【深度学习】扫描全能王的AI驱动创新与智能高清滤镜技术解析

目录 引言1、扫描全能王2、智能高清滤镜黑科技2.1、图像视觉矫正2.2、去干扰技术 3、实际应用案例3.1、打印文稿褶皱检测3.2、试卷擦除手写3.3、老旧文件处理3.4、收银小票3.5、从不同角度扫描文档 4、用户体验结论与未来展望 引言 在数字化时代背景下,文档扫描功能…

记录一次MySQL恢复

一、前言 此文章由一次数据库被黑客删除而引发 由于对于Linux操作、docker使用、MySQL原理这些都相对不是很熟悉,所以记录下来避免以后在工作中遇到类似的问题而惊慌失措。 1.MySQL环境现状 docker管理的,8.0.26版本 启动语句: docker run -d -p 33…

python pdfplumber优化表格提取

样例pdf 直接使用文本提取效果: 使用表格提取 根据提取的文本信息是没办法获取到表格数据的,太乱了。尤其是 3 4列。 解决: 自行画线,根据画线进行提取。 效果: 思路: 1.根据表头进行画竖线 2.根据行坐…

vue3 ~ pinia学习

先看两个图 一个vuex 一个pinia 根据图看出来 pinia更简单了 那么具体怎么操作呢 我们来看下~ 第一步 下载 yarn add pinia # 或者使用 npm npm install pinia 第二步 注册 创建一个 pinia 实例 (根 store) 并将其传递给应用: import { createApp } from v…

vue的$nextTick是什么是干什么用的?

为什么需要使用$nextTick?他的使用场景 1.你在接口返回之后在获取高度 正常等页面加载在mounted这个钩子函数里 这时候就需要找到接口赋值的地方 这样就可以获取到数据操作以后的dom元素了 $nextTick是什么是干什么用的? $nextTick() 是 Vue.js 框…

超详细:安装Linux系统、虚拟现实教程

文章目录 一、如何下载并使用VMware虚拟机1.百度搜索vmware2.进入官网点击Workstation Pro链接3.博通注册对应的账号4.博通填写用户名、密码后直接登录会跳转到博通登录页5.个人使用选择个人版 二、国内镜像网站下载(Centos版本)三、镜像系统的安装1.打开…

【等保2.0的内容有哪些?】

“在“等保2.0”的基础上,分别增加了云计算安全、移动互联安全、物联网安全、工控系统安全、大数据安全5个拓展需求。 《中华人民共和国刑法》第253条,非法将公民个人资料卖给他人,并处罚金。 违反国家相关法律法规,将其在执行公…

计算机系统基础(三)

1.程序转换概述 机器指令和汇编指令 机器指令与汇编指令意义对应,都是机器级指令 汇编指令 如:M[R[bx]R[di]-6]←R[cl] R:寄存器内容 M:存储单元内容 机器指令 高级语言转换为机器代码的过程 根据计算机系统基础&#xff…

KEYSIGHT是德科技 E5063A ENA 系列网络分析仪

E5063A ENA 矢量网络分析仪 18GHz 2端口 降低无源射频元器件的测试成本 Keysight E5063A ENA 是一款经济适用的台式矢量网络分析仪,可用于测试简单的无源元器件,例如频率最高达到 18 GHz 的天线、滤波器、电缆或连接器。 作为业界闻名的 ENA 系列…

MLLM QLoRA微调实战:基于最新的袖珍Mini-InternVL模型

引言 大型语言模型(LLM)的世界正在不断发展,新的进步正在迅速出现。一个令人兴奋的领域是多模态LLM(MLLMs)的发展,这种模型既能够理解文本又能够理解图像,并与之进行交互。因此,这种…

ATG-2032:功率信号源的类型及应用领域简介

功率信号源是一种产生稳定、精确且可调节的电力信号的仪器,其主要作用是为测试和校准各种电子设备提供标准信号,以确保设备的精度和稳定性。 图:ATG-2000系列功率信号源 以下是功率信号源的主要类型和作用: 直流功率信号源 直流功…

Unity游戏帧率查看软件Fraps

Download Fraps 3.5.99 free version 下载、安装、运行这个软件,左上角就会自动显示帧率

SpringBoot的自动配置核心原理及拓展点

Spring Boot 的核心原理几个关键点 约定优于配置: Spring Boot 遵循约定优于配置的理念,通过预定义的约定,大大简化了 Spring 应用程序的配置和部署。例如,它自动配置了许多常见的开发任务(如数据库连接、Web 服务器配…

python提取图片中的文字写入excel文件,并打包为exe可执行文件

python提取图片数据写入excel,并打包为exe可执行文件 1. 以下面的图片为例2. python环境需要的依赖包3. 创建交互式窗口4. 读取文件夹下的所有文件并提取数据5. 提取图片中字段的代码6. 打包代码为exe可执行文件安装打包依赖文件运行打包代码 1. 以下面的图片为例 2…

大数据------JavaWeb------会话跟踪技术(Cookie、Session)(完整知识点汇总)

会话跟踪技术(Cookie&Session) 注意: HTTP协议是无状态 的,即每次浏览器向服务器请求时,服务器都会将该请求视为新的请求,因此我们需要会话跟踪技术来实现会话内的数据共享 会话 当用户打开浏览器&am…

基于STM32的智能仓储温湿度监控系统

目录 引言环境准备智能仓储温湿度监控系统基础代码实现:实现智能仓储温湿度监控系统 4.1 数据采集模块4.2 数据处理与分析4.3 控制系统实现4.4 用户界面与数据可视化应用场景:温湿度监控与管理问题解决方案与优化收尾与总结 1. 引言 智能仓储温湿度监…

【论文解读】Multiagent Multitraversal Multimodal Self-Driving: Open MARS Dataset

Open MARS Dataset 摘要引言Dataset CurationVehicle SetupData CollectionDataset Statistics Benchmark Task and ModelPlace RecognitionNeural Reconstruction Experimental ResultsVisual Place RecognitionNeural Reconstruction Opportunities and Challenges结论 摘要 …