[文本挖掘和知识发现] 01.红楼梦主题演化分析——文献可视化分析软件CiteSpace入门

news2025/1/13 7:40:41

八月太忙,还是写一篇吧!
本文是作者2023年8月底新开的专栏——《文本挖掘和知识发现》,主要结合Python、大数据分析和人工智能分享文本挖掘、知识图谱、知识发现、图书情报等内容。此外,这些内容也是作者《文本挖掘和知识发现(Python版)》书籍的部分介绍,本书预计2024年上市,采用通俗易懂和图文并茂的形式藐视,会更加系统地介绍文本挖掘和知识发现,共计20章节内容,涵盖上百个案例。您的关注、点赞和转发就是对秀璋最大的支持,知识无价人有情,希望我们都能在人生路上开心快乐、共同成长。

本文主要介绍文献可视化分析软件CiteSpace基础知识,以中国知网《红楼梦》文献为例,开展主题挖掘、关键词聚类及主题演化分析。基础文章,希望对您有所帮助。

文章目录

  • 一.CiteSpace介绍及安装
    • 1.简介
    • 2.下载
    • 3.安装
  • 二.中国知网下载文献数据集
  • 三.CiteSpace基本操作
    • 1.基本功能介绍
    • 2.数据准备
    • 3.可视化分析
  • 四.《红楼梦》文献主题演化分析
    • 1.聚类分析
    • 2.主题演化分析
  • 五.总结


一.CiteSpace介绍及安装

1.简介

CiteSpace 是由美国德雷塞尔大学陈超美博士与WISE实验室联合开发的科学文献分析工具。CiteSpace是利用Java实现的可视化文献分析软件,作为一款极为优秀的文献计量学或图书情报学软件,其能显示一个学科或知识领域在一定时期发展的趋势或动向,形成研究前沿领域的演化历程,能将文献之间的关系以科学知识图谱的方式可视化呈现。

  • 常用于文本主题挖掘、文本演化分析、知识发现等领域

在这里插入图片描述

CiteSpace软件基于共引分析和寻径网络算法等对数据样本进行可视化处理,呈现特定知识领域的演化过程。尤其面对海量文献,该软件能帮助我们迅速锁定关键信息和核心主题,挖掘领域的发展历程,预测当前活跃的研究主题及未来发展趋势。总之,CiteSpace既能帮助我们厘清某一领域过去的研究轨迹、研究现状和热点话题,也能揭示该领域未来的发展方向。

CiteSpace generates interactive visualizations of structural and temporal patterns and trends of a scientific field. It facilitates a systematic review of a knowledge domain through an in-depth visual analytic process. It can process citation data from popular sources such as the Web of Science, Scopus, Dimensions, and the Lens. CiteSpace also supports basic visual analytic functions for datasets without citation-related information, for example, PubMed, CNKI, ProQuest Dissertations and Theses. CiteSpace reveals how a field of research has evolved, what intellectual turning points are evident along a critical path, and what topics have attracted attention. CiteSpace can be applied repeatedly so as to track the development of a field closely and extensively.


2.下载

该软件可以从官网下载:

  • http://cluster.ischool.drexel.edu/~cchen/citespace/download/

Java环境仅需要下载JRE或JDK即可。

  • https://www.java.com/zh-CN/download/

如下图所示,点击download下载软件。

请添加图片描述

在这里插入图片描述

在这里插入图片描述

同样可以从下列网站中下载对应软件。

  • https://citespace.podia.com/

在这里插入图片描述


3.安装

作者下载的软件如下图所示。

在这里插入图片描述

双击文件安装,并安装至指定目录,建议安装非C盘的英文目录。

在这里插入图片描述

在这里插入图片描述

安装成功如下图所示。

请添加图片描述

请添加图片描述

安装成功,运行软件(桌面图标)如下图所示,点击同意即可。

请添加图片描述

下图为CiteScape的主界面。

请添加图片描述


二.中国知网下载文献数据集

第一步,打开中国知网搜索对应的主题,比如“红楼梦 红学”,读者可以尝试高级搜索对应时间或所需文献。此时共搜索3089篇期刊文献,然后依次“全选”按钮选中所需文献。

在这里插入图片描述

第二步,选中所有期刊后,点击“导出与分析”按钮,再选择里面的“Refworks”格式。

在这里插入图片描述

第三步,导出时下载文件命名规则:download_XXXX.txt。

请添加图片描述

最终导出的内容如下图所示,包括每篇文献的相关信息,读者将所有文献导出后存储至CiteSpace分析的指定目录即可。注意:知网一次最多导出五百条文献,超过五百条需要分批导出。

请添加图片描述


三.CiteSpace基本操作

1.基本功能介绍

CiteSpace可以通过可视化手段来呈现学科知识的结构、规律以及分布情况,并生成可视化知识图谱,从而探究某一研究领域的研究热点、研究前沿、主要作者和机构等相关信息。还包括如下分析:

  • 引用聚类功能可以帮助我们知道那些文章被引最多
  • 按时间轴分析可以发现该领域下各个话题的发展趋势以及当前研究热点
  • 在整个研究领域中占据主流地位的主题有哪些;
  • 该领域发文最多的国家和机构
  • 某一领域中的开山式文献和里程碑式文献
  • 文献共引分析
  • 文献社区聚类分析

CiteSpace主界面包括:

  • File(文件)
  • Project(项目)
  • Data(数据)
  • Visualization(可视化)
  • Overlay Maps(叠加分析)
  • Analytical(文献网络分析)
  • Network(网络)
  • Text(文本)
  • Preference(偏好设置)

请添加图片描述

CiteSpace可以分析的数据包括:

  • Web of Science:格式为全纪录与引用的参考文献全文本
  • CSSCI:格式为utf-8编码
  • CNKI(中国知网):格式为Refworks
  • NSF:要求nsf.gov XML格式
  • Derwent(德温特专利数据库)
  • Scopus:RIS或CSV格式

在这里插入图片描述


2.数据准备

CiteSpace工具分析需要构建对应的文件夹,并构建四个文件夹用来存放输入、输出、数据、项目,因为我是要做有关《红楼梦》文献的分析所以文件夹名字是Hongloumeng,如下图所示:

请添加图片描述

接着将中国知网导出的文献存放至“input”文件夹中。注意,文件需要重命名为download_01.txt格式按序排列,否则会报错。

请添加图片描述

温馨提示:
CiteSpace无法直接识别CNKI的数据,在进行导入之前需要进行格式转换。

第一步,点击“Data”中的“Import/Export”按钮。

请添加图片描述

第二步,在弹出的界面中选择“CNKI”,在“Input Directory”中选择所下载的Refworks格式的引文所在的input文件夹;在Output Directory选择输出文件夹output。接着点击CNKI Format Conversion(3.0)转换按钮即可转换。

请添加图片描述

第三步,此时output文件夹里会生成各个转换后的文件,并将这些文件复制到data文件夹里。

请添加图片描述

在这里插入图片描述

接下来是具体的分析。


3.可视化分析

第一步,数据导入。 在CiteSpace中点击“Project”和“New”新建工程,选择工程文件文件夹Project和数据文件夹Data,数据来源选择“CNKI”和中文,接着点击保存。

在这里插入图片描述

第二步,参数设置。 在功能选择区进行参数选择,Time Slicing根据下载文献时所选择的时间范围进行设置(如2015-2020年),Years Per Slice设置为1,Node Types选择即将分析的内容(如Keyword),Pruning在循进中选择Pruning sliced networks,其它参数保持默认设置即可。

在这里插入图片描述

第三步,运行程序。 设置成功后点击“GO”按钮进行分析,该部分主要分析关键词。

在这里插入图片描述

第四步,关键词共现分析。 运行后点击“visualize”可视化按钮,随后便会形成关键词共现图谱。共现分析旨在挖掘高频关键词之间的关联关系,解释当前主题的热点。

在这里插入图片描述

运行结果如下图所示:

在这里插入图片描述

第五步,可视化设置。 通过控制面板中的”Labels”中的“keyword”可以对关键词共现网络进行美化和调整,包括节点大小、节点标签大小、节点标签、阈值等。通过“colormap”调节节点和连线的颜色,使不同关键词间的联系更加清晰。如下图所示红学文献关键词主题挖掘效果。

在这里插入图片描述

在关键词共现图谱中,节点和字号越大,关键词出现频率越高。左侧数据栏中的centrality代表中心性,是分析关键词重要程度的一个关键指标,中心性越大则表示该节点在研究中的重要性和影响力越大。由节点大小结合中心性和关键词出现频次便可知该研究领域中的重点与热点。


四.《红楼梦》文献主题演化分析

1.聚类分析

在关键词聚类图谱的基础上可以进一步进行聚类分析,点击如下图所示图标,输入“K”,即可对关键词进行自动聚类。

可视化图像右上角的Silhouette(S值)为衡量整个聚类成员同质性的指标,正常值为(-1,1)。S值>0.5时,一般认为聚类合理。

此外,有四类聚类方式,从左到右依次为:一减聚类(自动布局和风格)、根据Title标题聚类、根据KeyWords关键词聚类、根据Author作者聚类、KTA全部聚类(标题|关键词|作者)。聚类后建议把Label标签阈值拉到最大,之前的标签就不会显示了。

请添加图片描述

此外,点击左上角按钮第二个“Save”按钮即可保存为PNG图片。

在这里插入图片描述

输出聚类结果如下图所示:

注意:更多设置请读者自行研究(如聚类数量设置),本文主要以入门普及为主。


2.主题演化分析

增加TimeLine时间轴即可显示对应的主题。下图的框选区域分别为:

  • 普通模式显示
  • 时间线TimeLine显示

在这里插入图片描述

导出结果如下图所示:

在这里插入图片描述

最终优化结果如下,您可以试试喔!

在这里插入图片描述


五.总结

写到这里,本文介绍完毕,希望对您有所帮助。哎,写了12年博客,突然没动力了 o(╥﹏╥)o
但还有好多知识要分享,勉强分享一篇文章和新的系列,希望您喜欢。祝好~

  • 一.CiteSpace介绍及安装
    1.简介
    2.下载
    3.安装
  • 二.中国知网下载文献数据集
  • 三.CiteSpace基本操作
    1.基本功能介绍
    2.数据准备
    3.可视化分析
  • 四.《红楼梦》文献主题演化分析
    1.聚类分析
    2.主题演化分析
  • 五.总结

忙碌的八月,忙碌的2023。转眼四年过去,我和她都不容易,两人每次看“致谢”都会泪目,青春变了,唯有情感不变,希望一家人健康快乐。刚到寝室,要战斗了!

在这里插入图片描述

(By:Eastmount 2023-08-29 夜于武汉 http://blog.csdn.net/eastmount/ )


参考文献:

  • [1] 作者书籍《文本挖掘和知识发现》
  • [2] http://cluster.cis.drexel.edu/~cchen/citespace/download/
  • [3] CiteSpace入门教程—下载安装使用指南 - Gsqsis
  • [4] 工具推介 |萌新科研干货指南——文献可视化神器CiteSpace - 翻译技术教育与研究
  • [5] 学习攻略|可视化文献分析软件——CiteSpace - 南林

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/945019.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vector实现遇到的问题

前言:vector是表示可变大小数组的序列容器。就像数组一样,vector也采用的连续存储空间来存储元素。也就是意味着可以采用下标对vector的元素进行访问,和数组一样高效。但是又不像数组,它的大小是可以动态改变的,而且它…

【C/C++】课程设计:通讯录管理系统源码,C语言链表实现

大家好呀,亲爱的小伙伴们!你们今天有在编写代码吗? 如果有熟悉的小伙伴看到我,就会知道又到了学习源码项目的好时机了!没错,今天要分享的同样是一个经典的管理系统项目:通信录管理系统&#xf…

小白学Linux都能学会

文章目录 1. 初识Linux1.1 操作系统1.2 Linux发展历程1.3 Linux简介1.3.1 什么是 Linux1.3.2 Linux的特点 1.4 Linux和Unix区别1.5 Linux和Windows区别1.6 Linux发行商和常见发行版1.7 Linux 应用领域**1.8 Linux之CentOS**1.9 总结 2. 系统与设置命令2.1 学习命令的原因2.2 Li…

7天GMV达220万美元!TikTok Shop爆品榜出炉。

7天GMV达220万美元!TikTok Shop爆品榜出炉 8月28日消息,据跨境指南联合TikTok数据分析平台EchoTik发布的数据,监测了上周TikTok Shop印尼、马来西亚、泰国、美国市场GMV前10的商品。上周在印尼市场GMV排名前10的商品中:FREE ONGK…

Kotlin协程flow缓冲buffer

Kotlin协程flow缓冲buffer 先看一个普通的flow&#xff1a; import kotlinx.coroutines.delay import kotlinx.coroutines.flow.* import kotlinx.coroutines.runBlocking import kotlin.system.measureTimeMillisfun main(args: Array<String>) {val delayTime 100Lru…

初试nacos服务注册中心

项目基本流程是想获取订单信息的同时获取用户信息&#xff0c;所以order服务提供nacos获取user服务提供的用户信息。 启动nacos服务 在bin目录下的cmd命令行下执行 startup.cmd -m standalone 单机部署 启动服务 服务注册到nacos Nacos是SpringCloudAlibaba的组件&#xff0c…

Yolov8小目标检测(12):动态稀疏注意力BiFormer | CVPR 2023

💡💡💡本文改进:动态稀疏注意力,cvpr2023。 BiFormer | 亲测在红外弱小目标检测涨点,map@0.5 从0.755提升至0.758 💡💡💡Yolo小目标检测,独家首发创新(原创),适用于Yolov5、Yolov7、Yolov8等各个Yolo系列,专栏文章提供每一步步骤和源码,带你轻松实现小…

【GPT,Flask】用Python Flask结合OpenAI的GPT API构建一个可自主搭建的内容生成应用网站

【背景】 自己构建模型并进行训练需要很高的知识,技能和资源门槛。如今,通过OpenAI提供的API,则可以快速通过GPT能力构建可以提供内容生成服务的在线网站。这套框架可以提供给用户,用户可以利用该框架在自己的环境(比如自己的公司内)构建内容生成服务。你也可以自己上线…

【C++入门】模版初阶(泛型编程)

目录 1.泛型编程2.函数模版2.1函数模版的概念2.2函数模版的使用2.3函数模版的原理2.4函数模版的实例化2.5 模板参数的匹配原则 3.类模版3.1类模版的定义格式3.2类模版的实例化 1.泛型编程 让我们思考一个小问题&#xff1a;如何实现一个通用的交换函数呢&#xff1f; 在解决这…

自动泊车的自动驾驶控制算法

1. 自动泊车系统 自动泊车系统(AutomatedParkingASSiSt,APA)利用车辆搭载的传感器感知车辆周边环境,扫描满足当前车辆停放的障碍物空间车位或线车位,并通过人机交互(HumanMachine Interface,HMI)获取驾驶员对目标车位的选择或自动确定目标车位,自动规划泊车路径,通过控制器向车…

【C++笔记】C++内存管理

【C笔记】C内存管理 一、C中动态内存申请的方式二、new和delete的实现原理2.1、operator new和operator delete函数 一、C中动态内存申请的方式 在C语言中我们需要动态申请空间的时候我们通常都是用malloc函数&#xff0c;但是malloc函数对自定义类型是没什么问题的&#xff0…

ATA-2161高压放大器的电子实验案例(案例合集)

ATA-2161是一款理想的可放大交直流信号的单通道高压放大器。最大差分输出1600Vp-p(800Vp)高压&#xff0c;可以驱动高压型负载。凭借其优异的指标参数受到不少电子工程师的喜欢&#xff0c;其在电子实验中的应用也非常频繁&#xff0c;下面为大家整理出ATA-2161高压放大器的应用…

无涯教程-Android - Intents/Filters

Android Intent 是要执行的操作的抽象描述。它可以与 startActivity 一起启动Activity&#xff0c;将 broadcastIntent 发送给任何BroadcastReceiver组件&#xff0c;并与 startService(Intent)或 bindService(Intent&#xff0c;ServiceConnection&#xff0c;int)与后台服务进…

jq——点击显示隐藏来回切换、图片来回切换

案例展示 案例代码 <!DOCTYPE html> <html><head><meta charset"utf-8" /><title>显示隐藏</title></head><script src"js/jquery.js"></script><style>.switch {width: 50px;height: 50px;…

antd table minHeight

网上常见设置antd table最小宽度的方案&#xff1a; 这种方法也不是不可以&#xff0c;但是若需要动态设置最小高度的话&#xff0c;这样写就不是很合适。 所以这边选择动态计算table高度的方法来实现&#xff1a; 第一步&#xff1a;计算table scroll height const getTab…

「CSS|前端开发|页面布局」03 开发网站所需要知道的CSS:如何实现你想要的页面布局

本文主要介绍如何分析页面布局&#xff0c;了解HTML标签元素的默认布局以及如何修改标签元素的布局方式&#xff0c;最终能够结合CSS框架实现任意我们看到或者想到的页面布局。 文章目录 本系列前文传送门一、场景说明二、页面布局设计逻辑三、CSS布局编写逻辑HTML元素的默认布…

【附安装包】CorelCAD2023安装教程

软件下载 软件&#xff1a;CorelCAD版本&#xff1a;2023语言&#xff1a;简体中文大小&#xff1a;534.17M安装环境&#xff1a;Win11/Win10/Win8/Win7硬件要求&#xff1a;CPU2.0GHz 内存4G(或更高&#xff09;下载通道①百度网盘丨64位下载链接&#xff1a;https://pan.bai…

证券型代币成为新焦点!交易上链,合规也要上链?

“数字化正在使传统行业的边界变得模糊&#xff0c;这是一场真正的金融革命。”麦肯锡早在2017年的《在没有边界的世界中竞争》报告中就以此形容了数字化浪潮。随着对虚拟资产的全球接受度增加&#xff0c;监管机构也开始对其潜力展开讨论。 当代币被视为金融工具时&#xff0c…

java对时间序列每x秒进行分组

问题&#xff1a;将一个时间序列每5秒分一组&#xff0c;返回嵌套的list&#xff1b; 原理&#xff1a;int除int会得到一个int&#xff08;也就是损失精度&#xff09; 输入&#xff1a;排序后的list&#xff0c;每几秒分组值 private static List<List<Long>> get…