SPSSAU上线文本分析啦|“尔滨”旅游攻略文本分析

news2024/11/18 8:19:39

一、什么是文本分析?

作为一种新兴的基于定性研究的量化分析方法,文本分析法能够揭示文本的变化与特征,为经典问题的研究提供了新思路。

文本分析应用于多个领域,比如在旅游业中,可以通过文本分析去研究旅游形象感知情况,比如在经济学中,可以通过文本分析进行研究目前保险政策等等,以及还有其它领域都会应用到文本分析。

二、文本分析常见研究步骤

文本分析的常见步骤有五步,包括数据搜集、分词、数据清洗、特征提取以及建模和其它分析具体如下图:

  1. 数据搜集
    文本分析的第一步需要进行数据搜集,获取文本数据的方式一般包括网络平台、媒体平台、新闻、知网、论坛等等。
  2. 分词
    计算机会将我们导入的字符串进行分词划分便于后续的分析。
  3. 数据清洗
    在文本分析的过程中,首先需要对文本进行预处理,预处理是非常重要的一步,它直接影响后续分析的准确性和可靠性。标点符号和停用词的去除是预处理的常见操作,可以有效地去除文本中的无关信息,提高分析效率。同时,对文本进行分词、去除停用词等操作,也有助于提取出更准确的关键词和主题。除此之外还会通过关键词词频,分布等等进行剖析文本的主题,以及有些研究者还会通过分析情感词去了解文本的情感倾向。
  4. 特征提取
    数据清洗后进行特征提取,比如可以使用可视化板块里的tf-idf,其是常用的特征提取方法,它考虑了词汇在文本中的重要性和在语料库中的普遍性。TF-IDF值越高,表示该词汇在文本中的重要性越高,以及还有其它方法。
  5. 后续分析

利用文本数据进行后续分析,比如可视化图形展示、主题分析,聚类等等,下个模块会有说明。

三、SPSSAU如何操作?

文本分析的操作演示:通过SPSSAU主系统左侧仪表盘点击‘文本分析模块’进入。

进入文本分析模块后,研究者可以自行选择上传数据,包括粘贴文本进行上传或者上传txt/excel文件等(大小限制5m内)。如下图所示:

然后就可以根据自己的需求进行选择分析方法,进行分析:

四、文本分析都能干什么?

文本分析的应用有很多,以SPSSAU为例,其可以进行文本可视化(词云分析)、文本情感分析、文本聚类分析、社会网络关系图、LDA主题分析语义分析等等。

文本可视化

文本分析模块中,最重要和最基础的为展示分词结果,通常是使用词云进行展示。在‘词云分析等’中,SPSSAU提供四种功能,分别是词云分析、自定义词云、词定位和tf-idf。

  • 词云分析
    词云图直观展示住建很2023年12月共41条新闻内容的关键词信息,住户、城市、发展、建设等均是关键信息。默认是展示前100个高频关键词,可自主设置该数字。也可修改词云风格和下载该词云图。

  • 自定义词云
    如果对词云分析不满意,也可以使用自定义词云,研究者可将整理好的信息,包括关键词和其词频,直接粘贴(或者自主编辑)在表格中,然后就会出现相应的词云图。

  • 词定位
    通过词定位可以观察到某个词,具体出现在那些行中,可通过行号进行查看。

  • tf-idf

文本分析中,tf-idf是个重要的指标,其反映某关键词在整份数据中的重要性程度,当tf-idf越高时,其重要性越高。其与词频的意义不尽相同,词频是指出现次数,而tf-idf更加关注于关键词的重要性程度。其中:tf-idf = tf * idf;其中tf:tf = n / N,其中n为某关键词的词频,N为整份数据关键词词频总和,N是个固定值,当n即词频越高时tf越高,说明该关键词越重要;idf = log(D/(1+d)),log是取对数,D为数据的行数,d为数据中某个词在多少行中出现过。D为固定值,d值越大即到处出现时idf反而越小,d值越小即并非到处出现时idf反而越高,idf越高代表某关键词重要性越高。

文本情感分析

目前,主流的文本情感分析方法可分为基于情感词典、机器学习和深度学习三类。基于情感词典的方法是传统的情感分析方法,它利用情感词典中的情感极性计算目标语句的情感值。尽管基于词典的分析方法实现简单,但其也有缺点,其准确率在很大程度上依赖于构建词典的质量,并且构建情感词典需要耗费大量人力物力,对新词的适应能力也较差。

文本分析模块中,SPSSAU共提供两种方式的情感分析,分别是按词情感分析和按行情感分析。按词情感分析是指针对提取的关键词进行情感分析,并且进行可视化展示;按行情感分析是指针对分析的原始数据以‘行’为单位进行情感分析,并且可下载具体的情感得分值信息等。

文本聚类

文本聚类即:将需要分析的关键词进行聚类分析,并且进行可视化展示,SPSSAU共提供两种文本聚类方式,分别是按词聚类和按行聚类。

社会网络关系图

社会网络关系图展示关键词之间的关系情况,此处的关系是指‘共词矩阵’,即两个关键词同时出现的频数情况,将‘共词矩阵’信息使用可视化方式进行呈现出来。

共词矩阵:主要用于表示关键词之间的关联强度。它是一个由行和列组成的矩阵,通过矩阵中的元素来表示关键词之间的关联程度。在共词矩阵中,元素的值越大,说明两个关键词之间的关联性越强,即它们共同出现的频率越高。

社会网络关系图:社会网络关系图在文本分析中的应用主要是为了揭示文本中各个实体之间的关联关系。这种关系图可以帮助我们更好地理解文本的主题和内容,发现文本中的隐藏信息和模式。

LDA主题分析

主题模型是指用来统计一系列文档中出现的主题个数的一种统计模型,LDA可以通过无监督的学习方法发现文本中隐含的主题信息。LDA将主题当成是文档内容的浓缩,所以我们可以通过LDA将大规模的语料库中的信息生成文档,生成的文档可以看作是由许多主题构成的,构成主题的每一个词汇又都是无序的,从而达到降低文档维数的效果,大大降低了问题的复杂性,同时也具有语义上的特征。SPSSAU结果如下(气泡大小表示该主题的重要性情况,以及条形的长度表示该主题时该词的权重大小情况):

新词发现

无法被词典识别到的,新词发现时涉及到两个关键指标,分别是:信息熵和互信息。信息熵越大即意味着某词越容易与其它词组合在一起形成一个词语,信息熵越小即意味着某词越不容易与其它词组合在一起。

停用词/情感词

停用词:停用词是指在文本中出现频率较高但对文本主题和内容贡献较小的词,停用词的去除可以提高分析效率和精度;

情感词:情感词是指表达情感或情感倾向的词,情感词的识别和分析可以帮助我们更好地理解文本的情感内涵;

五、使用SPSSAU进行文本分析

“这个冬天,哈尔滨火了。” 进入12月份以来,从各地飞往哈尔滨赏冰乐雪的游客络绎不绝,很多小伙伴在去“尔滨”会提前看一下攻略,但是看了几篇下来大家攻略各有千秋。小编选取了携程网最新攻略共10篇进行文本分析(结论不作为参考,仅供案例参考)。

1、搜索数据
在携程网搜索“哈尔滨市”相关攻略文本,以最近的旅游攻略进行搜集。

2、上传spssau平台
以文字粘贴的形式,上传至SPSSAU平台。

3、数据清洗
上传数据前已经进行简单处理过,包括标点符号,特殊字符等等。

4、开始文本分析

从文本中提取出100个关于哈尔滨市旅游攻略的高频词汇。如下表:

首先从词性角度分析,高频词汇中地名名词、形容旅游感受的形容词较多,具体集中在景点、美食体验。词频越高说明旅游者对此词关注度越高。通过上表的高频词汇分析可知,中央大街、雪乡、教堂、松花江等旅游景点位序较高,说明游客对上述景点的关注度较高。

同时也可以将哈尔滨市旅游攻略高频词以词云图的形式可视化展示,在词云图中,词频越高的词语会以较大的形式呈现出来,词频越低的词语会以较小的形式呈现出来。

并且如果研究者想要了解某词出现在哪些地方,也可以使用“词定位”进行查看,比如对“中央大街”比较感兴趣,点击“中央大街”就可以查看他出现在哪些地方。

并且想要查看关键词在整份数据中的重要性程度,发现几个攻略中,“麻辣烫”比较重要。

并且也可以使用文本聚类:

从聚类类别1中可以看出,吃占比重较大,比如“巧克力”、“秋林”等(结果有些牵强,可能是与数据过少有关,案例仅供演示)。

更多内容可以登录SPSSAU网站自行查看。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1443284.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

动态规划的一个初步学习

啥叫动态规划 在我们写很多的题目时,常常可以用暴力枚举来写,缺点就是速度太慢了。如果我们用一个数组或者哈希表(虽然我还没学过哈希表)将之前暴力枚举的数据储存起来,当再一次枚举到这个数字的时候就直接调用数组或…

异构计算关键技术之mmap

异构计算关键技术之mmap 一、背景 1. 日志存储系统 case 1:分布式日志存储系统,是一个基于raft协议自研分布式日志存储系统,logstore则是底层存储引擎。 logstore中,使用mmap对数据文件读写。 logstore的存储结构简化如下图&a…

请问半吊子 C++选手该如何深入学习 C++?

请问半吊子 C选手该如何深入学习 C? 在开始前我有一些资料,是我根据网友给的问题精心整理了一份「C的资料从专业入门到高级教程」, 点个关注在评论区回复“888”之后私信回复“888”,全部无偿共享给大家!!&#xff0…

清空队列的方法

注意&#xff1a;C中的队列queue自身不支持clear操作&#xff0c;但双端队列deque是支持clear操作的。 方法一&#xff1a;直接用空的队列对象赋值 代码&#xff1a; queue<int> q; qqueue<int>(); 方法二&#xff1a;遍历出队列 代码&#xff1a; while(!q…

VitePress-14- 配置-titleTemplate 的作用详解

作用描述 1、titleTemplate 是标题的后缀&#xff1b;2、可以自定义标题的后缀&#xff1b;3、可以自定义整个的标题以及后缀&#xff0c;语法如下&#xff1a; titleTemplate: :title 链接符号 自己定义的后缀 【:title】&#xff1a;从页面的第一个 <h1> 标题推断出的…

《计算思维导论》笔记:10.4 关系模型-关系运算

《大学计算机—计算思维导论》&#xff08;战德臣 哈尔滨工业大学&#xff09; 《10.4 关系模型-关系运算》 一、引言 本章介绍数据库的基本数据模型&#xff1a;关系模型-关系运算。 二、什么是关系运算 在数据库理论中&#xff0c;关系运算&#xff08;Relational Operatio…

【开源】SpringBoot框架开发校园疫情防控管理系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 学生2.2 老师2.3 学校管理部门 三、系统展示四、核心代码4.1 新增健康情况上报4.2 查询健康咨询4.3 新增离返校申请4.4 查询防疫物资4.5 查询防控宣传数据 五、免责说明 一、摘要 1.1 项目介绍 基于JAVAVueSpringBoot…

Open CASCADE学习|保存为STL文件

STL (Stereolithography) 文件是一种广泛用于3D打印和计算机辅助设计 (CAD) 领域的文件格式。它描述了一个三维模型的表面而不包含颜色、材质或其他非几何信息。STL文件通常用于3D打印过程中&#xff0c;因为它们仅包含构建物体所需的位置信息。 由于STL文件只包含表面信息&am…

YOLOv8算法改进【NO.101】引入最新的损失函数Focaler-IoU

前 言 YOLO算法改进系列出到这&#xff0c;很多朋友问改进如何选择是最佳的&#xff0c;下面我就根据个人多年的写作发文章以及指导发文章的经验来看&#xff0c;按照优先顺序进行排序讲解YOLO算法改进方法的顺序选择。具体有需求的同学可以私信我沟通&#xff1a; 第一…

Days 27 ElfBoard 板 AltiumDesigner 相同电路快速布局布线

在进行设计开发的时候&#xff0c;总会遇到相同的电路&#xff0c;或者模块&#xff0c;这些电路可以使用相同的布局和走线&#xff0c;例如 DC-DC 电源、网口 PHY 电路部分。这类型的电路&#xff0c;我们可以采用AltiumDesigner 中的 Room 进行布局和布线的快速复制&#xff…

c语言数据类型定义错误导致的数据溢出或者死循环

数据溢出问题 #include <stdio.h>/* 数据溢出 */int main() {char i; // 数据表示范围[-128,127] 0xf0 ~ 0x7ffor(i0;i<130;i) // {printf("%d ",i);}return 0; }/* 编译运行上面的程序&#xff0c;你会发现程序陷入了死循环&#xff0c;一直在不断…

多模态知识图谱:感知与认知的交汇

目录 前言1 多模态知识图谱的概念1.1 感知系统与认知系统的连接1.2 信息形式的整合与融合1.3 全面、多维度的认知基础 2 多模态的作用2.1 模态的知识互补2.2 模态实体消歧2.3 模态语义搜索2.4 知识图谱补全2.5 多模态任务增强 3 多模态知识图谱发展历史3.1 初期模态数据整合3.2…

Vue源码系列讲解——虚拟DOM篇【四】(优化更新子节点)

目录 1. 前言 2. 优化策略介绍 3. 新前与旧前 4. 新后与旧后 5. 新后与旧前 6. 新前与旧后 7. 回到源码 8. 总结 1. 前言 在上一篇文章中&#xff0c;我们介绍了当新的VNode与旧的oldVNode都是元素节点并且都包含子节点时&#xff0c;Vue对子节点是 先外层循环newChil…

小游戏和GUI编程(5) | SVG图像格式简介

小游戏和GUI编程(5) | SVG图像格式简介 0. 问题 Q1: SVG 是什么的缩写&#xff1f;Q2: SVG 是一种图像格式吗&#xff1f;Q3: SVG 相对于其他图像格式的优点和缺点是什么&#xff1f;Q4: 哪些工具可以查看 SVG 图像&#xff1f;Q5: SVG 图像格式的规范是怎样的&#xff1f;Q6…

Python贝尔多项式

文章目录 Bell数和Bell多项式第二类Bell多项式 Bell数和Bell多项式 Bell&#xff0c;即所有包含 n n n个对象的有限集合的子集数之和&#xff0c;可通过递推式进行定义 B n ∑ k 0 n − 1 ( n − 1 k ) B k , B 0 1 B_n\sum^{n-1}_{k0}\begin{pmatrix} n-1\\k \end{pmatrix…

基于完全二叉树实现线段树-- [爆竹声中一岁除,线段树下苦踌躇]

文章目录 一.完全二叉树完全二叉树的父子结点引索关系 二.线段树三.基于完全二叉树实现线段树关于线段树的结点数量问题的证明递归建树递归查询区间和递归单点修改线段树模板题 一.完全二叉树 完全二叉树的物理结构是线性表,逻辑结构是二叉树 完全二叉树的父子结点引索关系 …

Javaweb之SpringBootWeb案例之事务管理的详细解析

1. 事务管理 1.1 事务回顾 在数据库阶段我们已学习过事务了&#xff0c;我们讲到&#xff1a; 事务是一组操作的集合&#xff0c;它是一个不可分割的工作单位。事务会把所有的操作作为一个整体&#xff0c;一起向数据库提交或者是撤销操作请求。所以这组操作要么同时成功&am…

【nginx】starrocks通过nginx实现负载均衡、故障转移与flink运行SR实战

文章目录 一. 通过nginx实现starrocks负载均衡与故障转移1. 架构逻辑与nginx配置2. nginx相关知识&#xff1a;stream模块和http模块2.1. stream模块2.2. http模块 二. 使用flink 消费SR实战1. Expect: 100-continue 问题1.1. Expect: 100-continue的逻辑1.2. 问题分析与解决 2…

微软正在偷走你的浏览记录,Edge浏览器偷疯了

虽然现在 Edge 浏览器相当强大&#xff0c;甚至在某种程度上更符合中国用户的使用体验&#xff1b;但最近新的Edge浏览器推出后一直在使用的用户应该有感受到&#xff0c;原本的冰清玉洁的转校生慢慢小鸡脚藏不住了&#xff0c;广告越来越多&#xff0c;越来越流氓了。 电脑之前…

ubuntu彻底卸载cuda 重新安装cuda

sudo apt-get --purge remove "*cublas*" "*cufft*" "*curand*" \"*cusolver*" "*cusparse*" "*npp*" "*nvjpeg*" "cuda*" "nsight*" cuda10以上 cd /usr/local/cuda-xx.x/bin/ s…