文本分析|小白教程

news2024/10/7 20:36:07

在信息爆炸的时代,文本数据无处不在,如何从这些海量的文字中提炼出有价值的信息呢?答案就是——文本分析。文本分析,简单来说,就是对文本数据进行深度的研究和分析。它能够从看似普通的文字中,提取出主题、情感等信息,为后续的决策和应用提供有力支持。SPSSAU的文本分析模块可以一站式得到全部的文本分析结果。

一、文本分析软件工具

大学生必备的统计分析工具——SPSSAU在线数据分析软件,可以进行词云分析、文本情感分析、文本聚类分析、社会网络关系图绘制、LDA主题分析、新词发现、管理我的词库等文本分析。

1、如何进入文本分析?

1、SPSSAU搜索框进入

在SPSSAU主系统左上角处进行搜索,比如搜索‘文本’二字时,下拉中会提示文本分析模块,当然搜索其它的潜在关键词,比如情感分析、LDA、文本聚类等均可。
2、SPSSAU界面仪表盘进入

通过SPSSAU主系统左侧仪表盘点击‘文本分析模块’进入。

2、如何上传文本数据?

进入SPSSAU文本分析模块之后,首先需要上传文本数据。上传数据涉及以下内容:

  • 支持直接粘贴文本进行上传数据
  • 支持上传txt或excel格式数据
  • 上传文件最高限制为5M

用户可‘点击上传’自己的文本数据,在弹出对话框中,可实现直接粘贴文本进行上传或者上传txt/excel/csv文件等。如下图所示:

  • 数据格式说明

如果是通过excel格式(包括csv/xls/xlsx格式)时,只需要1列数据,该列数据中包括文本数据,将文本全部放置于A列中,A列不需要有标题信息。每行(即每个单元格)存在1个分析文本。如果是txt文档或者粘贴文本进行上传,那么系统会自动过滤掉空行数据,并且以回车键作为每行(即每个分析文本)标志。类似如下图所示:

3、如何进行分析?

上传文本数据后,接着则需要对该数据(项目)进行分析。点击‘开始分析’按钮,项目则开始进行分析。如果完成分析后,‘开始分析’按钮会展示为‘进入项目’,也会展示‘重新分析’按钮,此时点击‘进入项目’即可查看对应的文本分析分析结果,比如词云分析情况等。类似如下图所示:

【提示】:当前SPSSAU限制周会员及以上用户使用,仅购买1天的会员或者非会员无法使用文本分析模块功能,也无法上传文本数据。如果是购买SPSSAU权益号,那么其分配出来的账号或者会员均享受周会员权益,即可使用文本分析模块功能。

  • 文本分析结果

SPSSAU文本分析结果包括词云分析、文本情感分析、文本聚类分析、社会网络关系分析、LDA主题分析、新词发现和我的词库等。接下来分别进行简单介绍。

二、词云分析

文本分析模块中,最重要和最基础的为展示分词结果,通常是使用词云进行展示。在‘词云分析等’中,SPSSAU提供四种功能,分别是词云分析、自定义词云、词定位和tf-idf

1、词云分析

直观展示文本数据的关键词信息,默认是展示前1000个高频关键词、词频、以及出现行数。词云图默认展示前100个高频词,用户可自主设置该数字,也可修改词云风格和下载该词云图。

2、自定义词云

自定义词云提供一种自由和灵活的词云绘图方式,研究者可将整理好的信息,包括词和其词频,直接粘贴(或者自主编辑)在表格中,然后右侧自动呈现出词云效果,并且可对词云进行下载,词云风格设置等操作。

3、词定位

词定位可用于展示具体某个关键词在那些地方有过出现,比如本案例中‘城乡建设’这个关键词,研究者希望了解该关键词的具体出处信息等,可直接点击该词,然后查看具体信息。也可直接搜索想要查看的关键词,如下图所示:

4、tf-idf

tf-idf是个重要的指标,其反映某关键词在整份数据中的重要性程度,当tf-idf越高时,其重要性越高。其与词频的意义不尽相同,词频是指出现次数,而tf-idf更加关注于关键词的重要性程度。tf-idf指标及其对应词云图输出结果如下:

二、文本情感分析

SPSSAU共提供两种方式的情感分析,分别是按词情感分析和按行情感分析

1、按词情感分析

按词情感分析是指针对提取的关键词进行情感分析,并且进行可视化展示。

情感分析使用情感词典进行情感得分计算,并且经过SPSSAU数据压缩化,将情感得分压缩在-1~1之间。关于情感方向的判断标准具体规则如下表:

SPSSAU输出结果如下:

如果有自定义情感词的需求,可点击‘自定义情感词’,也或者使用点击‘我的词库’-》情感词进行添加或者删除等。

2、按行情感分析

按行情感分析是指针对分析的原始数据以‘行’为单位进行情感分析,并且可下载具体的情感得分值信息等。SPSSAU输出结果如下:

三、文本聚类分析

SPSSAU共提供两种文本聚类方式,分别是按词聚类和按行聚类。

1、按词聚类分析


按词聚类分析是指将需要分析的关键词进行聚类分析,并且进行可视化展示,即针对关键词进行聚类,此处关键词可以自由选择。
默认情况下,系统会将词频靠前的20个关键词提取,并且得到其词向量值,并且其于词向量值进行聚类分析(具体为kmeans聚类),接着进行MDS分析,最终渲染出各个关键词的坐标定位信息,可视化展示词之间的聚类信息。
SPSSAU输出结果如下,图中不同的颜色代表不同的类别,其意味着各个关键词之间的类别区分:

2、按行聚类分析

不同于按词聚类分析,按行聚类分析是指以‘行’为单位,针对每行数据进行聚类分析(具体为kmeans聚类),并且计算出各‘行’数据的聚类类别,也可直接进行下载聚类类别信息。SPSSAU分析结果如下图所示:

四、社会网络关系图

社会网络关系图展示关键词之间的关系情况,此处的关系是指‘共词矩阵’,即两个关键词同时出现的频数情况。接下来将分别介绍‘共词矩阵’和‘社会网络关系图’

1、共词矩阵

下图中共10个关键词,第1行和第1列为关键词名称且完全对应。具体数据上,右下三角斜对角线为该词的词频。其它数字为‘共现’次数(每行‘共现’次数之和):

2、社会网络关系图

社会网络关系图将共词矩阵信息进行展示,包括是否有共词关系(共词次数>0则有共词关系,等于0则说明没有同时出现过),共词次数情况等。默认情况下,系统会选中排名前20的关键词进行共词矩阵构建和社会网络关系图呈现,用户也可自由“选择分析词”。

在社会网络关系图时,可使用线条粗细展示共词次数,越粗则表示共词次数越高,当然也可选择颜色深浅或者固定线条大小。如下图所示:

还可通过单击表格中的关键词,查看该关键词与其余分析词之间的共词次数情况,比如选中‘建设’这个关键词后,其出来结果如下,明显地可以看到,建设与‘建设部’、‘城乡’和‘住房’这三个词之间的关系较为紧密。

五、LDA主题分析

LDA主题分析是一种提取出文本数据核心主题的模型,其可将整份数据文档的信息提取成几个主题,并且标题出主题与关键词之间的权重情况,用于识别主题的具体实际意义,除此之外,LDA主题分析涉及到可视化展示和图形交互等。

SPSSAU中呈现LDA主题分析包括如下内容或功能:

SPSSAU输出LDA主题分析结果如下:

六、新词发现&我的词库

1、新词发现

文本分析时,有些词是无法被词典识别到,比如‘元宇宙’这样的新词,以前的词典并没有它。因而可结合新词发现算法提供一些建议。
新词发现时涉及到两个关键指标,分别是:信息熵和互信息。信息熵的意义为衡量某词与其它词组合一起的容易度;互信息的意义为衡量文本组合的紧密程度。

2、我的词库

文本分析时,可能涉及到一些新词,比如‘内卷’,这个词很可能在词典中并未出现过,此时可将该词纳入到新词词库中,让系统统计词频等信息时也对该词进行统计。当然还有一些停用词,比如‘好了’,这个词没有实际的意义没有统计词频等必要,此时可对该词设置为停用词。除此之外,还可设置情感词,比如:‘元宇宙’可能是个正向词(也可能是负向情感,由研究者决定),那么可自主设置其情感分值。操作上为点击‘我的词库’,然后选择即可。SPSSAU操作上为点击‘我的词库’,然后选择即可,如下图:


以上为本期SPSSAU文本分析模块的相关内容。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1873542.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

老司机开发技巧,如何扩展三方包功能

前言 最近碰上有个业务,查询的sql如下: sql 复制代码 select * from table where (sku_id,batch_no) in ((#{skuId},#{batchNo}),...); 本来也没什么,很简单常见的一种sql。 问题是我们使用的是mybatis-plus,然后写的时候有没…

【C++ 初阶路】--- 类和对象(末)

目录 一、const成员1.1 取地址及const取地址操作符重载 二、再谈构造函数2.1 构造函数体赋值2.2 初始化列表2.3 explicit关键字 三、static成员3.1 概念3.2 特性 四、友元4.1 友元函数4.2 友元类 五、内部类六、匿名对象 一、const成员 将const修饰的“成员函数”称之为const成…

软考《信息系统运行管理员》-1.4 常见的信息系统

1.4 常见的信息系统 常见的信息系统综述 财务系统 财务信息系统会计信息系统 办公自动化系统业务处理系统生产管理系统ERP系统客户关系管理系统人力资源系统 会计信息系统 主要任务是保证记账的正确性。 订单处理子系统库存子系统会计应收/应支系统总账子系统 财务信息系…

[CTF]-PWN:mips反汇编工具,ida插件retdec的安装

IDA是没有办法直接按F5来反汇编mips的汇编的,而较为复杂的函数直接看汇编不太现实,所以只能借用插件来反汇编 先配置环境,下载python3.4以上的版本,并将其加入到环境变量中 下载retdec 地址:Release v1.0-ida80 ava…

Rust Eq 和 PartialEq

Eq 和 PartialEq 在 Rust 中&#xff0c;想要重载操作符&#xff0c;你就需要实现对应的特征。 例如 <、<、> 和 > 需要实现 PartialOrd 特征: use std::fmt::Display;struct Pair<T> {x: T,y: T, }impl<T> Pair<T> {fn new(x: T, y: T) ->…

亲测可用!SM2269XT量产工具下载,SM2269XT开卡软件分享

国内固态硬盘常用&#xff0c;且有量产工具流传出来的主控厂商包括慧荣、群联、点序、英韧、得一微、瑞昱、联芸、迈威、国科、华澜微等等。 每个主控需要用各自对应的量产工具&#xff0c;不同的量产工具支持的闪存颗粒也有差异&#xff0c;因此要根据固态硬盘实际的主控型号…

小白快速入门canvas画海报

小编以微信小程序原生语言举例 wxml页面&#xff1a; <canvas type"2d" id"myCanvas" style"width:375px;height:667px;"></canvas> js页面&#xff1a; import drawQrcode from ../../../utils/qrcode/weapp.qrcode.esmdata: {…

vue3+ el-upload封装上传组件

组件功能介绍 上传格式限制上传大小限制上传文件数量限制自定义上传区上传成功回调禁用上传开关与点击上传自定义事件暴露所以上传文件列表&#xff08;uploadList&#xff09;与当前文件数据&#xff08;uploadLatestFile&#xff09; 组件代码Upload.vue <template>&l…

Vue-cli搭建一个项目

目录 vue-cli搭建项目 主要的功能 需要的环境 用 HbuilderX 搭建 vue-cli 项目 1、创建一个vue项目(2.6.10) 2、组件路由 首先&#xff1a;安装 其次&#xff1a; 1.在src文件夹下创建router目录,创建index.js 2.使用路由——在App.vue中添加路由视图 3.在main.js 中…

C语言学习记录(十一)——指针基本知识及运算

文章目录 前言1. 指针的概念2.指针变量的说明3. 指针的含义4. 指针运算①指针加减&#xff1a;②指针的关系运算符 前言 一个学习嵌入式的小白~ 有问题评论区或私信指出~ 提示&#xff1a;以下是本篇文章正文内容&#xff0c;下面案例可供参考 1. 指针的概念 在C语言中&…

天正T20 专业建筑软件分享,天正T20全家桶软件安装包齐全!

天正T20 V9.0&#xff0c;在建筑工程领域中占据了举足轻重的地位。该软件以其高效、精确和易用的特点&#xff0c;赢得了广大工程师的青睐和信赖。 天正T20 V9.0软件具有强大的计算功能&#xff0c;可以精确地对建筑结构进行力学分析&#xff0c;包括静力分析、动力分析、稳定性…

使用Python实现钉钉Stream模式服务开发及内部程序通信

1、什么是Stream模式 Stream 模式是钉钉开放平台提供的一种集成方式&#xff0c;它可以监听机器人回调、事件订阅回调和注册卡片回调。使用 Stream 模式接入&#xff0c;钉钉开放平台将通过 Websocket 连接与应用程序通讯&#xff0c;Stream 模式将极大降低接入门槛和资源依赖…

Windows系统开启python虚拟环境

.\env4socre\Scripts\activate : 无法加载文件 E:\SocreMan\env4socre\Scripts\Activate.ps1&#xff0c;因为在此系统上禁止运行脚本。 环境&#xff1a;windows 11、vscode 1、用管理员权限打开powershell 输入set-executionpolicy remotesigned&#xff0c;选择Y 2、返回v…

信创认证 | Smartbi Insight V11成功适配申威3231处理器

在信息技术飞速发展的浪潮中&#xff0c;软硬件的深度融合与协同发展已成为推动行业创新的关键因素。 近日&#xff0c;思迈特商业智能与数据分析软件[简称&#xff1a;Smartbi Insight]V11在统信服务器操作系统V20和中电科申泰信息科技有限公司产品申威3231处理器环境下完成适…

【Linux 命令行参数解析函数getopt()】原理及直白理解

最近写代码恰好碰见getopt()这个函数&#xff0c;去网上找了很久&#xff0c;说实话&#xff0c;其他人写的有点看不懂&#xff0c;所以将我认为可以便于理解的地方描述一下&#xff1a; int getopt(int argc, char * const argv[], const char *optstring);首先理解这个函数的…

pdf合并,这三种方法学会了吗?

在信息爆炸的时代&#xff0c;PDF文档凭借其跨平台、不易修改的特性&#xff0c;成为了我们工作和学习中不可或缺的一部分。然而&#xff0c;当面对多个PDF文件需要合并成一个完整的文档时&#xff0c;许多人可能会感到头疼。今天&#xff0c;就让我们一起来探讨三种高效的PDF合…

OOXML入门学习

进入-飞入 <par> <!-- 这是一个并行动画序列的开始。"par"代表并行&#xff0c;意味着在这个标签内的所有动画将同时开始。 --><cTn id"5" presetID"2" presetClass"entr" presetSubtype"4" fill"hold&…

利用大模型技术,打造本地个人专属知识库

文章目录 利用大模型技术&#xff0c;打造本地个人专属知识库一 简介二 部署2.1 硬件要求2.2 部署信息2.3 通过docker部署、启动Ollama2.3 进入Ollama容器、拉取qwen2:7b模型2.4 测试Ollama2.5 通过docker部署、启动MaxKB2.6 登录MaxKB管理后台2.7 MaxKB系统配置2.8 创建知识库…

第56期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区&#xff0c;集成了生成预训练Transformer&#xff08;GPT&#xff09;、人工智能生成内容&#xff08;AIGC&#xff09;以及大语言模型&#xff08;LLM&#xff09;等安全领域应用的知识。在这里&#xff0c;您可以找…

一种自定义SPI通信协议

本文介绍一种自定义SPI通信协议。 项目开发过程中&#xff0c;有时候会涉及到主处理器或FPGA和MCU之间的SPI通信&#xff0c;涉及到通信就需要考虑通信协议&#xff0c;本文给出一种简单的通信协议。 1.协议格式 协议格式如下图。 其中&#xff0c;将40 bit划分为2大部分&am…