【大数据处理与可视化】八、文本数据分析

news2025/1/6 20:36:09

【大数据处理与可视化】八、文本数据分析

  • 实验目的
  • 实验内容
  • 实验步骤
    • 一、案例——商品评价分析
      • 1、读取数据,并转换成DataFrame对象进行展示。
      • 2、从输出的结果看,多条评价信息是没用且重复的,所以,要用pandas中的drop_duplicates()方法删除重复的数据。
      • 3、删除完重复数据后,计算机仍然不能分析出商品的好坏,这主要是因为文本的信息量是比较庞大的,我们需要对这些文本进行分析等预处理操作,以便统计词频。
      • 4、从输出的列表可以看出,分词的结果中有很多诸如“了”,“一个”,“是”等字或词,它们对于分析用户评价是没有意义的,需要参考中文停用词表,将这些没有意义的词进行删除。
      • 5、在删除停用词之后,从输出的结果可以大致看出评价的特征信息,不过后期还是需要统计这些词语出现的次数,才能进一步知晓用户对商品的喜恶。
      • 6、使用wordcloud模块进行词云展示,wordcloud模块将出现频率高的词语进行放大显示,而出现频率低的词语进行缩小显示。
  • 实验小结


实验目的

       能够熟练运用文本数据分析对文本数据进行分析。


实验内容

       商品评价分析:本实验将针对某宝网站中某卫衣的用户评价进行简单的分析,并使用词云渲染一些关键词。词云是对网络中出现的频率比较高的“关键词”予以视觉上的突出,形成关键词渲染,从而过滤掉大量的文本信息,使得浏览网页的人一眼扫过文本就可以领略文本的主旨。首先获取某网站中用户对某卫衣的评价,然后从这些评论文本中筛选出现频率较高的一些词语,并使用词云的方式进行展示,让有意购买此商品的用户能够快速地了解其他用户对该商品的感受,并为他们提供有效的参考依据。


实验步骤

一、案例——商品评价分析

1、读取数据,并转换成DataFrame对象进行展示。

代码:

import pandas as pd
from nltk import FreqDist
import jieba
file_path = open(r'D:\test.csv')
file_data = pd.read_csv(file_path)
file_data

截图:

在这里插入图片描述


2、从输出的结果看,多条评价信息是没用且重复的,所以,要用pandas中的drop_duplicates()方法删除重复的数据。

代码:

file_data = file_data.drop_duplicates()
file_data

截图:

在这里插入图片描述


3、删除完重复数据后,计算机仍然不能分析出商品的好坏,这主要是因为文本的信息量是比较庞大的,我们需要对这些文本进行分析等预处理操作,以便统计词频。

代码:

cut_words = jieba.lcut(str(file_data['评价信息'].values),cut_all=False)
cut_words

截图:

在这里插入图片描述


4、从输出的列表可以看出,分词的结果中有很多诸如“了”,“一个”,“是”等字或词,它们对于分析用户评价是没有意义的,需要参考中文停用词表,将这些没有意义的词进行删除。

代码:

file_path=open(r'D:\停用词表.txt',encoding='utf-8')
stop_words = file_path.read()
new_data = []
for word in cut_words:
    if word not in stop_words:
        new_data.append(word)
new_data

截图:

在这里插入图片描述


5、在删除停用词之后,从输出的结果可以大致看出评价的特征信息,不过后期还是需要统计这些词语出现的次数,才能进一步知晓用户对商品的喜恶。

代码:

freq_list = FreqDist(new_data)

most_common_words = freq_list.most_common()
most_common_words

截图:

在这里插入图片描述


6、使用wordcloud模块进行词云展示,wordcloud模块将出现频率高的词语进行放大显示,而出现频率低的词语进行缩小显示。

代码:

from matplotlib import pyplot as plt
from wordcloud import WordCloud

font = r'C:\Windows\Fonts\simkai.ttf'
text = " ".join(new_data)
wc = WordCloud(font_path='msyh.ttc').generate(text)
plt.imshow(wc)
plt.axis('off')
plt.show()

截图:

在这里插入图片描述


实验小结

       通过本次实验,我能够详述常见图表的类型和特点,能够熟练运用Matplotlib库绘制图表。在实验过程中遇到了很多硬件或者是软件上的问题,请教老师,询问同学,上网查资料,都是解决这些问题的途径。最终将遇到的问题一一解决最终完成实验。
注意事项:
1、有疑问前,知识学习前,先用搜索。
2、熟读写基础知识,学得会不如学得牢。
3、选择交流平台,如QQ群,网站论坛等。
4、尽我能力帮助他人,在帮助他人的同时你会深刻巩固知识。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/582821.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java笔记039-多用户即时通信系统

目录 多用户即时通信系统 项目介绍 项目演示 项目结构 涉及到Java的技术 项目开发流程 需求分析 界面设计 功能实现-用户登录 1、功能说明 2、思路分析程序框架图 3、代码实现 功能实现-拉去在线用户列表 1、功能说明 2、思路分析程序框架图 3、代码实现 功能…

什么是LIS系统?LIS系统的优势有哪些?

一、LIS系统 LIS系统(Laboratory Information System) 即 实验室(检验科)信息系统,它是医院信息管理的重要组成部分之一。 LIS系统是实验室信息管理系统,是医院信息管理的重要组成部分。它采用智能辅助功能,自动接收检…

【分布式文件存储】MinIO部署及实现文件上传下载

目录 概述 MinIO集群部署 准备docker-compose.yml 测试启动 MinIO用户管理 Buckets管理 创建Buckets MinIO客户端 引入依赖 文件上传下载Demo 调用API碰到的问题 概述 MinIO | 高性能, Kubernetes 原生对象存储 MinIO是全球领先的对象存储先锋,目前在全世…

TCP协议的RST标志

下文中的内容多数来自【参考】中的文章,这边进行一个整理和总结,后续会慢慢增加出现各个 RST 包的测试代码,便于理解。 TCP的 “断开连接” 标志 RST 标志 Reset,复位标志,用于非正常地关闭连接。它是 TCP 协议首部里…

企业产品操作手册,真的很有必要吗?

产品操作手册是一种对于产品使用者而言非常重要的工具。它是一份向用户介绍产品使用方法和功能的文档,可以提供关于产品的详细信息,解答用户的疑问,并帮助用户快速上手使用产品。 产品操作手册的必要性: 一、提高用户使用体验 …

Matlab论文插图绘制模板第95期—双向柱状图

在之前的文章中,分享了很多Matlab柱状图的绘制模板: 进一步,再来看一种特殊的柱状图:双向柱状图。 先来看一下成品效果: 特别提示:本期内容『数据代码』已上传资源群中,加群的朋友请自行下载。…

抖音seo源码如何开发部署?

前言:抖音seo源码,抖音矩阵系统源码搭建,抖音矩阵同步分发。抖音seo源码部署是需要对接到这些正规接口再来做开发的,目前账号矩阵程序开发的功能,围绕一键管理多个账号,做到定时投放,关键词自动…

腾讯云服务器常用端口号大全以及端口开启方法

腾讯云服务器常用端口号如80、21、22、8080等端口,出于安全考虑一些常用端口默认是关闭的,腾讯云服务器端口如何打开呢?云服务器CVM在安全组中开启端口,轻量应用服务器在防火墙中可以打开端口,腾讯云百科来详细说下腾讯…

解析云盘存储的优缺点:安全靠谱还是存在风险?

云盘是一种基于云计算技术的在线存储服务,用户可以通过互联网将文件上传到云端,并可以随时随地通过网络访问这些文件。 相较于传统的本地存储,云盘具有以下优势: 1.数据安全性更高:云盘使用专业的云计算技术和安全措施…

vue 截取字符串的方法

vue中的字符串方法,我目前使用最多的是下面两种方法,因为 vue的字符串方法支持断言操作。 1、 vue中截取字符串的方法如下: 2、 vue中截取字符串的方法,这个方法也是需要依赖于 vue库提供的支持。 3、 vue中截取字符串的方法&…

腾讯云服务器CVM和轻量应用服务器区别

关于腾讯云轻量应用服务器和云服务器CVM的区别,之前腾讯云百科写过一篇文章来对比,如今2023阿腾云又更新了一篇新的区别对比文章,比之前的要更加详细,包括轻量服务器的使用限制、CPU型号、公网限制月流量、内网连通性、硬盘存储等…

f1c200s---编译uboot

目录 前言安装必要工具安装交叉编译链工具 下载Uboot切换分支查看配置文件 配置Uboot修改Makefile配置文件 编译uboot出现/bin/sh: 1: python: not found错误出现multiple definition of yylloc错误出现FATAL ERROR: Unable to parse input tree错误出现/usr/bin/env: python2:…

微服务架构综合实战 一文让你了解什么是微服务 使用PHP 搭建微服务框架 最全微服务架构讲解以及演示

本文将带你从基础的微服务架构设计、网络协议、注册中心、配置中心、网关层面 渐进式讲解其微服务。 一、微服务架构设计方案 架构演进 在将微服务之前 我们看看目前的架构 单体架构 按照模块划分,公用一个数据库 垂直拆分架构 按业务功能划分单独的子系统&…

为什么pnpm比npm、yarn使用更好

performant npm ,意味高性能的 npm。pnpm由 npm/yarn 衍生而来,解决了 npm/yarn 内部潜在的bug,极大的优化了性能,扩展了使用场景。被誉为"最先进的包管理工具"。 我们按照包管理工具的发展历史开始讲起: n…

切片工具tippecanoe的全网最详细的解释

1.下载和安装 tippecanoe工具是mapbox官方提供的一个服务端切片工具,因此它是运行在服务器上的,它比较友好的支持mac和linux机器。对于windows来讲,就比较麻烦了。 首先对于mac系统,你只需配置好自己的homebrew,保证homebrew能够正常下载东西。 然后只需要一个命令: …

Jmeter 压测工具进行压力测试

需求:接口需要进行压力测试,有减库存的场景,要求并发不能超库存,接口鉴权类似token方式校验。 一、jemter 下载安装Java Downloads | Oracle ,下载安装可以自行翻帖子,很多教程,本次实验用的是…

用Python体素化3D网格和点云

推荐:用 NSDT设计器 快速搭建可编程3D场景。 3D 数据的持续学习正在成为机器学习和理解我们周围世界的越来越重要的部分。 随着新的 3D 数据提取硬件(如深度相机和 LiDAR)在闭路电视、相机和智能手机中变得司空见惯,越来越多的人正…

法线贴图的类型

1、切线空间法线贴图 这是当今最常见的法线贴图,也是我们在本系列中讨论的法线贴图。它根据模型顶点的法线方向修改模型的法线方向(因此我们必须控制lowpoly的顶点法线)。 请记住,切线法线贴图是使用顶点指示的方向进行计算的。这…

【WPF】数据绑定,资源字典

数据绑定 将数据与视图分开,创建MainViewModel .cs 作为数据源的处理 MainViewModel using System; using System.Collections.Generic; using System.ComponentModel; using System.Linq; using System.Runtime.CompilerServices; using System.Text; using System.Threading…

华为OD机试真题 Java 实现【基站维修工程师】【2023Q1 200分】,附详细解题思路

一、题目描述 小王是一名基站维护工程师,负责某区域的基站维护。 某地方有n个基站(1<n<10),已知各基站之间的距离s(0<s<500),并且基站x到基站y的距离,与基站y到基站x的距离并不一定会相同。 小王从基站1出发,途径每个基站1次,然后返回基站1,需要请你…