【全部更新完毕】2024全国大学生数据统计与分析竞赛A题思路代码文章教学数学建模-抖音用户评论的文本情感分析

news2025/1/20 14:52:11

文章摘要部分:
A 题:
抖音用户评论的文本情感分析
摘要
随着短视频平台的迅猛发展,抖音已成为全球最受欢迎的短视频分享平台之一。然而,随着用户数量和使用时长的增加,抖音团队需要不断优化平台功能、提升用户体验,以保持用户活跃度和满意度。为了达成这一目标,了解用户的反馈和行为数据显得尤为重要。本次分析旨在通过对抖音用户评论数据的多维度分析,揭示用户对抖音平台的评分、点赞数、评论时间、版本影响、情感倾向以及高频词汇等方面的情况,提出具体的改进建议,帮助抖音团队提升用户满意度和平台体验。
针对问题一,通过对抖音用户的评分和点赞数数据进行直方图绘制,发现评分数据集中在极高分和极低分之间,呈现离散分布;点赞数数据高度偏态,大部分点赞数较低但存在少量极高值,都不满足正太分布。通过Shapiro-Wilk检验和Kolmogorov-Smirnov检验确认了这一结果。我们对点赞数进行了对数变换后,发现变换后的点赞数分布更接近正态分布。这表明在后续分析中,需要考虑数据的非正态性。
问题二首先需要对数据进行预处理,将评论时间字段转换为标准的时间格式,并提取评论时间中的小时信息,以便分析一天中各个时间段的评论数量分布。通过绘制评论时间的直方图,发现用户评论主要集中在下午14点到19点之间,这段时间的用户活跃度最高。而凌晨0点到早晨6点的评论数量较少,显示用户在这段时间的活跃度最低。在版本分析中,版本11.5.2的平均评分最高,达到5.0,显示出用户对此版本的高度满意。版本24.9.3获得最多的点赞数,总计95,678,表明该版本发布的内容受到了用户的广泛欢迎。抖音团队可以利用这些数据分析,进一步改进未来版本的开发和用户互动策略,提升平台的整体满意度和活跃度。
在问题三中,首先从CSV文件中读取抖音评论数据,去除缺失值,并确保所有评论文本都是字符串类,以便进行自然语言处理。使用现有的中文情感分析工具:SnowNLP对评论文本进行情感分类。SnowNLP是一个适用于中文文本分析的工具,能够对中文评论进行情感得分计算,定义情感分类阈值,将情感归为“积极”,“消极”和“中立”。统计“积极”、“消极”和“中立”情感评论的数量和比例。通过饼图直观展示情感分类的结果。分析结果显示,积极情感的评论占比最高,为59.1%。这表明大多数用户对抖音APP持正面态度,认为其提供了良好的用户体验和满意的功能。消极情感的评论占比为29.4%,中立情感中立情感的评论占比为11.6%。
问题四的分析通过绘制所有评论以及积极、消极和中立评论的词云图,识别出抖音用户评论中的高频词汇。这些词汇反映了用户对抖音APP的主要关注点、满意度和不满之处,提供了用户情感的直观视图。通过加载并使用停用词表,我们确保词云图中展示的重要词汇更具代表性。从词云图中可以看出,积极评论中高频词汇如“nice”、“good”、“love”等显示用户对抖音APP的正面评价;而消极评论中高频词汇如“problem”、“fix”、“issue”等则反映了用户的不满和遇到的问题。抖音团队应重点关注消极评论中的负面反馈,进行技术优化和用户体验改进,同时进一步强化积极评价中的优势功能,提升整体用户满意度。
目录
摘要
一、问题重述
1.1问题背景
1.2要解决的问题
二、问题分析
2.1任务一的分析
2.2任务二的分析
2.3任务三的分析
2.4任务四的分析
三、问题假设
四、模型原理
4.1Kolmogorov-Smirnov检验
4.2SnowNLP
五、模型建立与求解
5.1问题一建模与求解
5.2问题二建模与求解
5.3问题三建模与求解
5.4问题四建模与求解
六、模型评价与推广
6.1模型的评价
6.1.1模型缺点
6.1.2模型缺点
6.2模型推广
七、参考文献
附录【自行替换】
步骤1:读取数据
我们首先读取数据,并进行初步的检查与清洗。

步骤2:绘制直方图
绘制评分和点赞数的直方图,以直观展示其分布情况。

步骤3:正态性检验
使用Shapiro-Wilk检验对评分和点赞数的分布进行正态性检验。

在这里插入图片描述

在这里插入图片描述

我们首先读取并预处理了数据。数据中包含了用户对抖音APP的评分和点赞数。对数据进行初步检查后,发现存在缺失值。我们清除了评分和点赞数字段中的缺失值记录,以确保数据的完整性和分析的准确性。

Column Non-Null Count Dtype

0 用户名 460283 non-null object
1 评语 460250 non-null object
2 评分 460287 non-null int64
3 点赞数 460287 non-null int64
4 抖音版本 333953 non-null object
5 评论时间 460287 non-null datetime64[ns]
对评分和点赞数进行了描述性统计分析,计算了基本统计量,如均值、中位数、标准差等。这些统计量帮助我们了解数据的集中趋势和离散程度。
评分的描述性统计:
均值:4.32
中位数:5
标准差:1.18
最大值:5
最小值:1
点赞数的描述性统计:
均值:102.5
中位数:10
标准差:856.2
最大值:40,000
最小值:0
通过绘制评分和点赞数的直方图,我们可以直观地观察其分布特征。评分的直方图显示出几个明显的峰值,主要集中在5分。点赞数的直方图则表现出高度偏态,大部分点赞数集中在较低值,但有少量极端值非常高。

此外,我们绘制了QQ图和箱线图以进一步分析数据的分布特征和异常值情况:
QQ图显示评分和点赞数相对于正态分布的偏差程度。结果显示,两者均明显偏离正态分布。

箱线图显示评分和点赞数中的异常值。评分中异常值较少,点赞数则存在较多的极端值。

为了正式检验评分和点赞数是否服从正态分布,我们使用了Shapiro-Wilk检验。检验结果如下:
评分正态性检验:
Shapiro-Wilk统计量(W) = 0.567
p值= 0.0
评分数据不服从正态分布(p值小于0.05,拒绝原假设)。
点赞数正态性检验:
Shapiro-Wilk统计量(W) = 0.004
p值= 0.0
点赞数数据不服从正态分布(p值小于0.05,拒绝原假设)。
进一步,我们使用Kolmogorov-Smirnov检验来确认分布类型,结果同样表明评分和点赞数不服从正态分布。
由于点赞数高度偏态,我们尝试对点赞数进行对数变换。对数变换能够压缩数据的范围,使得极端值的影响减小。变换后的数据分布较原始数据更接近正态分布。
对数变换后的点赞数数据,绘制了新的直方图和QQ图,结果显示其分布特征有所改善,更接近正态分布。

问题二:
任务描述
分析抖音用户对抖音APP的评论时间主要集中在一天的哪个时间段。
找出评分最高和点赞数最多的抖音版本。

分析步骤
数据预处理:
读取数据并转换评论时间字段为时间格式。
提取评论时间的小时信息,用于时间段分析。

评论时间段分析:
绘制评论时间的直方图,观察评论集中时间段。

版本分析:
计算各版本的平均评分和总点赞数。
找出评分最高和点赞数最多的版本。

问题三

在这里插入图片描述

问题四:

在这里插入图片描述

任务描述
绘制所有抖音用户评论的词云图。
分别绘制“积极”、“消极”和“中立”评论的词云图。
分析词云图中的高频词汇信息,并基于此给北京字节跳动公司的“抖音”部门提出建议。

分析步骤
数据预处理:
读取数据并提取评论文本。
根据情感分类结果,将评论划分为“积极”、“消极”和“中立”三类。

词云图绘制:
使用 WordCloud 库生成词云图,展示所有评论、积极评论、消极评论和中立评论的高频词汇。

高频词汇分析:
分析词云图中的高频词汇,总结用户关注的主要内容和反馈。
基于高频词汇信息,提出改进建议。

###2024全国大学生数据统计与分析
###https://docs.qq.com/doc/DVW5uSVBxbU5aQnla

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1801616.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

生成纳秒级别的时间戳,高性能

问题 同步influxdb有些数据没有,不知道啥原因,后来百度发现时间需要唯一,毫秒还会重复,只能采用纳秒处理了 java实现 TimeStampUtils.java package com.wujialiang;/*** 获取纳秒值的工具类*/ public class TimeStampUtils {/…

面试题-Vue2和Vue3的区别

文章目录 1. 响应式系统2. 组合式 API (Composition API)3. Fragment (碎片)4. Teleport (传送门) 5. 性能改进6. 移除或改变的功能7. 构建工具8. TypeScript 支持 Vue 2 和 Vue 3 之间存在许多重要的区别,这些区别涵盖了性能、API 设计、组合式 API(Com…

产品NPDP+项目PMP助你成长

前言 从管理的角度来讲,产品经理和项目经理的区别,我们应该吧项目经理和产品的区别分为一纵一横,那一纵就是我们的项目经理,项目经理在整个新产品研发过程中他扮演的是管理监督项目参与者的角色,其中包括研发部门、技术部门、市场部门或是销售部门等等。他所要做的事情就…

【Unity】Kafka、Mqtt、Wesocket通信

1 前言 最近研究了下kafka、mqtt、webocket插件在Unity网络通信中的应用,做下小总结吧。(不想写笔记,但不写又会忘,痛苦) 2 Kafka 先说结果:Kafka实现失败。 我会使用的方法是在VS里安装了Confluent.Kafka…

压缩大文件消耗电脑CPU资源达到33%以上

今天用7-Zip压缩一个大文件,文件大小是9G多,这时能听到电脑风扇声音,查看了一下电脑资源使用情况,确实增加了不少。 下面是两张图片,图片上有电脑资源使用数据。

05--Git分布式版本控制系统

前言:给后端工程师使用的版本控制器,本质上类似带时间标记的ftp,使用比较简单,就在这里归纳出来,供参考学习。 git1、概念简介 分布式版本控制系统(Distributed Version Control System,DVCS&…

数据挖掘--分类

数据挖掘--引论 数据挖掘--认识数据 数据挖掘--数据预处理 数据挖掘--数据仓库与联机分析处理 数据挖掘--挖掘频繁模式、关联和相关性:基本概念和方法 数据挖掘--分类 数据挖掘--聚类分析:基本概念和方法 基本概念 决策树归纳 决策树:决策树是一…

从0开始学人工智能测试节选:Spark -- 结构化数据领域中测试人员的万金油技术(四)

上一章节我们了解了 shuffle 相关的概念和原理后其实可以发现一个问题,那就是 shuffle 比较容易造成数据倾斜的情况。 例如上一节我们看到的图,在这批数据中,hello 这个单词的行占据了绝大部分,当我们执行 groupByKey 的时候触发了…

关于怎么用Cubemx生成的USBHID设备实现读取一体的鼠标键盘设备(改进版)

主要最近做了一个要用STM32实现读取鼠标键盘一体的那种USB设备,STM32的界面上要和电脑一样的能通过这个USB接口实现鼠标移动,键盘的按键。然后我就很自然的去参考了正点原子的例程,可是找了一圈,发现正点原子好像用的库函数&#…

Docker的资源限制

文章目录 一、什么是资源限制1、Docker的资源限制2、内核支持Linux功能3、OOM异常4、调整/设置进程OOM评分和优先级4.1、/proc/PID/oom_score_adj4.2、/proc/PID/oom_adj4.3、/proc/PID/oom_score 二、容器的内存限制1、实现原理2、命令格式及指令参数2.1、命令格式2.2、指令参…

如何在 iPhone 上恢复已删除的短信

本文介绍如何检索已删除的短信和 iMessage 以及恢复丢失的消息。说明适用于 iOS 17 及更高版本。 如何在 iOS 17及更高版本中恢复文本 恢复已删除短信的最简单方法是使用 iOS 17。从删除短信到恢复它有 30 到 40 天的时间。 在“信息”的对话屏幕中,选择“过滤器”…

重塑楼宇管理:智慧管控可视化开启高效新篇章

借助图扑智慧楼宇管控可视化技术,实现实时监控与智能化管理,快速响应潜在问题,确保楼宇安全、节能和高效运行。

Qt/C++音视频开发76-获取本地有哪些摄像头名称/ffmpeg内置函数方式

一、前言 上一篇文章是写的用Qt的内置函数方式获取本地摄像头名称集合,但是有几个缺点,比如要求Qt5,或者至少要求安装了多媒体组件multimedia,如果没有安装呢,或者安装的是个空的呢,比如很多嵌入式板子&am…

[图解]建模相关的基础知识-05

1 00:00:01,510 --> 00:00:03,900 练习,我们就出这一道就行了 2 00:00:04,230 --> 00:00:07,210 这些都是像数理逻辑 3 00:00:08,140 --> 00:00:10,570 包括信息专业的 4 00:00:11,350 --> 00:00:12,900 包括文科的 5 00:00:12,910 --> 00:00:14…

论文高级图表绘制(Python语言,局部放大图)

本文将通过一个具体的示例,展示如何使用Python语言和Matplotlib库来绘制高级图表,包括局部放大图的制作。适用于多条曲线绘制在同一个图表中,但由于数据量过大,导致曲线的细节看不清,需要对细节进行局部放大。如下图: 环境准备 首先,确保你的Python环境中已经安装了以…

mqtt-emqx:keepAlive机制测试

mqtt keepAlive原理详见【https://www.emqx.com/zh/blog/mqtt-keep-alive】 # 下面开始写测试代码 【pom.xml】 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId><version>2…

数据结构(C语言)之对归并排序的介绍与理解

目录 一归并排序介绍&#xff1a; 二归并排序递归版本&#xff1a; 2.1递归思路&#xff1a; 2.2递归代码实现&#xff1a; 三归并排序非递归版本&#xff1a; 3.1非递归思路&#xff1a; 3.2非递归代码实现&#xff1a; 四归并排序性能分析&#xff1a; 欢迎大佬&#…

day40--Redis(二)实战篇

实战篇Redis 开篇导读 亲爱的小伙伴们大家好&#xff0c;马上咱们就开始实战篇的内容了&#xff0c;相信通过本章的学习&#xff0c;小伙伴们就能理解各种redis的使用啦&#xff0c;接下来咱们来一起看看实战篇我们要学习一些什么样的内容 短信登录 这一块我们会使用redis共…

碳素钢化学成分分析 螺纹钢材质鉴定 钢材维氏硬度检测

碳素钢的品种主要有圆钢、扁钢、方钢等。经冷、热加工后钢材的表面不得有裂缝、结疤、夹杂、折叠和发纹等缺陷。尺寸和允许公差必须符合相应品种国家标准的要求。 具体分类、按化学成分分类 &#xff1a; 碳素钢按化学成分&#xff08;即以含碳量&#xff09;可分为低碳钢、中…

问题:军保卡不允许开立附属卡,不能开展境外交易,不开通云闪付工功能() #其他#经验分享

问题&#xff1a;军保卡不允许开立附属卡&#xff0c;不能开展境外交易&#xff0c;不开通云闪付工功能&#xff08;&#xff09; A&#xff0e;A&#xff1a;正确 B&#xff0e;B&#xff1a;错误 参考答案如图所示