【爬虫+数据清洗+可视化分析】用Python分析哔哩哔哩“阳了“的评论数据

news2025/1/12 1:52:57

目录

一、背景介绍

二、爬虫代码

爬虫部分不作讲解。

三、可视化代码

3.1 读取数据

3.2 数据清洗

3.3 可视化

3.3.1 IP属地分析-柱形图

3.3.2 评论时间分析-折线图

3.3.3 点赞数分布-直方图

3.3.4 评论内容-情感分布饼图

3.3.5 评论内容-词云图

三、演示视频


一、背景介绍

您好,我是 @马哥python说,一枚10年程序猿。

以前大家见面都问"吃了没",最近大家见面都问"阳了没",奈何疫情反反复复,惟愿身体安康!

我用python抓取了B站上千条评论,并进行可视化分析,下面详细讲解代码。

二、爬虫代码

爬虫部分不作讲解。

三、可视化代码

为了方便看效果,以下代码采用jupyter notebook进行演示。

3.1 读取数据

用read_csv读取刚才爬取的B站评论数据:

查看前3行及数据形状:

3.2 数据清洗

处理空值及重复值:

3.3 可视化

3.3.1 IP属地分析-柱形图

可得结论:关于"阳了"这个话题,评论里关注度最高为广东、北京、江苏等地区,其中,广东省的关注度最高。同时,我们注意到,也包含一些海外网友的少量评论。

3.3.2 评论时间分析-折线图

分析出评论时间的分布情况:

可得结论:关于"阳了"这个话题,再抓取到的数据范围内,12.18日的评论数据量最大,达到了将近900的数量峰值。

3.3.3 点赞数分布-直方图

由于点赞数大部分为0或个位数情况,个别点赞数到达成千上万,直方图展示效果不佳,因此,仅提取点赞数<30的数据绘制直方图。

可得结论:从直方图的分布来看,点赞数在0-3个的评论占据大多数,很少点赞数达到了上千上万的情况。证明网友对"阳了"事件的态度分布比较均匀,没有出现态度非常聚集的评论内容。

3.3.4 评论内容-情感分布饼图

针对中文评论数据,采用snownlp开发情感判定函数:

情感分布饼图,如下:

可得结论:关于"阳了"这个话题,积极评价与消极评价占比差不多,积极评价稍高一点,反应出网友对感染阳性的态度反差很大,大约各占一半。

3.3.5 评论内容-词云图

初始化停用词和词云图对象:

jieba分词之后,对分词后数据进行绘制词云图:

可得结论:在词云图中,阳、感染、发烧、症状、疼、嗓子等词汇较大,出现频率较高,反应出众多网友对确诊阳性后描述病症、积极探讨病情的现状。

三、演示视频

【爬虫+可视化】演示:用python抓取并分析哔哩哔哩关于"阳了"的评论数据_哔哩哔哩_bilibili


首发公号:【爬虫+数据清洗+可视化分析】舆情分析哔哩哔哩"阳了"的评论


我是马哥,全网累计粉丝上万,欢迎一起交流python技术。

各平台搜索“马哥python说”:知乎、哔哩哔哩、小红书、新浪微博。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/118128.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Ansible常用模块

ping模块 验证主机的连通性 [rootmonster1 ~]# ansible all -m ping 192.168.71.131 | SUCCESS > {"ansible_facts": {"discovered_interpreter_python": "/usr/bin/python"}, "changed": false, "ping": "pong&q…

Java中mongodb指定DB通过aggregate聚合查询操作示例

目录 前言&#xff1a; 应用场景&#xff1a; 命令描述&#xff1a;​ 代码示例&#xff1a; 聚会查询&#xff1a; 数量查询&#xff1a; 前言&#xff1a; 大家都知道&#xff0c;mongodb是一个非关系型数据库&#xff0c;也就是说&#xff0c;mongodb数据库中的每张表…

node-express学习总结

项目搭建 1. 使用express提供的框架构建&#xff08;不需要&#xff09; 2. 从零开始&#xff08;推荐&#xff09;安装 初始化项目 npm init -y安装express npm install express1.express的基本使用 创建js文件 const express require(express) // 1&#xff0c;创建服…

SSL/TLS类安全漏洞及SLB安全漏洞问题

SSL/TLS类安全漏洞及SLB安全漏洞问题1 : 问题背景1.1、SSL/TLS类漏洞-Sweet32 攻击1.2、SSL/TLS类漏洞-弱密码套件2 : 解决思路2.1、学习SSL/TLS是什么2.2、安装检测工具2.3、升级OpenSSL2.4、调整加密算法3 : 总结3.1、比较环境的不同3.2、解决该问题3.3、相关资源1 : 问题背景…

创建进程与进程地址空间

目录 创建进程 进程地址空间 为什么要用虚拟地址呢&#xff1f; 什么是进程地址空间&#xff1f; 为什么要写时拷贝呢&#xff1f; 创建进程 前面提到使用fork可以创建子进程&#xff0c;现在介绍fork创建子进程的细节。 fork创建子进程的时候&#xff0c;子进程的内核数…

如何给公司内网搭建一个专用的DNS服务器?

如何给公司内网搭建一个专用的DNS服务器&#xff1f; 引言 平时做域名解析&#xff0c;一般直接修改的/etc/hosts文件。对于服务器数量小的情况完全可以&#xff0c;但是如果服务器数量较多&#xff0c;每个都修改比较麻烦。 DNS是作为域名解析。在实际的生产过程中&#xff…

基于ASP.NET C#的服装商城管理系统

摘 要 本毕业设计的内容是设计并且实现一个基于net语言的服装商城管理系统。它是在Windows下&#xff0c;以SQL Server为数据库开发平台&#xff0c;服装商城管理系统的功能已基本实现&#xff0c;主要包括用户、服装信息、通知公告、留言板、订单信息等。 论文主要从系统的分…

飞腾FT-2000/4处理器+复旦微FPGA+国产操作系统解决方案(2)

XM-1104飞腾核心处理主板 ▶体积小、功耗低、高性能。 ▶功能接口多样化&#xff0c;采用高密度连接器&#xff0c;抗震效果好。 ▶成本低&#xff0c;扩展性强&#xff0c;根据用户的需求定制各种底板。 ▶产品灵活&#xff0c;便于维护&#xff0c;生命周期长。 指标 参数 …

SuperMap GIS地质体数据处理QA

作者:hyy 一、地质体数据简介 什么是三维地质建模&#xff1f;百度上给出的解析是&#xff1a;将地质、测井、地球物理资料和各种解释结果或者概念模型综合在一起生成的三维定量随机模型。 已建成的地质模型可以为我们提供很多信息。首先是地质的三维可视化。通过三维可视化&…

量子计算机:一场改变世界的开发竞赛

这样的设备可能会帮助解决气候变化和粮食短缺问题&#xff0c;也可能破坏互联网。在这场竞赛中&#xff0c;美国和中国谁会先到达目标&#xff1f; 神秘的机器 在加利福尼亚州圣巴巴拉的郊区&#xff0c;在果园和大海之间&#xff0c;坐落着一个不起眼的仓库&#xff0c;它的窗…

【区块链 | EVM】深入理解学习EVM - 深入Solidity数据存储位置

目录 目录 简介 EVM是一个工业工厂 为什么要在 Solidity 中理解 Evm 数据位置&#xff1f; 数据位置 → 概述 存储 内存 Calldata 堆栈&#xff08;Stack&#xff09; 代码 数据位置 - 规则 变量的默认位置 参考类型 在函数参数上的规则 在函数体内的规则 内存…

使用 QuTrunk+Amazon ParallelCluster3 进行并行计算

1.丘秉宜&#xff1b;2.邵伟&#xff1b;3.黄文&#xff1b;4.郭梦杰&#xff1b;5.刘利&#xff1b;6.刘波 1.亚马逊云科技 Hero&#xff1b;2.启科开发者生态负责人&#xff1b;3.启科 DEVOPS 工程师&#xff1b;4.启科量子资深研发工程师&#xff1b;5和&#xff1b;6.C高级…

Linux运维之knockd部署

如果你有一台公众可访问的服务器&#xff0c;黑客可以轻松扫描其IP地址&#xff0c;查找服务器上的开放端口(尤其是用于SSH的端口22)。将服务器隐藏起来、不让黑客看见的一种方法是使用knockd。knockd是一种端口试探服务器工具。它侦听以太网或其他可用接口上的所有流量&#x…

以代码绘制圣诞,过快乐圣诞节!

2022年圣诞节 12月25日 星期日 圣诞节的由来 基督教纪念耶稣诞生的重要节日。亦称耶稣圣诞节、主降生节&#xff0c;天主教亦称耶稣圣诞瞻礼。耶稣诞生的日期&#xff0c;《圣经》并无记载。公元336年罗马教会开始在12月25日过此节。12月25日原是罗马帝国规定的太阳神诞辰。有人…

百度百科怎么创建的?百度百科创建技巧分享

百度百科的创建并没有那么简单&#xff0c;虽然百度百科人人都可以编辑&#xff0c;我们在网上一搜就会出来很多相关的百科创建步骤&#xff0c;但是当你真的按照这些步骤去做的时候&#xff0c;就会出现很多问题&#xff0c;导致根本通不过。 百度百科怎么创建的&#xff1f;实…

ArcGIS基础实验操作100例--实验2平移矢量要素

实验平台&#xff1a;ArcGIS 10.6 实验数据&#xff1a;请访问实验1&#xff08;传送门&#xff09; 基础编辑篇--实验2 平移矢量要素 目录 一、实验背景 二、实验数据 三、实验步骤 &#xff08;1&#xff09;加载【Move】工具 &#xff08;2&#xff09;平移矢量要素 一、…

rocketmq搭建启动集成springboot落地并监控

目录 一、rocketmq服务器搭建启动&#xff1a; 二、springboot 集成rocketmq落地&#xff1a; 三、可视化页面集成&#xff1a; rocketmq是最近很流行的消息中间件&#xff0c;有很多的优点&#xff0c;比如多个topic也不会引起性能问题&#xff1b;今天我们开始搭建启动集成…

这5个素材库,新手也能让你做出精美的 PPT。

高质量免费PPT模板&#xff0c;各种PPT素材都有&#xff0c;文案模板直接套用&#xff0c;还有教程学习&#xff0c;对新手特别友好。1、菜鸟图库 https://www.sucai999.com/pptx.html?vNTYwNDUx网站有各种主题的PPT模板&#xff0c;工作总结、教育课件、述职汇报、节日庆典、…

美颜sdk中的人脸美型实现流程详解

在之前的文章中&#xff0c;小编讲了许多美颜sdk的功能实现流程&#xff0c;有一些是热门功能&#xff0c;例如美白、磨皮等&#xff0c;但是有一个功能小编遗漏没有讲到&#xff0c;虽然不常提起&#xff0c;但是它的热度并不低&#xff0c;这个功能就是——“人脸美型”。本篇…

一文解析Linux中断子系统softirq和tasklet

说明&#xff1a; Kernel版本&#xff1a;4.14ARM64处理器&#xff0c;Contex-A53&#xff0c;双核使用工具&#xff1a;Source Insight 3.5&#xff0c; Visio 1. 概述 中断子系统中有一个重要的设计机制&#xff0c;那就是Top-half和Bottom-half&#xff0c;将紧急的工作放…