基于数据挖掘的斗鱼直播数据可视化分析系统

news2024/11/19 21:21:24

温馨提示:文末有 CSDN 平台官方提供的学长 QQ 名片 :) 

1. 项目简介

        随着网络直播平台的兴起,斗鱼直播作为其中的佼佼者,吸引了大量用户和观众。为了更好地理解和分析斗鱼直播中的数据,本项目介绍了一个基于数据挖掘的斗鱼直播数据可视化分析系统。该系统利用Python编程语言,结合网络爬虫技术,从斗鱼直播平台抓取相关数据,并使用Pandas进行高效的数据分析处理。最终,通过Flask框架搭建Web应用,并结合ECharts实现数据的可视化展示。

        B站详情与代码下载:基于数据挖掘的斗鱼直播数据可视化分析系统_哔哩哔哩_bilibili

基于数据挖掘的斗鱼直播数据可视化分析系统

2. 系统设计与实现

  1. 数据采集:首先,利用Python编写网络爬虫程序,对斗鱼直播平台进行数据抓取。爬虫程序能够自动访问直播间页面,提取关键信息如直播标题、观看人数、弹幕内容等。
  2. 数据分析:收集到的原始数据经过清洗后,使用Pandas库进行进一步的分析处理。通过对数据的统计、聚合和筛选,得到关于直播内容、主播人气和观众互动等方面的洞察。
  3. 系统架构:采用Flask框架构建Web应用,将分析结果以API的形式提供给前端页面。Flask的轻量级特性使得系统的开发和部署更加灵活高效。
  4. 数据可视化:借助ECharts图表库,在前端页面上实现数据的可视化展示。通过柱状图、折线图、饼图等多种图表形式,直观地呈现分析结果,帮助用户快速把握数据背后的规律和趋势。

3. 直播数据网络爬虫

        本次我们采集的数据是播酱网下斗鱼平台的主播直播数据,且该网站关于主播直播数据的展示是以月报的形式进行展示的,所以我们就可以确定本次采集的目标网址为该网站下直播平台的直播月报的网址。

for page in range(1, 151):
    print("采集 {} 的斗鱼直播数据,page: {}".format(month, page))
    url = base_url.format(month, page, page_size)

    resp = requests.get(url, headers=headers)
    resp = resp.json()

    batch_insert = []
    for data in resp['data']['rows']:
        # 处理“直播时长”的数据类型
        duration = data['duration'].split(":")[-1].replace('小时', '')
        info = {
            # 主播账号名称
            "name": data['name'],
            # 主播头像
            "avator": data['avator'],
            # 直播类别
            "cate_name": data['cate_name'],
            # 主播所属公会
            "club_name": data['club_name'],
            # 活跃观众
            "audience_count": data["audience_count"],
            # 弹幕数量
            "danmu_count": data["danmu_count"],
            # 礼物总值
            "yc_gift_value": float(data['yc_gift_value']),
            # 峰值热度
            "hn_max": data['hn_max'],
            # 弹幕人数
            "danmu_person_count": data['danmu_person_count'],
            # 礼物人数
            "gift_person_count": data['gift_person_count'],
            # 单月直播时长
            "duration": float(duration),
            # 月份
            "month": data['month']
        }
        batch_insert.append(list(info.values()))
        print(info)
        if batch_insert:
            cursor.executemany(insert_sql, batch_insert)
            conn.commit()
            batch_insert.clear()

4. 直播数据可视化分析系统

4.1 系统首页

4.2 直播类型与签约公会分析

4.3 直播热度分析

        可以看出,虽然星秀板块的主播数量最多,但是其平均活跃观众数量相对来说比较少,没有人数稍少的王者荣耀和英雄联盟等游戏板块。 此外,平均活跃观众较多的是 DOTA2、lol云顶之弈、英雄联盟等游戏板块,平均峰值热度较多的是王者荣耀、派对等板块。未与公会签约的主播占比较少,仅有18.27万,且未与公会签约的主播的直播间平均活跃观众远少于与公会签约的主播,可能与公会签约的主播可获得平台的流量扶持政策有关, 但并非公会越庞大(`指公会签约主播数量`)而所提供的流量扶持越大,4月份未签约的主播的平均峰值热度却高于签约主播。

4.4 直播时长分析

        可以看出,主播的直播时长长短与平均活跃观众数量的变化影响不大,呈现不是特别明显的正相关,直播时长越大,大概率活跃观众数量越大,平均峰值热度的变化影响也不大,但随直播时长变化的波动更为明显。

4.5 直播刷礼物分析

        可以看出,一起玩和派对类型的直播,其观众打赏总值最高,远远超出其他类型直播。签约的禾相、考拉、解忧文化等公会的直播,其观众打赏总值较高。峰值热度与观众打赏总价值之间存在一定的正相关,直播热度越高,表明观众越活越,其打赏的概率也会相应增大,符合主观规律。

4.6 直播弹幕分析

5. 总结

        本项目介绍了一个基于数据挖掘的斗鱼直播数据可视化分析系统。该系统利用Python编程语言,结合网络爬虫技术,从斗鱼直播平台抓取相关数据,并使用Pandas进行高效的数据分析处理。最终,通过Flask框架搭建Web应用,并结合ECharts实现数据的可视化展示。

  欢迎大家点赞、收藏、关注、评论啦 ,由于篇幅有限,只展示了部分核心代码。技术交流、源码获取认准下方 CSDN 官方提供的学长 QQ 名片 :)

精彩专栏推荐订阅:

1. Python数据挖掘精品实战案例

2. 计算机视觉 CV 精品实战案例

3. 自然语言处理 NLP 精品实战案例

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1629266.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

无人机GB42590接收端 +接收端模组,同时支持2.4G与5.8G双频

严格按照GB42590的协议开发的发射端,通过串口和模块通讯,默认波特率 921600。 http://www.doit.am/深圳四博智联科技有限公司https://shenzhendoit.taobao.com/category-1734422372.htm?spma1z10.1-c-s.0.0.560c74d77eT01G&searchy&catNameGB4…

MySQL数据库安装——zip压缩包形式

安装压缩包zip形式的 MySQL 8数据库 一 、先进入官网下载 https://dev.mysql.com/downloads/mysql/ 二、解压到某个文件夹 我解压到了D:\mysql\mysql8 下面 然后在这个文件夹下手动创建 my.ini 文件和 data 文件夹 my.ini 内容如下: 注意 basedir 和 datadi…

Docker数据管理、网络通信和Dockerfile

一.数据管理 数据卷是一个供容器使用的特殊目录,位于容器中。可将宿主机的目录挂载到数据卷上,对数据卷的修改操作立刻可见,并且更新数据不会影响镜像,从而实现数据在宿主机与容器之间的迁移。数据卷的使用类似于 Linux 下对目录…

面试算法题精讲:最长回文子串

面试算法题精讲:最长回文子串 题目来源:5. 最长回文子串 题目描述: 给你一个字符串 s,找到 s 中最长的回文子串。 如果字符串的反序与原始字符串相同,则该字符串称为回文字符串。 解法1:动态规划 对于…

ubuntu22.04安装TensorRT(过程记录)

重要说明:此贴经过多次修改。第一次安装的的为trt8.6.1版本。第二次安装的10.0.0.6版本。有些地方可能没改过来,比如链接向导,我懒得改了,但是流程是对的。 cuda和cudnn版本对应关系 tensorRT历史发行版本 CUDA历史发行版本 cudn…

【Godot4.2】有序和无序列表函数库 - myList

概述 在打印输出或其他地方可能需要构建有序或无序列表。本质就是构造和维护一个纯文本数组。并用格式化文本形式,输出带序号或前缀字符的多行文本。 为此我专门设计了一个类myList,来完成这项任务。 代码 以下是myList类的完整代码: # …

Android 设置头像 - 相册拍照

Android开发在个人信息管理中,如果设置头像,一般都提供了从相册选择和拍照两种方式。下午将针对设置用户头像相册和拍照两种方式的具体实现进行详细说明。 在实际实现过程中需要使用到权限管理,新版本的Android需要动态申请权限,权…

【JAVA】一文掌握Java并发编程

Java 开发中,并发编程属于相当重要的一个知识点,可以说,Java 的并发能力,是成就今日 Java 地位的因素之一。Java 的并发编程由浅入深实质上是包含 Java(API)层、JVM(虚拟机)层、内核…

Mac下使用homebrew管理多版本mysql同时启动

Mac下使用homebrew管理多版本mysql同时启动 思路 给每个版本分配不同的数据目录和配置文件即可 本文尝试了使用 brew 安装管理多个MySQL版本,同时运行、直接切换 安装 如果已有数据文件请自行备份以及使用 安装 mysql 5.7 brew install mysql5.7在 /opt/home…

运维笔记:基于阿里云跨地域服务器通信(上)

运维笔记 阿里云:跨地域服务器通信(上) - 文章信息 - Author: 李俊才 (jcLee95) Visit me at CSDN: https://jclee95.blog.csdn.netMy WebSite:http://thispage.tech/Email: 291148484163.com. Shenzhen ChinaAddress of this a…

C语言编译的优化等级应该选哪个?O0、O1、O2还是O3

在使用IDE开发STM32程序时,IDE一般都会提供优化等级设置的选项,例如下图中KEIL软件优化等级的设置。 从上图中也可以看出,设置不同的优化等级,实际上是修改了编译器的编译参数。这个编译器是由ARM公司提供的C/C编译器armclang或者…

opencv4.8 系列一环境搭搭建

open 运行环境&#xff1a; vs2017 下载地址&#xff1a;https://www.123pan.com/s/cVyRVv-ydPWh.html 一&#xff1a;新建项目 二&#xff1a;核心代码&#xff1a; 在这里插入代码片 #include<opencv2/opencv.hpp>int main(int argc,char** argv) {cv::Mat src cv…

【软考高项】二十六、范围管理基础内容

一、管理基础 产品范围和项目范围 产品范围强调结果&#xff0c;项目范围强调结果 管理的新实践 &#xff1a;需求一直是项目管理的关注重点&#xff0c;需求管理过程结束于需求关闭&#xff0c;即把产品、服务或成果移交给接收方&#xff0c;以便长期测量、监控、实现并维持收…

ptyhon画图显示中文

import matplotlib.pyplot as plt import matplotlib# 设置中文字体 matplotlib.rcParams[font.sans-serif] [SimHei] matplotlib.rcParams[font.family]sans-serifplt.plot([1, 2, 3, 4]) plt.xlabel(这是x轴) plt.ylabel(这是y轴) plt.title(这是标题) plt.show()用这个代码…

anaconda安装python 3.8环境

打开anaconda命令行窗口 在命令行窗口中&#xff0c;输入命令&#xff1a;conda create -n py38 python3.8 执行命令后&#xff0c;显示conda版本、安装路径和安装的包 然后提醒是否安装&#xff0c;输入y 等待安装完成。然后进入python3.8&#xff0c;执行命令&#xff1a;con…

收藏:什么是协程的通俗解析

不错的视频&#xff1a;到底该怎么理解协程&#xff1f;_哔哩哔哩_bilibili 重点的要点&#xff1a; 比如这个函数&#xff1a; python中&#xff0c;使用yield关键字来做协程&#xff0c;就是暂停可以去执行其他东西&#xff0c;然后其他东西执行完后&#xff0c;继续执行yiel…

抓包理解协议

用的Wireshark 抓包 1.抓包网卡选择 - WLAN 无线网卡&#xff0c;其他是本地虚拟机的网卡 这里分别是开始捕获、停止捕获、重新捕获、网卡选择&#xff0c;下面是可以过滤选择 过滤tcp包 3次握手&#xff1a; source是源地址&#xff0c; destination是目标地址&#xff0c;in…

Mysql用语句创建表/插入列【示例】

一、 创建表 COMMENT表示字段或列的注释 -- 新建student表 CREATE TABLE student (id BIGINT NOT NULL COMMENT 学生id, enroll_date DATE NOT NULL COMMENT 注册时间, NAME VARCHAR(18) DEFAULT NOT NULL COMMENT 学生姓名, deal_flag TINYINT(1) DEFAULT 0 NOT NULL COMM…

创新入门|从点击到转化:AI个性化登陆页助力潜在客户转化

在数字营销的竞争格局中&#xff0c;采用先进技术对于旨在区分自己并吸引受众的企业至关重要。人工智能 &#xff08;AI&#xff09; 成为一项关键技术&#xff0c;尤其是在制作个性化登录页面的艺术方面。这些页面不仅仅是品牌与其潜在客户之间的第一个接触点;它们是吸引兴趣、…

vue-admin-template项目实现中英文切换

实现效果&#xff1a; 1.安装 *注意版本号 npm install vue-i18n8.24.5 -S2.新建文件夹 在src目录下新建lang文件夹&#xff0c;里面有3个文件 // index.js import Vue from vue import VueI18n from vue-i18n import Cookies from js-cookie import elementEnLocale fr…