数据可视化案例

news2024/10/24 8:20:57

数据可视化案例

相关的技术:scrapypandaspyecharts

使用豆瓣电影中的数据来进行可视化,网址:豆瓣电影 Top 250 (douban.com)

一、网页数据分析

在这里插入图片描述

我们需要爬取的是豆瓣电影Top250网页每一页电影名称图片链接导演年份国家电影类型电影评分这些数据。

在待爬取的网页中,按下F12键进入开发者模式,这样可以让我们很方便的找到网页中每一块数据对应的源码。

在这里插入图片描述

通过以上方式可以让我们很快的找到图片对应的标签,通过观察,我们可以找到每一个图片的链接都存放在<img>标签的src属性下。

同样的,我们可以找到电影名称所在的标签。
请添加图片描述

可以知道电影名称所在的位置是<span>标签的值。

在这里插入图片描述

我们可以发现导演、年份、国家类型都在<p>标签下,这种情况我们就需要后期的处理了,先简单的得到<p>标签的数据,然后再通过字符串的分割、选取、剔除等操作可以得到最终我们需要的数据。
在这里插入图片描述

最后一个是评分标签,我们通过同样的方式可以找到评分在<span class="rating_num">标签中,并且是<span class="rating_num">标签的值。

由于我们需要的是每一页的标签,一个简单的可行的思路是找到后页标签对应的标签,这里找到的是<a>标签,<a>标签属性href的值对应的是下一页的网址,如果<a>标签的属性为空时,说明没有下一页了,可以停止爬取了。
在这里插入图片描述

通过以上分析,我们开始编写爬虫程序来爬取数据,这里我们使用scrapy爬虫框架来进行爬取数据。

二、数据爬取(获取数据)

1. 安装scrapy

pip install scrapy -i https://pypi.tuna.tsinghua.edu.cn/simple

2. 初始化scrapy项目

scrapy startproject Douban

在这里插入图片描述

使用PyCharm打开项目,可以观察到项目的整体结构如下:

在这里插入图片描述

3. 设置数据结构

items.py文件

# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy


class DoubanItem(scrapy.Item):
    imgUrl = scrapy.Field()  # 图片链接
    name = scrapy.Field()   # 电影名称
    author = scrapy.Field()  # 导演名称
    year = scrapy.Field()   # 年份
    country = scrapy.Field()  # 国家
    types = scrapy.Field()   # 电影类型
    score = scrapy.Field()   # 电影评分

4. 创建爬虫程序

scrapy genspider douban "movie.douban.com"   # douban是爬虫的名称, "movie.douban.com"是要爬取网址的域名

在这里插入图片描述

在这里插入图片描述

打开爬虫文件,更改带爬取的文件的网址:

在这里插入图片描述

编写爬虫程序douban.py
import scrapy
from ..items import DoubanItem

class DoubanSpider(scrapy.Spider):
    name = "douban"
    allowed_domains = ["movie.douban.com"]
    start_urls = ["https://movie.douban.com/top250"]

    def parse(self, response):
        doubans = response.xpath("//ol[@class='grid_view']/li")
        for douban in doubans:
            item = DoubanItem()
            item['name'] = douban.xpath("div[@class='item']/div[2]/div[1]/a/span/text()").extract_first()
            item['imgUrl'] = douban.xpath("div/div[@class='pic']/a/@href").extract_first()
            text = douban.xpath("div/div[@class='info']/div[@class='bd']/p/text()").extract()[1]
            fs_text = douban.xpath("div/div[@class='info']/div[@class='bd']/p/text()").extract()[0]
            item['author'] = fs_text.split(" ")[0].strip().split(" ")[1: -1]
            item['score'] = douban.xpath(
                "div/div[@class='info']/div[2]/div[@class='star']/span[2]/text()").extract_first()
            c_start = text.find("/")
            c_end = text.find("/", c_start + 1)
            country = text[c_start + 1: c_end]
            year = text[: c_start]
            types = text[c_end:]

            country_analyse = country.split(" ")
            country_have = country_analyse[1].split(" ") if len(country_analyse) > 1 else country_analyse[0].split(" ")
            item['country'] = country_have if country_have != [""] else ["中国大陆"]
            item['year'] = year.split(" ")[0].strip()
            item['types'] = types.split(" ")[1].strip().split(" ")

            yield item

            next_page = response.xpath("/html/body/div[3]/div[1]/div[1]/div[1]/div[2]/span[3]/a/@href").extract_first()
            if next_page:
                yield response.follow(next_page, self.parse)

配置settings.py文件:
  1. 首先设置代理USER_AGENT
# 第17行
USER_AGENT  = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36"
  1. 设置不服从ROBOOTS协议:
ROBOTSTXT_OBEY = False    # 第20行

5. 运行爬虫程序

scrapy crawl douban -o ./Data/douban.json 

在这里插入图片描述

在这里插入图片描述

打开douban.json数据可以查看到爬取到的结果:

在这里插入图片描述

三、数据处理与可视化

数据处理部分,我们使用Pandas库来对数据进行处理,可视化部分,我们使用pyecharts库来进行数据可视化。

pyecharts参考网站:pyecharts

创建目录结构:
在这里插入图片描述

数据处理:

编写DataAnalyze.py文件
import json
import pandas as pd

path = '../Data/douban.json'
with open(path, 'r', encoding='utf-8') as file:
    global data
    data = json.load(file)



def YearNumTop_5() -> tuple:
    '''
    :return: 发布电影次数最多的前五名年份以及电影次数
    '''
    years = []
    for movie in data:
        years.append(movie['year'][:4])

    # 统计数据出现的次数
    y = pd.Series(years)
    y_count = y.value_counts()   # value_counts函数会统计次数并且进行自动的排序,降序
    y_count = y_count.head(5)
    # print(y_count)
    x_list = y_count.index.tolist()   # 将索引转换为列表
    y_list = y_count.values.tolist()   # 将值转换为列表
    # print(x_list, y_list)
    return (x_list, y_list)


def TpyeNum() -> tuple:
    '''
    :return: 电影类型及类型出现的次数
    '''
    types = []
    for type in data:
        types.extend(type['types'])
    # print(types)
    tp = pd.Series(types)
    tp = tp.value_counts()[1: -2]
    tp_label = tp.index.tolist()  # tolist用于将pandas中的Series或DataFrame转换为列表对象
    tp_count = tp.values.tolist()
    # print(tp_label, tp_count)
    return (tp_label, tp_count)


def YearMovies() -> tuple:
    '''
    :return: 年份,以及每一年的电影
    '''
    name = []
    year = []
    tree_dict = {}
    for movie in data:
        name.append(movie["name"])
        year.append(movie['year'])
    for n, y in zip(name, year):
        # print(z)
        # print(n, y)
        if tree_dict.get(y) is None:
            tree_dict[y] = [n]  # 如果键不存在,初始化为列表
        else:
            tree_dict[y].append(n)

    # 我们只取得前5年的数据
    keys_sliced = list(tree_dict.keys())[0: 5]
    tree_part = {key: tree_dict[key] for key in keys_sliced}
    # print(keys_sliced, tree_part)
    return (keys_sliced, tree_part)


def CountryNum() -> tuple:
    '''
    :return: 返回国家以及每个国家的电影数量
    '''
    country = []
    for movie in data:
        country.extend(movie['country'])
    # print(country)
    cou = pd.Series(country)
    cou_sort = cou.value_counts()
    country_ans = cou_sort.index.tolist()
    count_ans = cou_sort.values.tolist()
    # print(country_ans, count_ans)
    return (country_ans, count_ans)


if __name__ == '__main__':
    CountryNum()

可视化:

1. 锥形图
from pyecharts import options as opts
from pyecharts.charts import Funnel
from DataAnalyze import YearNumTop_5

data = YearNumTop_5()

funnel_table = (
    Funnel()
    .add("年份-电影数量", [list(z) for z in zip(data[0], data[1])])
    .set_global_opts(title_opts=opts.TitleOpts(title="Top-5"))
    .render("../SourceChart/Funnel.html")
)

在这里插入图片描述

2. 词云图
from pyecharts import options as opts
from pyecharts.charts import WordCloud
from pyecharts.globals import SymbolType
from DataAnalyze import TypeNum

label, count = TypeNum()
words = [(l, c) for l, c in zip(label, count)]   # 使用列表生成式,生成元素为元组的列表

wordCloud = (
    WordCloud()
    .add("电影类型", words, word_size_range=[20, 100], shape=SymbolType.DIAMOND)
    .set_global_opts(title_opts=opts.TitleOpts(title="Movie Type Distribution"))
    .render("../SourceChart/WordCloud.html")
)

在这里插入图片描述

3. 雷达图
from pyecharts import options as opts
from pyecharts.charts import Radar
from DataAnalyze import TypeNum

types = TypeNum()

data = [{"value": types[1], "name": "电影类型"}]
# 设置雷达图的取值范围,最大为57,最小为0
max = 57
min = 0

c_schema = [
    {"name": name, "max": max, "min": min} for name in types[0]
]

radar = (
    Radar()
    .set_colors(["#4587E7"])
    .add_schema(
        schema=c_schema,
        shape="circle",
        center=["50%", "50%"],
        radius="80%",
        angleaxis_opts=opts.AngleAxisOpts(
            min_=0,
            max_=360,
            is_clockwise=False,
            interval=5,
            axistick_opts=opts.AxisTickOpts(is_show=False),
            axislabel_opts=opts.LabelOpts(is_show=False),
            axisline_opts=opts.AxisLineOpts(is_show=False),
            splitline_opts=opts.SplitLineOpts(is_show=False),
        ),
        radiusaxis_opts=opts.RadiusAxisOpts(
            min_=min,
            max_=max,
            interval=2,
            splitarea_opts=opts.SplitAreaOpts(
                is_show=True, areastyle_opts=opts.AreaStyleOpts(opacity=1)
            ),
        ),
        polar_opts=opts.PolarOpts(),
        splitarea_opt=opts.SplitAreaOpts(is_show=False),
        splitline_opt=opts.SplitLineOpts(is_show=False),
    )
    .add(
        series_name="电影分类",
        data=data,
        areastyle_opts=opts.AreaStyleOpts(opacity=0.1),
        linestyle_opts=opts.LineStyleOpts(width=1),
    )
    .render("../SourceChart/Radar.html")
)

在这里插入图片描述

4. 树图
import pyecharts.options as opts
from pyecharts.charts import Tree
from DataAnalyze import YearMovies


year, movie_data = YearMovies()

# 构造类似于递归字典的数据类型
for y in year:
    movie_data[y] = [{"name": value, "children": 1} for value in movie_data[y]]
data = [{'name': y, 'children': movie_data[y]} for y in year]
data = {'name': "电影", 'children': data}

tree = (
    Tree()
    .add(
        series_name="",
        data=[data],
        pos_top="18%",
        pos_bottom="14%",
        layout="radial",
        symbol="emptyCircle",
        symbol_size=7,
    )
    .set_global_opts(
        tooltip_opts=opts.TooltipOpts(trigger="item", trigger_on="mousemove")
    )
    .render("../SourceChart/Tree.html")
)

在这里插入图片描述

5. 地图
from pyecharts import options as opts
from pyecharts.charts import Map
from DataAnalyze import CountryNum
from translate import Translator

# 实例话翻译类:从中文翻译为英文
translator = Translator(from_lang="Chinese", to_lang="English")
data = CountryNum()
# 对每一个数据进行翻译
for idx, cou in enumerate(data[0]):
    if cou == "美国":
        data[0][idx] = "United States"
        continue
    if cou == "英国":
        data[0][idx] = "United Kingdom"
        continue
    if cou in ["中国大陆", "中国香港", "中国台湾", "1964(中国大陆)"]:
        cou = "中国"
    target = translator.translate(f'{cou}')
    data[0][idx] = target
    if idx % 5 == 0:
        print(target)


map_table = (
    Map()
    .add("上映地区", [list(z) for z in zip(data[0], data[1])], "world")
    .set_series_opts(label_opts=opts.LabelOpts(is_show=False))
    .set_global_opts(
        title_opts=opts.TitleOpts(title="Map-世界地图"),
        visualmap_opts=opts.VisualMapOpts(max_=145),
    )
    .render("../SourceChart/Map.html")
)

在这里插入图片描述

5. 将所有图汇总到一张网页上

如果要把所有图表汇总到一个网页上,那么需要将每一个绘制图的./render给注释掉,类似与下面这样,否则会将图表识别为字符串类型的数据。

在这里插入图片描述

Summary.py

from pyecharts.charts import Page
from Funnel import funnel_table
from Map import map_table
from Radar import radar
from Tree import tree
from WordCloud import wordCloud


# 初始化网页
page = Page(layout=Page.DraggablePageLayout)
page.add(map_table)  # 添加地图
page.add(radar)      # 添加雷达图
page.add(tree)      # 添加树图
page.add(wordCloud)  # 添加词云图
page.add(funnel_table)     # 添加漏斗图
page.render("../SourceChart/Summary.html")

在这里插入图片描述

声明:本项目只用于学习,禁止用于任何非法的行为。—— 2024.6.16

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1842951.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Bert模型实现中文新闻文本分类

Bert基于Transformer架构是解决自然语言处理的深度学习模型&#xff0c;常使用在文本分类、情感分析、词性标注等场合。 本文将使用Bert模型对中文文本进行分类&#xff0c;其中训练集数据18W条&#xff0c;验证集数据1W条,包含10个类别的文本数据&#xff0c;数据可以自己从Ka…

大润发超市购物卡怎么用?

收到大润发超市的礼品卡以后&#xff0c;我才发现&#xff0c;最近的大润发也得十来公里 为了100块的大润发打车也太不划算了 叫外送也不在配送范围内 最后没办法&#xff0c;在收卡云上出掉了&#xff0c;还好最近价格不错&#xff0c;也不亏&#xff0c;收卡云的到账速度也…

leetcode:557. 反转字符串中的单词 III(python3解法)

难度&#xff1a;简单 给定一个字符串 s &#xff0c;你需要反转字符串中每个单词的字符顺序&#xff0c;同时仍保留空格和单词的初始顺序。 示例 1&#xff1a; 输入&#xff1a;s "Lets take LeetCode contest" 输出&#xff1a;"steL ekat edoCteeL tsetnoc…

使用飞书多维表格实现推送邮件

一、为什么用飞书&#xff1f; 在当今竞争激烈的商业环境中&#xff0c;选择一款高效、智能的办公工具至关重要。了解飞书的朋友应该都知道&#xff0c;飞书的集成能力是很强大的&#xff0c;能够与各种主流的办公软件无缝衔接&#xff0c;实现数据交互&#xff0c;提升工作效…

恒创科技:云主机上的数据安全如何保证?(实用性技巧分享)

云主机上的数据安全如何保证?答案很简单&#xff0c;虽很多用户却不能完全做到&#xff0c;但我们可以了解一些安全措施予以防范。以下是云主机数据保护的几个实用技巧&#xff0c;希望对您有所帮助! 1.避免将敏感信息存储在云中 网络上的许多建议听起来都像这样&#xff1a;“…

业余时间做跨境电商实现经济自由,我是怎么做的?

在知乎问答上翻阅大家非常感兴趣的问题&#xff0c;解答一些疑惑的同时&#xff0c;发现大家对跨境电商还是很感兴趣的&#xff0c;类似“小白如何入局跨境电商&#xff1f;2024跨境电商平台&#xff0c;哪些值得做&#xff1f;现在电商哪个平台好做?”等的这些主观问题&#…

ubuntu访问windows共享文件夹

方法: Ubuntu访问Windows共享文件夹的方法-CSDN博客 基于交换机的PC端网络通信_服务器交换机pc端-CSDN博客 补充说明&#xff1a; 在这里面输入&#xff1a; smb://192.168.0.30/WindowsShareToLinux

虚拟机Ping不通主机

1.问题描述 虚拟机IP&#xff1a; 192.168.3.133 主机ip&#xff1a;192.168.3.137 虚拟机Ping不通主机 主机可以ping通虚拟机 2.解决方案 设置桥接模式 控制面板找到网络和Internet设置 3.问题解决

Leetcode - 周赛401

目录 一&#xff0c;3178. 找出 K 秒后拿着球的孩子 二&#xff0c;3179. K 秒后第 N 个元素的值 三&#xff0c;3180. 执行操作可获得的最大总奖励 I 四&#xff0c;3181. 执行操作可获得的最大总奖励 II 一&#xff0c;3178. 找出 K 秒后拿着球的孩子 本题可以直接模拟&a…

CesiumJS整合ThreeJS插件封装

最近做项目有一个三维需求使用CesiumJS比较难以实现&#xff0c;发现THREEJS中效果比较合适&#xff0c;于是准备将THREEJS整合到CesiumJS中 为实现效果所需我们找到官方Integrating Cesium with Three.js博客&#xff0c;于是根据该博客提供的思路去实现整合 文章目录 一、创…

VMware虚拟机三种网络模式设置 - NAT(网络地址转换模式)

一、前言 在前一篇《Bridged&#xff08;桥接模式&#xff09;》中&#xff0c;我详细介绍了虚拟机网络模式设置中的桥接模式。今天详细讲解一下NAT&#xff08;网络地址转换模式&#xff09;。 在虚拟机&#xff08;VM&#xff09;中&#xff0c;NAT&#xff08;Network Addre…

微信小程序navigateTo异常(APP-SERVICE-SDK:Unknown URL)

背景 在开发小程序时&#xff0c;可能会用到banner&#xff0c;通过banner跳转至各种子页面。但是因为小程序自身的因素&#xff0c;有些是不允许的&#xff0c;比如通过banner跳转一个http/https链接。如果使用 wx.navigateTo完成跳转时&#xff0c;就会发生异常。 navigate…

Latex添加参考文献的两种方案

Latex添加参考文献的两种方案 方案1&#xff1a;一般插入法方案2&#xff1a;使用BibTex 方案1&#xff1a;一般插入法 此方案在latex结尾直接插入参考文献&#xff0c;一般从IEEE官网下载的模板好像默认都是这样的&#xff01;下面为参考格式&#xff1a; 这种方案比较容易操…

产品心理学:曝光效应

曝光效应&#xff08;the exposure effect or the mere exposure effect&#xff09;&#xff1a;又谓多看效应、&#xff08;简单、单纯&#xff09;暴露效应、&#xff08;纯粹&#xff09;接触效应等等。 它是一种心理现象&#xff0c;指的是我们会偏好自己熟悉的事物&#…

JVM中的垃圾回收机制

文章目录 什么是垃圾为什么需要垃圾回收早期垃圾回收Java的垃圾回收机制垃圾回收主要关注的区域垃圾判定算法引用计数算法可达性分析算法 垃圾收集算法标记清除算法复制算法标记整理算法分代收集思想增量收集算法分区算法 什么是垃圾 垃圾回收&#xff08;Garbage Collection&…

2024-06月 | 维信金科 | 风控数据岗位推荐,高收入岗位来袭!

今日推荐岗位&#xff1a;策略分析经理/分析专家、贷前、中策略分析、风控模型分析。 风控部门是金融业务的核心部门&#xff0c;而从事风控行业的人即称之为风险管理者。是大脑&#xff0c;是最最最重要的部门之一。今日推荐岗位的核心技能分布如下&#xff1a; 简历发送方式…

磁盘未格式化:深度解析、恢复策略与预防措施

一、磁盘未格式化的定义与现象 在计算机存储领域&#xff0c;磁盘未格式化通常指的是磁盘分区或整个磁盘的文件系统信息出现丢失或损坏的情况&#xff0c;导致操作系统无法正确读取和识别磁盘上的数据。当尝试访问这样的磁盘时&#xff0c;系统往往会弹出一个警告框&#xff0…

001 Spring介绍

文章目录 特点1.方便解耦&#xff0c;简化开发2.AOP编程的支持3.声明式事务的支持4.方便程序的测试5.方便集成各种优秀框架6.降低Java EE API的使用难度7.Java源码是经典学习范例 好处什么是耦合和内聚耦合性&#xff0c;也叫耦合度&#xff0c;是对模块间关联程度的度量内聚标…

蓝鹏测控公司全长直线度算法项目多部门现场组织验收

关键字:全场直线度算法,直线度测量仪,直线度检测,直线度测量设备, 6月18日上午&#xff0c;蓝鹏测控公司全长直线度算法项目顺利通过多部门现场验收。该项目由公司技术部、开发部、生产部等多个部门共同参与&#xff0c;旨在提高直线度测量精度&#xff0c;满足高精度制造领域需…

ppt转换word文档怎么操作?6个软件让你自己轻松转换文件

ppt转换word文档怎么操作&#xff1f;6个软件让你自己轻松转换文件 将PPT文件转换为Word文档是一项常见的任务&#xff0c;可以通过多种软件和在线工具来实现。以下是六款常用的软件和工具&#xff0c;它们可以帮助您轻松地将PPT文件转换为Word文档&#xff1a; 1.迅捷PDF转换…