【Python】【进阶篇】十八、Python爬虫获取动态加载数据

news2024/9/29 5:36:35

目录

  • 十八、Python爬虫获取动态加载数据
    • 18.1 确定网站类型
    • 18.2 影片详情信息
    • 18.3 影片总数量
    • 18.4 影片类型与类型码
    • 18.5 编写完整程序

十八、Python爬虫获取动态加载数据

如何获取电影“分类排行榜”中的电影数据(电影),比如输入“剧情”则会输出所有剧情影片的电影名称、评分,效果如下所示:

剧情|喜剧|动作|爱情|科幻|动画|悬疑|惊悚|恐怖|纪录片|短片|情色|同性|音乐|歌舞|家庭|儿童|传记|历史|战争|犯罪|西部|奇幻|冒险|灾难|武侠|古装|运动|黑色电影|
你想了解什么类型电影:剧情
{'name': '肖申克的救赎', 'score': 9.7}
{'name': '控方证人', 'score': 9.6}
...
电影总数量:302部

18.1 确定网站类型

首先要明确电影网站的类型,即是动态还是静态。检查方法:右键查看网页源码 —> 搜索“辛德勒的名单”关键字,如下图所示:

在这里插入图片描述

图1:分析网站类型

最终发现源码页中没有出现想要抓取的数据,只有一堆的 JS 代码,由此确定该网站为动态网站。

18.2 影片详情信息

接下来,使用快捷键 F12 打开控制台进行抓包,点击NetWork选项卡 —>XHR选项 —> Preview选项卡 —>刷新当前页面抓取数据包,如下图所示:

在这里插入图片描述

图2:抓取动态网站数据包

从图 2 可知,我们想要抓取的数据取全部包含在当前的数据包中。当我们向下滚动鼠标滑轮时,左侧栏内的数据包会实现自动加载,这是使用 Ajax异步加载技术实现的。

通过查看数据 Headers 选项可以明确 url 地址、查询参数等信息,如下所示:

在这里插入图片描述

图3:分析Headers信息

从上图可以得知请求的基准 URL (由于还未拼接查询参数,所以称之为基准 URL),如下所示:

'https://movie.douban.com/j/chart/top_list?'

继续滚动鼠标滑轮可知查询参数具有如下规律:

type: 4  # 电影类型
interval_id: 100:90  #代表网页上滑动条的百分比(好于100%-90%的历史片)
action: ''  # 空
start: 0  # 每次加载电影的起始索引值 0 20 40 60
limit: 20 # 每次加载的电影数量,1为初始值,后续加载时20固定不变

注意:寻找规律时,后加载出来的数据包会排在最前面,除去第一个数据包外,其余数据包如下所示:

在这里插入图片描述

图4:寻找查询参数值的规律

18.3 影片总数量

注意:第一个数据包反映了每个类型中电影的总数量,其 url 与响应信息如下:

请求的URL地址 : https://movie.douban.com/j/chart/top_list_count?type=4&interval_id=100%3A90
Response信息:{"playable_count":41,"total":104,"unwatched_count":104}

18.4 影片类型与类型码

影片的类型与类型码包含在电影排行榜的主界面中,如下所示:

在这里插入图片描述

图5:影片类型与类型码

分析上述页面结构,然后使用正则表达式来提取想要的数据,并定义选择菜单“menu”,代码如下所示:

import re

def get_all_type_films(self):
    # 获取影片类型和类型码
    url = 'https://movie.douban.com/chart'
    headers = self.get_headers()
    html = requests.get(url=url, headers=headers).text
    re_bds = r'<a href=.*?type_name=(.*?)&type=(.*?)&.*?</a>'
    pattern = re.compile(re_bds, re.S)
    r_list = pattern.findall(html)
    # 存放所有类型和对应类型码大字典
    type_dict = {}
    # 定义一个选择电影类型的菜单
    menu = ''
    # r_list[{'剧情 , 11'},{},..]
    for r in r_list:
        type_dict[r[0].strip()] = r[1].strip()
        # 获取input的菜单,显示所有电影类型
        menu += r[0].strip() + '|'
    #返回类型字典以供后续函数调用,并返回输入菜单menu
    # {'剧情': '11', '喜剧': '24',...}
    return type_dict, menu

18.5 编写完整程序

完成上述分析后,下面开始编写 Python 爬虫程序,代码如下:

#coding:utf8
import requests
import time
import random
import re
import json
from ua_info import ua_list


class DoubanSpider(object):
    def __init__(self):
        self.url = 'https://movie.douban.com/j/chart/top_list?'
        self.i = 0

    # 获取随机headers
    def get_headers(self):
        headers = {'User-Agent':random.choice(ua_list)}
        return headers

    # 获取页面
    def get_page(self,params):
        # 将json转换为 python 数据类型,并返回
        html = requests.get(url=self.url,params=params,headers=self.get_headers()).text
        html=json.loads(html)
        self.parse_page(html)

    # 解析并保存数据
    def parse_page(self,html):
        item = {}
        # html列表类型: [{电影1},{电影2},{电影3}...]
        for one in html:
            # 名称 + 评分
            item['name'] = one['title'].strip()
            item['score'] = float(one['score'].strip())
            print(item)
            self.i += 1

    # 获取电影总数
    def total_number(self,type_number):
        # F12抓包抓到的地址,type表示电影类型
        url = 'https://movie.douban.com/j/chart/top_list_count?type={}&interval_id=100%3A90'.format(type_number)
        headers = self.get_headers()
        html = requests.get(url=url,headers=headers).json()
        total = int(html['total'])
        return total

    # 获取所有电影的类型和对应type值
    def get_all_type_films(self):
        # 获取类型与类型码
        url = 'https://movie.douban.com/chart'
        headers = self.get_headers()
        html = requests.get(url=url,headers=headers).text
        re_bds = r'<a href=.*?type_name=(.*?)&type=(.*?)&.*?</a>'
        pattern = re.compile(re_bds,re.S)
        r_list = pattern.findall(html)
        # 存放所有类型和对应类型码大字典
        type_dict = {}
        #定义一个选择电影类型的菜单
        menu = ''
        for r in r_list:
            type_dict[r[0].strip()] = r[1].strip()
            # 获取input的菜单,显示所有电影类型
            menu += r[0].strip() + '|'

        return type_dict,menu

    # 主程序入口函数
    def main(self):
        # 获取type的值
        type_dict,menu = self.get_all_type_films()
        menu = menu + '\n你想了解什么类型电影:'
        name = input(menu)
        type_number = type_dict[name]
        # 获取电影总数
        total = self.total_number(type_number)
        for start in range(0,(total+1),20):
            #构建查询参数
            params = {
                'type' : type_number,
                'interval_id' : '100:90',
                'action' : '',
                'start' : str(start),
                'limit' : '20'
            }
            # 调用函数,传递params参数
            self.get_page(params)
            # 随机休眠1-3秒
            time.sleep(random.randint(1,3))
        print('电影总数量:%d部'%self.i )

if __name__ == '__main__':
    spider = DoubanSpider()
    spider.main()

输出示例:

剧情|喜剧|动作|爱情|科幻|动画|悬疑|惊悚|恐怖|纪录片|短片|情色|同性|音乐|歌舞|家庭|儿童|传记|历史|战争|犯罪|西部|奇幻|冒险|灾难|武侠|古装|运动|黑色电影|
你想了解什么类型电影:科幻
{'name': '盗梦空间', 'score': 9.3}
{'name': '星际穿越', 'score': 9.3}
{'name': '楚门的世界', 'score': 9.3}
{'name': '机器人总动员', 'score': 9.3}
{'name': '蝙蝠侠:黑暗骑士', 'score': 9.2}
{'name': '超感猎杀:完结特别篇', 'score': 9.2}
{'name': '新世纪福音战士 第0:0话 诞生之始', 'score': 9.2}
{'name': '少年骇客:变身之谜', 'score': 9.2}
...
...
电影总数量:147

最后我们对抓取动态网站数据做简单地总结:

  • 1. 确定网站是否为动态网站,通过查看源码搜索相应的关键字即可确定。
  • 2. 动态网站主要通过异步方式加载数据。触发数据加载的 JS 事件主要有滚动鼠标滑轮、鼠标点击、拉动滚动条等有关动作, 也有一些网站通过局部更新的方式加载数据,比如有道翻译案例。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/429642.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

用EasyX图形库画一个哆啦A梦

继续说图形库&#xff0c;加一点实战用图形画图&#xff08;用来巩固代码&#xff09;&#xff1a; rectangle这个函数 四个参数&#xff0c;左上角坐标的x,y值&#xff0c;右下角坐标的x,y值&#xff1b;因为只要有两个点&#xff0c;就可以以它们的横坐标之差为长&#xff…

三范式建模和维度建模,到底该选哪一个?

编辑导语&#xff1a;当你需要从头开始设计数据仓库时&#xff0c;你会选择哪种建模方式&#xff1f;也许&#xff0c;你会从三范式建模和维度建模二者中选择。但是这二者有其各自的适用范围&#xff0c;具体选择哪种方法&#xff0c;还需要回归至业务层。本篇文章里&#xff0…

day-004-链表-两两交换链表中的节点、删除链表的倒数第N个节点、链表相交、环形链表II

两两交换链表中的节点 题目建议&#xff1a;用虚拟头结点&#xff0c;这样会方便很多。 题目链接/文章讲解/视频讲解 /*** Definition for singly-linked list.* struct ListNode {* int val;* ListNode *next;* ListNode() : val(0), next(nullptr) {}* Li…

手麻系统源码,手术麻醉管理系统源码,二次开发方便快捷

手术麻醉管理系统源码&#xff0c;手麻系统源码&#xff0c;C# .net 桌面软件 C/S版 手术麻醉管理系统采用下拉式汉化菜单&#xff0c;界面友好&#xff0c;实用性强&#xff0c;设有与住院、病区、药房等系统的软件接口。 文末获取联系&#xff01; 开发语言&#xff1a;C# …

4.1 随机变量的数学期望

学习目标&#xff1a; 如果我想学习随机变量的数学期望&#xff0c;我可能会采取以下步骤&#xff1a; 掌握概率论基础知识&#xff1a;在学习随机变量的期望之前&#xff0c;我需要了解概率论的基本概念&#xff0c;例如概率、随机变量、概率密度函数等。 学习数学期望的定义…

算法总结---最常用的五大算法(算法题思路)

一、总结 一句话总结&#xff1a; 【明确所求&#xff1a;dijkstra是求点到点的距离&#xff0c;辅助数组就是源点到目标点的数组】 【最简实例分析&#xff1a;比如思考dijkstra&#xff1a;假设先只有三个点】 1、贪心算法是什么&#xff1f; 当前看来最好的选择 局部最…

第二章(2):从零开始掌握PyTorch基础知识,打造NLP学习利器

第二章&#xff08;2&#xff09;&#xff1a;从零开始掌握PyTorch基础知识&#xff0c;打造NLP学习利器&#xff01; 目录第二章&#xff08;2&#xff09;&#xff1a;从零开始掌握PyTorch基础知识&#xff0c;打造NLP学习利器&#xff01;1. Pytorch基础1.1 Pytorch安装1.1.…

计算机网络考试复习——第四章 4.1 4.2.1 4.2.2

网络层传输的单位是IP数据报 4.1 网络层的几个重要概念 网络层提供的两种服务&#xff1a;网络层应该向运输层提供怎样的服务&#xff1f;面向连接还是无连接&#xff1f; 在计算机通信中&#xff0c;可靠交付应当由谁来负责&#xff1f;是网络还是端系统&#xff1f; 面向连…

X79G Xeon 2630v2 电脑 Hackintosh 黑苹果efi引导文件

原文来源于黑果魏叔官网&#xff0c;转载需注明出处。&#xff08;下载请直接百度黑果魏叔&#xff09; 硬件型号驱动情况 主板X79G 处理器Intel Xeon 2630v2已驱动 内存32g (16*2 2666MHZ)已驱动 硬盘Intel 760p 512GB已驱动 显卡RX 470已驱动 声卡瑞昱 英特尔 High De…

硬件外设使用方法——GPIO

【硬件外设使用】——GPIO用法GPIO基本概念GPIO应用pyb与micropython什么是pyb什么是micropythonpyb与micropython关系GPIO在micropython中的用法什么是pyb库pyb库中的GPIO用法micropython下的GPIO用法经过与硬件群的小伙伴商量&#xff0c;决定直接找个板子讲实战了- -。 本部…

qt动态加载qss 更好的推荐方式

1、编写QRC资源文件[window和linux通用] 2、过rcc程序生成rcc资源文件 生成2进制数据&#xff1a; 通过控制台窗口执行以下命令&#xff0c;会把qrc中的资源文件写成二进制数据保存 rcc.exe -binary .\resuorce.qrc -o .\resuorce.rcc 生成16进制数据&#xff1a; 通过控制台窗…

JavaSE学习进阶day03_02 内部类

第二章 内部类&#xff08;最难的&#xff09; 2.1 概述 2.1.1 什么是内部类 将一个类A定义在另一个类B里面&#xff0c;里面的那个类A就称为内部类&#xff0c;B则称为外部类。可以把内部类理解成寄生&#xff0c;外部类理解成宿主。 2.1.2 什么时候使用内部类 一个事物内…

STM32驱动SIM900A短信模块

简介&#xff1a;STM32F103C8T6驱动SIM900A短信模块源码介绍。 开发平台&#xff1a;KEIL ARM MCU型号&#xff1a;STM32F103C8T6 传感器型号&#xff1a;SIM900A 特别提示&#xff1a;驱动内可能使用了某些其他组件&#xff0c;比如delay等&#xff0c;在文末外设模板下载…

协议篇之以太网协议基础概念

协议篇之以太网协议基础概念一、写在前面二、什么是以太网三、以太网TCP/IP协议分层四、MAC地址与IP地址五、写在后面一、写在前面 在学习了串口协议后&#xff0c;发现通过串口传输数据&#xff0c;数据传输的速率较慢&#xff0c;无法符合高速率传输场景下的要求&#xff0c;…

PXE+Kickstart自动化安装操作系统

文章目录PXEKickstart 完美自动化部署系统理论知识&#xff1a;1、PXE2、DHCP实践实验&#xff1a;1、DHCP服务器配置2、TFTP服务器配置3、HTTP服务器安装4、PXE配置5、Kickstart实践配置PXEKickstart 完美自动化部署系统 理论知识&#xff1a; 无人值守原理&#xff1a;Kick…

飞行机器人专栏(十一)-- 空中机器人综合健康管理系统

目录 一. 综合健康管理系统架构 1. 系统架构&#xff1a; 2. 故障诊断算法&#xff1a; 3. 预测维护策略&#xff1a; 4. 安全与隐私&#xff1a; 5. 用户友好性&#xff1a; 6. 模块化与可扩展性&#xff1a; 7. 与其他系统集成&#xff1a; 8. 考虑环境因素&#xf…

获取文件内容方法使用说明

一、是什么&#xff1f; sikuli设备新增了一个获取文件内容的方法&#xff0c;该方法可以传入指定路径读取文件内容&#xff0c;方便后续做打印&#xff0c;对比等工作 二、怎么用&#xff1f; 1.文件绝对路径&#xff0c;例如 windows&#xff1a;F:\cn_sonic\sonic-agent…

abbyy finereader15下载安装使用及功能介绍

今天给大家分享一款一款真正的专业OCR&#xff0c;它不仅支持多国文字&#xff0c;还支持彩色文件识别、自动保留原稿插图和排版格式以及后台批处理识别功能&#xff0c;使用者再也不用在扫描软件、OCR、WORD、EXCEL之间换来换去了&#xff0c;处理文件会变的就像打开已经存档的…

RabbitMQ安装教程(Mac)

1、RabbitMQ是采用Erlang语言开发的&#xff0c;所以系统环境必须提供Erlang环境。 brew install rabbitmq前提必须是mac安装了HomeBrew&#xff08;软件包管理系统&#xff09;&#xff0c;以下都是基于mac版本的。 等大概十几分钟 brew services start rabbitmq;RabbitMQWeb…

第09章_性能分析工具的使用

第09章_性能分析工具的使用 ​ 在数据库调优过程中&#xff0c;我们的目标就是响应时间更快&#xff0c;吞吐量更大。利用宏观的监控工具和微观的日志分析可以帮我们快速找到调优思路和方式。 1. 数据库服务器的优化步骤 ​ 当我们遇到数据库调优问题的时候&#xff0c;该如…