深入与浅出-Python爬虫逆向实战

news2025/2/11 15:58:00

一、什么是爬虫逆向?

爬虫逆向,简单来说,就是通过分析网页的前端和后端行为,找出数据的来源和获取方式,从而实现自动化抓取。很多时候,直接使用requestsBeautifulSoup可能无法获取到目标数据,因为数据可能由JavaScript动态加载,或者隐藏在API请求中。逆向工程的目标,就是通过分析这些行为,找到数据的真实来源,并模拟请求获取数据。


二、案例背景:一个动态加载的网页

假设我们遇到了一个动态加载的网页,页面内容通过JavaScript从后端API获取。我们的目标是抓取该页面的数据。为了方便讲解,我们假设目标网页的结构如下:

  • 网页URL:https://example.com/list
  • 页面内容通过JavaScript动态加载,数据来源是一个API接口。
  • 数据展示在页面的<div class="item">标签中,每个<div>包含标题、链接和描述。

三、逆向分析的步骤

1. 使用浏览器开发者工具分析网页

首先,我们需要使用浏览器的开发者工具(如Chrome DevTools)来分析网页的行为。

(1) 查看页面结构

打开开发者工具,进入“Elements”选项卡,查看页面的HTML结构。假设我们发现数据存储在<div class="item">中,每个<div>的结构如下:

<div class="item">
    <a href="https://example.com/detail/123" class="title">Item Title</a>
    <p class="description">This is the description of the item.</p>
</div>
(2) 分析网络请求

切换到“Network”选项卡,刷新页面,观察浏览器发送的请求。我们发现页面加载时,发送了一个XHR(XMLHttpRequest)请求,请求URL为:

https://api.example.com/v1/items?page=1&size=10

这个请求返回了JSON格式的数据,其中包含了页面展示的内容。


2. 分析API请求的参数

通过开发者工具,我们可以进一步分析这个XHR请求的详细信息:

  • 请求方法:GET
  • 请求头(Headers):包含User-AgentReferer等信息。
  • 查询参数page=1size=10,表示分页参数。

JSON响应数据如下:

{
    "items": [
        {
            "id": 123,
            "title": "Item Title",
            "description": "This is the description of the item.",
            "url": "https://example.com/detail/123"
        },
        ...
    ],
    "total_pages": 5
}

3. 模拟API请求

既然我们找到了数据的来源,接下来就是模拟这个API请求,获取数据。需要注意的是,有些网站会设置反爬机制,比如检查User-Agent、限制请求频率,甚至设置Referer验证。因此,我们需要在请求中带上这些必要的信息。

(1) 构建请求头
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",
    "Referer": "https://example.com/list"
}
(2) 发送请求

使用requests库发送GET请求:

import requests

url = "https://api.example.com/v1/items"
params = {
    "page": 1,
    "size": 10
}

response = requests.get(url, params=params, headers=headers)
data = response.json()

4. 处理分页

通过观察API的返回数据,我们发现total_pages字段表示总页数。因此,我们需要循环遍历所有页数,获取所有数据。

total_pages = data["total_pages"]
all_items = []

for page in range(1, total_pages + 1):
    params = {
        "page": page,
        "size": 10
    }
    response = requests.get(url, params=params, headers=headers)
    data = response.json()
    all_items.extend(data["items"])

5. 数据存储

最后,我们可以将抓取到的数据存储到本地文件中,或者进行进一步的处理。

import json

with open("items.json", "w", encoding="utf-8") as f:
    json.dump(all_items, f, ensure_ascii=False, indent=4)

四、完整代码实现

以下是完整的代码实现,包含了上述所有步骤:

import requests
import json

def fetch_data():
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",
        "Referer": "https://example.com/list"
    }

    url = "https://api.example.com/v1/items"
    params = {
        "page": 1,
        "size": 10
    }

    response = requests.get(url, params=params, headers=headers)
    data = response.json()

    total_pages = data["total_pages"]
    all_items = []

    for page in range(1, total_pages + 1):
        params["page"] = page
        response = requests.get(url, params=params, headers=headers)
        data = response.json()
        all_items.extend(data["items"])

    return all_items

def save_data(items):
    with open("items.json", "w", encoding="utf-8") as f:
        json.dump(items, f, ensure_ascii=False, indent=4)

if __name__ == "__main__":
    items = fetch_data()
    save_data(items)
    print("Data has been saved to items.json.")

五、总结与扩展

通过这个案例,我们展示了如何通过逆向工程实现动态网页的数据抓取。关键步骤包括:

  1. 使用浏览器开发者工具分析网页行为。
  2. 找到数据的来源(API接口)。
  3. 模拟API请求,处理分页和反爬机制。
  4. 存储和处理抓取到的数据。

在实际应用中,可能会遇到更复杂的场景,例如:

  • 动态渲染:网页内容由JavaScript动态渲染,需要使用Selenium或Puppeteer模拟浏览器行为。
  • 加密请求:API请求可能使用加密参数,需要进一步分析加密逻辑。
  • 验证码和IP封禁:需要实现验证码识别或代理IP切换。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2296398.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ubuntu中如何在vscode的终端目录后显示(当前的git分支名) 实测有用

效果展示 配置过程&#xff1a; 在 Ubuntu 中&#xff0c;如果你想在 VS Code 的终端提示符后显示当前的 Git 分支名&#xff0c;可以通过修改 Shell 配置文件&#xff08;如 ~/.bashrc 或 ~/.zshrc&#xff09;来实现。以下是具体步骤&#xff1a; 1. 确定使用的 Shell 首…

从二叉树遍历深入理解BFS和DFS

1. 介绍 1.1 基础 BFS&#xff08;Breadth-First Search&#xff0c;广度优先搜索&#xff09;和 DFS&#xff08;Depth-First Search&#xff0c;深度优先搜索&#xff09;是两种常见的图和树的遍历算法。 BFS&#xff1a;从根节点&#xff08;或起始节点&#xff09;开始&am…

Kotlin协程详解——协程上下文

目录 一、上下文结构 get()获取元素 minusKey()删除元素 fold()元素遍历 plus()添加元素 CombinedContext Key 二、协程名称CoroutineName 三、上下文组合 四、协程作用域CoroutineScope 五、典型用例 协程的上下文&#xff0c;它包含用户定义的一些数据集合&#x…

手写一个C++ Android Binder服务及源码分析

手写一个C Android Binder服务及源码分析 前言一、 基于C语言编写Android Binder跨进程通信Demo总结及改进二、C语言编写自己的Binder服务Demo1. binder服务demo功能介绍2. binder服务demo代码结构图3. binder服务demo代码实现3.1 IHelloService.h代码实现3.2 BnHelloService.c…

Deep Dive into LLMs like ChatGPT - by Andrej Karpathy

https://www.youtube.com/watch?v7xTGNNLPyMIhttps://www.youtube.com/watch?v7xTGNNLPyMIDeep Dive into LLMs like ChatGPT - by Andrej Karpathy_哔哩哔哩_bilibilihttps://www.youtube.com/watch?v7xTGNNLPyMI转载自Andrej Karpathy Youtube ChannelThis is a general a…

react实例与总结(一)

目录 一、简单认识 1.1、特点 1.2、JSX语法规则 1.3、函数组件和类式组件 1.4、类组件三大属性state、props、refs 1.4.1、state 1.4.2、props 1.4.3、refs 1.5、事件处理 1.6、收集表单数据—非受控组件和受控组件 1.7、高阶函数—函数柯里化 1.8、生命周期—新旧…

51单片机(国信长天)矩阵键盘的基本操作

在CT107D单片机综合训练平台上&#xff0c;首先将J5处的跳帽接到1~2引脚&#xff0c;使按键S4~S19按键组成4X4的矩阵键盘。在扫描按键的过程中&#xff0c;发现有按键触发信号后(不做去抖动)&#xff0c;待按键松开后&#xff0c;在数码管的第一位显示相应的数字:从左至右&…

STM32 RTC亚秒

rtc时钟功能实现&#xff1a;rtc模块在stm32内部&#xff0c;由电池或者主电源供电。如下图&#xff0c;需注意实现时仅需设置一次初始化。 1、stm32cubemx 代码生成界面设置&#xff0c;仅需开启时钟源和激活日历功能。 2、生成的代码,需要对时钟进行初始化&#xff0c;仅需…

【Linux】深入理解linux权限

&#x1f31f;&#x1f31f;作者主页&#xff1a;ephemerals__ &#x1f31f;&#x1f31f;所属专栏&#xff1a;Linux 目录 前言 一、权限是什么 二、用户和身份角色 三、文件属性 1. 文件属性表示 2. 文件类型 3. 文件的权限属性 四、修改文件的权限属性和角色 1. …

json格式,curl命令,及轻量化处理工具

一. JSON格式 JSON&#xff08;JavaScript Object Notation&#xff09; 是一种轻量级的数据交换格式。它基于一个子集的JavaScript编程语言&#xff0c;使用人类易于阅读的文本格式来存储和表示数据。尽管名字中有“JavaScript”&#xff0c;但JSON是语言无关的&#xff0c;几…

web直播弹幕抓取分析 signature

声明: 本文章中所有内容仅供学习交流使用&#xff0c;不用于其他任何目的&#xff0c;抓包内容、敏感网址、数据接口等均已做脱敏处理&#xff0c;严禁用于商业用途和非法用途&#xff0c;否则由此产生的一切后果均与作者无关&#xff01; 前言 最近遇到太多难点了卡了很久&am…

ABP框架9——自定义拦截器的实现与使用

一、AOP编程 AOP定义:面向切片编程&#xff0c;着重强调功能&#xff0c;将功能从业务逻辑分离出来。AOP使用场景&#xff1a;处理通用的、与业务逻辑无关的功能&#xff08;如日志记录、性能监控、事务管理等&#xff09;拦截器:拦截方法调用并添加额外的行为&#xff0c;比如…

CUDA 计算平台 CUDA 兼容性【笔记】

在 b 站看过的两个关于 CUDA 的技术分享&#xff0c;整理分享下对自己有用的课件。 20231130 2023第9期 聊一聊常见的AI计算平台库_哔哩哔哩_bilibili20230831 2023第6期 聊一聊CUDA兼容性_哔哩哔哩_bilibili 文章目录 CUDA 计算平台CUDA 函数库介绍英伟达三大护城河&#xff1…

最新消息 | 德思特荣获中国创新创业大赛暨广州科技创新创业大赛三等奖!

2024年12月30日&#xff0c;广州市科技局公开第十三届中国创新创业大赛&#xff08;广东广州赛区&#xff09;暨2024年广州科技创新创业大赛决赛成绩及拟获奖企业名单&#xff0c;德思特获得了智能与新能源汽车初创组【第六名】【三等奖】的好成绩&#xff01; 关于德思特&…

ubuntu安装VMware报错/dev/vmmon加载失败

ubuntu安装VMware报错/dev/vmmon加载失败&#xff0c;解决步骤如下&#xff1a; step1&#xff1a;为vmmon和vmnet组件生成密钥对 openssl req -new -x509 -newkey rsa:2048 -keyout VMW.priv -outform DER -out VMW.der -nodes -days 36500 -subj "/CNVMware/"ste…

python的列表、元组、深拷贝、浅拷贝(四)

python的列表 一、序列1. 序列定义2. 序列数据类型包括3.特点&#xff1a;都支持下面的特性 二、 列表1. 列表的创建2. 列表的基本特性(1) 连接操作符喝重复操作符(2) 成员操作符&#xff08;in , not in &#xff09;(3) 索引(4) 切片练习(5) for循环 3. 列表的常用方法(1) 一…

2.10作业

思维导图 C C语言

【深度学习】多目标融合算法(四):多门混合专家网络MMOE(Multi-gate Mixture-of-Experts)

目录 一、引言 二、MMoE&#xff08;Multi-gate Mixture-of-Experts&#xff0c;多门混合专家网络&#xff09; 2.1 技术原理 2.2 技术优缺点 2.3 业务代码实践 2.3.1 业务场景与建模 2.3.2 模型代码实现 2.3.3 模型训练与推理测试 2.3.4 打印模型结构 三、总结 一、…

RuoYi-Vue-Oracle的oracle driver驱动配置问题ojdbc8-12.2.0.1.jar的解决

RuoYi-Vue-Oracle的oracle driver驱动配置问题ojdbc8-12.2.0.1.jar的解决 1、报错情况 下载&#xff1a;https://gitcode.com/yangzongzhuan/RuoYi-Vue-Oracle 用idea打开&#xff0c;启动&#xff1a; 日志有报错&#xff1a; 点右侧m图标&#xff0c;maven有以下报误 &…

C# OpenCV机器视觉:对位贴合

在热闹非凡的手机维修街上&#xff0c;阿强开了一家小小的手机贴膜店。每天看着顾客们自己贴膜贴得歪歪扭扭&#xff0c;不是膜的边缘贴不整齐&#xff0c;就是里面充满了气泡&#xff0c;阿强心里就想&#xff1a;“要是我能有个自动贴膜的神器&#xff0c;那该多好啊&#xf…