某网站cookie反爬记录

news2024/11/29 0:52:55

一、背景

最近做城投项目时候遇到一个问题,就是一个代码写好不动,我只操作页面,运行出来的结果却是页面上显示的内容。这就导致了我不能按自己的需求抓取指定模块的内容

二、示例

import requests

headers = {
    "Accept": "application/json, text/javascript, */*; q=0.01",
    "Accept-Language": "zh-CN,zh;q=0.9",
    "Connection": "keep-alive",
    "Cookie": "wzws_sessionid=oGRscM+CZmM1ZWUxgDE4Mi4xNTAuNjMuMTg2gWQ5YzU0NA==; JSESSIONID=QW1HmDZ5fh6fW86HwLxm8woDJUwKu9PF_Z-jH_DD0wW3Ypa38VSk!1171792879; u=6",
    "Referer": "https://data.stats.gov.cn/easyquery.htm?cn=E0103",
    "Sec-Fetch-Dest": "empty",
    "Sec-Fetch-Mode": "cors",
    "Sec-Fetch-Site": "same-origin",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36",
    "X-Requested-With": "XMLHttpRequest",
    "sec-ch-ua": "\"Chromium\";v=\"112\", \"Google Chrome\";v=\"112\", \"Not:A-Brand\";v=\"99\"",
    "sec-ch-ua-mobile": "?0",
    "sec-ch-ua-platform": "\"Windows\""
}
url = "https://防敏/easyquery.htm"
params = {
    "m": "QueryData",
    "dbcode": "fsnd",
    "rowcode": "zb",
    "colcode": "sj",
    "wds": "[{\"wdcode\":\"reg\",\"valuecode\":\"110000\"}]",
    "dfwds": "[{\"wdcode\":\"sj\",\"valuecode\":\"1993\"}]",
    "k1": "1684310513171"
}
response = requests.get(url, headers=headers, params=params, verify=False)

print(response.text)
print(response)

这样一个代码,编写好后不改动,我在页面上选择地区生成总值时候,运行出来的是地区生产总值的内容

在这里插入图片描述

image-20230523155930242

当我点击页面内容到支出法地区生产总值时候,跑出来的数据就变成了支出法地区生产总值,这时候代码是完全没用改变的,一直都还是这个脚本

image-20230523160005463

image-20230523160115599

三、分析

根据脚本可以发现,不是明文显示的只有cookie,故推断是因为cookie造成的这种情况。 此时如果选择不带cookie请求,则只能请求出来地区生成总值这一个地方的数据,改变params参数是没用的。故解决思路确定为找到cookie生成方式。 但是经过实践发现,无论是hook还是搜关键词,都很难定位到生成该cookie的后台代码。 后来突然想到为何不直接获取到已生成的cookie

四、调试

我这里获取cookie有两种方式: 一种是response的header里获取Set-Cookie 一种是直接response.cookies

image-20230523161636129

解决了cookie获取问题,又发现由于抓取需求需要抓取指定年份的数据,但是分析params参数发现,这个params所能带的参数只能是(省份代码,模块代码)或者(省份代码,年份)。那么我需要指定省份内指定模块的指定年份的数据怎么获取呢,这里猜测还是cookie控制

image-20230523163305402

image-20230523163240785

这样一来,我就需要先以params带着模块参数访问一次,取得该模块的cookie,然后把这个再带着该模块的cookie去请求指定年份的数据

五、最终脚本

import requests

headers = {
    "Accept": "application/json, text/javascript, */*; q=0.01",
    "Accept-Language": "zh-CN,zh;q=0.9",
    "Connection": "keep-alive",
    "Referer": "https://data.stats.gov.cn/easyquery.htm?cn=E0103",
    "Sec-Fetch-Dest": "empty",
    "Sec-Fetch-Mode": "cors",
    "Sec-Fetch-Site": "same-origin",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36",
    "X-Requested-With": "XMLHttpRequest",
    "sec-ch-ua": "\"Chromium\";v=\"112\", \"Google Chrome\";v=\"112\", \"Not:A-Brand\";v=\"99\"",
    "sec-ch-ua-mobile": "?0",
    "sec-ch-ua-platform": "\"Windows\""
}
url = "https://防敏/easyquery.htm"
params_base = {
    "m": "QueryData",
    "dbcode": "fsnd",
    "rowcode": "zb",
    "colcode": "sj",
    "wds": "[{\"wdcode\":\"reg\",\"valuecode\":\"110000\"}]",
    "dfwds": "[{\"wdcode\":\"zb\",\"valuecode\":\"A0204\"}]",
    "k1": "1684828790804",
    "h": "1"
}
# 先访问一次取到cookie
response = requests.get(url, headers=headers, params=params_base, verify=False)
set_cookie = response.headers['Set-Cookie']
print(set_cookie)
print('\n')
print(response.cookies)


# 查询时间时候带上cookie
headers = {
        "Accept": "application/json, text/javascript, */*; q=0.01",
        "Accept-Language": "zh-CN,zh;q=0.9",
        "Connection": "keep-alive",
        'Cookie': set_cookie,
        "Referer": "https://data.stats.gov.cn/easyquery.htm?cn=E0103",
        "Sec-Fetch-Dest": "empty",
        "Sec-Fetch-Mode": "cors",
        "Sec-Fetch-Site": "same-origin",
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36",
        "X-Requested-With": "XMLHttpRequest",
        "sec-ch-ua": "\"Chromium\";v=\"112\", \"Google Chrome\";v=\"112\", \"Not:A-Brand\";v=\"99\"",
        "sec-ch-ua-mobile": "?0",
        "sec-ch-ua-platform": "\"Windows\""
    }
params = {
        "m": "QueryData",
        "dbcode": "fsnd",
        "rowcode": "zb",
        "colcode": "sj",
        'wds': '[{"wdcode":"reg","valuecode":"110000"}]',
        'dfwds': '[{"wdcode":"sj","valuecode":"1993"}]',
        "k1": 1684828790804
    }
response = requests.get(url, headers=headers, params=params, verify=False)
print(response.text)

这时候只需要变动params的省份编码和模块代码即可获取到 指定省份内 指定模块的 指定年份的数据

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/646473.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

蓝牙智能指纹锁解决方案OM6621PW

目前市面上蓝牙智能指纹锁一般采用MCU指纹传感器蓝牙芯片的方案,该方案采用MCU运行指纹识别算法,采用蓝牙作为数据交互,方案成本较高。 ONMICRO的单芯片蓝牙智能指纹锁解决方案OM6621PW,凭借其卓越的性能和创新的技术,…

Spring的存储与获取Bean

Spring的存储与获取Bean 🔎Spring—存储Bean配置扫描路径利用类注解进行存储添加注解存储Bean关于Id为什么需要五个类注解类注解之间的关系 利用方法注解进行存储关于Id 🔎Spring—获取Bean属性注入Set注入构造方法注入总结(Spring的注入方式? 它们之间…

FTL没有映射,跟发工资没有钱有什么区别

大家好,我是五月。 前言 FTL(Flash Translation Layer),即闪存转换层,是各种存储设备的核心算法,作用是将Host传下来的逻辑地址转换成物理地址,也就是映射。 地址映射是FTL最原始最基本的功能…

Pytest教程__简介与安装(1)

一、Pytest简介 pytest是python的一种单元测试框架,与python自带的unittest测试框架类似,但更灵活。 官方网站优点简介: 非常容易上手,入门简单,文档丰富,文档中有很多实例可以参考能够支持简单的单元测试…

【Qt】Ubuntu安装GCC9.3.0版本的Qt5.15.5

目录 一、安装GCC9.3.0 1.下载GCC9.3.0源码 2.获取依赖项的包 3.生成Makefile文件 4.编译并安装 5.生成软链接 6. 查看GCC版本 二、安装Qt 1.下载Qt安装包 2.创建Qt项目并运行 一、安装GCC9.3.0 1.下载GCC9.3.0源码 https://ftp.gnu.org/gnu/gcc/gcc-9.3.0/gcc-9.3…

药物靶点信息数据库有哪些?都有哪些特点?

药物靶点信息数据库的应用不仅能够高效地扩大靶点信息获取,而且能深化科研人员对于靶点的认识,从而服务于新靶点发现、药物筛选、药物设计、疾病治疗及药理学机制的研究等领域。 药物靶点可以分为受体、酶、离子通道、DNA、激素与生长因子等几种类型。随…

linux服务器上,docker安装nginx

如果出现 Using default tag: latest Got permission denied while trying to connect to the Docker daemon socket at unix:///var/run/docker.sock: Post "http://%2Fvar%2Frun%2Fdocker.sock/v1.24/images/create?fromImagenginx&taglatest": dial unix /va…

不衔接的两个视频能拼在一起吗?怎么把视频拼接起来?

怎么把视频拼接起来?相信大家在平时刷小视频的时候,都看到过视频合集,例如搞笑视频合集、综艺片段合集、变装合集等等。其实这些视频合集都是通过视频拼接来完成的,只需短短几分钟就能通过这些视频获得愉悦体验,非常适…

一学就会-----删除链表中的重复节点

文章目录 题目描述思路一代码示例思路二代码示例 题目描述 在一个排序的链表中,存在重复的结点,请删除该链表中重复的结点,重复的结点不保留,返回链表头指针。 图片示例: 思路一 解决该问题较简单,且在…

光纤跳线性能测试科普

光纤跳线是一种用于连接光纤设备或光纤网络的光学传输线路,它由两个光纤连接器和一段光纤组成。光纤跳线的质量直接影响着光信号的传输效率和稳定性,因此需要进行一些测试来保证其性能。 一、测试类型 光纤跳线性能测试主要有以下四种: 极性…

【基于容器的部署、扩展和管理】3.10 云原生容器运行时环境和配置管理

往期回顾: 第一章:【云原生概念和技术】 第二章:【容器化应用程序设计和开发】 第三章:【3.1 容器编排系统和Kubernetes集群的构建】 第三章:【3.2 基于容器的应用程序部署和升级】 第三章:【3.3 自动…

运维圣经:Webshell应急响应指南

目录 Webshell简介 Webshell检测手段 Webshell应急响应指南 一. Webshell排查 二. 确定入侵时间 三. Web日志分析 四. 漏洞分析 五. 漏洞复现 六. 清除Webshell并修复漏洞 七. Webshell防御方法 Webshell简介 Webshell通常指以JSP、ASP、 PHP等网页脚本文件形式存在…

kubesphere jenkins 构建java项目报错Could not parse metadata

kubesphere jenkins 构建java项目报错Could not parse metadata 问题描述: [ERROR] Failed to execute goal org.apache.maven.plugins:maven-install-plugin:2.4:install (default-install) on project common-plugin-starter: Failed to install metadata com.n…

struct | 详解C语言结构体

结构体(struct)是由一系列具有相同类型或不同类型的数据构成的数据集合,也叫结构。 结构体和其他类型基础数据类型一样,例如 int 类型,char类型;只不过结构体可以做成你想要的数据类型,以方便日后的使用。 在实际项目…

STM32单片机(六)TIM定时器 -> 第二节:TIM定时中断练习(定时器定时中断和定时器外部时钟)

❤️ 专栏简介:本专栏记录了从零学习单片机的过程,其中包括51单片机和STM32单片机两部分;建议先学习51单片机,其是STM32等高级单片机的基础;这样再学习STM32时才能融会贯通。 ☀️ 专栏适用人群 :适用于想要…

vivado:引脚已约束但是报错

一、问题引入 报错信息如下: [DRC UCIO-1] Unconstrained Logical Port: 3 out of 3 logical ports have no user assigned specific location constraint (LOC). This may cause I/O contention or incompatibility with the board power or connectivity affect…

msvc编译qt源码(qt6之前版本)

配置环境 根据源码里的readme(D:\Qt\Qt5.9.9\5.9.9\Src\readme)安装对应的依赖环境,如果是整个源码编译必须都安装 Qt for Windows - Requirements | Qt 5.15 Qt for Windows - Building from Source | Qt 5.15 Qt WebEngine Platform Not…

day02--java基础编程:变量,数据类型,类型转换,运算规则,运算符,分支结构,循环(随机数),方法,重载,可变参数,递归,数组,冒泡排序

1 Day02–变量数据类型类型转换 1.1 前言 1.1.1 标识符 可以简单的理解为一个名字。在Java中,我们需要标识代码的很多元素,包括包名、类名、方法、字段、变量等。我们选择的名称就称为标识符,并且遵循以下规则: A.标识符可以由…

docker-compose部署单点apm链路追踪

一.docker-compose 安装下载 1、登入 GitHub ,找到对应版本 curl -L https://github.com/docker/compose/releases/download/1.27.4/docker-compose-uname -s-uname -m -o /usr/local/bin/docker-compose2、将下载后的文件放到 /usr/local/bin 目录下,并…

客服部2023年中总结|用心服务,稳步提升用户体验

一、人工智能相辅相成:提升服务效能 2023年上半年,CSDN人工客服处理客诉总量为26859条,同比去年客诉量38695,下降30.59%;问题解决效率为72min,同比下降19%。 客诉量TOP5: 付费专栏质量问题退费博文审核未…