Python的http模块requests

news2024/9/24 5:31:16

模块简介:

requests 库是一个 python中比较有名的 http请求的库,能处理 get,post,put,delete 等 restful请求,能设置 header,cookie,session 等操作,也是作为爬虫的基础库,它目前还不能异步请求,如果要支持异步,官网文档上也说,用 httpx 等代替。官方文档网址:https://requests.readthedocs.io/en/latest/

requests模块的作用
  • 发送 http 请求,获取响应数据
安装
pip install requests

响应对象

  • text str
  • content bytes

使用requests.get()发送请求

发送带请求头的请求
  requests.get(url,headers={User-Agent:xxxx})
发送带参数的请求
  • url中直接带参数
  • 用字典的方式传参数
requests.get(url,params={param1: xxxx, param2:xxx2})
在 headers参数中携带 Cookie

网站经常利用请求头中的 Cookie 字段来做用户访问状态的保持,那么我们可以在 headers 参数中添加 Cookie,模拟普通用户的请求。我们以 github 登录为例:

  • github登录抓包分析
    • 无痕窗口打开chrom浏览器,右键–>检查,点击 Network
    • 访问 github登录的 url 地址 https://github.com/用户名
    • 输入账号密码点击登录后,访问一个需要登录后才能获取正确内容的 url,比如点击右上角的 Your profile 访问 https://github.com/USER_ANME
    • 确定 url之后,再确定发送请求所需要的请求头信息中的User-Agent 和 Cookie
  • cookies 参数的使用
    • cookies参数的形式:字典
      • cookies = {“cookie的名字”:“cookie的值”}
      • 该字典对应请求头中 Cookie 字符串,以分号、空格分割每一对字典键值对
      • 等号左边的一个 cookie 的 name,对应 cookies 字典的 key
      • 等号右边对应 cookies 字典的 value
    • cookies 参数的使用方法
  response = requests.get(url,cookies)
  • 注意:cookie 一般是又过期时间的,一旦过期需要重新获取
  • cookieJar 对象转换成 cookies 字典的方法

使用 requests获取的 response 对象,具有 cookie 属性。该属性是一个 cookieJar 类型,包含了对方服务器设置在本地的 cookie。可以将其转换成 cookies 字典

response.txt 和 response.content 的区别:

  • response.text
    • 类型:str
    • 解码类型:requests模块自动根据 http 头部对响应码作出有根据的推测,推测的文本编码。
  • response.content
    • 类型:bytes
    • 解码类型:默认是 utf-8

response 响应对象的其他常用属性或方法

response = requests.get(url)中 response是发送请求获取的响应对象;response 响应对象中除了 text、content获取响应内容意外还有其他常用的属性或方法:

  • response.url:响应的 url;有时候响应的 url 和请求的 url 并不一致
  • response.status_code:响应状态码
  • response.request.headers:响应对应的请求头
  • response.headers:响应头
  • response.request_cookies:响应对应请求的 cookie;返回 cookieJar 类型
  • response.cookies:响应的 cookie(经过了 set-cookie 动作;)返回 cookieJar 类型
  • response.json();自动将 json字符串类型的响应内容转换成 python 对象(dict or list)

代理的使用

  • 理解代理的过程
    • 代理 ip是一个 ip,指向的是一个代理服务器
    • 代理服务器能够帮助我们向目标服务器转发请求

image.png

  • 正向代理和反向代理的区别

前边提到 proxy 参数指定的代理 ip指向的是正向的代理服务器,那么响应的就有反向服务器;现在来了解正向和反向这两者的区别

  1. 从发送请求方的角度,来区分正向和反向代理
  2. 为浏览器或客户端(发送请求的一方)转发请求的,叫做正向代理
    1. 浏览器知道最终处理请求的服务器的真实 ip地址,例如VPN等翻墙软件
  3. 不为浏览器或客户端(转发请求),而是为最终处理请求的服务器转发请求的,叫反向代理
    1. 浏览器不知道服务器的真实地址,而都是去访问 nginx,nginx 通过负载均衡再分发到不同的 web 服务器(tomcat,php-fpm等)。
  • 代理ip(代理服务器)的分类
    1. 根据代理ip 的内名成都,代理 IP 分为下面三类:
      1. 透明代理(Transparent Proxy):透明代理虽然可以直接"隐藏"你的IP 地址,但是还是可以查到你是谁,目标服务器接受到的请求头如下:
REMOTE_ADDR = 代理IP
HTTP_VIA = 代理IP
HTTP_X_FORWARDED_FOR = 你的真实IP
  2. 匿名代理(Anonymous Proxy):使用匿名代理,别人只能直到你用了代理,无法直到你是谁。目标服务器接收到的请求头付下
REMOTE_ADDR = 代理IP
HTTP_VIA = 代理IP
HTTP_X_FORWARDED_FOR = 代理IP
  3. 高匿代理(Elite proxy 或 High Anonymity Proxy):高匿代理让别人无法发现你在用代理,所以是最好的选择。毫无疑问使用高匿代理效果最好,费用也昂贵,目标服务器接收到的请求头如下:
REMOTE_ADDR = 代理IP
HTTP_VIA = not datermined
HTTP_X_FORWARDED_FOR = not determined
  • 根据网站使用的协议不同,需要使用相应协议的代理服务器。从代理服务请求使用的协议有如下3个:
    • http代理:目标 url 为 http 协议
    • https 代理:目标 url为 https 协议
    • socks 隧道代理(如 socks5代理)等(用的比较少):
      • socks 代理是 socket 层,只简单地传递数据包,不关心是何种应用协议(FTP、HTTP 和 HTTPS)
      • socks 代理比 http、https 代理耗时少。
      • scoks代理可以转发 http 和 https 的请求
  • proxies 代理参数的使用

为了让服务器以为不是同一个客户端在请求;为了防止频繁像一个域名发送请求被封 ip,所以我们需要使用代理 ip;

  • 用法
resp = requests.get(url,proxies=proxies_dict)
  • proxies 的形式:字典
  • 例如:
proxies_dict = {
    "http:": "http://xxx.xxx.xx.xx:33502",
    "https": "https://xx.xx.xx.xxx1:33220"
}
  • 注意:
    • 如果目标地址只支持 http 的,那么我们这个代理 ip 就不能使用 https,如果目标地址支持https,那么同时也能用 http
    • 如果proxies 字典包含多个键值对,发送请求时将按照 url 地址的协议来选择使用响应的代理 ip
    • 当代理ip失效时,要么就是一直卡着,要么就是报错

request.post模拟表单提交

request.session进行登录状态保持

requests 模块中的 Session类能够自动处理发送请求获取响应过程中产生的 cookie,进而达到状态保持的目的。接下来我们来学习它

requests.session 的作用以及引用场景
  • requests.session 的作用
    • 自动处理 cookie,即下一次请求会带上前一次的 cookie
  • requests.session 的应用场景
    • 自动处理连续的多次请求过程中产生的 cookie
requests.session 使用方法

session 实例在请求了一个网站后,对方服务器设置在本地 cookie 会保存在 session 中,下一次再使用 session请求对方服务器的时候,会带上前一次的 cookie

# 实例化 session 对象
session = requests.session()
response = session.get(url,headers, ...)
response = session.post(url,data,headers, ...)
  • session 对象发送 get或 post 请求的参数,与 requests模块发送的参数完全一致

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1490110.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Spring循环依赖:原因与解决方法

在Spring框架中,处理循环依赖一直备受关注。这是因为Spring团队在源代码中为了解决这个问题做了大量的处理和优化。同时,循环依赖也是Spring高级面试中的必考问题,对其深入了解可以成为面试中的制胜法宝。本文将详细介绍Spring循环依赖的产生…

【Datawhale组队学习:Sora原理与技术实战】Attention和LLM

Attention Attention 注意力,从两个不同的主体开始。 论文:https://arxiv.org/pdf/1703.03906.pdf seq2seq代码仓:https://github.com/google/seq2seq 计算方法: 加性Attention,如(Bahdanau attention&…

备战蓝桥杯---图论应用1

目录 1.增加虚点建图: 2.抽象图的迪杰斯特拉: 3.用bitset优化弗洛伊德: 4.有向图的Prim/kruskal: 1.增加虚点建图: 我们当然可以每一层与上一层的点再连上一条边,但这样子边太多了超内存,我们…

【学习心得】网站运行时间轴(爬虫逆向)

一、网站运行时间轴 掌握网站运行时间轴,有助于我们对“请求参数加密”和“响应数据加密”这两种反爬手段的深入理解。 二、从网站运行的时间轴角度来理解两种反爬手段 1、加载HTML: 这是浏览器访问网站时的第一步,服务器会返回基础…

6.Java---二维数组

打印二维数组的每个元素 上图所示,我们打印的时候将行列的数字写死,但是实际上如果这个数组有很多元素我们还要一个个数数嘛?这不是很占用我们的时间啦!因此引出下文. 代码精进 二维数组的每个元素是一个一维数组 打印二维数组的法2 打印出的格式如下: 不规则的二维数组…

LeetCode每日一题之 复写0

目录 题目介绍: 算法原理: 特殊位置处理: 代码实现: 题目介绍: 题目链接:. - 力扣(LeetCode) 算法原理: 这种对数组元素进行修改,移动的题目我们仍然可以…

使用Android Native Hook技术解决VLC播放器闪退的问题

文章目录 1.概述2.问题描述3.问题分析4.问题解决5.总结 1.概述 在做公司的一个TOB的需求时,发现调起Unity提供的3D播放器播放网络在线视频时闪退了,然后就拉着相关部门的人一起分析问题,最后定位到是VLC里面用到的系统日志打印函数在部分的系…

《UE5_C++多人TPS完整教程》学习笔记26 ——《P27 在线会话测试(Testing An Online Session)》

本文为B站系列教学视频 《UE5_C多人TPS完整教程》 —— 《P27 在线会话测试(Testing An Online Session)》 的学习笔记,该系列教学视频为 Udemy 课程 《Unreal Engine 5 C Multiplayer Shooter》 的中文字幕翻译版,UP主&#xff0…

二分查找是偏爱细节的魔鬼

大家好,我是 方圆。二分查找本质上是一个规模退化且固定规模减小一半的分治算法,它的 思路很简单,但细节是魔鬼。通常我们会认为二分查找的应用场景是数组有序(单调),但实际上它也能在无序数组中应用&#…

【轻快图片管理系统】-系统预览截图

在线体验 如果你觉得项目不错,还望动动你的手指给点点star,让更多人看到优秀的项目!!! 为了便于大家在线体验,本系统提供了演示地址,可以通过下面的演示地址和账号进行登录体验系统功能。 演示…

leetcode 热题 100_和为 K 的子数组

题解一: 前缀和数组哈希表:可以计算所有子数组之和暴力求解,但复杂度太高。对于子数组求和的过程,我们可以采用前缀和数组进行优化,前缀和数组中pre[index]代表nums[0]~nusm[index]之和,当我们要计算子数组…

【树】【异或】【深度优先】【DFS时间戳】2322. 从树中删除边的最小分数

作者推荐 【二分查找】【C算法】378. 有序矩阵中第 K 小的元素 涉及知识点 树 异或 DFS时间戳 LeetCode2322. 从树中删除边的最小分数 存在一棵无向连通树,树中有编号从 0 到 n - 1 的 n 个节点, 以及 n - 1 条边。 给你一个下标从 0 开始的整数数组…

Vscode连接外部虚拟环境

如果vscode工程目录里面有一个超级大的虚拟环境文件夹,怎么说都不是一件优雅的事,因此我们希望这个虚拟环境在工程目录外部,我们开始: 1. 复制虚拟环境目录路径:E:\envs\test 2. 在vscode中打开文件夹,CT…

全球首个隐私计算一体机国际标准发布 蚂蚁摩斯参与编制

近日,IEEE 标准协会(IEEE-SA)正式发布并推行了全球首个隐私计算一体机国际标准《隐私计算一体机技术要求》(IEEE 3156-2023)。该标准由蚂蚁集团推动,中科院信息工程研究所、北京交通大学、中国信息通信研究…

第十六天-爬虫selenium库

目录 1.介绍 2.使用 selenium 1.安装 2.使用 1.测试打开网页,抓取雷速体育日职乙信息 2.通过xpath查找 3.输入文本框内容 send_keys 4.点击事件 click 5.获取网页源码: 6.获取cookies 7.seleniumt提供元素定位方式:8种 8.控制浏览…

第一弹:Flutter安装和配置

目标: 1)配置Flutter开发环境 2)创建第一个Flutter Demo项目 Flutter中文开发者网站: https://flutter.cn/ 一、配置Flutter开发环境 Flutter开发环境已经提供集成IDE开发环境,因此需要配置开发环境的时候&#xf…

Gitlab 安装部署

目录 1、Jenkins 结合 Gitlab 构建 CI/CD 环境 CI/CD 介绍 CI/CD 流程 Jenkins 简介 GitLab 简介 项目部署方式 CI系统的工作流程 2、搭建 GitLab 安装 GitLab 配置 GitLab 修改root密码 访问 GitLab 开机自启 3、使用 GitLab 管理 GitLab 关闭 GitLab 注册功能…

Git分支补充

我们在合并分支时并不总是一帆风顺,有些时候也会遇到“合并冲突”的问题。 下面我们来还原一下: 创建分支dev $ git checkout -b dev 切换到一个新分支 dev $ git branch * devmaster我们将 text.txt 内容改为 欢迎关注CSDNkeduo并将修改的内容提交到 d…

【Oracle Database】如何远程连接服务器、创建用户、从本地dmp导入表

C:\Users\test>imp test/123456ip/orcl:1521 fileE:\db.dmp tablestable1,table2Import: Release 11.2.0.3.0 - Production on 星期一 3月 4 12:59:09 2024Copyright (c) 1982, 2011, Oracle and/or its affiliates. All rights reserved.IMP-00058: 遇到 ORACLE 错误 1263…

EdgeX Foundry 安全模式安装部署

文章目录 一、安装准备1.官方文档2. 克隆服务器3.安装 Docker4.安装 docker-compose 二、安装部署1.docker-comepse2.启动 EdgeX Foundry3.访问 UI3.1. consul3.2. EdgeX Console EdgeX Foundry # EdgeX Foundryhttps://iothub.org.cn/docs/edgex/ https://iothub.org.cn/docs…