python爬虫入门教程(二):requests库的高级用法

news2024/10/5 19:14:32

requests库除了基本的GET和POST请求外,requests库还提供了许多高级功能,本文将介绍其中一些常用的用法。包括:

  • 会话保持(Session)
  • SSL证书验证
  • 文件上传
  • 代理设置
  • 自定义HTTP适配器
  • 超时设置

请求参数

文章最开始,先把requests库向网站发送请求时可以携带的参数给大家列举出来,并做一个解释。

  • method:HTTP请求的方法,如 GETOPTIONSHEADPOSTPUTPATCH, 或 DELETE
  • url:要发送HTTP请求的URL网址。
  • params:添加到URL的查询字符串中的参数。例如,params={'key1': 'value1', 'key2': 'value2'} 将形成像 http://example.com?key1=value1&key2=value2 这样的URL。
  • data:要发送到服务器的请求体数据。例如,data={'key1': 'value1', 'key2': 'value2'} 在POST请求中会被编码为表单数据。如果发送的是JSON数据,通常使用json参数而不是data,这个后面遇到也会说的。
  • json:JSON格式的数据将自动编码并在请求中发送。通常用于发送JSON格式的POST请求体。
  • headers:要随请求一起发送的HTTP头。例如headers={'User-Agent': 'Mozilla/5.0'}。
  • cookies:要随请求一起发送的cookies。
  • files:用于多部分编码上传的文件。字典的键是文件名,值可以是文件对象、文件路径、或包含文件名、文件对象、内容类型和自定义头信息的元组。
  • auth:用于HTTP认证(如Basic Auth)的元组,通常包含用户名和密码。
  • timeout:设置连接和读取的超时时间(秒)。如果是浮点数,它将作为连接和读取的超时时间。如果是一个元组,第一个值是连接超时时间,第二个值是读取超时时间。
  • allow_redirects:是否允许自动处理重定向。默认为True。(这个我还没有用到过。)
  • proxies:设置请求的代理。字典的键是协议(如'http''https'),值是代理服务器的URL。
  • verify:这个参数控制是否验证服务器的TLS证书。
    布尔型:如果设置为True(默认值),则在发送HTTPS请求时会验证服务器的TLS证书。如果证书无效或不存在,将引发一个SSLError
    字符串:如果提供一个字符串,它应该是一个指向CA证书捆绑包的路径,该捆绑包将被用于验证服务器的TLS证书。这在某些情况下可能很有用,比如当你需要验证自签名证书或特定机构的证书时。
  • stream:这个参数控制是否立即下载响应内容。如果为“False”,将立即下载响应内容。
  • cert:这个参数用于客户端证书,当你需要向服务器提供SSL客户端证书进行身份验证时。如果提供一个字符串,它应该是一个指向SSL客户端证书文件(通常是.pem文件)的路径。如果提供一个元组,它应该包含两个字符串,分别指向SSL客户端证书文件和私钥文件。例如,('cert.pem', 'key.pem')

requests库中源码介绍的参数如下图:

一、会话保持(Session)

使用Session对象可以在多个请求之间保持某些参数,如cookies、HTTP头等。这对于需要登录认证或保持用户状态的网站非常有用。

二、SSL证书验证

默认情况下,requests库会验证SSL证书。但在某些情况下(比如网站证书过期的时候),你可能需要忽略SSL证书验证(不推荐在生产环境中使用)。

三、文件上传

使用files参数可以轻松地上传文件。

四、代理设置

通过proxies参数可以配置代理服务器。

代码如下图:

五、超时设置

在发送请求时,设置超时是一个很重要的安全措施,可以防止程序无限期地等待响应。

代码如下:

六、自定义HTTP适配器

通过自定义HTTP适配器,你可以更改底层的行为,如连接池管理、重试策略等。这个我几乎没怎么用过,暂时先做了解吧,后面在爬虫实战中见到的话再细说。

代码如下:(代码中的操作也可以用正常的循环语句加try...except...语句实现)

我认为只看这些代码或者说是参数使用的例子是没有太大用处的,具体要会在实战中应用这些参数还是得多练习,见过之后就会熟悉具体的应用场景,后面我会发文章来带领大家进一步学习这门技术,感兴趣的可以来看一下。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1800678.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

github将默认分支main改为master

github将默认分支main改为master 1.进入github,点击setting 2.在setting中,选择Respositories,更新默认分支为master 3.选择要更新的项目,在项目中选择setting->general->切换默认分支

Elastic Search(ES)Java 入门实操(3)数据同步

基本概念和数据查询代码: Elastic Search (ES)Java 入门实操(1)下载安装、概念-CSDN博客 Elastic Search(ES)Java 入门实操(2)搜索代码-CSDN博客 想要使用 ES 来查询数…

MAVEN:自定义模板Archetype的创建

目录 一、简介 二、具体步骤 三、 vscode通过模板创建项目 四、通过IDEA创建 一、简介 有时候MAVEN自带的模板库并不能满足我们创建项目的需求,为了能够快速创建项目,免去每次复杂的配置,所以我们需要自定义模板库,本次操作基于…

控制台输入javac命令输出的结果中的中文乱码解决方式

默认字符编码UTF-8无法解析中文。设置环境变量中 “JAVA_TOOL_OPTIONS” 的值为"UTF-8" 即可。 具体配置步骤: 桌面右键"我的电脑" --> 属性 高级系统设置 环境变量 用户变量中添加 JAVA_TOOL_OPTIONS 然后确定,保存即可。

Windows 更新根文件夹的修改时间

简介: Win10 系统不会根据深层目录文件更新主目录的修改时间. 一般解决办法是关闭 Winodws 搜索引擎。 win10文件夹不能自动更新了怎么办?_百度知道 本脚本通过递归遍历子目录和子文件,来更新根目录的时间。 使用内层目录和当前目录下的最新…

(杂交版)植物大战僵尸

1.为什么我老是闪退? 答:主页控制台把“后台运行”点开,尽量避免全屏就会好很多。 2.哪里下载? 答:夸克https://pan.quark.cn/s/973efb326f81 3.为啥我没有14个卡槽? 答:冒险没打,怪…

课时149:项目发布_基础知识_项目交付

1.1.1 项目交付 学习目标 这一节,我们从 基础知识、代码发布、小结 三个方面来学习 基础知识 简介 项目交付是一个涉及到多团队共同协作的事情,它包括 产品团队设计产品、研发团队开发产品、测试团队测试代码、运维团队发布代码和维护站点等工作。项…

运维 之 DNS域名解析

前言 我们每天打开的网站,他是如何来解析,并且我们怎么能得到网站的内容反馈的界面呢?那什么是DNS呢(DNS(DomainNameservice,域名服务,主要用于因特网上作为域名和IP地址相互映射)那…

【Python】读取文件夹中所有excel文件拼接成一个excel表格 的方法

我们平常会遇到下载了一些Excel文件放在一个文件夹下,而这些Excel文件的格式都一样,这时候需要批量这些文件合并成一个excel 文件里。 在Python中,我们可以使用pandas库来读取文件夹中的所有Excel文件,并将它们拼接成一个Excel表…

【UE5 刺客信条动态地面复刻】实现无界地面01:动态生成

2024.6.4更新 昨天半夜意识到生成Cube的方案不合适,又开始到处找动态地面的方法,发现了我想要的效果直接可以用nigara实现!!!! 于是这个部分就暂时告一段落,今季开始新的方向的学习。 为了快速…

Flink⼤状态作业调优实践指南:状态报错与启停慢篇

摘要:本文整理自俞航翔、陈婧敏、黄鹏程老师所撰写的大状态作业调优实践指南。由于内容丰富,本文分享终篇状态报错与启停慢篇,主要分为以下四个部分: 检查点和快照超时的诊断与调优 作业快速启动和扩缩容方案 总结 阿里云企业级…

1.vue2.x-初识及环境搭建

目录 1.下载nodejs v16.x 2.设置淘宝镜像源 3.安装脚手架 4.创建一个项目 5.项目修改 代码地址:source-code: 源码笔记 1.下载nodejs v16.x 下载地址:Node.js — Download Node.js 2.设置淘宝镜像源 npm config set registry https://registry.…

如何删除电脑端口映射?

在使用电脑进行网络连接时,有时需要进行端口映射以实现不同设备之间的信息远程通信。当这些端口映射不再需要时,我们需要及时删除它们以确保网络的安全和稳定。本文将介绍如何删除电脑端口映射的方法。 操作系统自带的工具 大多数操作系统都提供了自带…

【docker】centos7配置docker镜像阿里云加速

国内从 DockerHub 拉取镜像有时会遇到困难,由于网络原因,下载一个Docker官方镜像可能会需要很长的时间,甚至下载失败。此时可以配置镜像加速器。Docker 官方和国内很多云服务商都提供了国内加速器服务。 测试了几次阿里云的加速是最快的。 …

OpenCV学习(4.6) 图像梯度

1.目标 在本教程中: 你会学到如何找到图像的梯度,边缘等。你会学到如下函数:**cv.Sobel(),cv.Scharr(),cv.Laplacian()** 等。 图像梯度是图像处理中的一个基本概念,它用于测量图像亮度变化的强度和方向…

springCloud中将redis共用到common模块

一、 springCloud作为公共模块搭建框架 springCloud 微服务模块中将redis作为公共模块进行的搭建结构图&#xff0c;如下&#xff1a; 二、redis 公共模块的搭建框架 如上架构&#xff0c;代码如下pom.xml 关键代码&#xff1a; <dependencies><!-- SpringBoot Boo…

【JMeter接口测试工具】第二节.JMeter基本功能介绍(中)【入门篇】

文章目录 前言四、信息头管理器五、Jmeter参数化 5.1 用户自定义的变量 5.2 csv批量添加 5.3 用户参数 5.4 随机数函数 5.5 计数器函数 5.6 时间函数六、Jmeter断言 6.0 断言介绍 6.1 响应断言 6.2 大小断言 6.3 持续时间断…

AI炒股:用Kimi获取美股的历史成交价格并画出股价走势图

在Kimi中输入提示词&#xff1a; 你是一个Python编程专家&#xff0c;要完成一个编写Python脚本的任务&#xff0c;具体步骤如下&#xff1a; 用akshare库获取谷歌(股票代码&#xff1a;105.GOOG)、亚马逊(股票代码&#xff1a;105.AMZN )、苹果(股票代码&#xff1a;105.AAP…

内存经验分享

目录 内存统计工具 /proc/meminfo Buddy ​​​​​​​​​​​​​​Slub ​​​​​​​Procrank /proc/pid/smaps ​​​​​​​Dumpsys meminfo 内存评估 内存泄漏 Lmk 水位调整 内存统计工具 /proc/meminfo 可以提供整体内存信息&#xff0c;各字段表示的意思如…

【论文速读】| BIOCODER:一个具有上下文实用知识的生物信息学代码生成基准测试

本次分享论文&#xff1a;BIOCODER: A Benchmark for Bioinformatics Code Generation with Contextual Pragmatic Knowledge 基本信息 原文作者&#xff1a;Xiangru Tang, Bill Qian, Rick Gao, Jiakang Chen, Xinyun Chen, Mark Gerstein 作者单位&#xff1a;耶鲁大学, Go…