【Python 爬虫之requests库】零基础也能轻松掌握的学习路线与参考资料

news2025/1/23 0:54:42

在这里插入图片描述

文章目录

    • 一、概述
    • 二、Requests 库基本用法
    • 三、爬虫中的优秀实践
    • 四、参考资料

一、概述

Python 爬虫中,常用来请求网页的库有 urllib、urllib2、httplib等,但是这些库用起来比较麻烦,需要写很多代码。Requests 库正是为了解决这个问题而生的。Requests 库是 Python 社区中优秀的http请求库,他简化了 HTTP 请求发送,方便开发者快速地请求网络资源,可以以非常简单的语法来发送 HTTP/1.1 请求。 Requests 库简单、易学、功能强大、性能卓越,十分适合初学者使用。

二、Requests 库基本用法

Requests 库可以通过 pip 一键安装,安装方法如下:pip install requests

1.发送 GET 请求
发送 get 请求我们需要使用 requests 库的 get 函数来实现,如下所示:

import requests
url = 'http://www.baidu.com'
response = requests.get(url)
print(response)

response 将会返回一个 Response 对象,其中包括 status_code(状态码)、headers、text、encoding、cookies 等属性,如下所示:
<Response [200]>

2.发送 POST 请求
使用 POST 请求来提交数据时,可以使用 post 函数。示例如下:

import requests
url = 'http://httpbin.org/post'
data = {'name':'Dachuang'}
r = requests.post(url, data=data)
print(r)

Response 对象同样包含了 status_code、headers、text、encoding、cookies等属性,如下所示:
<Response [200]>

3.传递参数
get 请求可以通过 url 传递参数,POST 请求可以通过 data 传递参数。示例如下:

import requests
url = 'http://httpbin.org/get'
params = {'name':'Dachuang'}
response = requests.get(url, params=params)
print(response)

url 中的请求参数是已经构造好的 url,而参数 params 则是以字典形式传递的参数,它会在请求 url 中拼接参数。data参数也可以以字典形式传递。
通过 params 参数传递参数是 url 传参的一种方式,可以通过该方式避免 url 中参数的混淆等一系列问题。除了 params 参数外,还可以通过 headers 参数设置请求头。

4.设置请求头
Requests 使用 Header 参数来向请求添加 HTTP 头部,示例如下:

import requests
url = 'http://httpbin.org/get'
params = {'name':'Dachuang'}
headers = {'User-Agent':'Mozilla/5.0'}
response = requests.get(url, params=params, headers=headers)
print(response)

Requests 头部有很多内容,其中比较重要的就是 User-Agent 了。有些网页会检测请求头中的 User-Agent 是否为浏览器类型,如果不是则会屏蔽该请求,使用 Requests 设置 User-Agent 可以避免此类问题。

5.使用代理发送请求
Requests 允许我们向请求中添加代理。现在很多网站都有反爬虫机制,比如通过浏览器头部进行判断、同 IP 访问次数进行判断等,在这种情况下,我们可以通过向 Requests 请求中添加代理的方式来解决。设置代理方式如下:

import requests
url = 'http://www.baidu.com'
proxies = {
    'http': 'http://127.0.0.1:1080',
    'https': 'http://127.0.0.1:1080'
}
response = requests.get(url, proxies=proxies)
print(response)

其中,proxies 中的 key 值是协议名加上冒号(‘:’)加上地址,value 值同样是协议名加上冒号(‘:’)加上地址。

6.超时设置
Requests 允许我们设置请求的超时时间,这就意味着如果请求超过设定的时间限制,那么该请求将会被认为是失效的,示例代码如下:

import requests
url = 'http://www.baidu.com'
timeout = 2
response = requests.get(url, timeout=timeout)
print(response)

这里的timeout表示请求的超时时间,单位为 s,如该请求超时时间设定为2秒,如果该请求的响应时间超过2秒,那么该请求将会被视为请求失败并抛出异常以告诉用户响应超时了。

三、爬虫中的优秀实践

1.Referer 和 Origin
Referer的作用是用来表明当前请求是从什么网站来的,正常情况下在发送Ajax异步请求的时候是没有Referer值的。Origin的作用类似,同样是用来表明当前请求是从什么网站来的,但是它不能用在Ajax异步请求中。使用 Referer 和 Origin 是通常不会引起网络层面的异常的,因此在使用时最好加上这两个参数。

def get_products():
    headers = {
        "Referer": "https://www.jd.com/",
        "Origin": "https://www.jd.com/"
    }
    url = "https://item.jd.com/123456.html"
    response = requests.get(url, headers=headers)
    return response

2.设置User-Agent
User-Agent 用来标识用户代理,客户端的一种标识方式。在使用 Python 爬虫爬取数据的时候,使用默认的 User-Agent 很容易被目标网站识别出来是爬虫。这时需要在 User-Agent 中加入随机的浏览器类型,以模拟用户访问行为。

import random
import requests
 
def get_products():
    user_agent_list = [
        "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 Edge/16.16299",
        "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36",
    ]    headers = {
        'User-Agent': random.choice(user_agent_list),
        'Referer': 'https://www.jd.com/',
        'Origin': 'https://www.jd.com/',
    }
    url = "https://item.jd.com/123456.html"
    response = requests.get(url, headers=headers)
    return response

3.使用代理
有一些网站会对 IP 进行限制,这时需要使用代理(IP代理)。在向网站请求数据的时候,可以使用 requests 库设置代理来进行请求。

import requests

def get_products():
    url = "https://item.jd.com/123456.html"
    # 代理
    proxy_host = "127.0.0.1"
    proxy_port = "1080"
    proxies = {
        "http": f"http://{proxy_host}:{proxy_port}",
        "https": f"http://{proxy_host}:{proxy_port}",
    }
    response = requests.get(url, proxies=proxies)
    return response

4.设置cookie
Cookie 是一种保存用户信息的方案。如果一个网站需要记住用户的登录状态、购物车内的商品、用户的偏好等信息,那么这些信息就可以通过Cookie的形式保存在用户的浏览器上。对于这一点,requests 库提供了 cookie 参数来保存用户的 Cookie 信息。看下面的详细实现。

import requests

def get_products():
    # cookie
    cookie = "sessionid=abcd;"
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
        'Referer': 'https://www.jd.com/',
        'Origin': 'https://www.jd.com/',
    }
    url = "https://item.jd.com/123456.html"
    cookies = requests.utils.cookiejar_from_dict(requests.utils.dict_from_cookiejar(
        requests.utils.cookiejar_from_string(cookie)))
    response = requests.get(url, headers=headers, cookies=cookies)
    return response

四、参考资料

Requests 是一个相对年轻但功能不断完善和迅速被接受的Python HTTP 库。官方文档提供了非常好的说明和例子。

官方文档:http://docs.python-requests.org/zh_CN/latest/

requests使用介绍:https://www.cnblogs.com/-wenli/p/8462410.html

Requests快速上手指南:https://www.cnblogs.com/cnkai/p/9248440.html

Python爬虫(四):Requests库详解:https://www.jianshu.com/p/08455bcc505c

五、总结
Requests 是一个非常使用非常方便的Python HTTP 库,它用于发送 HTTP/1.1 请求的库,非常适合爬虫使用。Requests 库支持多种 HTTP 请求方式和一些额外的特性,例如,与其他Python库相比,requests 可以自动解码响应内容为 unicode,适用于所有版本的 Python3,并且功能强大,同时性能卓越。在Python爬虫应用中早已成为开发者们必不可少的库之一,不断的优化和升级,使得使用 Requests 发送 HTTP 请求变得更加简单方便。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/522005.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Flask轻松构建钉钉接口模版,实现自动化流程优化

项目背景 随着钉钉应用的不断普及和企业数字化程度的提高&#xff0c;越来越多的企业需要开发钉钉接口来完成内部业务流程的自动化和优化。而Flask框架&#xff0c;则是一个轻量级的Python web框架&#xff0c;具有快速开发和灵活性的优势&#xff0c;是钉钉接口开发的理想选择…

python去重列表中相同的字典元素

python去重列表中相同的字典元素 文章目录 python去重列表中相同的字典元素一.知识点二.代码|代码1|问题 |代码2 三.分析总结1、分析2、总结 四.后续代码知识点代码流程问题总结总结 一.知识点 ​ data_list [{“a”: 1, “b”: 2}, {“a”: 2, “b”: 3}, {“a”: 1, “b”:…

华为OD机试真题 Java 实现【相同数字的积木游戏1】【2023Q2 100分】

一、题目描述 小华和小薇一起通过玩积木游戏学习数学。 他们有很多积木&#xff0c;每个积木块上都有一个数字&#xff0c;积木块上的数字可能相同。 小华随机拿一些积木挨着排成一排&#xff0c;请小薇找到这排积木中数字相同且所处位置最远的2块积木块&#xff0c;计算他们…

【C++】——string的模拟实现

前言&#xff1a; 在之前的学习中&#xff0c;我们已经对string类进行了简单的介绍&#xff0c;大家只要能够正常使用即可。但是在面试中&#xff0c;面试官总喜欢让学生自己 来模拟实现string类&#xff0c;最主要是实现string类的构造、拷贝构造、赋值运算符重载以及析构函数…

lightroom磨皮滤镜中文插件Portraiture4最新版本

哈喽&#xff01;小伙伴们&#xff01;整个摄影后期行业都在用Portraiture&#xff0c;这是一个被奉为高级磨皮面板&#xff0c;修图神器、修图的的扩展面板&#xff01;Portraiture这款磨皮插件终于更新啦&#xff01;最近推出了Portraiture4.03版本,新版本光影处理更强大&…

《编程思维与实践》1066.最小不重复数

《编程思维与实践》1066.最小不重复数 题目 思路 一般在oj上循环 2 ⋅ 1 0 9 2\cdot 10^9 2⋅109次以上就会超时,所以由于这题的数据A可以很大,直接循环加一再判断会超时. 优化:首先可以明确要想使不重复数尽可能小,则高位数字应该尽可能小, 即先找到最靠前的两个重复数字,然后…

【Vector VN1630/40 I/O应用】-1-简易示波器

案例背景(共13页精简)&#xff1a;该篇博客将告诉您&#xff1a; Vector VN1630A&#xff0c;VN1640A&#xff0c;VH6501 I/O的使用&#xff1b;将Vector VN1630A/VN1640A CAN/LIN Interface的I/O接口充当一个简易的“示波器”使用&#xff1b;观察“CAN唤醒”工作的ECU控制器…

关于C语言的杂记4

文章目录 数据与程序结构C语言的编程机制#include <>和#include ""的区别形式参数和实际参数值传递地址传递 素数 文章内容摘自或加工于C技能树一些大佬的博文 数据与程序结构 阅读完C的编程机制和函数的声明和定义后的一些启发。——预处理 C语言的编程机制 …

dubbo技术

1、Dubbo的前世今生 2011年10月27日&#xff0c;阿里巴巴开源了自己的SOA服务化治理方案的核心框架Dubbo&#xff0c;服务治理和SOA的设计理念开始逐渐在国内软件行业中落地&#xff0c;并被广泛应用。 早期版本的dubbo遵循SOA的思想&#xff0c;是面向服务架构的重要组件。 …

1708_Simulink中取数组元素

全部学习汇总&#xff1a; GitHub - GreyZhang/g_matlab: MATLAB once used to be my daily tool. After many years when I go back and read my old learning notes I felt maybe I still need it in the future. So, start this repo to keep some of my old learning notes…

【多线程】线程安全问题原因与解决方案

目录 线程安全的概念 线程不安全示例 线程不安全的原因 多个线程修改了同一个变量 线程是抢占式执行的 原子性 内存可见性 有序性 线程不安全解决办法 synchronized 关键字-监视器锁monitor lock synchronized 的特性 互斥 刷新内存 可重入 synchronized 使用示例 Java 标…

【第三章:存储系统】

目录 知识框架No.0 引言No.1 存储器概述No.2 主存储器一、SRAM芯片和DRAM芯片二、只读存储器三、主存储器的基本组成1、基本的半导体元件和原理 知识框架 No.0 引言 这一章节主要是&#xff1a;这些二进制的数据在计算机内部如何存储 在学习这个章节之前&#xff0c;首先把下面…

Mybatis - 基础

文章目录 一、 Mybatis基本介绍二、 Mybatis 快速入门程序2.1 引入Mybatis依赖2.2 准备工作2.3 配置SQL信息2.3.1 IDEA连接数据库2.3.2 打开日志信息 2.4 JDBC 了解2.5 数据库连接池2.5.1 Druid数据库连接池 三、 Mybatis 基础3.1 环境准备3.1.1 数据库表3.1.2 实体类 3.2 基础…

EasyRecovery16中文最新版电脑数据恢复软件下载使用教程

EasyRecovery如果需要使用它来恢复数据&#xff0c;请注意&#xff0c;尤其是当需要恢复的数据文件非常重要时&#xff0c;建议使用软件EasyRecovery以保障数据安全。共有三个版本&#xff0c;分别是个人版、专业版、企业版&#xff0c;这三种都可以免费下载并使用&#xff0c;…

[MySQL]关于MySQL索引的一点点东西

最是人间留不住,朱颜辞镜花辞树. 目录 一.为什么需要索引 1.什么是索引 2.索引的创建原则 二.理解索引 1. MySQL与磁盘交互基本单位 2.索引的结构 a.关于hash索引,B树索引,B树索引的特点 B树 B树 HASH b.为什么使用InnoDB 存储引…

15-721 chapter 13 查询执行

优化的目标 CPU层面 cpu是多级流水线操作&#xff0c;所以我们的目标是让每个处理器的每个部分都处于busy。多条流水线&#xff0c;我们没有依赖的指令可以放到不同的流水线里面。但是流水线如果遇到branch判断错误的话&#xff0c;就要flush掉 可以用值传递来代替跳转 查询执…

Linux开发板安装Python环境

1. 环境介绍 硬件&#xff1a;STM32MP157&#xff0c;使用的是野火出的开发板。 软件&#xff1a;Debian ARM 架构制作的 Linux 发行版&#xff0c;版本信息如下&#xff1a; Linux发行版本&#xff1a;Debian GNU/Linux 10 内核版本&#xff1a;4.19.94 2. Python 简介…

基于常用设计模式的业务框架

前言 做开发也有好几年时间了&#xff0c;最近总结和梳理自己在工作中遇到的一些问题&#xff0c;工作中最容易写出BUG的需求就是改造需求了。一个成熟的业务系统是需要经过无数次迭代而成的&#xff0c;也意味着经过很多开发人员之手&#xff0c;最后到你这里&#xff0c;大部…

每日学术速递5.11

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 Subjects: cs.CV 1.Diffusion Explainer: Visual Explanation for Text-to-image Stable Diffusion 标题&#xff1a;扩散解释器&#xff1a;文本到图像稳定扩散的视觉解释 作者&#xff1a;Seongmin…

【数据结构】【算法】二叉树、二叉排序树、树的相关操作

树结构是以分支关系定义的一种层次结构&#xff0c;应用树结构组织起来的数据&#xff0c;逻辑上都具有明显的层次关系。 操作系统中的文件管理系统、网络系统中的域名管理、数据库系统中的索引管理等都使用了树结构来组织和管理数据。 树的基本概念 树Tree是由n个节点组成的有…