简单的爬虫架构和网页下载器requests

简单的爬虫架构和网页下载器requests

news2025/4/19 17:58:17

目录

简单的爬虫架构：

网页下载器：

URL管理器:

网页解析器:

网页下载器requests:

发送requests请求：

接收requests请求:

requests操作实例：

简单的爬虫架构：

网页下载器：

负责通过URL将网页进行下载，主要是进行相应的伪装处理模拟浏览器访问、下载网页

URL管理器:

负责URL的管理，包括带爬取和已爬取的URL、已经提供相应的接口函数（类似增删改查的函数）

网页解析器:

负责网页信息的解析，这里是解析方式视具体需求来确定

网页下载器requests:

Requests是一个优雅的，简单的Python HTTP库，常常用于爬虫对网页中的内容下载；

安装：pip install requests

发送requests请求：

requests.get/post(url,params,data,headers,timeout,verify,allow_redirects,cookies)

url:要下载的目标网页的url地址
params:字典形式，用于设置url后面的参数，比如 ?id=123&name=peiqi
data:字典或者字符串，一般用于post方法时提交数据
headers:设置user-agent，refer等请求头

我们的爬虫会默认向服务器发送爬取请求，而一般情况下网站是不允许被爬虫访问的，输出的text信息中会出现抱歉，无法访问等。我通过更改User-Agent等可以实现网站请求。

timeout:超时时间，秒为单位
verify:True/False，是否进行HTTP证书验证，默认是，需要自己设置证书地址
allow_redirects:True或False是否做重定向处理，默认为是
cookies:附带本地的cookies数据

接收requests请求:

r = requests.get/post(url)

r.status 查看请求状态码，200代表请求成功
r.status_code 查看网页编码，也可以修改编码，防止出现乱码情况
r.encoding
r.text 查看网页返回的内容
r.headers 查看返回的HTTP的headers
r.url 查看实际访问的url
r.content 以字节的方式返回内容，比如用于下载网页中的图片
r.cookies 服务器端写入本地的cookies数据

requests操作实例：

我们用ipython进行简单的requests操作，先导入requests(import requests),然后我们以百度的url地址来进行访问（www.baidu.com）

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/11001.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

聊聊Vuex原理

聊聊Vuex原理

背景 Vuex 是一个专为 Vue.js 应用程序开发的状态管理模式。Vuex 是专门为 Vue.js 设计的状态管理库，以利用 Vue.js 的细粒度数据响应机制来进行高效的状态更新。如果你已经灵活运用，但是依然好奇它底层实现逻辑，不妨一探究竟。 Vue 组件开发…

阅读更多...

docker系统笔记-03镜像的创建管理和发布

docker系统笔记-03镜像的创建管理和发布

镜像的获取 pull from registry (online) 从registry拉取 public（公有）private（私有） build from Dockerfile (online) 从Dockerfile构建load from file (offline) 文件导入 （离线） 镜像的基本操作 dock…

阅读更多...

概率 | 【提神醒脑】自用笔记串联二 —— 数字特征、大数定律、统计量

概率 | 【提神醒脑】自用笔记串联二 —— 数字特征、大数定律、统计量

本文总结参考于 kira 2023概率提神醒脑技巧班。笔记均为自用整理。加油！ヾ(◍∇◍)ﾉﾞ 第一部分笔记详见概率 | 【提神醒脑】自用笔记串联一 —— 事件、随机变量及其分布_西皮呦的博客-CSDN博客一研为定！ 四、随机变量的数字特…

阅读更多...

cocos2dx 3D物理相关知识点汇总

cocos2dx 3D物理相关知识点汇总

（一）3D相关基础知识网格（Mesh） 通常说的网格其实就是3D建模出来的形状。因为模型是由很多三角形组成，所以，就像网格一样。纹理纹理的作用就是给网格上色。怎么上色的？ 举个简单的例子。…

阅读更多...

m基于GA遗传优化的生产工艺设备布置优化matlab仿真

m基于GA遗传优化的生产工艺设备布置优化matlab仿真

目录 1.算法概述 2.仿真效果预览 3.核心MATLAB程序 4.完整MATLAB程序 1.算法概述在设备布置的问题上，本文将作业车间设备布置这个多目标优化问题看成是包含布局面积，物流成本和生产工艺的连续优化的多行设备布置问题，使之更具有实际意义…

阅读更多...

如何在 Rocky Linux 上安装 Apache Kafka？

如何在 Rocky Linux 上安装 Apache Kafka？

Apache Kafka 是一种分布式数据存储，用于实时处理流数据，它由 Apache Software Foundation 开发，使用 Java 和 Scala 编写，Apache Kafka 用于构建实时流式数据管道和适应数据流的应用程序，特别适用于企业级应用程序和关…

阅读更多...

robots.txt漏洞

robots.txt漏洞

robots.txt漏洞描述：搜索引擎可以通过robots文件可以获知哪些页面可以爬取，哪些页面不可以爬取。Robots协议是网站国际互联网界通行的道德规范，其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯，如果robots.txt文件编辑的太过详细，反而会泄露网站的敏感…

阅读更多...

[附源码]java毕业设计基于学生信息管理系统

[附源码]java毕业设计基于学生信息管理系统

项目运行环境配置： Jdk1.8 Tomcat7.0 Mysql HBuilderX（Webstorm也行） Eclispe（IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持）。项目技术： SSM mybatis Maven Vue 等等组成，B/S模式 M…

阅读更多...

Delphi中关于PChar、Char数组、string[](ShortString)及结构体长度及占用空间的一些特性说明和测试

Delphi中关于PChar、Char数组、string[](ShortString)及结构体长度及占用空间的一些特性说明和测试

关于特性 1，string和Char数组都是一块内存, 其中存放连续的字符. string保存具体字符的内存对用户是透明的, 由Delphi管理它的分配, 复制和释放, 用户不能干预2，关于ShortString，内存中用第一个字节来表示字符串的长度。FF255,所以这个特性…

阅读更多...

【MySQL】MySQL复制与高可用水平扩展架构实战（MySQL专栏启动）

【MySQL】MySQL复制与高可用水平扩展架构实战（MySQL专栏启动）

📫作者简介：小明java问道之路，专注于研究 Java/ Liunx内核/ C及汇编/计算机底层原理/源码，就职于大型金融公司后端高级工程师，擅长交易领域的高安全/可用/并发/性能的架构设计与演进、系统优化与稳定性建设。 &#x1…

阅读更多...

天王刘德华走红毯，到哪他都是最耀眼的明星

天王刘德华走红毯，到哪他都是最耀眼的明星

第三十五届金鸡奖，已经在福建厦门落下帷幕，如果要说本届金鸡奖谁收获最大，无疑是天王刘德华。在金鸡奖颁奖典礼现场，功夫巨星吴京登上热搜，然而热搜的主角却不是他，而是天王刘德华。在本届金鸡奖颁奖典礼现…

阅读更多...

cubeIDE开发， stm32调试信息串口通信输出显示

cubeIDE开发， stm32调试信息串口通信输出显示

关于cubeIDE开发基本技巧及流程，本文不详细叙述，请参考：cubeIDE快速开发流程_py_free的博客-CSDN博客_cubeide汉化一、stm32串口配置本文采用的开发板是stm32L496VGT3,其有两个 USB 接口，一个为 USB ST-link 复用接口&#xff…

阅读更多...

代码随想录——最长递增子序列的个数

代码随想录——最长递增子序列的个数

题目给定一个未排序的整数数组，找到最长递增子序列的个数。示例 1: 输入: [1,3,5,4,7] 输出: 2 解释: 有两个最长递增子序列，分别是 [1, 3, 4, 7] 和[1, 3, 5, 7]。示例 2: 输入: [2,2,2,2,2] 输出: 5 解释: 最长递增子序列的长度是1，并且…

阅读更多...

Oracle 表创建和表管理

Oracle 表创建和表管理

1.表的命名必须以字母开头字符长度在1-30之间只能包含A-Z，a-z,0-9,_,$和#被同一个用户拥有的对象不能有重复的名字 2.表的创建 SQL> create table t01(id number(4),name varchar2(15));Table created.SQL> desc t01Name …

阅读更多...

现场直击！维视智造携多款明星产品亮相VisionChina 2022深圳机器视觉展

现场直击！维视智造携多款明星产品亮相VisionChina 2022深圳机器视觉展

11月15日，2022年中国（深圳）机器视觉展在深圳国际会展中心（宝安新馆）盛大开幕，维视智造携MV-CR读码相机、3D线激光相机、VisionBank AI多相机智能视觉系统等多款行业领先产品及解决方案亮相。 1 ►现场速击 …

阅读更多...

C基础--内存对齐问题（结构体对齐）

C基础--内存对齐问题（结构体对齐）

问题现象在调试一个软件功能时，发现一个结构体对齐的问题，以前没有太关注，现在把它总结出来。先看示例： 结构体1： typedef struct {char magic[4];uint32_t crc32;uint32_t lenght;uint16_t ver;uint16_t IFrameCnt…

阅读更多...

多线程DPDK应用的内存优化

多线程DPDK应用的内存优化

作者 Conor Walsh is a software engineering intern with the Architecture Team of Intel’s Network Platform Group (NPG), based in Intel Shannon (Ireland). 引言高速包处理是一种资源密集型应用。一种解决方案是将包处理流水线(pipeline)分离到多线程以提高程序性能…

阅读更多...

大一新生HTML期末作业,网页制作作业——海鲜餐饮网站登录页面(单页面)HTML+CSS+JavaScript

大一新生HTML期末作业,网页制作作业——海鲜餐饮网站登录页面(单页面)HTML+CSS+JavaScript

👨‍🎓静态网站的编写主要是用HTML DIVCSS JS等来完成页面的排版设计👩‍🎓,常用的网页设计软件有Dreamweaver、EditPlus、HBuilderX、VScode 、Webstorm、Animate等等，用的最多的还是DW，当然不同软件写出的…

阅读更多...

STM32G0开发笔记-Platformio+libopencm3-FreeRTOS和FreeModbus库使用

STM32G0开发笔记-Platformio+libopencm3-FreeRTOS和FreeModbus库使用

title: STM32G0开发笔记-Platformiolibopencm3-FreeRTOS和FreeModbus库使用 tags: STM32MCUSTM32G070libopencm3MonkeyPiFreeRTOSModbus categories: STM32 date: 2022-9-11 19:52:05 [原文：makerinchina.cn] 使用Platformio平台的libopencm3开发框架来开发STM32…

阅读更多...

docker -- 入门篇（数据卷、自定义镜像、安装mysql redis）

docker -- 入门篇（数据卷、自定义镜像、安装mysql redis）

1 数据卷采用上一章节创建的centos镜像启动容器 doc01 docker run -it --name doc01 lhy/centos:1.00 2 数据卷容器启动子容器doc02 实现继承doc01的关系 docker run -it --name doc02 --volumes-from doc01 lhy/centos:1.00 启动子容器doc03 实现继承doc01的关系 docker…

阅读更多...

推荐文章

最新文章