Python网络数据抓取（3）：Requests

Python网络数据抓取（3）：Requests

news2026/2/14 7:04:03

引言

在这一部分，我们将探讨Python的requests库，并且利用这个库来进行网页数据抓取。那么，我们为何需要这个库，以及怎样利用它呢？

requests库是广受大家欢迎的一个库，它是下载次数最多的。这个库使我们能够向各种网站发起HTTP请求。它向目标网站发起一个套接字连接，并请求连接的权限。这就是不同应用程序之间如何实现通信的原理。

接下来，我们通过一个简单的网页抓取实例来说明如何应用这个库。

示例

以亚马逊网站为例，我们将进行数据抓取。

mkdir scraper
pip install requests

然后在这个文件夹中创建一个文件 scraper.py 然后开始和我一起编码。

import requests

这会将请求库导入到我们的文件中。现在，我们可以使用它来创建网络抓取工具。

target_url = "https://www.amazon.com/dp/B08WVVBWCN"

headers = {“User-Agent”:”Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36"}

resp = requests.get(url, headers=headers).text

print(resp.status_code)

在这里，我们声明了一个 target_url 变量，用于存储来自 amazon.com 的目标网址。然后我们声明了一个标头，最后我们向目标 URL 发出了 GET 请求。这就是我们运行这段代码时发生的情况。

alt

当我们打印状态时，我们得到的状态为 200，这意味着我们能够成功抓取亚马逊。您甚至可以打印我们从亚马逊收到的 HTML 代码，只需将 status_code 替换为文本即可。

它看起来像这样:

alt

正如您所看到的，这些数据根本不可读。我们需要从这些垃圾中解析出数据。为此，我们将使用 BeautifulSoup。

未完待续，欢迎关注！

本文由 mdnice 多平台发布

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1615770.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

C语言学习/复习27----sizeof/strlen/数组/指针

C语言学习/复习27----sizeof/strlen/数组/指针

一、数组笔试题目解析 1.一维数组 1.sizeof()操作符与int数组注意事项1：sizeof()依据类型推断大小注意事项2：注意区分是( )内是地址还是普通元素类型注意事项3：（）内是单独的数组名时计算整个数组的大小，…

阅读更多...

海外服务器被恶意攻击怎么办

海外服务器被恶意攻击怎么办

如果您的海外服务器遭受了恶意攻击，以下是一些应对措施和步骤，立即隔离服务器。如果您察觉到服务器受到恶意攻击，立即隔离服务器，将其与网络隔离，以防止攻机进一步扩散。通知服务器提供商，以便他们能够提供…

阅读更多...

有了可视化工具，你定制设计得瑟瑟发抖了吧，其实你想多了。

有了可视化工具，你定制设计得瑟瑟发抖了吧，其实你想多了。

目前市面上有N多可视化的工具，可以做成可视化大屏，甚至有很多B端系统也附带可视化页面，据此就有很多人开始怀疑我们这些做定制开发的，还有啥生存空间。其实你真的多虑了，存在即合理，我们承认可视化工具的标…

阅读更多...

小白必备：Python必须掌握的十大模块，建议收藏！

小白必备：Python必须掌握的十大模块，建议收藏！

前言 Python 是一种高级、解释型和通用动态编程语言，侧重于代码的可读性。它在许多组织中使用，因为它支持多种编程范例。它还执行自动内存管理。它是世界上最受欢迎的编程语言之一。这是有很多原因的： 这很容易学习。它超级多才多艺。…

阅读更多...

05集合-CollectionListSet

05集合-CollectionListSet

Collection体系的特点、使用场景总结如果希望元素可以重复，又有索引，索引查询要快? 用ArrayList集合, 基于数组的。(用的最多) 如果希望元素可以重复，又有索引，增删首尾操作快? 用LinkedList集合, 基于链表的。如果希望增…

阅读更多...

【电机控制】滑模观测器PMSM无感控制波形图

【电机控制】滑模观测器PMSM无感控制波形图

【电机控制】滑模观测器PMSM无感控制波形图文章目录前言一、FOC控制1.三相电流2.Clark变换静止坐标系iαiβ3.park变换旋转坐标系idiq4.电流环PI控制输出UdUq5.UdUq 反park变换UαUβ 二、反电动势观测器BEMF1.静止坐标系iαiβ提取反电动势EaEb2.反电动势EaEb提取位置信息、…

阅读更多...

【国信华源参加全国地质灾害防治新技术新方法新设备交流会】

【国信华源参加全国地质灾害防治新技术新方法新设备交流会】

4月17-18日，以“提升地质灾害防治能力服务保障高质量发展”为主题，由中国地质灾害防治与生态修复协会主办、云南地质工程第二勘察院有限公司承办的“全国地质灾害防治新技术新方法新设备成果交流会”在云南昆明圆满召开。会议特邀中国工程院院士等知名…

阅读更多...

实现游戏地图读取与射击运行

实现游戏地图读取与射击运行

射击代码来源自2D 横向对抗射击游戏（by STF） - CodeBus 地图读取改装自瓦片地图编辑器解决边界检测，实现使用不同像素窗口也能移动不闪退-CSDN博客 // 程序：2D RPG 地图编辑器改游戏读取器 // 作者：民用级脑的研发…

阅读更多...

【电控笔记6.3】采样-Z转换-零阶保持器

【电控笔记6.3】采样-Z转换-零阶保持器

本质数字转模拟：零阶保持器采样 z-1所描述的物理意义即为延迟T时间的拉氏转换e-sT 信号采样延时

阅读更多...

stable diffusion本地部署@win10

stable diffusion本地部署@win10

一键无脑安装stable-diffusion-webui stable diffusion是当前非常出色的文生图模型，要优于以前gan文生图模型。现在有了stable-diffusion-webui软件，可以一键安装，大大简化了操作难度。本文档就是stable-diffusion-webui在windows 10上的安装…

阅读更多...

UI5：面向企业级应用的JavaScript框架

UI5：面向企业级应用的JavaScript框架

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》、《2024面试高频手撕题》 🍚 蓝桥云课签约作者、上架课程《Vue.js 和 E…

阅读更多...

OpenTelemetry-1.介绍

OpenTelemetry-1.介绍

目录 1.是什么 2.为什么使用 OpenTelemetry 3.数据类型 Tracing Metrics Logging Baggage 4.架构图 5.核心概念 6.相关开源项目编辑 7.分布式追踪的起源 8.百花齐放的分布式追踪 Zipkin Skywalking Pinpoint Jaeger OpenCensus OpenTracing 9.Openteleme…

阅读更多...

Spring Boot入门(20)：轻松搞定多数据源配置，Spring Boot与Mybatis-Plus的完美结合！

Spring Boot入门(20)：轻松搞定多数据源配置，Spring Boot与Mybatis-Plus的完美结合！

前言本文将介绍如何在Spring Boot框架下使用mybatis-plus实现多数据源配置。多数据源配置是一个常见的需求，在实际项目中也经常遇到，因此掌握多数据源配置的技巧是非常重要的。摘要本文将为大家介绍如何使用Spring Boot和mybatis-plus实现多数据源…

阅读更多...

学之思考试系统环境启动QA

学之思考试系统环境启动QA

学之思考试系统环境启动Q&A 目录学之思考试系统环境启动Q&A后台代码启动失败：前台代码启动失败常见解决方式参考资料后台代码启动失败：后端代码启动不成功，不能够自动导入maven，配置依赖；使用idea打开到：\xzs-master\xzs-mysql-master\source\xzs这个路径下；…

阅读更多...

小心中伏！伦敦银出入金有要求的

小心中伏！伦敦银出入金有要求的

伦敦银是采用了t0资金回转制度的投资品种，所以投资者在交易实现了盈利之后，可以当天立马就选择把盈利转出，当然如果投资者参与了平台的营销活动，申请出金的行为，就有可能导致活动资格被取消，对此投资者应该…

阅读更多...

基于SSM+Vue的护工预约服务小程序和后台管理系统

基于SSM+Vue的护工预约服务小程序和后台管理系统

1、系统演示视频（演示视频） 2、需要请联系

阅读更多...

hcip实验 — 路由策略实验

hcip实验 — 路由策略实验

目录实验拓扑实验要求实验思路实验步骤 1.配置接口及环回ip 2.配置ospf协议及rip协议 3.在R2上进行路由引入 4.在R2上进行路由过滤 5.在R4上进行路由过滤（地址前缀列表） 6.在R2 RIP进程上配置静默接口使RIP报文无法进入OSPF区域实验拓扑 …

阅读更多...

echarts折线图默认不显示数据圆点，鼠标划上之后折线图才显示圆点

echarts折线图默认不显示数据圆点，鼠标划上之后折线图才显示圆点

只需要设置showSymbol为false就可以了，表示只在 tooltip hover 的时候显示。代码如下： option {tooltip: {trigger: axis},xAxis: {type: category,data: [Mon, Tue, Wed, Thu, Fri, Sat, Sun]},yAxis: {type: value},series: [{data: [150, 230, 224…

阅读更多...

echarts柱形图实现2.5D

echarts柱形图实现2.5D

思路：使用markpoint option {title: {text: Rainfall vs Evaporation,subtext: Fake Data},tooltip: {trigger: axis},legend: {data: [Rainfall, Evaporation]},toolbox: {show: true,feature: {dataView: { show: true, readOnly: false },magicType: { show: t…

阅读更多...

学习笔记Day21：转录组差异分析

学习笔记Day21：转录组差异分析

转录组差异分析差异分析难点在于将数据处理成需要的格式表达矩阵数值型矩阵-count 行名是symbol 低表达量的基因需要过滤分组信息因子，对照组在level第一位与表达矩阵的列一一对应项目名称字符串（不要有特殊字符） TCGA-XX…

阅读更多...

推荐文章

最新文章