Python爬虫项目实战:百度任意图片抓取

news2024/11/13 15:02:13

大家好,我是南枫,这篇文章我将给大家介绍如何使用Python爬虫来达到想爬哪个明星图片就能爬下来的效果,那我们接下来看看如何实现的吧。

图片

导入Python的requests库和re库。requests库用于发送HTTP请求,而re库用于处理正则表达式。

图片

图片

图片

通过这三张图可以看出,我们需要的图片都在我标记的地方,那我们为什么要用正则表达式都知道了吧?那我们继续

图片

图片

打印提示信息,让用户输入关键词

图片

获取用户输入的关键词

图片

定义一个变量url,其值为百度图片搜索

的URL,其中包含了搜索关键词(即前面定义的keyword)

图片

定义一个字典headers,其中包含了一个键值对,键为"User-Agent",值为一个字符串,这个字符串描述了浏览器的信息。这是为了防止服务器识别出这是一个爬虫程序

图片

使用requests库的get方法发送一个GET请求到指定的url,同时传入headers参数,打印出请求的结果。

图片

使用re库的findall方法在请求结果中查找所有匹配正则表达式r'objURL":"(.*?)",'的字符串,并将这些字符串放入一个列表中。这个正则表达式用于匹配图片的URL

图片

定义一个变量a,初始值为1,遍历上一步得到的包含图片URL的列表。每次循环,将a的值加1。打印出当前的图片URL。再次使用requests库的get方法发送一个GET请求到当前的图片URL,同时传入headers参数和timeout参数(设置超时时间为10秒),定义一个变量name,其值为一个字符串,这个字符串包含了图片的保存路径和文件名,文件名由关键词和序号组成,打印出图片的保存路径和文件名。以二进制写模式打开一个文件,文件名为name,将图片的内容写入到文件中,打印出一条消息,表示正在下载第几张图片。

图片

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1702523.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

鸿蒙知识点总结

1 Stage模型应用程序包结构 在开发态,一个应用包含一个或者多个Module,可以在DevEco Studio工程中创建一个或者多个Module。Module是HarmonyOS应用/服务的基本功能单元,包含了源代码、资源文件、第三方库及应用/服务配置文件,每一…

5款好用的AI写作软件,一键生成高质量文章

在当今信息快速发展的时代,AI写作软件逐渐成为创作者们的得力助手。它们能够凭借先进的技术和算法,一键生成高质量的文章,为创作者们节省大量的创作时间和精力。以下是5款备受好评的AI写作软件,下面在本文中分享给大家&#xff0c…

SpringBoot中注解@RestController | @ResponseBody | @Controller

ResponseBody 可以修饰类和方法 Controller 和 RestController 只能修饰类 RestController 告诉Spring,帮我们管理这个代码,我们后续访问时,才能访问到 RequestMapping 路由映射,可以修饰方法,也可以修饰类 访问地址…

蓝桥杯单片机-国赛6——第13届国赛主观题

0.比赛真题 1. 编程心得 DAC输出需要放到while循环里,一直持续的输出才能检测到稳定电压涉及锁存器5的部分:relay、buzz、motor……等不要放到while循环里,会造成蜂鸣器暴鸣。而是应该写一个带形参的函数,直接进行调用led的刷新&a…

作业-day-240527

Cday1思维导图 定义自己的命名空间my_sapce&#xff0c;在my_sapce中定义string类型的变量s1&#xff0c;再定义一个函数完成对字符串的逆置 #include <iostream>using namespace std;namespace my_space {string s1"abc123";string recover(string s){int i0…

SEO 真心没有必要纠结百度收录升降的!

明月会经常收到站长们发来有关百度收录下降寻求帮助的咨询&#xff0c;针对这个问题明月也没有很好的解决办法&#xff0c;因为这是目前搜索引擎的常态&#xff0c;几乎每天都有可能下降和上升&#xff0c;几乎是没有任何规律的。因为现在搜索引擎无时无刻不在更新和调整算法&a…

将YOLO格式数据集转换为YOLO-Mamba等特定工具指定的数据集格式

目录 克隆Github YOLO-Mamba源码YOLO-Mamba数据集格式下载的公开数据集目录边界框坐标文件类别标签文件 数据集格式转换代码转换格式的效果展示 今天为大家解析YOLO-Mamba这篇论文开源的代码&#xff0c;首先讲解YOLO格式数据集转换为YOLO-Mamba等特定工具指定的数据集格式的操…

VMware ESXi中安装Proxmox VE

0、巴拉巴拉 前几天某行业HW&#xff0c;闲暇的时候几个技术人员聊天&#xff0c;臭味相投的聊到自己玩的东西。有个玩家说家里用工作站安装Proxmox VE&#xff0c;然后在上面安装软路由、安装NAS。我以前一直想玩玩&#xff0c;没有付诸行动&#xff0c;所以也想弄个集中的方案…

快速失败“fail-fast”和安全失败“fail-safe”

目录 快速失败——fail-fast 异常原因 正常原因 安全失败“fail-safe” 快速失败——fail-fast java的快速失败机制是java集合框架中的一种错误检测机制&#xff0c;当多个线程对集合中的内容进行修改时可能就会抛出ConcurrentModificationException异常。不仅仅在多线程状态…

[笔试强训day09]

文章目录 BC146 添加逗号DP2 跳台阶JZ61 扑克牌顺子解法一&#xff1a;排序模拟解法二&#xff1a;规律哈希 BC146 添加逗号 BC146 添加逗号 #include<iostream> #include<string>using namespace std;int main() {string s;cin>>s;string ans;for(int i0;i…

Docker学习笔记 - 创建自己的image

目录 基本概念常用命令使用docker compose启动脚本创建自己的image 使用Docker是现在最为流行的软件发布方式&#xff0c; 本系列将阐述Docker的基本概念&#xff0c;常用命令&#xff0c;启动脚本和如何生产自己的docker image。 在我们发布软件时&#xff0c;往往需要把我…

了解区块链基础设施,共同构建安全且强大的Sui网络

区块链基础设施的范畴很广&#xff0c;但其核心是那些直接与网络互动的计算机。这些实体通常被称为节点&#xff0c;分为不同的类型&#xff0c;例如维护完整区块链副本的全节点&#xff0c;以及作为共识决定者的验证节点。除了这两种类型之外&#xff0c;还有其他类型的节点&a…

链动3+1模式:引领企业创新发展的全新商业模式

在数字化时代&#xff0c;企业正积极寻求创新策略以应对竞争激烈的市场环境。链动31模式&#xff0c;作为一种前沿的商业模式&#xff0c;为企业带来了全新的发展机遇。本文将对链动31模式进行深度剖析&#xff0c;并与传统的链动21模式进行对比&#xff0c;以展现其独特魅力和…

大事件项目实战

初始化 创建项目 新建api_server文件夹为项目根目录&#xff0c;并在项目中运行如下的命令&#xff0c;初始化管理配置文件&#xff1a; npm init -y 运行如下的命令&#xff0c;安装特定版本的express: npm i express4.17.1 在项目根目录中新建app.js作为整个项目的入口…

Bootstrap5

Bootstrap5-容器 容器是Bootstrap—个基本的构建块&#xff0c;它包含、填充和对齐给定设备或视口中的內容。 Bootstrap 需要一个容器元素来包裏网站的内容 我们可以使用以下两个容器类&#xff1a; .container 类用于固定宽度并支持响应式布局的容器。.container-fluid 类用…

Linux下Qt Creator无法输入中文(已解决)

1. 首先确保安装了搜狗输入法&#xff0c;且能正常运行。 2.克隆源码到本地。 git clone https://gitcode.com/fcitx/fcitx-qt5.git 3.检查Qt Creator版本&#xff0c;如下图所示&#xff0c;为基于Qt6的。 4. 进入源码目录&#xff0c;建立build文件夹&#xff0c;修改CMak…

常见电路的分类

举例&#xff1a;一个单片机控制电机驱动电路&#xff1a; 一般驱动部分和功率部分都是做到一起的 一、 驱动电路和功率电路&#xff1a; &#xff08;1&#xff09;电压高&#xff0c;电流大&#xff0c;需要与控制电路分开&#xff0c;并做好隔离保护&#xff08;光耦&…

【Hadoop】DataNode 数据盘进行磁盘DiskBalancer

目录 ​一、问题原因 二、DiskBalancer介绍 三、DiskBalancer实战 3.1 生成plan json文件 3.2 执行plan json文件 一、问题原因 阿里云事件磁盘损坏后&#xff0c;使用新磁盘进行了替换&#xff0c;或者当发现HDFS容量不够需要扩展空间时&#xff0c;由运维管理人员陆陆续…

CSS 【实战】 “四合院”布局

效果预览 页面要求&#xff1a; 上下固定高度左右固定宽度中间区域自适应宽高整个页面内容撑满全屏&#xff0c;没有滚动条 技术要点 使用 html5 语义化标签 header 网页内的标题区域nav 导航区域aside 侧边栏footer 页脚区域section 内容分区article 文章区域 清除浏览器默…

数据结构算法-堆(Heap)和优先队列

堆的概念 堆&#xff08;heap)是计算机科学中一类特殊的数据结构的统称。堆通常是一个可以被看做一棵树的数组对象。堆总是满足下列性质&#xff1a; always greater than its child node/s and the key of the root node is the largest among all other nodes. This property…