使用Python编写简单网络爬虫实例：爬取图片

使用Python编写简单网络爬虫实例：爬取图片

news2026/2/14 14:37:50

🍎个人主页

🏆个人专栏：日常聊聊

⛳️ 功不唐捐，玉汝于成

目录

编辑

简介

步骤

1. 安装依赖库

2. 创建目录

3. 发送HTTP请求并解析页面

4. 查找图片标签并下载图片

注意事项

结语

我的其他博客

简介

网络爬虫是一种自动获取网页信息的程序，而Python由于其简洁而强大的语法，常被用于编写网络爬虫。在本博客中，我们将介绍一个简单的Python网络爬虫示例，用于爬取图片。该示例使用了第三方库requests来发送HTTP请求，以及BeautifulSoup来解析HTML页面。

步骤

1. 安装依赖库

确保你已经安装了以下依赖库：

pip install requests beautifulsoup4

2. 创建目录

创建一个目录用于保存下载的图片，我们在示例中将其命名为downloaded_images。

import os

if not os.path.exists('downloaded_images'):
    os.makedirs('downloaded_images')

3. 发送HTTP请求并解析页面

使用requests库发送HTTP请求获取页面内容，然后使用BeautifulSoup解析HTML页面。

import requests
from bs4 import BeautifulSoup

url = 'https://example.com'  # 替换为实际的目标网站URL
response = requests.get(url)
html_content = response.text
soup = BeautifulSoup(html_content, 'html.parser')

4. 查找图片标签并下载图片

找到页面中的所有图片标签，遍历这些标签并下载图片。

from urllib.parse import urljoin

img_tags = soup.find_all('img')

for img_tag in img_tags:
    img_url = img_tag.get('src')
    img_url = urljoin(url, img_url)
    
    img_data = requests.get(img_url).content
    img_name = os.path.join('downloaded_images', os.path.basename(img_url))

    with open(img_name, 'wb') as img_file:
        img_file.write(img_data)
        print(f'图片保存成功：{img_name}')

注意事项

实际网站可能有不同的HTML结构和图片链接格式，根据目标网站的具体情况进行适当的修改。
合法使用爬虫，尊重网站的robots.txt文件，避免对目标网站造成不必要的压力。

结语

这个简单的网络爬虫示例演示了如何使用Python获取网页内容并下载图片。通过学习这个例子，你可以进一步了解网络爬虫的基本原理和Python中常用的爬虫工具。在实际应用中，请确保遵守相关法律法规和网站的使用规定。希望这个博客能帮助你入门网络爬虫的世界！

我的其他博客

探索灵活性与可维护性的利器：策略（Strategy）模式详解-CSDN博客

深入探讨敏捷开发项目管理流程与Scrum工具：构建高效团队与卓越产品的秘诀-CSDN博客

vue的生命周期-CSDN博客

什么是tomcat？tomcat是干什么用的？-CSDN博客

Linux 压缩、解压文件的 4 种方式。tar、gzip、gunzip、zip、unzip、7z命令使用方法-CSDN博客

腾讯-轻量应用服务器centos7中宝塔安装MySQL8.0出现内存不足-CSDN博客

JVM的类的生命周期-CSDN博客

多线程------Future异步任务-CSDN博客

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1323433.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

CSP-S2019提高组day1-T2：括号树

CSP-S2019提高组day1-T2：括号树

题目链接 [CSP-S2019] 括号树题目描述本题中合法括号串的定义如下： () 是合法括号串。如果 A 是合法括号串，则 (A) 是合法括号串。如果 A，B 是合法括号串，则 AB 是合法括号串。本题中子串与不同的子串的定义如下&#xff…

阅读更多...

vscode颜色主题插件one dark Pro安装

vscode颜色主题插件one dark Pro安装

1.点击扩展图标→搜索“one dark Pro”→第一个点击安装 2.安装成功后，不要忘了点击设置颜色主题 3.看下效果：

阅读更多...

【日积月累】sql执行语句优化

【日积月累】sql执行语句优化

目录 sql执行语句优化 1.前言2.sql执行语句优化2.1语句注意类1.避免使用 * 查询(全表查询)2.限制查询返回数3.小数据集驱动大数据集4.group by 优化5.尽量使用数值替代字符串类型6.使用varchar代替char7.批量插入性能提升 3.误操作导致索引失效1.避免查询条件字符串没有加2.避…

阅读更多...

JVS低代码和智能BI（自助式数据分析）12.19更新功能说明

JVS低代码和智能BI（自助式数据分析）12.19更新功能说明

低代码更新功能新增: 1、表单组件：标题、分割线、按钮等非数据组件增加小程序端隐藏设置； 隐藏设置允许开发者对表单组件中的非数据组件进行隐藏，例如，可能只想展示表单的部分内容，或者希望在特定条件下显示或隐藏…

阅读更多...

HarmonyOS应用开发实战—开箱即用的应用首页页面【ArkTS】【鸿蒙专栏-34】

HarmonyOS应用开发实战—开箱即用的应用首页页面【ArkTS】【鸿蒙专栏-34】

一.HarmonyOS应用开发实战—开箱即用的应用首页页面【ArkTS】【鸿蒙专栏-34】 1.1 项目背景 HarmonyOS（鸿蒙操作系统）是华为公司推出的一种分布式操作系统。它被设计为一种全场景、全连接的操作系统，旨在实现在各种设备之间的无缝协同和共享，包括智能手机、平板电脑、智能…

阅读更多...

HamronyOS 自动化测试框架使用指南

HamronyOS 自动化测试框架使用指南

概述为支撑 HarmonyOS 操作系统的自动化测试活动开展，我们提供了支持 JS/TS 语言的单元及 UI 测试框架，支持开发者针对应用接口进行单元测试，并且可基于 UI 操作进行 UI 自动化脚本的编写。本指南重点介绍自动化测试框架的主要功能&#x…

阅读更多...

grafana基本使用

grafana基本使用

一、安装grafana 1.下载官网下载地址： https://grafana.com/grafana/download官网包的下载地址： yum install -y https://dl.grafana.com/enterprise/release/grafana-enterprise-10.2.2-1.x86_64.rpm官网下载速度非常慢，这里选择清华大…

阅读更多...

【单调栈】LeetCode1776:车队

【单调栈】LeetCode1776:车队

作者推荐【贪心算法】【中位贪心】.执行操作使频率分数最大涉及知识点单调栈题目在一条单车道上有 n 辆车，它们朝着同样的方向行驶。给你一个长度为 n 的数组 cars ，其中 cars[i] [positioni, speedi] ，它表示： positi…

阅读更多...

markdown文档主题颜色修改

markdown文档主题颜色修改

目录 1、选择任意想选择的markdown文档主题css文件： 2、修改背景颜色 1、选择任意想选择的markdown文档主题css文件： 使用工具Typora文件主题路径： C:\Users\AppData\Roaming\Typora\themes，此处我这边就是copy了xydark的css文…

阅读更多...

【LeetCode刷题笔记（8-2）】【Python】【接雨水】【单调栈】【困难】

【LeetCode刷题笔记（8-2）】【Python】【接雨水】【单调栈】【困难】

文章目录引言接雨水题目描述提示解决方案2：【单调栈】结束语【接雨水】【LeetCode刷题笔记（8-1）】【Python】【接雨水】【动态规划】【困难】引言编写通过所有测试案例的代码并不简单，通常需要深思熟虑和理性分析。虽然这…

阅读更多...

总线地址/物理地址/虚拟地址

总线地址/物理地址/虚拟地址

参考： 总线地址、物理地址、虚拟地址-CSDN博客内存管理：物理地址、虚拟地址、逻辑地址_虚拟地址和物理地址-CSDN博客总线地址总线地址和地址总线是一个概念。地址总线 (Address Bus；又称：位址总线) 属于一种电脑总线 &#xf…

阅读更多...

React和umi搭建项目的操作步骤

React和umi搭建项目的操作步骤

一、react脚手架新建项目 (1.1)、命令行前提：react ES2015,nodejs v8 npx create-react-app myReactName //2022年v16以下版本 myReactName(自定义项目名) react中文官网，快速上手：react中文官网 react框架，…

阅读更多...

Linux系统中查看路由表的命令（ip route）

Linux系统中查看路由表的命令（ip route）

以下命令是在Linux系统中查看路由表的命令： 在Linux系统中，有多种方法可以查看路由设置。以下是一些常用的命令： ip route 或 ip -4 route（IPv4）/ ip -6 route（IPv6）： 这是最常用且功…

阅读更多...

算法设计与分析期末知识点总结

算法设计与分析期末知识点总结

一、概论 1、算法设计的目标： （1）正确性 （2）可使用性（用户友好性） （3）可读性 （4）健壮性 （5）高效率与低存储量需求算…

阅读更多...

vue 快速入门+vite前端构建工具

vue 快速入门+vite前端构建工具

四、Vue3简介和快速体验 4.1 Vue3介绍 Vue (发音为 /vjuː/，类似 view) 是一款用于构建用户界面的 JavaScript 框架。它基于标准 HTML、CSS 和 JavaScript 构建，并提供了一套声明式的、组件化的编程模型，帮助你高效地开发用户界面。无论是简…

阅读更多...

迪文屏开发保姆级教程——页面键盘

迪文屏开发保姆级教程——页面键盘

迪文屏页面键盘保姆级教程。本篇文章主要介绍了在DGBUS平台上使用页面键盘的步骤。文章目录一、前言开发环境二、使用步骤 1.准备素材 2.打开DGUS工程，导入素材。 3.生成ICL文件。 4.添加数据变量显示控件 5.添加数据录入控件 A.变量地址设置 B.变量类…

阅读更多...

外媒发稿最好的宣传方法是什么？大舍传媒

外媒发稿最好的宣传方法是什么？大舍传媒

外媒发稿最好的宣传方法是什么？ 引言在如今信息爆炸的时代，外媒发稿的宣传方法至关重要。大舍传媒作为一家业内知名的传媒公司，积累了丰富的经验和成功案例。本文将探讨外媒发稿最好的宣传方法，旨在帮助读者更好地推广自己的信…

阅读更多...

将输入的文本包装成多个行使每行的字符数不超过指定的列宽textwrap.fill()

将输入的文本包装成多个行使每行的字符数不超过指定的列宽textwrap.fill()

【小白从小学Python、C、Java】【计算机等考500强证书考研】【Python-数据分析】将输入的文本包装成多个行使每行的字符数不超过指定的列宽 textwrap.fill() [太阳]选择题请问以下代码每行最多能输出字符数是？ import textwrap text "This is a long …

阅读更多...

(PC+WAP)装修设计公司网站模板家装公司网站源码下载

(PC+WAP)装修设计公司网站模板家装公司网站源码下载

(PCWAP)装修设计公司网站模板家装公司网站源码下载 PbootCMS内核开发的网站模板，该模板适用于装修设计、家装公司类等企业，当然其他行业也可以做，只需要把文字图片换成其他行业的即可； PCWAP，同一个后台&#xff0c…

阅读更多...

【Redis】四、Redis.conf详解

【Redis】四、Redis.conf详解

文章目录 Redis.conf详解单位网络通用 GENERAL快照REPLICATION 复制SECURITY 安全限制 CLIENTSAPPEND ONLY 模式 aof配置 Redis.conf详解启动的时候，就通过配置文件来启动！ 工作中，一些小小的配置，可以让你脱颖而出！…

阅读更多...

推荐文章

最新文章