《爬虫》爬取页面图片并保存

news2024/11/22 21:54:06

爬虫

  • 前言
  • 代码
  • 效果


简单的爬取图片

前言

这几天打算整理与迁移一下博客。因为 CSDN 的 Markdown 编辑器很好用 ,所以全部文章与相关图片都保存在 CSDN。而且 CSDN 支持一键导出自己的文章为 markdown 文件。但导出的文件中图片的连接依旧是 url 连接。为了方便将图片保存到本地,在这里保存一下爬虫代码。

只要修改正则匹配代码,同样适用于博客园爬取。

代码

为了提高效率,该脚本将从保存的本地 markdown 文件读取图片链接。当然脚本中也保留了爬取某个页面所有图片的函数。

脚本名:spider.py

import urllib.request 
import urllib.parse
import sys
import os
import re 


def open_url(url):
    '''
    用于网页爬取。这里不采用这个函数
    '''
    req = urllib.request.Request(url) 
    req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0')
    # 访问url,并将页面的二进制数据赋值给 page
    page = urllib.request.urlopen(req)
    # 将page中的内容转换为utf-8编码
    html = page.read().decode('utf-8')

    return html


def read_file(file):
    print('\n正在读取文件...')
    with open(file, 'rb') as my_file:
        content = my_file.read()
        content = content.decode('utf-8')

    print('已读取文件.')

    return content


def get_img(content, file_path):

    # 正则匹配图片链接
    # p=r'<img src="([^"]+\.png)"'  # 可用于网页爬取
    p=r'https://img-blog\.csdnimg\.cn/[\w\-/]+\.png'

    #返回正则表达式在字符串中所有匹配结果的列表
    print('\n正在读取图片链接...')
    img_list=re.findall(p, content)
    list_len = str(len(img_list))
    print('已读取图片链接.\n')

    for img_url in img_list:
        print(img_url)
    print('\n共 ' + list_len + ' 条数据')

    # 图片保存位置。如果文件夹不存在则创建
    save_path = file_path + '/assets/'

    if not os.path.exists(save_path):
        os.makedirs(save_path)

    print('\n正在保存图片...\n')
    num = 0  # 用于记录进度
    for each in img_list:
        #以 / 为分隔符,-1返回最后一个值
        photo_name=each.split("/")[-1]

        #访问 each,并将页面的二进制数据赋值给photo
        photo=urllib .request .urlopen(each)

        w=photo .read()

        f=open(save_path + photo_name + '.png', 'wb')
        f.write(w)
        f.close()

        # 展示进度
        print(num % 10, end="")
        if (num + 1) % 10 == 0 and num != 0:
            print('    进度: ' + str(num + 1) + '/' + list_len)
        sys.stdout.flush()  # 刷新输出缓冲
        num += 1

    print('\n\n完成!\n')


if __name__=='__main__':
    if len(sys.argv) != 2:
        print("\nUsage:   python spider.py <file>")
        print('example: python spider.py "F:\\T\\test.md"')
        sys.exit()

    file = str(sys.argv[1])

    file_name = os.path.basename(file)
    file_path = os.path.dirname(file)
    print('\nfile_name: ' + file_name)
    print('file_path: ' + file_path)

    # 读取文件内容
    content = read_file(file)

    # 爬取图片
    get_img(content, file_path)

效果

在这里插入图片描述

在这里插入图片描述


别后相思人似月,云间水上到层城。

——《明月夜留别》(唐)李冶

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/861872.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

封装一个常用的Enum

前言 项目里面经常用到一些下拉框 尝试封装一个比较好用的Enum 文件目录 ├── utils.ts ├── index.txs └── package.josn代码 utils.ts class Enum {static keys: string[];static values: Enum[];/*** call this function after declare all staic enum variable*…

【效率提升-Perl脚本】根据Verilog文件自动生成tb文件

文章目录 Verilog端口文件&#xff08;仅做示范用&#xff09;对应的tb文件相应代码 在数字IC设计过程中&#xff0c;根据顶层生成testbench时存在很多重复性工作&#xff0c;因此为了提高工作效率&#xff0c;特地开发此脚本。 相应的python脚本见链接&#xff1a; 【效率提升…

跨境商城app源代码开发--Java、H5用户端

随着全球电子商务的快速发展&#xff0c;跨境贸易已经成为一种新的商业趋势。在这个背景下&#xff0c;开发一个跨境商城APP&#xff0c;提供一站式跨境贸易服务&#xff0c;具有非常重要的意义。本文将详细阐述使用Java和H5技术进行跨境商城APP用户端源代码开发的步骤。 一、…

帮源头厂家“跑市场、谈终端、拿订单” 郑州:找准发力点,入局“预制菜”

过去5年&#xff0c;国内预制菜行业大火&#xff0c;复合增速高达95%&#xff0c;全国相关企业逼近6万家&#xff0c;面对这盘万亿级的大棋&#xff0c;郑州近日终于出招了&#xff0c;而且&#xff0c;一出就是大招—— 经相关部门批准&#xff0c;位于郑东新区的“郑菜直供园…

学C的第三十三天【C语言文件操作】

相关代码gitee自取&#xff1a; C语言学习日记: 加油努力 (gitee.com) 接上期&#xff1a; 学C的第三十二天【动态内存管理】_高高的胖子的博客-CSDN博客 1 . 为什么要使用文件 以前面写的通讯录为例&#xff0c;当通讯录运行起来的时候&#xff0c;可以给通讯录中增加、删…

LeetCode 1572. 矩阵对角线元素的和

【LetMeFly】1572.矩阵对角线元素的和 力扣题目链接&#xff1a;https://leetcode.cn/problems/matrix-diagonal-sum/ 给你一个正方形矩阵 mat&#xff0c;请你返回矩阵对角线元素的和。 请你返回在矩阵主对角线上的元素和副对角线上且不在主对角线上元素的和。 示例 1&…

JDK1.8 jvisualvm远程连接linux服务器tomcat8

JDK1.8 jvisualvm远程连接linux服务器tomcat jvisualvm工具 1、 可以通过官网单独下载 2、 JDK安装的bin路径下Java VisualVM.exe应用程序打开软件截图 linux服务器上tomcat8配置 只需要修改tomcat8 bin目录下的catalina.sh文件在catalina.sh文件添加以下信息 注意IP地址为…

PPO和文本生成

策略梯度 策略梯度&#xff08;Policy Gradient&#xff09;方法梯度的计算如下&#xff1a; E ( a t , s t ) ∈ π θ [ A ^ t ∇ θ log ⁡ π θ ( a t ∣ s t ) ] \mathbb E_{(a_t,s_t) \in \pi_\theta}[\hat A_t \nabla_ \theta \log \pi_\theta(a_t | s_t)] E(at​,st…

了解IL汇编跳转语句

il代码&#xff0c; .assembly extern mscorlib {}.assembly Test{.ver 1:0:1:0}.module test.exe.method static void main() cil managed{.maxstack 5.entrypointldstr "Enter First Number"call void [mscorlib]System.Console::WriteLine (string)call string …

低代码平台 数据库字段值不重复

在开发过程中&#xff0c;要求表里某字段值唯一 一、场景 在单据&#xff0c;要求某字段值不重复 查看数据模型&#xff1a; 查看单据&#xff1a; 二、问题 区域编码&#xff0c;区域名称不重复 三、解决方案 1&#xff09;数据库加索引 2&#xff09;书写保存后存储过…

Python(七十八)字符串的常用操作——字符串大小写转换操作

❤️ 专栏简介&#xff1a;本专栏记录了我个人从零开始学习Python编程的过程。在这个专栏中&#xff0c;我将分享我在学习Python的过程中的学习笔记、学习路线以及各个知识点。 ☀️ 专栏适用人群 &#xff1a;本专栏适用于希望学习Python编程的初学者和有一定编程基础的人。无…

推荐两本书《JavaRoadmap》、《JustCC》

《JavaRoadmap》 前言 本书的受众 如果你是一名有开发经验的程序员&#xff0c;对 Java 语言语法也有所了解&#xff0c;但是却一直觉得自己没有入门&#xff0c;那么希望这本书能帮你打通 Java 语言的任督二脉。 本书的定位 它不是一本大而全的书&#xff0c;而是一本打通、…

JDBC连接数据库及改造工具类

引入mysql驱动依赖,一般会建个lib包,如果是java web项目 一般将以来包创建在web->WEB-INF下, 这里我就随便了 建议 try {} catch (SQLException throwables) {throwables.printStackTrace(); }finally {} 的写法,这里就简写了 写个工具类 public class DBUtil {static{try…

C语言案例 完数求解-09

题目&#xff1a;编写一个程序找出1000以内的所有完数。 步骤一&#xff1a;定义程序目标 编写一个C程序&#xff0c;输出1000以内的所有完数 步骤二&#xff1a;程序设计 1.完数原理&#xff1a;一个数如果恰好等于它的因子之和&#xff0c;这个数就称为“完数”。例如6 1 …

__attribute__ ((constructor))和__attribute__ ((destructor))用法

目录 1. 前言 2. __attribute__介绍 3. 测试代码 4. 总结 1. 前言 最近看代码&#xff0c;有个函数根本就没被任何函数调用&#xff0c;但从程序运行结果来看&#xff0c;该函数是被调用了的&#xff0c;找很久都没找到哪里调用了&#xff0c;最后发现该函数…

Java顺序表解析与应用

一、顺序表概念 顺序表是用一段物理地址连续的存储单元依次存储数据元素的线性结构&#xff0c;一般情况下采用数组存储。在数组上完成数据的增删查改。 二、主要功能接口实现 Java顺序表底层就是一个动态数组。其主要功能接口如下&#xff1a; // 1.打印顺序表&#xff0…

stack(栈)和queue(队列)

目录 1.stack的介绍和使用(栈) 1.1 stack的介绍 1.2 stack的使用 1.3stack的模拟实现 2.queue的介绍和使用(队列) 2.1queue的介绍 2.3queue的模拟实现 3.priority_queue的介绍和使用 3.1priority_queue的介绍 3.2 priority_queue的使用 3.3priority_queue的模拟实现 …

高忆管理:碳酸锂期现货价格大幅回落 行业期盼找回“价格之锚”

6月末以来&#xff0c;国内碳酸锂价格的反弹态势戛然而止&#xff0c;再度陷入接连跌落格式。现货方面&#xff0c;据上海钢联数据显现&#xff0c;电池级碳酸锂价格6月26日至今已接连22次下调&#xff0c;从31.50万元/吨下调至最新的25.60万元/吨&#xff1b;期货方面&#xf…

【问题解决】Git命令行常见error及其解决方法

以下是我一段时间没有使用xshell&#xff0c;然后用git命令行遇到的一些系列错误和他们的解决方法 遇到了这个报错&#xff1a; fatal: Not a git repository (or any of the parent directories): .git 我查阅一些博客和资料&#xff0c;可以解决的方式&#xff1a; git in…

MyBatis操作数据库常见用法总结2

文章目录 1.动态SQL使用什么是动态sql为什么用动态sql标签拼接标签拼接标签拼接标签拼接标签拼接 补充1&#xff1a;resultType和resultMap补充2&#xff1a;后端开发中单元测试工具使用&#xff08;Junit框架&#xff09; 1.动态SQL使用 以insert标签为例 什么是动态sql 是…