Python爬取公众号封面图(零基础也能看懂)

news2024/11/17 16:17:29

📚博客主页:knighthood2001
公众号:认知up吧 (目前正在带领大家一起提升认知,感兴趣可以来围观一下)
🎃知识星球:【认知up吧|成长|副业】介绍
❤️感谢大家点赞👍🏻收藏⭐评论✍🏻,您的三连就是我持续更新的动力❤️
🙏笔者水平有限,欢迎各位大佬指点,相互学习进步!

需求:平时一些公众号文章封面图比较好,想获取一下。因此写了这个脚本。

前言

打开一篇公众号,右键,查看网页源代码
在这里插入图片描述
其中,你可以通过ctrl+F进行关键字搜索。
msg_cdn_url对应的链接就是微信公众号封面图,比如
在这里插入图片描述

cdn_url_1_1对应的链接就是没有裁剪的公众号封面图,比如
在这里插入图片描述
可以发现cdn_url_1_1对应的链接图片资源完整一些。
因此我选择爬取这个图片,也就是找cdn_url_1_1所对应的网址

爬取思路

  • 首先,图片是以网址形式给出,因此需要从网址中把图片保存为本地文件。
  • 其次,我需要从网页源代码中筛选出该网址,可以使用re正则表达式进行该操作。

预备知识

可以先看一下我写的这两篇文章,因为代码都是逐渐往上加内容,才实现最终功能的,你可以理解为搭积木。
Python爬取网页源代码(自用)
Python下载爬取到的图片链接
Python获取当前时间戳

通过正则表达式筛选内容

除了以上内容,下面代码是今天要学的,其功能就是正则表达式获取公众号封面图所在的网址,通过查找网页源代码,cdn_url_1_1只出现了一次,因此可以直接通过re模块进行筛选。

import requests
import re
# 定义目标网页的URL
url = 'https://mp.weixin.qq.com/s/d7DUHB-hT8DExjpxsEncQw'

# 发送GET请求获取网页内容
response = requests.get(url)

# 检查响应状态码,200表示请求成功
if response.status_code == 200:
    # 输出网页源代码
    print(response.text)

    # 定义包含目标网址的字符串
    source_code = response.text
    # 使用正则表达式提取网址
    # url_pattern = re.compile(r'cdn_url_1_1\s*=\s*"(.*?)"')
    url_pattern = re.compile(r'cdn_url_1_1 = "(.*?)"')
    matches = url_pattern.findall(source_code)
    # 输出提取到的网址
    if matches:
        print(matches[0])
    else:
        print("No URL found.")

matches返回的是一个列表,因此需要添加[0],表示取第一个。运行结果如下,返回的就是公众号封面的图片网址。

https://mmbiz.qpic.cn/sz_mmbiz_jpg/n3WJwMGdIpnGSMHew0kcnsEk8Y9icBG8EBh8ib6qBBZmJR8DgkZookgGWVuibTgsUrIPiatfiafNI8N1dR4uhI086UA/0?wx_fmt=jpeg

本文正则表达式的解释

此外,对于这个正则表达式 cdn_url_1_1\s*=\s*"(.*?)" 可以分为几个部分来解释:

  1. cdn_url_1_1:匹配字符串中的 cdn_url_1_1,它是要匹配的目标字符串的一部分。
  2. \s*:匹配零个或多个空白字符,包括空格、制表符、换行符等。
  3. =:匹配一个等号字符。
  4. \s*:再次匹配零个或多个空白字符。
  5. ":匹配一个双引号字符。双引号是开始网址的标记。
  6. (.*?):这是一个捕获组,用于捕获双引号内的内容。.*? 匹配任意字符(除换行符外)零次或多次,非贪婪模式,即匹配到第一个双引号结束。
  7. ":再次匹配一个双引号字符。双引号是结束网址的标记。

因此,整个正则表达式的作用是匹配形如 cdn_url_1_1 = "..." 这样的字符串,并捕获其中双引号内的网址部分。
为了更加简单,你也可以写成cdn_url_1_1 = "(.*?)"

全文代码

通过搭积木的方式,将以上代码整合起来,具体代码如下:

import requests
import re
import os
#TODO 使用时间戳当作文件名称
def get_time():
    import time
    timestamp = int(time.time())
    return timestamp
#TODO 实现从网页图片保存到本地,输入为图片网址和保存路径
def image_save(image_url, path):
    if not os.path.exists(path):         # 如果文件夹不存在,则创建
        os.makedirs(path)

    # 发送 GET 请求获取图片数据
    response = requests.get(image_url)
    # 确保请求成功
    if response.status_code == 200:
        image_name = get_time()
        image_name = "{}.jpg".format(image_name)
        # 指定图片保存路径
        save_path = os.path.join(path, image_name)  # 这里将图片保存在名为 images 的文件夹中
        # 将图片数据写入文件
        with open(save_path, 'wb') as f:
            f.write(response.content)
        print(f'图片已保存为: {save_path}')
    else:
        print(f'下载图片失败,状态码: {response.status_code}')

# 定义目标网页的URL
url = 'https://mp.weixin.qq.com/s/d7DUHB-hT8DExjpxsEncQw'

# 发送GET请求获取网页内容
response = requests.get(url)

# 检查响应状态码,200表示请求成功
if response.status_code == 200:
    # 输出网页源代码
    print(response.text)

    # 定义包含目标网址的字符串
    source_code = response.text
    # 使用正则表达式提取网址
    # url_pattern = re.compile(r'cdn_url_1_1\s*=\s*"(.*?)"')
    url_pattern = re.compile(r'cdn_url_1_1 = "(.*?)"')
    matches = url_pattern.findall(source_code)
    # 输出提取到的网址
    if matches:
        print(matches[0])
        image_save(matches[0], "images")
    else:
        print("No URL found.")

else:
    # 如果请求失败,打印错误信息
    print('Failed to retrieve webpage:', response.status_code)

最后,可以将其封装为函数,方便调用。

import requests
import re
import os
#TODO 使用时间戳当作文件名称
def get_time():
    import time
    timestamp = int(time.time())
    return timestamp
#TODO 实现从网页图片保存到本地,输入为图片网址和保存路径
def image_save(image_url, path):
    if not os.path.exists(path):         # 如果文件夹不存在,则创建
        os.makedirs(path)

    # 发送 GET 请求获取图片数据
    response = requests.get(image_url)
    # 确保请求成功
    if response.status_code == 200:
        image_name = get_time()
        image_name = "{}.jpg".format(image_name)
        # 指定图片保存路径
        save_path = os.path.join(path, image_name)  # 这里将图片保存在名为 images 的文件夹中
        # 将图片数据写入文件
        with open(save_path, 'wb') as f:
            f.write(response.content)
        print(f'图片已保存为: {save_path}')
    else:
        print(f'下载图片失败,状态码: {response.status_code}')

# 定义目标网页的URL
url = 'https://mp.weixin.qq.com/s/d7DUHB-hT8DExjpxsEncQw'
# TODO 微信公众号获取封面并保存,输入网址
def get_image(wechat_url):
    response = requests.get(wechat_url)

    # 检查响应状态码,200表示请求成功
    if response.status_code == 200:
        # 定义包含目标网址的字符串
        source_code = response.text
        # 使用正则表达式提取网址
        url_pattern = re.compile(r'cdn_url_1_1 = "(.*?)"')
        matches = url_pattern.findall(source_code)
        # 输出提取到的网址
        if matches:
            print(matches[0])
            image_save(matches[0], "images")
        else:
            print("No URL found.")

    else:
        # 如果请求失败,打印错误信息
        print('Failed to retrieve webpage:', response.status_code)

get_image(url)

最后结果如下:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1573764.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

刷题之Leetcode209题(超级详细)

209.长度最小的子数组 力扣题目链接(opens new window)https://leetcode.cn/problems/minimum-size-subarray-sum/ 给定一个含有 n 个正整数的数组和一个正整数 s ,找出该数组中满足其和 ≥ s 的长度最小的 连续 子数组,并返回其长度。如果不存在符合条…

地面站Mission Planner从源码编译与运行

0. 环境 - win10(基本需要100G硬盘) - ubuntu18 1. 安装vs2022 下载 vs2022 community 在线安装包。 https://visualstudio.microsoft.com/ 打开 Visual Studio Installer 先安装 Visual Studio Community 2022本体。占用1.2GB。 Visual Studio Inst…

树状数组相关题目

题目一 方法一 归并分治 代码&#xff1a; # include <stdio.h>int arr[100]; int help[100];int n;//归并分治 // 1.统计i、j来自 l~r 范围的情况下&#xff0c;逆序对数量 // 2.统计完成后&#xff0c;让arr[l...r]变成有序的 int f(int l, int r) {if (l r)return…

html写一个登录注册页面

<!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>注册登录界面Ⅰ</title><link rel"stylesheet" href"https://cdnjs.cloudflare.com/ajax/libs/normalize/8.0.1/normalize.mi…

CSS属性计算逻辑

CSS 属性计算逻辑 首先&#xff0c;假设在 HTML 中有这么一段代码&#xff0c;在 body 中有一个 h1 标题&#xff1a; <body><h1>这是一个h1标题</h1> </body>目前我们没有设置该 h1 的任何样式&#xff0c;但是却能看到该 h1 有一定的默认样式&…

PHP实现网站微信扫码关注公众号后自动注册登陆实现方法及代码【关注收藏】

在网站注册登陆这环节&#xff0c;增加微信扫码注册登陆&#xff0c;普通的方法需要开通微信开发者平台&#xff0c;生成二维码扫码后才能获取用户的uinonid或openid&#xff0c;实现注册登陆&#xff0c;但这样比较麻烦还要企业认证交费开发者平台&#xff0c;而且没有和公众号…

Linux:五种IO模型的基本认识

文章目录 IO的本质五种IO模型异步和同步 阻塞IO非阻塞IO信号驱动IO IO的本质 在之前的内容中已经结束了对于网络和操作系统的学习&#xff0c;那么回过来再继续看IO&#xff0c;什么是IO呢&#xff1f; 对于网络的学习当中&#xff0c;实际上也是一种IO&#xff0c;数据从计算…

基于单片机钢琴电子节拍器系统设计

**单片机设计介绍&#xff0c;基于单片机钢琴电子节拍器系统设计 文章目录 一 概要二、功能设计三、 软件设计原理图 五、 程序六、 文章目录 一 概要 基于单片机钢琴电子节拍器系统设计是一个综合性的项目&#xff0c;它结合了单片机编程、音频处理、用户界面设计等多个领域的…

Ai软件下载安装 Adobe Illustrator一键安装 5分钟搞定

ai软件又叫adobe illustrator软件,它是设计者们比较常用的平面设计软件,不仅可以用来学习日常的学习设计,还能够用作于商业设计用途,作为一款全球知名的矢量图形处理工具,ai软件广泛应用于印刷出版、海报书籍排版、专业插画、多媒体图像处理和互联网页面的制作等.从事设计行业的…

Ceph学习 - 2.分布式文件系统DFS

文章目录 1.分布式文件系统DFS1.1 DFS简介1.1.1 存储基础1.1.2 分布式文件系统1.1.3 DSS简介1.1.4 常见的文件系统 1.2 原理解读1.2.1 分布式数据存储1.2.2 存储角色1.2.3 数据高可用 1.3 小结 1.分布式文件系统DFS 学习目标&#xff1a;这一节&#xff0c;我们从DFS简介、原理…

《MATLAB科研绘图与学术图表绘制从入门到精通》

解锁MATLAB科研绘图魅力&#xff0c;让数据可视化成为你的科研利器&#xff01; 1.零基础快速入门&#xff1a;软件操作实战案例图文、代码结合讲解&#xff0c;从入门到精通快速高效。 2.多种科研绘图方法&#xff1a;科研绘图基础变量图形极坐标图形3D图形地理信息可视化等&a…

JavaWeb前端基础(HTML CSS JavaScript)

本文用于检验学习效果&#xff0c;忘记知识就去文末的链接复习 1. HTML 1.1 HTML基础 结构 头<head>身体<body> 内容 图片<img>段落<p>图标<link> 标签 单标签双标签 常用标签 div&#xff1a;分割块span&#xff1a;只占需要的大小p&…

Linux网卡IP地址配置错误的影响

在Linux系统中&#xff0c;网络配置是保持系统顺畅运行的关键一环。正确配置网卡的IP地址对于确保网络通信的准确性和效率至关重要。然而&#xff0c;如果在这个过程中发生错误&#xff0c;可能会带来一系列问题。让我们一起探讨一下&#xff0c;如果Linux网卡的IP地址配置错误…

nVisual软件在企业运维管理中的价值

​ 企业运维常见问题 1. 设备进出机房&#xff0c;上架下架一直使用excel表格记录&#xff0c;无法持续跟踪机柜设备变化&#xff0c;对机房内设备管理无法做到全过程记录&#xff1b; 2. 资料分散缺乏统一管理&#xff0c;表格手工记录容易产生遗漏&#xff0c;资料不准确&a…

小核引导RTOS---RISC-V C906

文章目录 参考日志编译框架目标fip 启动流程fip文件组成BL2程序 总结思考备注 参考 参考1. How does FSBL load the FreeRTOS on the small core and execute it?参考2. Duo now supports big and little cores?Come and play!Milk-V Duo, start&#xff01;参考3. 使用uboo…

【御控物联】JavaScript JSON结构转换(16):对象To数组——综合应用

文章目录 一、JSON结构转换是什么&#xff1f;二、术语解释三、案例之《JSON对象 To JSON数组》四、代码实现五、在线转换工具六、技术资料 一、JSON结构转换是什么&#xff1f; JSON结构转换指的是将一个JSON对象或JSON数组按照一定规则进行重组、筛选、映射或转换&#xff0…

【JavaSE零基础】00-基础语法(1-12章)

1 第一章 Java开发环境搭建 1.1 章节目标与知识框架 1.1.1 章节目标 掌握Java的开发环境搭建&#xff0c;会编写HelloWorld程序&#xff0c;并能够准确的进行编译和运行&#xff1b;理解path和classpath环境变量并可以自行配置。 1.1.2 知识框架 1.2 Java语言概述(了解) J…

20240404这个数字有什么特点吗?

今天是2024年的清明节&#xff0c;20240404这个数字让我提出了一个疑问&#xff0c;它是否有什么含义或者特点呢&#xff1f; 首先&#xff0c;如果把它拆分为两个整数的平方和&#xff0c;会怎么样呢&#xff1f; 于是&#xff0c;我一顿操作猛如虎&#xff0c;搞出了这么个…

如何在Python中将HTML实体代码转换为文本

在处理HTML数据时&#xff0c;有时会遇到HTML实体代码&#xff0c;这些代码是为了在HTML中表示特殊字符而使用的。例如&#xff0c;<表示小于符号(<)&#xff0c;>表示大于符号(>)&#xff0c;&表示和符号(&)等等。那么当我们在实际操作中可能会遇到下面的…

并发编程BlockingQueue、BlockingDeque

系列文章目录 文章目录 系列文章目录前言前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站,这篇文章男女通用,看懂了就去分享给你的码吧。 BlockingQueue 也叫做阻塞队列,在某些情况下对BlockingQueue的访问可能会…