mhtml图片提取 百度图片下载

news2024/11/15 3:43:59

如果你需要找一些图片,可以先去百度一下,待相关网页加载完成后,点击保存,即可得到一个mhtml文件。这个文件里的图片会用base64进行存储,只需要找到他们并转化就可以。目前在美篇之类的网站上效果还一般,需要继续排查问题。

效果

提取图片

代码

大概分为提取所有base64、转化为图片两步。

import base64
from io import BytesIO
from PIL import Image
import os

# 从文件中提取所有符合条件的 Base64 内容
def extract_all_contents(file_path):
    contents = []
    with open(file_path, 'r', encoding='utf-8') as file:
        content_found = False
        content = []
        for line in file:
            line = line.strip()  # 去除行末尾的换行符和空格
            if content_found:
                if not line:  # 如果遇到空行,表示content结束
                    if content:  # 保存非空的 content
                        contents.append("\n".join(content))
                    content_found = False
                    content = []  # 重置 content
                else:
                    content.append(line)  # 将当前行加入 content
            elif line.startswith("Content-Location:"):
                # 读取下一行,检查是否为空行
                next_line = next(file).strip()
                if not next_line:  # 如果下一行是空行,开始读取 content 部分
                    content_found = True
    return contents

# 将 Base64 编码转换为图像
def base64_to_image(base64_string, output_image_path=None):
    try:
        # 解码 base64 字符串
        image_data = base64.b64decode(base64_string)
        
        # 将解码后的字节数据转换为图像
        image = Image.open(BytesIO(image_data))
        
        # 如果指定了输出路径,保存图像
        if output_image_path:
            image.save(output_image_path)
        
        # 返回图像对象以供进一步处理或显示
        return image
    except (base64.binascii.Error, IOError):
        # 如果解码失败或不是有效的图像数据,返回 None
        return None

# 综合使用两个函数处理文件
def process_large_file_for_images(file_path,save_path):
    # 提取所有符合条件的 Base64 内容
    all_contents = extract_all_contents(file_path)
    
    image_count = 0
    for index, content in enumerate(all_contents):
        print(f"处理第 {index + 1} 个内容...")
        # 尝试将提取的 Base64 内容转换为图像
        image = base64_to_image(content, f'output_image_{index + 1}.png')
        
        if image:
            # 如果成功生成图像,显示或进一步处理
            image_count += 1
            print(f"成功生成第 {index + 1} 个图像: output_image_{index + 1}.png")
            tmp_path=os.path.join(save_path,f" output_image_{index + 1}.png")
            image.save(tmp_path)
        else:
            print(f"第 {index + 1} 个内容无法转换为图像")
    
    if image_count == 0:
        print("未找到任何有效的图像内容")
    else:
        print(f"总共成功生成 {image_count} 个图像")

# 使用示例
file_path = r'e:\data\网页下载\ccc.txt'  # 替换为实际的文件路径
save_path=r"e:\data\网页下载"
process_large_file_for_images(file_path,save_path)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2111085.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何确定 npm 依赖需要的 Node.js 版本?

目录 1,前言2,问题3,解决4,其他 1,前言 有的 npm 依赖会对 Node.js 的版本有要求,主要的原因有几点: 使用了新特性,npm 包使用了新版 Node.js 引入的新 API 或 JavaScript 的新语法…

etcdctl defrag 剔除、添加etcd节点

零、准备工作 find / -name etcdctl cp /var/lib/containerd/io.containerd.snapshotter.v1.overlayfs/snapshots/12/fs/usr/local/bin/etcdctl /usr/local/bin/etcdctlalias ec"etcdctl --endpointshttps://127.0.0.1:2379 --cacert /etc/kubernetes/pki/etcd/ca.crt --…

常用网络协议理解

1、概念 OSI网络模型由七层组成,从上到下分别是 其中需要用到的且理解的只有应用层、网络层、传输层 2、常见网络协议 协议的作用,就是用于双方规范数据格式,以及规定数据如何在网络中传输 ①应用层协议: HTTP协议&#xff1…

【苍穹外卖】Day 7 地址簿、下单、定时处理

1 地址簿模块 地址簿实体对象: package com.sky.entity;import lombok.AllArgsConstructor; import lombok.Builder; import lombok.Data; import lombok.NoArgsConstructor;import java.io.Serializable;/*** 地址簿*/ Data Builder NoArgsConstructor AllArgsCon…

docker基础知识-docker0网桥

文章目录 示意图Docker 网桥的工作原理Docker 网桥的优势Docker 网桥的局限性自定义网桥网络 Docker 网桥(Docker bridge network)是 Docker 默认的一种网络模式,它允许 Docker 容器之间通过一个虚拟的交换机进行通信。Docker 网桥网络为容器…

Java并发编程实战 03 | Java线程状态

在本文中,我们将深入探讨 Java 线程的六种状态以及它们之间的转换过程。其实线程状态之间的转换就如同生物生命从诞生、成长到最终死亡的过程一样。也是一个完整的生命周期。 首先我们来看看操作系统中线程的生命周期是如何转换的。 操作系统中的线程状态转换 线…

Web安全之GroovyShell讲解:错误与正确示范,安全问题与解决方案

1. 引言 Groovy 是一门基于 Java 虚拟机(JVM)的动态语言,而 GroovyShell 是 Groovy 提供的一个灵活强大的脚本执行工具。通过 GroovyShell,开发者可以在运行时动态执行 Groovy 脚本,它的灵活性非常适合那些需要动态编…

本地使用Docker部署Nexus Maven私有仓库工具结合内网穿透实现远程管理

文章目录 前言1. Docker安装Nexus2. 本地访问Nexus3. Linux安装Cpolar4. 配置Nexus界面公网地址5. 远程访问 Nexus界面6. 固定Nexus公网地址7. 固定地址访问Nexus 前言 本文主要介绍在Linux中使用Docker来一键部署Nexus Maven私有仓库工具并结合Cpolar内网穿透实现远程访问Nex…

【Python】应用:pyproj地理计算库应用

😏★,:.☆( ̄▽ ̄)/$:.★ 😏 这篇文章主要介绍pyproj地理计算库应用。 无专精则不能成,无涉猎则不能通。——梁启超 欢迎来到我的博客,一起学习,共同进步。 喜欢的朋友可以关注一下,下…

中国传媒业人工智能应用发展图谱2024

易观分析:传媒产业是指以传播各类信息、知识为核心,通过多种媒介形式进行内容生产、发布和分发的综合性产业。技术的进步和应用对于传媒产业发展变革起到了核心驱动力的作用,2022年生成式AI进入应用爆发期,不仅带动了人工智能产业…

APP中断测试知多少

中断测试有助于移动测试人员识别与系统或用户行为相关的潜在风险,以便在发生流量干扰时能够识别出可能导致意想不到或不期望结果的问题。 让我们深入探讨中断测试的细节及其手动或程序化实现方式。本文还介绍了用于自动化测试过程、加快测试执行速度并向用户提供高…

士兰微 SC32F5432 通过配置寄存器方式 将管脚配成开漏输出模式和TTL输入模式

目录 前言: 士兰微电子介绍 士兰微 SC32F5432介绍 士兰微 SC32F5432 通过配置寄存器方式 将管脚配成开漏输出模式和TTL输入模式 开漏输出模式 TTL输入模式 前言: 下面是对我在工作时公司所使用的一款国产芯片(士兰微 SC32F5432&#x…

【Qt】事件的处理

事件的处理 事件的处理,让一段代码和某个事件关联起来,当事件触发的时候,就能指定这段代码。在之前学习的信号槽是通过 connect 来完成上述关联的,对于事件来说,需要让当前的类,重写某个事件处理函数。这里…

【服务对接】✈️SpringBoot 项目整合华为云 obs 对象存储服务

目录 👋前言 👀一、环境准备 🌱二、整合实现 1.依赖引入 2.准备 AK 和 SK ​ 3.配置类 4.obs 工具类封装 💞️三、测试使用 🍻四、 obs 客户端 📫五、章末 👋前言 小伙伴们大家好&…

2024国赛数学建模C题完整论文:农作物的种植策略

农作物种植策略优化的数学建模研究(完整论文,持续更新,大家持续关注,更新见文末名片 ) 摘要 在本文中,建立了基于整数规划、动态规划、马尔科夫决策过程、不确定性建模、多目标优化、相关性分析、蒙特卡洛…

Packet Tracer - 单区域OSPFv2的配置方法以及思路

Packet Tracer - 单区域OSPFv2的配置思路 1、思路前夕查看 做这个的时候大家了解一下通配符,不然不理解这个东西为什么子网掩码为什么会取反 这里给大家简单演示一下 2、使用进程 ID 10 在所有路由器上激活 OSPF。 在 Headquarters 网络中的路由器上使用 network…

FxFactory 8 for Mac 视觉特效插件包安装

Mac分享吧 文章目录 介绍页面效果一、下载软件二、开始安装1、Install安装2、显示软件页面,表示安装成功3、补丁安装 三、注意事项1、若已安装过其他版本,需要使用软件自带的卸载功能进行软件卸载,再安装此版本 安装完成!&#x…

pod install 报错处理

由于墙的原因,pod install 、 pod update经常报错 有效的解决方案(推荐): 以SnapKit为例 找不报错的同事要以下两个文件(指定的版本) 1. /Users/xxx/Library/Caches/CocoaPods/Pods/Release/SnapKit 2. /Users/xxx/Library/Cac…

后缀表达式转中缀表达式

假定有后缀表达式1 2 3 4 * 5 – ,请将它转化为前缀表达式。 利用表达式树: 1.从左到右扫面后缀表达式,一次一个符号读入表达式。2.如果符号是操作数,那么就建立一个单节点树并将它推入栈中。如果符号是操作符,那么…

针对不同区域的摄像头,完成不同的算法配置的智慧快消开源了

智慧快消视频监控平台是一款功能强大且简单易用的实时算法视频监控系统。它的愿景是最底层打通各大芯片厂商相互间的壁垒,省去繁琐重复的适配流程,实现芯片、算法、应用的全流程组合,从而大大减少企业级应用约95%的开发成本。 基于多年的深度…