用Python+OpenCV截取视频中所有含有字幕的画面

news2025/1/9 2:29:59

1、需求背景

有的视频文件的字幕已经压制到了视频的图像中,不能单独提取出字幕文件。网上的 “提取视频字幕” 网站多为提取视频中的字幕文件,而非识别视频图像中的字幕。少数通过OCR技术识别画面中字幕的工具需要在线运行、运行速度较慢,或者需要收费,使用不够灵活。

我希望实现在视频中提取字幕截图的程序,需要解决两个关键问题:一是如何判断视频中是否出现了字幕,二是如何确定字幕何时发生变化。然后在有字幕且字幕刚刚发生变化时,截取并保存字幕图片。

为了解决这两个问题,我的主要思路是利用视频中字幕的固定位置和特殊颜色进行提取。通常情况下,字幕会出现在视频的特定区域,并且其颜色与周围背景颜色不同、并使用固定颜色。我们可以通过指定字幕所在的区域坐标和颜色来提取字幕图像。

然后通过判断在指定区域内符合指定颜色的像素值是否超过阈值,来判断是否存在字幕。而通过判断两帧画面之间的像素差异数是否超过阈值,来判断字幕是否变化

通过这种方式,并根据实际情况调整参数,可以达到比较合适的漏检率和误检率,从而实现较好的字幕提取效果。

2、设计思路

2.1 读取视频的迭代器函数 VideoIter

函数实现从视频中迭代获取指定时间范围内的帧图像,它接受4个参数:file表示视频文件路径,start_time表示开始时间(单位秒,后同),end_time表示结束时间,step_time表示迭代步长。其中start_timeend_time可以设置为负数,表示为相对于总时长的倒数时间位置,step_time设置为负数时表示为倒序迭代视频中的图像。

函数从视频的start_time开始时间开始截取图像,每间隔step_time步长时间捕获一张图像,将帧图像作为生成器(yield)的输出,直到达到end_time结束时间停止。

2.2 图像预处理函数 ProcessImage

函数实现从传入图像中裁剪指定区域、并根据给定的颜色和浮动值进行颜色分割,它接受4个参数:img表示输入的图像,area表示要裁取的区域边界坐标(格式为 (x1, y1, x2, y2)),color表示要分割的颜色(格式为 (r, g, b)),float表示颜色分割时的容差范围值。

函数设计从视频画面中裁取字幕出现位置的区域,然后根据设定的字幕颜色和允许容差匹配出文字区域的蒙版。最后,使用OpenCV的方法根据颜色阈值对图像进行转换,并将函数处理过的图像返回。

2.3 提取视频中字幕图像的主函数 ExtractSubtitle

函数实现从视频中提取字幕图像,它接受7个参数:file表示视频文件路径,area表示字幕所在区域的边界坐标(格式为 (x1, y1, x2, y2)),color表示字幕的颜色(格式为 (r, g, b)),float表示颜色判断时的容差范围值,count_thresh表示像素计数阈值,diff_thresh表示像素差异阈值,delay表示显示图像的延迟时间。

函数通过循环调用VideoIter函数迭代读取视频中的帧图像,并使用ProcessImage函数处理图像,将字幕部分提取出来。在处理过程中,函数统计处理后图像中非零像素的数量,并计算当前图像与上一帧图像的像素差异。如果像素数量和像素差异数值均超过了各自设定的阈值,就将当前帧图像显示输出(作为调试)、并将视频帧图像保存到视频文件同名的文件夹中。文件命名包含帧序号、像素数量、和像素差异数(用于调试参考)。

3、实现代码

import os
import cv2
import numpy as np

def imshow(img, delay=1, title=''):
    cv2.imshow('', img)
    cv2.setWindowTitle('', title)
    cv2.waitKey(delay)

def imwrite(file, im):
    cv2.imencode('.jpg', im)[1].tofile(file)

def VideoIter(file, start_time, end_time, step_time):
    cap = cv2.VideoCapture(file)
    fps = cap.get(cv2.CAP_PROP_FPS)
    total_time = int(cap.get(cv2.CAP_PROP_FRAME_COUNT)) / fps
    if np.signbit(start_time):
        start_time += total_time
    if np.signbit(end_time):
        end_time += total_time
    for current_time in np.arange(start_time, end_time, step_time):
        cap.set(cv2.CAP_PROP_POS_FRAMES, int(fps * current_time))
        ret, img = cap.read()
        if not ret:
            break
        yield img
    cap.release()

def ProcessImage(img, area, color, float):
    x1, y1, x2, y2 = area
    img = img[y1:y2, x1:x2]
    r, g, b = color
    rgb1 = (r - float, g - float, b - float)
    rgb2 = (r + float, g + float, b + float)
    img = cv2.inRange(img, rgb1, rgb2)
    return img

def ExtractSubtitle(file, area, color, float, count_thresh, diff_thresh, delay):
    folder = os.path.splitext(file)[0]
    os.makedirs(folder, exist_ok=True)

    img1 = None
    diff = 0
    for id, img in enumerate(VideoIter(file, 0, -1, 1), 1):
        img2 = ProcessImage(img, area, color, float)
        count = cv2.countNonZero(img2)
        if img1 is not None:
            diff = cv2.countNonZero(img1 ^ img2)
        img1 = img2
        if count > count_thresh and diff > diff_thresh:
            imshow(img2, delay=delay, title=f'count={count}, diff={diff}')
            save_path = f'{folder}/img_{id:06}@count={count}@diff={diff}.jpg'
            imwrite(save_path, img)

if __name__ == '__main__':
    video_path = '三体.S01E01.HD1080P.mp4'

    area_xyxy = (564, 722, 1328, 784)
    subtitle_rgb = (250, 250, 250)
    floating_range = 10

    count_thresh = 1000
    diff_thresh = 400
    delay = 1

    ExtractSubtitle(video_path, area_xyxy, subtitle_rgb, floating_range, count_thresh, diff_thresh, delay)

函数运行前有若干参数需要确定,首先是字幕出现的位置字幕的颜色

截取若干典型的视频中包含字幕的图像,然后通过图画板确定字幕出现的位置,用取色器获得字幕的RGB值。

读取字幕位置坐标:

读取字幕位置坐标

字幕颜色取色:

字幕颜色取色

另外两个需要设定的参数,是判断图像中存在字幕的阈值、和字幕发生变化的阈值。很显然,这两个数值都应大于0。

其中,存在字幕的阈值设置得越低,则会有越多的本不包含字幕,但是由于背景色中存在和字幕相同颜色而被误判断成为含有字幕的图片。

发生变化的阈值设置得越低,则会有越多的相同的字幕画面由于图片压缩或背景差异,有少量像素存在区别,被误判断成字幕已经发生变化,导致截取出多余的字幕画面图像

在具体调试时,可以先将这两个参数设定为0,然后运行程序。在弹出的可视化窗口中,在标题中可以看到我设置的这两个参数的计算数值。

结合实际裁取出的图像,我们可以适当地设计这两个门限参数的数值,通过调整参数并观察提取结果,以获得较好的字幕图像截取效果。

4、运行效果

测试运行60分钟的网飞《三体》第一集,一共提取出了600张截图,有比较良好的漏检率和误检率。如果按照1秒钟看5张图的话,2分钟就可以看完60分钟的第一集。

程序运行结果:

程序运行结果

拼合字幕图片:

import glob
import cv2
import numpy as np

imread = lambda file: cv2.imdecode(np.fromfile(file, np.uint8), -1)
imwrite = lambda file, img: cv2.imencode('.jpg', img)[1].tofile(file)

def MergeSubtitles(folder, h1, h2):
    imgs = []
    for path in glob.glob(f'{folder}/*.jpg'):
        img = imread(path)
        imgs.append(img[h1:h2])
    final_image = cv2.vconcat(imgs)
    imwrite(f'{folder}.jpg', final_image)

if __name__ == '__main__':
    MergeSubtitles('三体.S01E01.HD1080P', 722, 784)

最终图片效果:

截图效果展示

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1579037.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

React - 你知道在React组件的哪个阶段发送Ajax最合适吗

难度级别:中级及以上 提问概率:65% 如果求职者被问到了这个问题,那么只是单纯的回答在哪个阶段发送Ajax请求恐怕是不够全面的。最好是先详细描述React组件都有哪些生命周期,最后再回过头来点题作答,为什么应该在这个阶段发送Ajax请求。那…

spring cloud gateway openfeign 联合使用产生死锁问题

spring cloud gateway openfeign 联合使用产生死锁问题&#xff0c;应用启动的时候阻塞卡住。 spring.cloud 版本如下 <dependency><groupId>org.springframework.cloud</groupId><artifactId>spring-cloud-dependencies</artifactId><vers…

Labview复制文件夹下的内容到另一个文件夹下

1.程序前面板和后面板 2设置 3执行 4.执行后 5源代码 链接&#xff1a;https://pan.baidu.com/s/1u4cHmA_jUL_hptbiIhTVDA?pwdafu6 提取码&#xff1a;afu6

12个建筑数据分析典型用例

建筑企业面临着众多挑战&#xff0c;包括紧迫的期限、预算限制和复杂的监管要求。 然而&#xff0c;很明显&#xff0c;数据分析可以成为克服这些障碍的重要工具。 建筑行业是数据最密集的市场之一&#xff0c;这就是为什么越来越需要更好的建筑分析和大数据管理。 通过大数据…

OpenCV图像处理——基于OpenCV的ORB算法实现目标追踪

概述 ORB&#xff08;Oriented FAST and Rotated BRIEF&#xff09;算法是高效的关键点检测和描述方法。它结合了FAST&#xff08;Features from Accelerated Segment Test&#xff09;算法的快速关键点检测能力和BRIEF&#xff08;Binary Robust Independent Elementary Feat…

期货量化交易软件:MQL5 中的范畴论 (第 15 部分)函子与图论

概述 在上一篇文章中&#xff0c;我们目睹了前期文章中涵盖的概念&#xff08;如线性序&#xff09;如何视作范畴&#xff0c;以及为什么它们的“态射”在与其它范畴相关时即构成函子。在本文中&#xff0c;我们赫兹量化软件将阐述来自前期文章中的概括&#xff0c;即通过查看…

DXP学习002-PCB编辑器的环境参数及电路板参数相关设置

目录 一&#xff0c;dxp的pcb编辑器环境 1&#xff0c;创建新的PCB设计文档 2&#xff0c;PCB编辑器界面 1&#xff09;布线工具栏 2&#xff09;公用工具栏 3&#xff09;层标签栏 ​编辑 3&#xff0c;PCB设计面板 1&#xff09;打开pcb设计面板 4&#xff0c;PCB观…

SSH如何端口映射?

SSH端口映射&#xff08;SSH Port Forwarding&#xff09;是一种通过SSH协议进行端口转发的技术&#xff0c;它能够实现在不直接将服务暴露在公网的情况下&#xff0c;通过私有通道传输数据&#xff0c;并保障数据的安全加密。 SSH端口映射的原理 SSH端口映射主要包括本地端口…

二维码门楼牌管理应用平台建设:智慧化管理的新篇章

文章目录 前言一、二维码门楼牌管理应用平台的建设背景二、二维码门楼牌管理应用平台的功能特点三、二维码门楼牌管理应用平台的意义与价值四、结语 前言 随着信息技术的不断发展&#xff0c;二维码门楼牌管理应用平台的建设已成为城市管理的必然趋势。通过这一平台&#xff0…

稀碎从零算法笔记Day42-LeetCode:分发糖果

题型&#xff1a;数组、贪心 链接&#xff1a; 来源&#xff1a;LeetCode 题目描述 n 个孩子站成一排。给你一个整数数组 ratings 表示每个孩子的评分。 你需要按照以下要求&#xff0c;给这些孩子分发糖果&#xff1a; 每个孩子至少分配到 1 个糖果。相邻两个孩子评分更…

绝地求生:齐贺PUBG七周年!分享你的游玩感受及反馈赢惊喜道具

PUBG七周年庆典火热进行中&#xff0c;特殊道具、周年主题艾伦格上线&#xff01;七周年期间游玩PUBG&#xff0c;在评论区分享你的游玩感受及反馈&#xff0c;即可参与活动赢取夏日浪潮宝箱奖励。 参与方式 齐贺PUBG七周年&#xff01;在评论区分享分享你的七周年游玩感受及反…

查看MySQL版本的方式

文章目录 一、使用cmd输入命令行查看二、在mysql客户端服务器里查询 一、使用cmd输入命令行查看 1、打开 cmd &#xff0c;输入命令行&#xff1a; mysql --version 2、还是打开cmd&#xff0c;输入命令行&#xff1a;mysql -V (注意了&#xff0c;此时的V是个大写的V) 二、…

5.网络编程-socker(golang版)

目录 一、什么是socket&#xff1f; 二、Golang中使用TCP TCP服务端 TCP客户端​​​​​​​ 三、TCP黏包&#xff0c;拆包 1.什么是粘包&#xff0c;拆包&#xff1f; 2.为什么UDP没有粘包&#xff0c;拆包&#xff1f; 3.粘包拆包发生场景 4.TCP黏包 黏包服务端 …

RocketMQ 之 IoT 消息解析:物联网需要什么样的消息技术?

作者&#xff1a;林清山&#xff08;隆基&#xff09; 前言&#xff1a; 从初代开源消息队列崛起&#xff0c;到 PC 互联网、移动互联网爆发式发展&#xff0c;再到如今 IoT、云计算、云原生引领了新的技术趋势&#xff0c;消息中间件的发展已经走过了 30 多个年头。 目前&a…

整理的微信小程序日历(单选/多选/筛选)

一、日历横向多选&#xff0c;支持单日、双日、三日、工作日等选择 效果图 wxml文件 <view class"calendar"><view class"section"><view class"title flex-box"><button bindtap"past">上一页</button&…

00-JAVA基础-JVM类加载机制及自定义类加载器

JVM 类加载机制 JVM类加载机制是Java运行时环境的核心部分&#xff0c;它负责将类的.class文件加载到JVM中&#xff0c;并将其转换为可以被JVM执行的数据结构。 类加载的整体流程 类加载的整体流程可以分为五个阶段&#xff1a;加载&#xff08;Loading&#xff09;、链接&a…

java数据结构与算法刷题-----LeetCode238. 除自身以外数组的乘积

java数据结构与算法刷题目录&#xff08;剑指Offer、LeetCode、ACM&#xff09;-----主目录-----持续更新(进不去说明我没写完)&#xff1a;https://blog.csdn.net/grd_java/article/details/123063846 文章目录 1. 动态规划&#xff1a;左右乘积列表2. 滚动数组对动态规划过程…

flutter组件_AlertDialog

官方说明&#xff1a;A Material Design alert dialog. 翻译&#xff1a;一个材料设计警告对话框。 作者释义&#xff1a;显示弹窗&#xff0c;类似于element ui中的Dialog组件。 AlertDialog的定义 const AlertDialog({super.key,this.icon,this.iconPadding,this.iconColor,t…

Cortex-M4架构

第一章 嵌入式系统概论 1.1 嵌入式系统概念 用于控制、监视或者辅助操作机器和设备的装置&#xff0c;是一种专用计算机系统。 更宽泛的定义&#xff1a;是在产品内部&#xff0c;具有特定功能的计算机系统。 1.2 嵌入式系统组成 硬件 ①处理器&#xff1a;CPU ②存储器…

分布式事务 - 个人笔记 @by_TWJ

目录 1. 传统事务1.1. 事务特征1.2. 事务隔离级别1.2.1. 表格展示1.2.2. oracle和mysql可支持的事务隔离级别 2. 分布式事务2.1. CAP指标2.2. BASE理论2.3. 7种常见的分布式事务方案2.3.1. 2PC2.3.2. 3PC2.3.3. TCC2.3.3.1. TCC的注意事项&#xff1a;2.3.3.2. TCC方案的优缺点…