【开源工具】使用Whisper提取视频、语音的字幕

news2025/1/12 16:13:15

这里写目录标题

  • 一、语音转字幕操作步骤
    • 1、下载安装包Assets\WhisperDesktop.zip[^2]
    • 2、加载模型
      • 2.1 下载模型
        • 2.1.1 进入Hugging Face[^3]的仓库
        • 2.1.2 选择需要下载的模型
        • 2.1.3 配置模型路径
    • 3、语音转字幕
    • 4、实时语言转录功能
  • 二、相关简介[^1]
    • 特点
    • 开发人员指南
      • 构建说明
      • 其他注意事项
      • 绩效说明
      • 进一步优化
      • 缺少的功能
      • 结尾语

一、语音转字幕操作步骤

1、下载安装包Assets\WhisperDesktop.zip1

2、加载模型

运行WhisperDesktop.exe,
启动后加载模型“load model,please wait…”,等待其将模型加载到内存。

2.1 下载模型

刚开始是没有模型的,需要到Hugging Face2的仓库里面下载模型并配置相关路径

2.1.1 进入Hugging Face2的仓库

点击ggerganov/whisper.cpp进入Hugging Face仓库

2.1.2 选择需要下载的模型

在Hugging Face仓库,选择Files and versions,选择以下两种模型:

  • ggml-large.bin
  • ggml-medium.bin
    在这里插入图片描述

2.1.3 配置模型路径

在Load Whisper Model 页,Model Path选择好模型的路径D:\WhisperDestop\ggml-whisper.bin,点击OK,等待其将模型加载到内存。

3、语音转字幕

在Transcribe Audio File页面:

  1. Language:Chinese(视频或语音说话使用的语种)
  2. Translate: (把识别出来的文本给翻译成英文输出)
  3. Transcribe File:C:\xxx.mp4(选择你要提取字幕的视频、音频等)
  4. Output Format:SubRip subtitles(输出格式)
    • None:
    • Text file:纯文本
    • Text with timestamps
    • SubRip subtitles:字幕(标准的字幕格式 时段+文字)
      可以将后缀改为.srt格式,这样的文件可以直接拖放到剪辑软件里面,他会自动给你排列好,像这样的字幕是不需要咱们来对时间的
    • WebVTT subtitles

4、实时语言转录功能

开启实时语言转录之后,你对它说话的话,他会自动把你说的话转换成文字并记录下来

二、相关简介3

特点

  • 基于DirectCompute的供应商无关GPGPU;该技术的另一个名称是“Direct3D 11中的计算着色器”

  • 简单的C++实现,除了基本的操作系统组件之外没有运行时依赖项

  • OpenAI的实现快得多。
    在我的台式电脑上,使用GeForce 1080Ti GPU,中等型号,用PyTorchCUDA转录3:24分钟的语音需要45秒,但我的实现和DirectCompute只需要19秒。
    有趣的是:这是9.63 GB的运行时依赖项,而Whisper.dll431 KB

  • 混合F16/F32精度:自D3D v10.0版本起,Windows需要支持R16_FLOAT缓冲区

  • 内置性能探查器,用于测量单个计算着色器的执行时间

  • 内存使用率低

  • 用于音频处理的Media Foundation支持大多数音频和视频格式(Ogg Vorbis除外),以及大多数在Windows上工作的音频捕获设备(一些专业设备除外,它们只实现ASIO API)。

  • 用于音频捕获的语音活动检测。
    该实现基于Mohammad MoattarMahdi Homayoonpoor 2009年的文章“一种简单但高效的实时语音活动检测算法”。

  • 易于使用的COM型APInuget上提供了惯用的C#包装。1.10版引入了对PowerShell 5.1的脚本支持,这是Windows上预装的旧版本“Windows PowerShell”

  • 可用的预构建二进制文件

唯一支持的平台是64位 Windows
应该在Windows 8.1或更新版本上工作,但我只在Windows 10上测试过。
该库需要一个支持Direct3D 11.0GPU,在2023年,它的意思只是“任何硬件GPU”。最新的不支持D3D 11.0GPU2011年的Intel Sandy Bridge

CPU方面,库需要AVX1F16C支持。

开发人员指南

构建说明

  1. 克隆此存储库

  2. Visual Studio 2022中打开WhisperCpp.sln。我使用的是免费软件社区版,版本17.4.4

  3. 切换到Release 配置

  4. 在解决方案的Tools子文件夹中生成并运行CompressShaders C#项目。要运行该项目,请在visual studio中右键单击“设置为启动项目”,然后在VS的主菜单中单击“调试/启动而不调试”。成功完成后,您应该会看到一个控制台窗口,其中有一行如下所示:
    压缩的46个计算着色器,123.5 kb->18.0 kb

5.构建Whisper项目以获得本机DLL,或用于C#包装器和nuget包的WhisperNet或示例。

其他注意事项

如果你要在使用Visual C++2022或更新版本构建的软件中使用该库,你可能会以.msm合并模块或vc_redist.x64.exe二进制文件的形式重新分发Visual C++运行时DLL

如果你这样做,右键单击Whisper项目、属性、C/C++、代码生成,将“Runtime Library”设置从Multi-threaded (/MT)切换到Multi-threaded DLL (/MD),然后重建:二进制文件将变得更小。

该库包括RenderDoc GPU调试器集成。
RenderDoc启动程序时,按住F12键以捕获计算调用。

如果要调试HLSL着色器,请使用DLL的调试构建,其中包括着色器的调试构建。您将在调试器中获得更好的用户体验。
该存储库包括许多仅用于开发的代码:耦合替代模型实现、一些计算着色器的兼容FP64版本、调试跟踪和比较跟踪的工具等。

这些东西被预处理器宏constexpr标志禁用了,我希望保留在这里没问题。

绩效说明

我在办公地点选择了几款GPU进行有限的测试。

具体来说,我已经为英伟达 1080TiRyzen 7 5700G内部的Radeon Vega 8Ryzen 5 5600U内部的Radeon Vega 7进行了优化。

总结如下。

英伟达为大型型号提供了5.8的相对速度,为中型型号提供了10.6的相对速度。

AMD Ryzen 5 5600U APU为中型型号提供了约2.2的相对速度。不太好,但仍然比实时快得多。

我也在英伟达 1650上测试过:比1080Ti慢,但很好,比实时快得多。

我还测试了酷睿i7-3612QM内部的Intel HD Graphics 4000,中等型号的相对速度为0.14,小型型号为0.44。这比实时慢得多,但我很高兴发现我的软件即使在2012年推出的集成移动GPU上也能工作。

我不确定离散AMD GPU或集成Intel GPU的性能是否理想,它们没有专门针对它们进行优化。
理想情况下,它们可能需要两个最昂贵的计算着色器(mulMatTiled.hlslmulMatByRowTiled.hlsl)的稍微不同的构建。
也许还有其他调整,比如Whisper/D3D/device.h头文件中的useReshapedMatMul()值。

我不知道如何衡量,但我有一种感觉,瓶颈是内存,而不是计算。
黑客新闻上有人测试了3060Ti,即带有GDDR6内存的版本。与1080Ti相比,该GPU具有1.3倍FP32 FLOPS,但具有0.92倍VRAM带宽。该应用程序在3060Ti上慢了约10%。

进一步优化

我只花了几天时间优化这些着色器的性能。
也许可以做得更好,以下是一些想法。

  • 与FP32相比,Radeon Vega或nVidia 1650等较新的GPU具有更高的FP16性能,但我的计算着色器仅使用FP32数据类型。
    一半的细致,两倍的乐趣

  • 在当前版本中,FP16张量使用着色器资源视图向上转换加载的值,使用无序访问视图向下转换存储的值。
    切换到字节地址缓冲区,加载/存储完整的4字节值,并使用f16t32/f32-tof16内部函数在HLSL中进行上变频/下变频可能是个好主意。

  • 在当前版本中,所有着色器都是脱机编译的,Whisper.dll包含DXBC字节码。
    HLSL编译器D3DCompiler_47.dll是一个操作系统组件,速度非常快。对于昂贵的计算着色器,最好提供HLSL而不是DXBC,并在启动时使用宏的特定于环境的值进行编译。

  • 将整个东西从D3D11升级到D3D12可能是个好主意。
    较新的API更难使用,但它包含了D3D11没有的潜在有用功能:wave intrinsic和explicit FP16.。

缺少的功能

未实现自动语言检测。
在当前版本中,实时音频捕获的延迟很高。
具体而言,根据语音检测,该数字约为5-10秒。
至少在我的测试中,当我提供的音频片段太短时,模型并不满意。

我已经增加了延迟并结束了这一天,但理想情况下,这需要一个更好的解决方案来优化用户体验。

结尾语

在我看来,这是一个无偿的业余项目,我在2022-23年的寒假里完成了。

代码可能有一些bug。

软件是“原封不动”提供的,没有任何形式的担保。

感谢Georgi Gerganov实现了whisper.cpp以及GGML二进制格式的模型。

我不会编写Python程序,也对ML生态系统一无所知。

如果没有一个好的C++参考实现来测试我的版本,我甚至不会启动这个项目。

whisper.cpp项目有一个例子,它使用相同的GGML实现来运行另一个OpenAI的模型GPT-2。

用这个项目中已经实现的计算着色器和相关基础设施来支持ML模型应该不难。

如果你觉得这很有用,如果你考虑向“Come Back Alive”基金会捐款,我将不胜感激。


  1. http://github.xiaoc.cn/Const-me/Whisper/releases/tag/1.11.0 ↩︎

  2. https://www.huggingface.co/ggerganov/whisper.cpp ↩︎ ↩︎

  3. http://github.xiaoc.cn/Const-me/Whisper ↩︎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/659348.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【MySql】表的内连接和外连接

文章目录 内连接外连接左外连接右外连接 OJ题目 本篇博客主要介绍的内容是表的连接,在MySql中表的连接分为内连接和外连接,下面,我们直接进入主题把 内连接 内连接实际上就是利用where子句对两种表形成的笛卡儿积进行筛选,我们前…

Ubuntu Win10 github.com访问很慢的解决办法

win10 请看这里: 解决国内 github.com 打不开的最最最准确方法_github打不开_杨大脸I的博客-CSDN博客 Ubuntu 请看这里: 看了上面的就应该知道, 需要两步骤:1、修改host文件;2、刷新DNS 1、修改host文件 Ubuntu修改hosts文件_ub…

PySpark集群环境安装(HA-Standalone模式)

PySpark是Python中的一个库, 由Spark官方提供. 专供用户使用Python语言操作Spark 1. 首先安装python环境 基于anaconda的虚拟环境方案,来安装python。因为anaconda可以虚拟出多个Python环境, 且各个环境相对独立,能够解决python版本的兼容性问题 1.1 …

Rust的特征对象

文章目录 Rust的特征对象前言在屏幕上绘制各种UI组件 Rust的特征对象 前言 特征对象不像泛型和impl trait这种零成本抽象,特征对象是在runtime时确定具体类型,有一定的性能开销。当我们需要函数参数是一类实现了特定trait的类型时,这时候就…

4个Camtasia2023隐藏新功能,99%的人都不知道!

在今年5月,全能录屏软件 Camtasia 迎来了2023新版,带来非常多新功能,让制作录屏视频的效果再上一层楼!所有购买过旧版 Camtasia 的老用户,都可以享受优惠升级。 Camtaisa 获取: http://souurl.cn/YWkrO7 更…

【Java高级语法】(六)内部类Inner Class:这可能是史上最全的关于内部类的学习资料~

Java高级语法详解之包装类 :one: 概念:two: 优缺点:three: 使用2.1 成员内部类2.2 局部内部类2.3 匿名内部类2.4 静态内部类2.5 小结:外部类访问四种内部类的特点2.6 小结:其他类访问四种内部类的特点 :four: 内部类与外部类的关系:five: 应用场景:six: …

云贝餐饮连锁独立版 v2.6.1+公众号+小程序端+抖音端端+全插件免授权版安装配置教程

云贝餐饮系统应该持续做好多年了,以前的版本都需要授权一直没使用,优选源码网整体测试下感觉从体验上还有逻辑设计上都非常不错,首页、会员中心支持DIY装修,配送支持多种平台对接,基本上餐饮行业需要的功能都能满足了。…

收件地址解析成 省+市+区+详细地址的形式

项目中的源代码在我的GitHub:https://github.com/weitw/address-analyzer 先看效果: 如上图,address数输入的地址,Address对象是解析后的地址。可以支持逆推上一级,且支持地址白话解析。 一、项目介绍 1、解析规则 …

13年测试老鸟,带你详探服务端的接口测试,测试内卷之路...

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 服务器的接口测试…

Tinywebserver项目运行(docker部署mysql)

. 运行项目运行时遇到的一些其他问题重启mysql容器时发现端口被占用 前言 Tinywebserver是github上一个十分优秀的开源项目,帮助初学者学习如何搭建一个服务器. 本文讲述如何在使用docker部署mysql容器的情况下跟该项目进行连接并将项目运行起来,而不是…

萌萌哒的八戒1

拿到了一个图片,根据图片下方的字符,结合远古时期这个提示,想到了古典密码里的猪圈密码 挨个输入得到when the pig want to eat,套上flag

PyTorch 深度学习 || 2. 全连接网络 | Ch2.3 PyTorch 全连接自编码网络的无监督学习

PyTorch 全连接自编码网络的无监督学习 文章目录 PyTorch 全连接自编码网络的无监督学习1. 数据去噪1.1 计算库和数据准备工作1.2 构建自编码网络1.3 调用主函数1.4 可视化 2. 数据的重建与降维2.1 计算模块和数据的准备2.2 自编码网络数据准备2.3 自编码网络的构建2.4 自编码网…

深入理解程序的结构

文章目录 前言一、程序的组成二、未初始化和初始化变量保存地址三、栈什么时候被创建四、内存映射段总结 前言 本篇文章我们来深入的理解一下理解程序的结构。 一、程序的组成 通常情况下,一个可执行程序由以下几个不同的段组成: 1.代码段 (Text Seg…

怎么针对微服务架构做单元测试?

Martin Fowler 是国际著名的软件专家,敏捷开发方法的创始人之一,现为 ThoughtWorks 公司的首席科学家。在面向对象分析设计、UML、模式、软件开发方法学、XP、重构等方面,都扮演着举足 什么是微服务? 微服务的由来 微服务的前身…

笑谈之传统行业的软件测试

最近进入一传统企业做O2O社区,在里面,项目管理一团混乱,上层对软件测试的理解更是匮乏。今天没有技术,仅是对这些现象的吐槽。当然我相信传统行业不都是这样,所以大家仅当笑谈。 产品经理写的需求文档永远是拿来作为做…

cas单点登录 前端步骤流程

CAS(Central Authentication Service)是一个开源的单点登录协议和实现,它提供了一种统一的方法来管理和验证用户身份,使用户只需通过一次登录即可访问多个应用程序。CAS 单点登录的工作原理是基于服务提供者 (Service Provider) 和…

MNIST机器学习入门

引入所需库 import osimport cv2 import matplotlib.pyplot as plt import numpy as np import pandas as pd import tensorflow as tf from PIL import ImageMNIST数据集 下载MNIST数据集 mnisttf.keras.datasets.mnist (x_train, y_train), (x_test, y_test) mnist.load_…

【干货】Android系统定制基础篇:第七部分-Android OTA升级(系统、应用)

OTA升级应用 项目地址:https://github.com/aystshen/Android-RomUpgrade. 这是一个负责 Android OTA 升级的后台应用,开机后自动运行后台 Service,支持系统升级和应用升级,支持本地升级(tf卡、u盘)和在线升…

数据库系统概述——第一章 绪论(知识点复习+练习题)

✨博主:命运之光 🦄专栏:离散数学考前复习(知识点题) 🍓专栏:概率论期末速成(一套卷) 🐳专栏:数字电路考前复习 🦚专栏:数…

Qt 每月收支计算

Qt 每月收支计算,针对每月有支出(房贷、车贷、花呗、借呗)的情况,计算收支明细,直观看到未来的个人经济情况,培养良好的消费习惯,进行理性的财富支配,量入为出。 #include "mai…