whisperX 语音识别本地部署

news2024/12/25 21:32:33

WhisperX 是一个优秀的开源Python语音识别库。
下面记录Windows10系统下部署Whisper
1、在操作系统中安装 Python环境
2、安装 CUDA环境
3、安装Annaconda或Minconda环境
4、下载安装ffmpeg
下载release-builds包,如下图所示
在这里插入图片描述
将下载的包解压到你想要的路径,然后配置系统环境:我的电脑->高级系统设置->环境变量->Path
在这里插入图片描述
在这里插入图片描述
设置完成后打开cmd窗口输入

ffmpeg

在这里插入图片描述
5、conda环境安装指定位置的虚拟环境

conda create --name whisperXVenv --prefix=D:\Projects\LiimouDemo\WhisperX\Code\whisperX\whisperXVenv python=3.10

6、激活虚拟环境

conda activate D:\Projects\LiimouDemo\WhisperX\Code\whisperX\whisperXVenv

7、安装WhisperX库

pip install git+https://github.com/m-bain/whisperx.git

8、更新WhisperX库

pip install git+https://github.com/m-bain/whisperx.git --upgrade

9、在Python中使用

import whisperx
import time
import zhconv
device = "cuda"
audio_file = "data/test.mp3"
batch_size = 16 # reduce if low on GPU mem
compute_type = "float16" # change to "int8" if low on GPU mem (may reduce accuracy)
# compute_type = "int8" # change to "int8" if low on GPU mem (may reduce accuracy)
print('开始加载模型')
start = time.time()
# 1. Transcribe with original whisper (batched)
model = whisperx.load_model("large-v2", device, compute_type=compute_type)
# model = whisperx.load_model("small", device, compute_type=compute_type)
end = time.time()
print('加载使用的时间:',end-start,'s')
start = time.time()
audio = whisperx.load_audio(audio_file)
result = model.transcribe(audio, batch_size=batch_size)

print(result["segments"][0]["text"]) # before alignment
end = time.time()
print('识别使用的时间:',end-start,'s')

封装上述代码,初始化时调用一次loadModel()方法,之后使用就直接调用asr(path)方法

import whisperx
import zhconv
from whisperx.asr import FasterWhisperPipeline
import time

class WhisperXTool:
    device = "cuda"
    audio_file = "data/test.mp3"
    batch_size = 16  # reduce if low on GPU mem
    compute_type = "float16"  # change to "int8" if low on GPU mem (may reduce accuracy)
    # compute_type = "int8" # change to "int8" if low on GPU mem (may reduce accuracy)
    fast_model: FasterWhisperPipeline

    def loadModel(self):
        # 1. Transcribe with original whisper (batched)
        self.fast_model = whisperx.load_model("large-v2", self.device, compute_type=self.compute_type)
        print("模型加载完成")

    def asr(self, filePath: str):
        start = time.time()
        audio = whisperx.load_audio(filePath)
        result = self.fast_model.transcribe(audio, batch_size=self.batch_size)
        s = result["segments"][0]["text"]
        s1 = zhconv.convert(s, 'zh-cn')
        print(s1)
        end = time.time()
        print('识别使用的时间:', end - start, 's')
        return s1

zhconv是中文简体繁体转换的库,安装命令如下

pip install zhconv

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/656524.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

华为OD机试之Boss分销提成计算(boss的收入)(Java源码)

Boss分销提成计算(boss的收入) 题目描述 一个XX产品行销总公司,只有一个boss,其有若干一级分销,一级分销又有若干二级分销,每个分销只有唯一的上级分销. 规定,每个月,下级分销需要将…

利用OpenCV做个熊猫表情包吧

有的时候很想把一些有意思的图中的人脸做成熊猫表情,但是由于不太会ps,只能无奈放弃,so sad... 正好最近想了解下opencv的使用,那就先试试做个简单的熊猫表情生成器把~~ 思路就是,工具给两个参数,一个是人…

矩阵卷积之边缘计算

目录 note code test note code // 不扩充边缘的矩阵卷积,输出矩阵和输入矩阵一样大 void MyMatConvolute2(Mat& src, Mat& kernel, Mat& res) {if (src.type() ! CV_8UC1) {return;}if ((kernel.type() ! CV_8UC1) || (kernel.rows ! kernel.cols) …

2023年端午节放假通知

过节、业务两不误,服务“不打烊”。欢迎新老客户前来咨询下单!感谢各位一直以来的支持和信赖,你们是易天光通信成长道路上不可或缺的力量,提前祝大家在端午节玩得开心,吃得开心! 深圳易天光通信有限公司 …

C#打印控件ReportViewer使用总结(三)

ReportViewer控件设计 在工具箱中添加ReportViewer控件&#xff0c;控件名称为reportViewer1。 2.绑定报表和数据集 /// <summary> /// 绑定报表和数据集 /// </summary> private void DataBing() { //绑定报表 this.reportViewer1.LocalReport.ReportPath Syste…

Java官方笔记8泛型

泛型 为什么需要泛型&#xff1f;generics enable types (classes and interfaces) to be parameters when defining classes, interfaces and methods. 说白了就像Python动态语言的变量&#xff0c;是动态的&#xff0c;可以指向任意类型。 泛型有个好处是不需要类型转换&…

有没有不限制群发数量的软件?

父亲节的由来 父亲节&#xff08;Fathers Day&#xff09;&#xff0c;顾名思义是感恩父亲的节日。 世界上第一个父亲节&#xff0c;1910年诞生于美国。 而中国的父亲节起源要追溯到民国时代。民国三十四年的八月八日&#xff08;1945.8.8&#xff09;&#xff0c;上海文人所…

git-在当前分支做变基(rebase current onto selected)

文章目录 git rebase变基git rebase使用场景git rebase还是git merge?在当前分支做变基使用总结 git rebase变基 初学git&#xff0c;在合并分支上必定会常用到 git merge 语法。git除了使用合并(merge)集成2个分支之间的更改&#xff0c;还有另外一种称为rebase的方法。 gi…

R -- corrplot包

文章目录 常用参数简介method测试部分type参数测试diag参数测试order参数测试 常用参数简介 corrplot包常用参数介绍&#xff1a; corr: 必需参数&#xff0c;表示相关性矩阵&#xff0c;可以是数据框或者矩阵。 method: 表示绘制相关性矩阵的方法&#xff0c;有以下几种取值…

H5语义化标签

语义化标签 HTML5引入了一组语义化标签,这些标签旨在更好地描述网页内容的结构和含义。通过使用这些标签,可以提高网页的可读性、可访问性、搜索引擎优化,以及代码的可维护性。以下是对HTML5语义化标签的详细解释: <header>:用于定义页面或区块的页眉部分,通…

centos8 KDC认证

20国赛公开卷KDC做法&#xff08;个人整理&#xff09; 先根据题意&#xff0c;用chrony服务同步时间 Linux-1为KDC服务器&#xff0c;认证Linux-2和Linux-3.三台都先同步时间。 所有的Linux selinux都为enforcing&#xff0c;防火墙都是打开的。此次为临时测试整理&#xff…

Java常见面试题之SSM | Spring Boot(不定时更新)

IOC DI机制 IOC的意思是控制反转,控制的意思啊由Spring 工厂控制对象,反转是从我们主动创建好对象反转为等待Spring 工厂的注入 DI是依赖注入,组件需要的依赖对象由容器注入,主要通过setter 构造器 接口三种注入方式注入. AOP 面向切面编程 AOP思想是做无侵入式的功能增强,即在…

English Learning - L3 作业打卡 Lesson6 Day40 2023.6.13 周二

English Learning - L3 作业打卡 Lesson6 Day40 2023.6.13 周二 引言&#x1f349;句1: As they are expected to be hungry after their long journey, food is laid out for them.成分划分弱读连读爆破语调 &#x1f349;句2: Specially-made lanterns are hung outside each…

ASEMI代理光宝高速光耦LTV-6341特征,LTV-6341应用

编辑-Z LTV-6341参数描述&#xff1a; 型号&#xff1a;LTV-6341 储存温度Tstg&#xff1a;-55~ 150℃ 工作温度Topr&#xff1a;-40~ 125℃ 总输出电源电压(VCC –VEE)&#xff1a;35V 平均正向输入电流IF&#xff1a;25mA 反向输入电压VR&#xff1a;5V 输入电流&…

第15章_锁

第15章_锁 事务的 隔离性 由这章讲述的 锁 来实现。 1. 概述 锁是计算机协调多个进程或线程并发访问某一资源的机制。在程序开发中会存在多线程同步的问题&#xff0c;当多个线程并发访问某个数据的时候&#xff0c;尤其是针对一些敏感的数据&#xff08;比如订单、金额等)&…

老板喜欢表现型管理者,而不是实干型管理者?

最近热搜榜&#xff1a;月薪几万运营总监只会管鸡毛蒜皮 很多老板在招聘方面往往会有些着急&#xff0c;他们可能会把同样的项目交给两个团队去完成&#xff0c;然后比较两个团队的表现。 其中&#xff0c;t1团队的负责人老王&#xff0c;整天忙于拍视频、发朋友圈、写汇报&am…

2023年江西省赣州市职业院校技能大赛(中职组) 网络安全竞赛试题(6月17日竞赛真题))

2023年江西省赣州市职业院校技能大赛&#xff08;中职组&#xff09; 网络安全竞赛试题 三、竞赛任务书内容 &#xff08;一&#xff09;拓扑图 &#xff08;二&#xff09;A模块基础设施设置/安全加固&#xff08;200分&#xff09; 一、项目和任务描述&#xff1a; 假定你…

宾利添越升级ACC自适应巡航+抬头显示HUD+Naim音响案例分享

大家好&#xff0c;我是小志bzs878&#xff0c;专注名车原厂升级&#xff0c;欢迎戳戳右上角“”号关注一下&#xff0c;持续为您带来精彩改装案例 今天装车一台宾利添越&#xff0c;几百个W的气场非常强大的豪车还需要加装什么项目&#xff1f; 车子还未上牌&#xff0c;今天…

python---------xpath提取数据------打破局限

作者前言 欢迎小可爱们前来借鉴我的gtiee秦老大大 (qin-laoda) - Gitee.com 目录 为什么要学习XPATH和LXML类库 什么是XPATH 认识XML XML的节点关系 常⽤节点选择⼯具 节点选择语法 节点修饰语法 选择未知节点 lxml库 _____________________________________________…

层次分析法(MATLAB)

对之前的学习进行总结&#xff0c;整个比赛下来好像就用到了这个方法&#xff0c;最后也不知道对不对&#xff0c;反正最后还有点赶&#xff0c;就是很懵的那种&#xff0c;对于层次分析话的还是有点了解了&#xff0c;由于是纯小白&#xff0c;有错误的地方希望各位大佬能够指…