语音识别whisper的介绍、安装、错误记录

news2024/11/26 0:29:23

介绍

Whisper是OpenAI于2022年9月份开源的通用的语音识别模型。它是在各种音频的大型数据集上训练的模型,也是一个可以执行多语言语音识别、语音翻译和语言识别的多任务模型。
论文链接:https://arxiv.org/abs/2212.04356
github链接:https://github.com/openai/whisper

安装

Whisper主要是基于Pytorch实现,所以需要在安装有pytorch的环境中使用。

1、安装Whisper

pip install -U openai-whisper

或者

pip install git+https://github.com/openai/whisper.git

安装好之后,打开cmd界面,执行whisper,出现如下提示说明安装成功
在这里插入图片描述

2、安装FFmpeg

FFmpeg是一款音视频编解码工具。Whisper需要使用FFmpeg工具提取声音数据,所以需要安装配置FFmpeg。
参考博客:https://blog.csdn.net/weixin_45487348/article/details/130722161
安装好之后,,打开cmd界面,执行ffmpeg,出现如下提示说明安装成功
在这里插入图片描述

3、安装Rust

网上很多步骤说,需要安装Rust,用于实现快速分词,因为我暂时没用到这个,所以大家按需下载~

pip install setuptools-rust

使用

命令行方式

# 帮助信息
whisper --help

# 根据官网使用教程可以有以下常用方式
whisper music.mp3 --model tiny --language Chinese --device cuda:0 --initial_prompt "以下是普通话的句子"

上图为Whisper常用的一些参数介绍,通过执行 **whisper --help** 命令得到

Python代码

import whisper
model = whisper.load_model("base", "cpu")
mps_path = r"music.mp3"
result = model.transcribe(mps_path, fp16=False, language='Chinese')
print(result["text"])

说明:如果你的机器有GPU,那这里的**“fp16=False”**不是必须的。因为笔者本地测试机器没有GPU,只用用CPU进行测试,所以这里我设置了这个参数。

whisper模型

在这里插入图片描述

报错信息

以下是笔者调试过程中遇到的错误记录:

Error 1

FileNotFoundError: [WinError 2] 系统找不到指定的文件。

解决办法:
找到External Libraries —> Python 3.8 —> Libs —> subprocess.py —> Ctrl+F 查找“class POpen” ,将shell=False,改为 shell=True。
在这里插入图片描述
参考链接:https://blog.csdn.net/qq_24118527/article/details/90579328

Error 2

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb2 in position 9: invalid start byte

解决办法:
这个问题表面上就是ffmpeg造成的,好像在读取文件的时候某个位置的编码有问题。实际上是由于上面的代码修改后,需要重新启动(在windows系统有这个问题)。
如果重新启动之后,还是出现上述错误,可以按照如下方式重新设置:Pycharm setting —> Tools —> Terminal —> 找到 shell path,将其修改为本地cmd。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1097467.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

4d动感影院座椅5d动感影院体验馆大型7D互动影院

今天来讲一下市场上现在受欢迎的5d7d影院,组成部分,落地方案 5D影院的系统组成部分:1、动感座椅、2、投影幕(银幕)和投影机、3、音箱、4、各种的动感特效、5、5d影院眼镜,很简单的组成硬件,就可以组成一套的5d影院设备…

Windows工业三防平板全功能NFC近距离感应一维/二维扫描

Windows系统工业三防平板电脑是一种在智慧工厂仓储物流、MES数采、车载设备、设备检测、自动化控制等领域广泛应用的先进设备。此外,它还在公共服务领域,如高速交通、物流运输、电力检测、公务执法、银行金融、船舶装备、户外勘测、建筑工程、汽车检测、…

细说晶振元件HC49U的功能、应用及性能特点 | 百能云芯

在电子领域,晶振(Crystal Oscillator)是一种重要的元件,用于产生稳定的时钟信号。HC49U是一种常见的晶振型号,具有广泛的应用范围。云芯将带您深入探讨HC49U晶振的功能、应用领域,以及其性能特点&#xff0…

【算法-回溯法】N皇后问题

一、问题背景 N皇后问题是由八皇后问题引申而来的。八皇后是一个以国际象棋为背景的问题,国际象棋8*8. 怎么去放置八个皇后,使得任何一个皇后都无法直接吃掉其他的皇后?为了达到此目的,任两个皇后都不能处于同一条横行、纵行或斜…

每日汇评:黄金的回调可能会在周五上涨3%之后延续

在连续两天的积极势头下,金价正挑战1880美元的关键水平; 美元跟随美债收益率走低,美联储持谨慎态度,情绪乐观; 黄金价格正处于关键时刻,等待美国通胀数据带来新的方向性走势; 金价正在回撤上周五…

C# OpenCvSharp 利用Lab空间把春天的场景改为秋天

效果 项目 代码 using OpenCvSharp; using System; using System.Diagnostics; using System.Drawing; using System.Drawing.Imaging; using System.Windows.Forms;namespace OpenCvSharp_Demo {public partial class Form1 : Form{public Form1(){InitializeComponent();}st…

安捷伦N8974A分析仪

安捷伦N8974A分析仪 N8974A 是 Agilent 的二手分析仪。分析仪是测试工程、医疗、汽车和技术行业电子设备的关键工具。使用分析仪来监控许多不同类型的电子设备的性能。您可能需要分析仪来测量音频频谱、电压和电流、信号和频率等分量 频率范围:10 MHz 至 6.7 GHz 一…

前端代码优化之从系统区分处理的业务场景看如何优化代码中的if判断

最近有个三端统一的技术场景,主要是以前移动端的 hybrid 网页在不考虑 UI 适配的情况下、期望能够直接在 PC 客户端投放。在评估修改面的时候发现了一段可以深思的代码: if (platform iphone) {location.href iphoneClientUrl; } else {location.href…

白皮书 |得帆云低代码aPaaS X OA全新解决方案,解锁数字化协作新境界

进入正题之前,我们先看两个大厂案例: 10年IBM Lotes OA迁移 -来自国内500强发动机全链路制造公司 主要有如下几个痛点: 系统老旧,扩展性一般,无法集成现有的其他业务系统 随着人员的增加,经常性的出现卡…

linux U盘无法使用,提示“Partition table entries are not in disk order“

问题: U盘在Windows上使用正常,在linux下无法使用fdisk -l 命令提示:Partition table entries are not in disk order $ fdisk -l Disk /dev/sdb: 525 MB, 525336576 bytes 17 heads, 59 sectors/track, 1022 cylinders Units cyl…

ArkTS及openHarmony

补充 padding:内边距,也就是盒子边和盒子内部的距离 margin:外边距,也就是盒子和盒子的距离 openHarmony应用开发及UI界面 常用布局 Row 水平线性布局核心代码 子控件会共享同一行,也就是都在同一行内 Preview C…

扩展市场版图,美格智能5G智能模组SRM955集齐全球主流认证

AIoT时代来临,掀起新一轮智能化终端设备的变革,激发应用领域的新需求。AI等新兴技术应用,成为拉动智能终端产品变革和市场变迁的主要力量。智能模组是AIoT时代中的核心元器件,是实现万物智联的关键。 美格智能作为智能模组的创领…

SpringBoot学习日记

Spring程序与SpringBoot程序对比 SpringBoot程序优点 起步依赖(简化依赖配置)自动装配(简化常用工程相关配置)辅助功能(内置服务器,......) 内嵌Tomcat REST风格 REST简介 REST,表…

2023年主题教育专题组织生活会对照检查材料六个方面发言材料

组织生活会发言材料,很多人还没写完,可能写着写着就不知道怎么继续了,其实写这类材料需要有一个好的写作框架,结合我们的实际情况来写。 只有那些勇敢面对困难的人,才能找到成功的道路。生活并非总是一帆风顺&#xff…

ant design pro v6如何引入第三方js?如腾讯地图等!

由于ant pro隐藏.html,需要通过他们约定的方式引入即可。 1.配置config文件 /config/config.tsheadScripts: [// 解决首次加载时白屏的问题{ src: /scripts/loading.js, async: true },{ src: "https://map.qq.com/api/gljs?v1.exp&keyOB4BZ-D4W3U-B7VV…

CountDownLatch的原理

使用CountDownLatch可以实现等待多个线程执行完毕的功能,实现线程之间的协调,让它们按照我们期望的顺序执行,从而避免了可能出现的并发问题。 CountDownLatch是如何实现主线程等待子线程全部结束的呢? 代码用例 这里我们使用一段…

【TES720D】青翼科技基于复旦微的FMQL20S400全国产化ARM核心模块

板卡概述 TES720D是一款基于上海复旦微电子FMQL20S400的全国产化核心模块。该核心模块将复旦微的FMQL20S400(兼容FMQL10S400)的最小系统集成在了一个50*70mm的核心板上,可以作为一个核心模块,进行功能性扩展,特别是用…

AN动画基础——元件,组件,散件

【AN动画基础——元件,组件,散件】 元件不同元件的作用影片剪辑按钮图形元件特性 组件组件的作用组件特性 散件散件作用散件特性 本篇内容:认识元件,组件,散件属性 重点内容:元件,组件&#xff…

专业翻译哪家强?插件AI来帮忙!

大多数人一提到翻译软件,想到的应该是某度翻译或者是某歌翻译,日常使用也是用这两个居多,但是这两个甚至市面上常见的翻译软件的效果都不是很好,不能精准翻译到一些专有名词的意思。 那么究竟有没有好用的AI翻译呢?答…