学习实践-Whisper语音识别模型实战（部署+运行）

news2026/2/9 14:18:59

1、Whisper内容简单介绍

OpenAI的语音识别模型Whisper，Whisper 是一个自动语音识别（ASR，Automatic Speech Recognition）系统，OpenAI 通过从网络上收集了 68 万小时的多语言（98 种语言）和多任务（multitask）监督数据对 Whisper 进行了训练。OpenAI 认为使用这样一个庞大而多样的数据集，可以提高对口音、背景噪音和技术术语的识别能力。除了可以用于语音识别，Whisper 还能实现多种语言的转录，以及将这些语言翻译成英语。Open AI 强调 Whisper 的语音识别能力已达到人类水准。

在这里插入图片描述
左：输入的音频被分割成 30 秒的小段、转换为 log-Mel 频谱图，然后传递到编码器。

右：解码器经过训练以预测相应的文字说明，并与特殊的标记进行混合，这些标记指导单一模型执行诸如语言识别、短语级别的时间戳、多语言语音转录和语音翻译等任务。

2、Whisper模型实战

Whisper模型GitHub代码地址
部署步骤如下：（注意使用的是Windows系统)

# 新建chatglm环境
conda create -n whisper python==3.8
# 激活chatglm环境
conda activate chatglm
# 安装PyTorch环境
pip --trusted-host pypi.tuna.tsinghua.edu.cn install torch==1.10.1+cu102 torchvision==0.11.2+cu102 torchaudio==0.10.1 -f https://download.pytorch.org/whl/torch_stable.html
# 一键安装依赖包
pip install -U openai-whisper
#执行tiny demo
whisper D:/11.mp4 --model tiny  --language Chinese

model tiny运行结果
在这里插入图片描述
model base运行结果

可以看出base model识别效果还是挺不错的，但由于追求速度，某些音相近的会被识别错误。
例如：
应供–因公
乘凯–陈凯
试验–誓言
逛该意目–灌溉亿亩

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/410568.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

论文笔记|CVPR2023:Semantic Prompt for Few-Shot Image Recognition

论文笔记|CVPR2023:Semantic Prompt for Few-Shot Image Recognition

论文地址：https://arxiv.org/pdf/2303.14123.pdf 这是一篇2023年发表在CVPR上的论文，论文题目是Semantic Prompt for Few-Shot Image Recognitio，即用于小样本图像识别的语义提示。 1 Motivation 第一，最近几项研究利用语义信…

阅读更多...

＜ Linux ＞：进程地址空间

＜ Linux ＞：进程地址空间

目录一、验证进程地址空间二、感知进程地址空间的存在一、验证进程地址空间我们之前学的 C/C 程序地址空间是物理内存吗？ 答：不是物理内存，甚至叫做程序地址空间都不太准确，应该叫做进程地址空间，因此根本就不是…

阅读更多...

Notion插件，让你的页面有无限可能

Notion插件，让你的页面有无限可能

// 你是否觉得notion的极简风格略为单调？是否想用notion实现更多的功能？是否想让notion更为便捷，更为多样化？那今天推荐的几款notion插件绝对不能错过，因为他们也确实不错。 // - ———byFutureForce DAO——— - 你…

阅读更多...

把ChatGPT接入我的个人网站

把ChatGPT接入我的个人网站

效果图详细内容和使用说明可以查看我的个人网站文章把ChatGPT接入我的个人网站献给有外网服务器的小伙伴如果你本人已经有一台外网的服务器，并且页拥有一个OpenAI API Key，那么下面就可以参照我的教程来搭建一个自己的ChatGPT。需要的环境 Cento…

阅读更多...

让我们一起解密组播、IGMP、IGMP监听

让我们一起解密组播、IGMP、IGMP监听

前言：一直对组播这个概念迷迷糊糊，特别是交换机处理组播的方式，非常想搞懂但是懒癌发作。这几天终于耐心地看了下有关组播的资料，大致了解了一下同一广播域内组播的相关知识。组播占了计算机网络的一大部分，特别是组播…

阅读更多...

ChatGPT 被大面积封号，到底发生什么了？

ChatGPT 被大面积封号，到底发生什么了？

意大利数据保护机表示 OpenAI 公司不但非法收集大量意大利用户个人数据，没有设立检查 ChatGPT 用户年龄的机制。 ChatGPT 似乎正在遭遇一场滑铁卢。 3月31日， 大量用户在社交平台吐槽，自己花钱开通的 ChatGPT 账户已经无法登录，更…

阅读更多...

举一反三学python(9)—excel基础

举一反三学python(9)—excel基础

一、导论： 操作 excel 表格的Python 第三方库有openpyxl、xlrd、xlwt等，它们的功能都相同，就是语法有差异，今天我就带领大家学习用openpyxl模块操作实用的excel文件。 openpyxl模块为第三方库，首先要安装：p…

阅读更多...

electron+vue3全家桶+vite项目搭建【九】集成vite-plugin-mock-server 模拟后端请求

electron+vue3全家桶+vite项目搭建【九】集成vite-plugin-mock-server 模拟后端请求

文章目录引入1.引入依赖2.集成插件3.测试接口请求引入后端接口出的太慢？问题不大，咱们可以借助vite-plugin-mock-server插件自己写接口，返回商量好的格式，后续联调直接切换环境即可 vite-plugin-mock-server官网 mock.js官网 …

阅读更多...

uniapp人脸识别解决方案

uniapp人脸识别解决方案

APP端： 因为APP端无法使用uni的camera组件，最开始考虑使用内嵌webview的方式，通过原生dom调用video渲染画面然后通过canvas截图。但是此方案兼容性在ios几乎为0，如果app只考虑安卓端的话可以采用此方案。后面又想用live-pusher组件…

阅读更多...

【Linux】vi编辑器——插入模式

【Linux】vi编辑器——插入模式

目录插入模式光标移动命令 a A i I o O命令 a----------------在光标后附加文本 A----------------在文本行末附加文本 i------------------在光标前插入文本 I-------------------在文本开始插入文本 o----------------在光标下插入新行 O---------------在…

阅读更多...

陶泓达：4.11黄金原油白银最新走势分析及操作策略！

陶泓达：4.11黄金原油白银最新走势分析及操作策略！

黄金行情走势分析：　　周一(4月10日)，国际金价一度跌约1%，重回2000美元干口下方。此前公布的美国3月非农就业数据显示劳动力市场吃紧，并提高了美联储5月再次加息的预期。金属公司MKS PAMP在一份报告中表示：“金价自20…

阅读更多...

Doris（5）：数据导入（Load）之Broker load

Doris（5）：数据导入（Load）之Broker load

为适配不同的数据导入需求，Doris系统提供了五种不同的数据导入方式，每种数据导入方式支持不同的数据源，存在不同的方式（异步，同步） Broker load 通过Broker进程访问并读取外部数据源（HDFS&#…

阅读更多...

elasticsearch之DSL查询文档

elasticsearch之DSL查询文档

目录 DSL查询分类全文检索查询 match查询： multi_match： 精准查询地理坐标查询矩形范围查询中心点范围组合查询 elasticsearch中的相关性打分算法是什么？ 案例——给“如家”这个品牌的酒店排名靠前一些 function score query…

阅读更多...

ChatGPT写新闻-ChatGPT写文章

ChatGPT写新闻-ChatGPT写文章

ChatGPT写新闻 ChatGPT可以用于生成新闻稿件，但需要注意的是，由ChatGPT生成的新闻稿件可能存在语义、逻辑、事实准确性等方面的问题，因此需要进行人工审核和编辑，确保其准确性。下面是一个示例过程，大致了解如何使用…

阅读更多...

GPT3.5 , InstructGPT和ChatGPT的关系

GPT3.5 , InstructGPT和ChatGPT的关系

GPT-3.5 GPT-3.5 系列是一系列模型，从 2021 年第四季度开始就使用文本和代一起进行训练。以下模型属于 GPT-3.5 系列： code-davinci-002 是一个基础模型，非常适合纯代码完成任务text-davinci-002 是一个基于 code-davinci-002 的 InstructG…

阅读更多...

PixiJS 文字模糊处理策略

PixiJS 文字模糊处理策略

pixijs介绍 PixiJS是一个用于创建交互式2D图形和动画的JavaScript库。它是一个快速、轻量级、易于使用的库，可以在WebGL和Canvas上运行。支持WebGL和Canvas两种渲染方式。WebGL是一种基于OpenGL的3D图形API，可以在GPU上进行高效的图形渲染。Canvas是一种…

阅读更多...

基于神经辐射场NeRF的SLAM方法

基于神经辐射场NeRF的SLAM方法

随着2020年NeRF[1]的横空出世，神经辐射场方法（Neural Radiance Fields）如雨后春笋般铺天盖地卷来。NeRF最初用来进行图像渲染，即给定相机视角，渲染出该视角下的图像。NeRF是建立在已有相机位姿的情况下，但在…

阅读更多...

Android kotlin (仿淘宝app收藏)用RecyclerView(androidx+BRVAH3.0.6)实现单选/多选/全选/反选/批量删除功能

Android kotlin (仿淘宝app收藏)用RecyclerView(androidx+BRVAH3.0.6)实现单选/多选/全选/反选/批量删除功能

文章目录一、实现效果二、引入依赖三、实现源码1、实体类2、适配器3、提示框(关闭和确定)4、视图实现一、实现效果二、引入依赖在app的build.gradle在添加以下代码 implementation com.github.CymChad:BaseRecyclerViewAdapterHelper:3.0

阅读更多...

使用采集工具，轻松获取目标受众的数据，让您的市场营销更加精准

使用采集工具，轻松获取目标受众的数据，让您的市场营销更加精准

【数据采集神器】使用采集工具，轻松获取目标受众的数据，让您的市场营销更加精准！ 在当前这个信息化社会中，数据已经成为了企业发展和市场营销的必要手段。企业需要通过数据来了解市场的需求，了解自己产品的竞争优势&a…

阅读更多...

你真的懂docker吗？25个试题，学过你就来

你真的懂docker吗？25个试题，学过你就来

前言：遇到不会的，答案偷偷放在评论区了哦~ 1.什么是Docker A 虚拟机 B 半虚拟化技术 C 开源的应用容器引擎 D 后端软件 2. 如何搜索Nginx镜像 A docker search nginx B docker rm nginx C doc…

阅读更多...

推荐文章

最新文章