评测本地部署的语音识别模型

news2024/10/24 4:39:52

1 引言

最近,朋友给我发来了一段音频,想转录成文字,并使用大型润色文本。音频中的普通话带有一定的口音,并且讲解内容较为专业,所以一般的语音识别工具很难达到较高的识别率。

于是试用了两个大模型。Whisper 是目前最好的多语言语音识别技术(ASR),之前的文章已经介绍过它的原理和部署方法;FunAsr 是阿里巴巴智能计算研究院语音实验室在 ModelScope 上开源的深度学习语音识别模型,在海量数据上对中文进行了优化,可谓国产之光。本次评测的 ASR 均能在本地部署,之前测试使用效果都不错。

本次评测将针对相对困难的语音进行真人评估,看看语音识别哪家强。

2 安装及资源占用

2.1 使用说明

这里未使用音频切分降噪进行前处理,直接将音频放入模型进行识别。

2.2 测试环境

FunAsr 使用了 GPT-SoVITS 提供的 docker 镜像中的库和模型,镜像大小 7.09G,外加模型 1.4G。

识别命令如下:

SHELL

1
$ /usr/local/bin/python tools/asr/funasr_asr.py -i /opt/xieyan/tmp/audio/litao/ -o output/asr_opt/new_record.txt -s large -l zh -p float32

Whisper 使用的是 onerahmet/openai-whisper-asr-webservice:latest-gpu 镜像,含模型,约 11.5G。

启动 docker 镜像后,在浏览器 9000 端口打开,通过网页调用。

2.3 转换时长

  • 音频长度约 75 分钟
  • FunAsr 转换时间 2 分钟(含加载模型)
  • Whisper 转换时间 4 分钟

3 识别效果评价

3.1 Whisper

3.2 FunAsr

3.2.1 人工翻译

3.2.2 人工翻译 +GPT-4 润色

3.3 总结

公平地讲,音频内容有点像文言文,使用了很多专业词汇。而在训练语料中,这样的文本比较少见,所以语音识别效果比较差。最近我收集了一些声优的视频来进行语音合成(仔细听声优每个字都吐得非常清晰),以及我自己录制 B 站视频,(我师范毕业时通过了普通话水平测试,而且在录制时也刻意注意了发音吐字语速),这样的音频识别实际能达到 95% 以上的准确率。

如果需要使用语音识别工具,对于中文来说,FunAsr 明显优于 Whisper(毕竟 Whisper 支持多种语言)。与手动输入相比,我觉得这种识别效果还可以接受。但是目前就大家的平均录音效果来看,处理时仍然需要人工干预。

实际上就是这样:我们普通人写不过 GPT,播音不如 TTS,画画不过 Stable Diffusion,做视频赶不上 Sora,最近出了太多太多工具,秒杀了我们之前努力的成果。但是还好我们也可以用,也许我们该重新定义“努力”。

(本文全文经 GPT 润色)

4 一些后处理方法

这里还有一些后处理方法,当使用各个 ASR 效果都不佳的情况下,如何使识别结果更好。

针对音素(拼音)各家识别效果都还可以,主要问题是对专业词汇的理解,有一些人名和不常见的专业术语可能并没有进入词汇库。在这种情况下,可以考虑使用自然语言大模型(简称 LLM)进行补充,具体方法如下:

  • 多个 ASR 识别出结果给 LLM,让它来做合并。
  • 人工校对后的结果制作成错误映射表,并与转换后的文字一起传给 LLM 进行校对。
  • 将识别后的文本转换成音素表,然后发送给 LLM 进行转换成文字。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1498051.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

大数据背景下R语言lavaan在SEM中的高效应用

结构方程模型(SEM)是揭示系统内变量间复杂关系的强大工具。它利用图形化的方式,将多变量间的因果关系网展现得淋漓尽致,具备出色的数据分析能力和广泛的适用性。近年来,无论是在生态、进化、环境领域,还是在…

分类预测 | Matlab基于GWO-RBF灰狼算法优化径向基神经网络的分类预测

分类预测 | Matlab基于GWO-RBF灰狼算法优化径向基神经网络的分类预测 目录 分类预测 | Matlab基于GWO-RBF灰狼算法优化径向基神经网络的分类预测分类效果基本介绍程序设计参考资料 分类效果 基本介绍 Matlab基于GWO-RBF灰狼算法优化径向基神经网络的分类预测。基于灰狼算法(GWO…

Java定时调度范式定时操作

在 Java 中,我们可以使用各种方法来执行定时操作。这些操作包括执行任务、调度任务、执行重复任务等。下面将介绍几种常见的 Java 定时调度范式。 1. Timer 和 TimerTask Java 提供了 Timer 和 TimerTask 类,用于执行定时任务。 示例代码:…

腾讯云服务器和阿里云服务器价格测评_2024年费用大PK

2024年阿里云服务器和腾讯云服务器价格战已经打响,阿里云服务器优惠61元一年起,腾讯云服务器61元一年,2核2G3M、2核4G、4核8G、4核16G、8核16G、16核32G、16核64G等配置价格对比,阿腾云atengyun.com整理阿里云和腾讯云服务器详细配…

基于SpringBoot+Vue+ElementUI+Mybatis前后端分离管理系统超详细教程(三)

拓展学习——用XML方式写动态SQL实现数据库更新操作 前情回顾 前一章节我们学习了使用注解方式实现后端数据库增删改查操作 基于SpringBootVueElementUIMybatis前后端分离管理系统超详细教程(二) 本节课程接着拓展一下用xml配置文件方式来实现对数据…

练习 6 Web [极客大挑战 2019]HardSQL

[极客大挑战 2019]HardSQL 先尝试登录,查看报错信息 admin 111 password 1111 登录失败admin 111 password 1’or’1 登录成功 这里直接试了万能密码成功,复习一下,第一个 ’ 是为了闭合前面的sql语句,最后的1后面没有 ’ 是因为…

【数学建模】层次分析代码(python)

上一篇学习了层次分析的理论,今天用代码实现一下吧! 判断矩阵的一致性检验 import numpy as np A np.array([[1,2,3,5],[1/2,1,1/2,2],[1/3,2,1,2],[1/5,1/2,1/2,1]]) n A.shape[0]#获取A的行 eig_val, eig_vecnp.linalg.eig(A)#计算方阵的特征值和特…

STM32CubeMX学习笔记16--- STM32内部FLASH

1. 内部FLASH简介 之前的文章中介绍过STM32F1利用SPI与外部FLASH(W25QXX芯片)通讯的例程,本例程将介绍STM32F1的内部FLASH,通过内部FLASH实现数据读写操作。 不同型号的STM32,其FLASH容量也有所不同,最小的…

【产品文档分类及撰写路径】

一、产品文档的分类 产品文档根据所处阶段和面相对象的差异大致可以分为三类: 商业需求文档 (BRD):商业需求文档是面向公司高层和项目组,目的是为了获得资金、资源支持。市场需求文档 (MRD):市场需求文档是面向运营和市场销售人员…

基于springboot+vue的旅游管理系统

博主主页:猫头鹰源码 博主简介:Java领域优质创作者、CSDN博客专家、阿里云专家博主、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战,欢迎高校老师\讲师\同行交流合作 ​主要内容:毕业设计(Javaweb项目|小程序|Pyt…

微服务架构中实体类模块化设计与MyBatis-Plus注解浅析

引言 在微服务开发过程中,为了保证代码的整洁性和可维护性,我们通常会将VO(视图值对象)、DTO(数据传输对象)、DO(领域对象)等实体类独立组织成一个API模块。这样做的目的是实现代码…

大模型相关算法模型学习

对Transformer中Add&Norm层的理解-CSDN博客 GPT模型总结【模型结构及计算过程_详细说明】_gpt结构-CSDN博客 推荐30个以上比较好的中文nlp意图识别模型源码?-CSDN博客 Few-shot learning(少样本学习)入门 - 知乎 (zhihu.com) 零次学习…

Day15:技术架构、Maven、Spring Initializer、Spring全家桶、Spring IoC

侧重于服务端(后端),不在意前端,了解一些前端即可) 技术架构 (把Spring设计的更简单好用了就是Spring Boot) 开发环境(Maven) Maven maven通过brew安装的目录为&#x…

【uni-app小程序开发】实现一个背景色渐变的滑动条slider

最近做的一个用uni-app+vue2开发的微信小程序项目中要实现一个滑动进度控制条,如下图所示: 1. 滑动条需要渐变背景色 2. 滑块的背景色需要与当前位置滑动条的背景色一致(动态改变) 碰到这样的需求,我当然先是看看官方提供的slider组件和uView里的u-slider组件能不能满足…

YOLOv9电动车头盔佩戴检测,详细讲解模型训练

向AI转型的程序员都关注了这个号👇👇👇 一、YOLOv9简介 YOLOv9是YOLO系列算法的最新版本。YOLO系列算法自2015年首次提出以来,已经在目标检测领域取得了显著的进展,以其快速和准确的特点而广受欢迎。 论文地址&#xf…

IPSEC VPN 网关模式实验

要求:FW1与FW3建立IPSEC通道,保证10.0.2.0/24网段能访问192.168.1.0/24网段 因为FW1与FW3都处于边界,所以使用网关部署模式来建立IPSEC VPN FW1 这里选择主模式跟隧道模式 FW3与FW1配置类似,与FW1的源目地址反过来,…

文心一言眼中的ChatGPT是什么样的

Q: 你好文心一言,请说一说你眼中的chatgpt A: 在我眼中,ChatGPT是一种非常先进和强大的自然语言处理模型,它展示了人工智能技术的显著进步。ChatGPT拥有出色的语言理解和生成能力,能够与用户进行流畅、自然的对话,并尝…

FreeRTOS_day2

作业:1.使用ADC采样光敏电阻数值,如何根据这个数值调节LED灯亮度。 2.总结DMA空闲中断接收数据的使用方法 打开DAM,允许接收外部设备数据,调用中断接收回调函数

【蓝桥杯】路径之谜(DFS)

一.题目描述 小明冒充 X 星球的骑士,进入了一个奇怪的城堡。 城堡里边什么都没有,只有方形石头铺成的地面。 假设城堡地面是 nn 个方格。如下图所示。 按习俗,骑士要从西北角走到东南角。可以横向或纵向移动,但不能斜着走&#x…

什么是攻防演练,能给企业带来什么

随着互联网技术的发展和企业信息化程度的提高,企业面临的网络安全威胁越来越多。为了保护企业的信息安全,攻防演练已经成为企业安全运营中不可或缺的一部分。攻击者通常会利用各种方法来破坏企业的安全系统和数据,因此企业需要像攻击者一样思…