达摩院FunASR实时语音听写服务软件包发布

news2024/11/26 3:31:15

7月初,FunASR社区发布了离线文件转写软件包,可以高精度、高效率、高并发的支持长音频离线文件转写,吸引了众开发者参与体验。应开发者需求,FunASR社区再次推出实时语音听写服务软件包,支持实时地进行语音转文字,同时也支持语音句尾用高精度的转写文字修正输出,输出文字带有标点,支持高并发多路请求。

(7月发布)FunASR离线文件转写软件包:

https://github.com/alibaba-damo-academy/FunASR/blob/main/funasr/runtime/docs/SDK_tutorial_zh.md

(8月发布)FunASR实时语音听写软件包:

https://github.com/alibaba-damo-academy/FunASR/blob/main/funasr/runtime/docs/SDK_tutorial_online_zh.md

‍▎实时语音听写软件包介绍

图片

图1 FunASR实时语音听写服务架构图

FunASR实时语音听写服务包架构如图1所示,集成了实时语音端点检测模型(FSMN-VAD-realtime),语音识别实时模型(Paraformer-online),语音识别非流式模型(Paraformer-offline),标点预测模型(CT-Transformer)。采用多模型协同,既可以实时的进行语音转文字,也可以在说话句尾用高精度转写文字修正输出,输出文字带有标点,支持多路请求。

软件包同时支持websocket与grpc协议,支持以下几种推理配置(mode):

  • 实时语音听写服务(ASR-realtime-transcribe)

客户端连续音频数据,服务端检测到音频数据后,每隔600ms进行一次流式模型推理,并将识别结果发送给客户端。同时,服务端会在说话停顿处,做标点断句恢复,修正识别文字。

  • 非实时一句话转写(ASR-offline-transcribe)

客户端连续音频数据,服务端检测到音频数据后,在说话停顿处进行一次非流式模型推理,输出带有标点文字,并将识别结果发送给客户端。

  • 实时与非实时一体化协同(ASR-realine&offline-twoPass)

客户端连续音频数据,服务端检测到音频数据后,每隔600ms进行一次流式模型推理,并将识别结果发送给客户端。同时,服务端会在说话停顿处,进行一次非流式模型推理,输出带有标点文字,修正识别文字。

>>便捷部署

FunASR社区提供了实时语音听写软件包一键部署方案,开发者可以通过funasr-runtime-deploy-online-cpu-zh.sh一键完成docker安装、镜像启动、服务部署,详见语音识别实时听写服务便捷部署教程👇:

https://github.com/alibaba-damo-academy/FunASR/blob/main/funasr/runtime/docs/SDK_tutorial_online_zh.md

>>高实时性

FunASR语音实时听写软件包,集成了达摩院自研的Paraformer流式实时模型,采用工业大数据训练的非自回归流式识别模型,相比于自回归模型,具有高计算效率与高实时性的优点。

下方图2为流式模型示意图,输入为带有重叠的音频片段,音频默认时长为600ms片段,带有300ms左看与右看,输出为600ms音频片段对应文本输出。同时,为了满足用户不同使用场景,音频片段可以自由配置,通常为480ms,600ms,900ms等。

图片

图2 Paraformer-online-large模型示意图

>>高精度

FunASR软件包集成了达摩院语音实验室在ModelScope开源的基于Paraformer实时和非实时非自回归端到端语音识别模型。这些模型均数万小时工业数据训练,保证了端到端识别的精度。

下方表格对比了Paraformer-large非实时与实时版本与当前最优SOTA模型识别效果:

图片

‍▎语音识别服务链路

FunASR提供了一套完整的语音识别服务链路,采用多模型协同方案,包括语音端点检测(VAD)、语音识别非实时与实时(ASR)、标点预测(PUNC)。既可以实时的进行语音转文字,也可以在说话句尾用高精度转写文字修正输出,输出文字带有标点,支持多路请求。同时,用户也可以根据业务场景需要,配置为实时语音识别、非实时一句话识别,以及实时与非实时一体化协同等可选择场景。

我们也对长音频输入进行了测试,验证VAD模型对语音识别链路的重要性,具体可以参考:

https://mp.weixin.qq.com/s/DHQwbgdBWcda0w_L60iUww

‍▎使用指南

FunASR实时语音转写软件包当前已经开源。

工具包地址:

https://github.com/alibaba-damo-academy/FunASR/blob/main/funasr/runtime/docs/SDK_tutorial_online_zh.md

操作步骤如下:

第一步:下载安装部署工具

curl -O https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/shell/funasr-runtime-deploy-online-cpu-zh.sh

第二步:安装部署

sudo bash funasr-runtime-deploy-online-cpu-zh.sh install --workspace ./funasr-runtime-resources

第三步:测试与使用

运行上面安装指令后,会在./funasr-runtime-resources下载samples, 为客户端测试工具,支持python/c++/java/html网页等语言。

我们以html网页版本client为例,进行说明:在浏览器中打开samples/html/static/index.html,出现如下页面,输入部署服务器ip与端口号后,可以直接进行体验。

图片

同时我们在云端部署了FunASR实时语音转写服务,用户可以直接在浏览器中进行体验:https://101.37.77.25:1336/static/index.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/876147.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何进行网络活动监控

组织的 IT 基础架构中的每个网络设备上都发生了大量活动,例如数据包传输、来自网络协议的消息、设备状态事件等。网络活动成为在检测到问题时识别网络瓶颈的面包屑,因此即使是最微小的网络活动也应受到监控,因为它直接影响整体网络性能、运行…

Python web实战之Django的AJAX支持详解

关键词:Web开发、Django、AJAX、前端交互、动态网页 今天和大家分享Django的AJAX支持。AJAX可实现在网页上动态加载内容、无刷新更新数据的需求。 1. AJAX简介 AJAX(Asynchronous JavaScript and XML)是一种在网页上实现异步通信的技术。通过…

DHCPv6之GitHub项目Android侧验证

一、adb里面安装busybox 1、下载busybox 下载网址:Index of /downloads/binaries/1.21.1 (busybox.net),目前最新是1.21.1版本 根据项目选择busybox-armv7l ,右键另存为下载到本地目录,下载后去掉文件的后缀名,变成如…

MetaGPT-软件开发领域的重大变革

在不断发展的人工智能世界中,一个术语最近引起了人们的关注:MetaGPT。随着数字领域的竞争变得更加激烈,了解和利用 MetaGPT 的功能可以改变企业、开发人员和人工智能爱好者的游戏规则。本文深入探讨了 MetaGPT 的世界、其重要性及其对人工智能…

云服务监控解决方案

云监控是追踪、警报和报告性能指标的过程,目的是全面了解云服务和资源。应用程序管理器具有分析混合云和多云基础架构以及托管在其上的应用程序的性能所需的所有必要功能,它使管理员能够主动发现云服务的性能瓶颈,并在它们影响最终用户之前快…

优思学院|六西格玛黑带在公司中的人数应有多少?

6西格玛 (Six Sigma) 是一商业管理之战略模式。这套模式最初用于1986年,由摩托罗拉所创立,后来,在通用电气的CEO Jack Welch的大力推广之下,在1995年成为通用电气的核心管理思想。六西格玛现在被广泛应用于很多行业中,…

OneNote of win10登录个人账户,输入账号后,页面一直在转圈圈【已解决】

OneNote of win10登录个人账户,输入账号后,页面一直在转圈圈多种解决方式 1.win10 WLAN限制 在WLAN中找到能够使用WLAN的应用,把OneNote of win10打开。 2.关闭代理 ①关闭 VP* ②到 Windows 10 的设置里“网络和 Internet” →代理→把这…

9月大理,Move HackerHouse,成为全球数字游民的第一站

🚀世界各地的 hacker 们!即日起,我们正式向您发出 co-buiding & co-living 的邀请! 9.3日至9.24日,为期3周的 Move 主题Antalpha HackerHouse 将坐落于大理,邀请所有 Web3 开发者一起探索 Move 生态发…

初始多线程

目录 认识线程 线程是什么: 线程与进程的区别 Java中的线程和操作系统线程的关系 创建线程 继承Thread类 实现Runnable接口 其他变形 Thread类及其常见方法 Thread的常见构造方法 Thread类的几个常见属性 Thread类常用的方法 启动一个线程-start() 中断…

ROS新建工作区(workspace)与包(package)编译的实践(C++示例)

ROS工作区是用来存放ROS工作包的目录,这些工作包,包含了ROS程序的各种文件,包括源代码、配置文件、消息文件等。所以工作区的本质是一个文件夹,用来存放接下来将要介绍的包以及构建这些包所需的文件。ROS工作区可以新建很多&#…

drawio导出矢量图

1.选中要导出的图 2.导出为pdf 3.用adobe打开pdf,另存为eps

算法通关村第六关——原来如此简单

层次遍历:又叫广度优先遍历。就是从根节点开始,先访问根节点下面一层全部元素,再访问之后的层次,直到访问完二叉树的最后一层。 我们先看一下基础的层次遍历题,力扣102题:给你一个二叉树,请你返…

Android14新特性之语法性别API

Android14新特性之语法性别API 语法性别 API 为使用语法性别改变句子以根据受话人而变化的语言进行对话的用户提供了更加个性化、自然的语音体验。 例如法语中的语法: Chre cliente[女性],cher client[男性] — 亲爱的客户 [英文] 语法性别 API 在 Andr…

文献综述|NLP领域后门攻击、检测与防御

前言:在信息安全中后门攻击(Backdoor Attack)是指绕过安全控制而获取对程序或系统访问权的方法。而随着深度学习以及各种神经网络模型的广泛应用,神经网络中存在的后门问题也引起了研究人员的广泛关注。神经网络后门攻击就是使网络…

《2023年度数据泄露调查报告》发布,一起捕捉关键信息

Verizon于6月份发布了《2023年度数据泄露调查报告》。天空卫士基于数据安全的视角,对本报告进行简单解读和分析。 报告观察 在报告中,Verizon分析了16,312起事件,其中5,199起事件被认定为数据泄露事件。 本次泄露事件统计覆盖了11个行业&a…

数据结构顺序表和链表(超详细)

线性表: 线性表 ( linear list ) 是 n 个具有相同特性的数据元素的有限序列。 线性表是一种在实际中广泛使 用的数据结构,常见的线性表:顺序表、链表、栈、队列、字符串 ... 线性表在逻辑上是线性结构,也就…

YAML资源清单

目录 YAML资源清单 (一)YAML 语言 (1)基本语法 (2)支持的数据结构 (二)通过资源清单管理容器资源 YAML 语法格式: 创建Service资源清单 (三&#xff…

[Docker精进篇] Docker部署和实践 (二)

前言: Docker部署是通过使用Docker容器技术,将应用程序及其所有相关依赖项打包为一个可移植、自包含的镜像,然后在任何支持Docker的环境中快速部署和运行应用程序的过程。 文章目录 Docker部署1️⃣为什么需要?2️⃣有什么作用&am…

【高频面试题】常见技术场景

文章目录 单点登录这块怎么实现的权限认证是如何实现的上传数据的安全性怎么控制?你们项目中日志怎么采集的查看日志的命令生产问题怎么排查怎么快速定位系统的瓶颈 单点登录这块怎么实现的 单点登录的英文名叫做:Single Sign On(简称SSO&am…

OpenHarmony Meetup 广州站 OpenHarmony正当时—技术开源

招募令 OpenHarmony Meetup 广州站 火热招募中,等待激情四射的开发者,线下参与OpenHarmonyMeetup线下交流 展示前沿技术、探讨未来可能、让你了解更多专属OpenHarmony的魅力 线下参与,先到先得,仅限20个名额! 报名截止时间8月23日…