轻松识别几个小时的长音视频文件

news2026/3/27 13:02:12

前言

之前的文章绍一个准确率非常高的语音识别框架，但那个只能识别实时的短音频，如果想要识别一个非常长的音频，几十分钟，甚至几个小时，那之前的那个是做不到的所以就有了本文。本文介绍搭建一个长语音识别服务，可以把任意长度的音视频到识别结果。

需要把整个文件夹上传到服务器上，并在该目录执行以下命令：

编译Docker容器：

sudo docker build -t offline_asr .

修改权限：

sudo chmod +x run_server.sh

在项目根目录执行启动命令：

sudo docker run -p 10095:10095 -itd --privileged=true --name offline_asr -v $PWD/:/workspace/websocket offline_asr

重新启动服务，如果之前因为一些原因关闭了docker服务，可以执行下面命令重新启动，需要开机自启动的，把下面命令复制到开机自启动脚本中/etc/rc.local：

sudo docker start offline_asr

使用上面服务之后，可以执行下面命令测试一下服务是否正常启动可用。

python asr_client.py --wav_path=test.wav

上面搭建的是websocket的服务，使用起来非常不方便，所以下面提供了一个Websockt转http服务的程序，并且提供了网页可以上传音视频获取识别结果，启动HTTP服务命令如下。

python asr_server.py

访问http://192.168.0.100:6060打开页面，可以上传WAV、MP3、MP4等多种格式，同时也支持录制识别。
在这里插入图片描述

扫码入知识星球，搜索【FunASR语音识别长音频视频服务】获取源码

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1364855.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！