web网页录音(recorder.js)并上传后端语音转文字(Vosk)

news2025/1/22 8:22:21

我是一个后端开发人员,现在都快进化成全栈了。操了,是谁有好的项目让我跳跳槽,转转行吧

写在前面,很重要
在这里插入图片描述
这是官方文档的说明
翻译如下:
我们有两种型号-大型号和小型号,小型号非常适合在移动应用程序上执行一些有限的任务。它们可以在智能手机、树莓派上运行。它们也被推荐用于桌面应用程序。小型模型的大小通常在50Mb左右,运行时需要大约300Mb的内存。大模型用于服务器上的高精度转录。大型机型需要高达16Gb的内存,因为它们采用了先进的人工智能算法。理想情况下,您可以在一些高端服务器上运行它们,如i7或最新的AMD Ryzen。在AWS上,您可以查看c5a机器和其他云中的类似机器。
大多数小型模型允许动态词汇表重新配置。大模型是静态的——词汇表在运行时无法修改。

大模型对于硬件是有要求的。我下面的demo是基于小模型来的。

VOSK网址:
https://alphacephei.com/vosk/models

前端使用H5进行录音

一开始我使用的是H5的录音功能。网上一搜一大堆,下面的可以录音,将录音放入audio中。
录音之后将文件上传后端。

<body>
<button id="startRecord" onclick="startAudio()">开始录音</button>
<button id="stopRecord" disabled onclick="stopAudio()">停止录音并保存</button>
<audio controls id="player"></audio>
<form style="display: none" enctype="multipart/form-data" method="post" id="fileinfo_high">
</form>
<div>
    <button id="upload" onclick="updateFile()">上传文件</button>
</div>
async function startAudio(){
        await navigator.mediaDevices.getUserMedia({ audio: true })
            .then(stream => {
                mediaStream = stream;
                startButton.disabled = false;
                console.log('成功获取音频输入源')
            })
            .catch(err => {
                console.log('无法获取音频输入源', err);
            });
        // 获取音频流
        recorder = new MediaRecorder(mediaStream);
        //recorder.sampleBits=16;   // 采样位数,支持 8 或 16,默认是16
        //recorder.sampleRate=48000;  // 采样率,支持 11025、16000、22050、24000、44100、48000,根据浏览器默认值,我的chrome是48000


        // 处理音频数据
        recorder.ondataavailable = (event) => {
            if (event.data.size > 0) {
                chunks.push(event.data);
            }
        };
        // 完成录音
        recorder.start();
        // 停止录音
        stopButton.disabled = false;
        startButton.disabled = true;
        console.log('开始录音...');
    }


    // 停止录音并生成文件
    stopButton.addEventListener('click', () => {
        // 停止录音
        recorder.stop();

        startButton.disabled = false;
        stopButton.disabled = true;

        recorder.onstop = () => {
            console.log('录音已停止');
            // 音频类型 ogg webm mp3
            const blob = new Blob(chunks, { type: 'audio/mp3; codecs=opus' });

            // 将录音设置为可播放
            const url = window.URL.createObjectURL(blob);
            player.src = url;
            console.log('尝试播放录音');
        };

        if (mediaStream) {
            var tracks = mediaStream.getTracks();
            for (let i = 0; i < tracks.length; i++) {
                var track = tracks[i];
                track.stop();
            }
        }
    });

function updateFile(){
        var f = new FormData(document.getElementById("fileinfo_high"));
        var file = new File(chunks,'audio.mp3',{ type: 'audio/mp3; codecs=opus' });
        f.append("file", file);
        $.ajax({
            url: "/RecordTools/uploadAudio",
            type: 'POST',
            data: f,
            traditional: true,
            dataType: 'JSON',
            cache: false,
            processData: false,
            contentType: false,
            success: function (data) {
                console.log(data)
            },
            error: function () {
                AtsBase.atsAlert("Error!");
            }
        });
    }

从网页录音到上传到后端存放都是顺利的。

不知道你们使用的什么框架识别语音。我使用的VOSK,因为它可以离线,免费。
那么问题就来了,VOSK,只支持WAV格式的语音文件。

一开始我将这段代码更改为 WAV格式

var file = new File(chunks,'audio.mp3',{ type: 'audio/mp3; codecs=opus' });

当然没这么轻易了

还是识别失败,报错截图就不展示了,就是将不支持这个格式。

@PostMapping("uploadAudio")
public Map<String,Object> uploadAudio(MultipartFile file){
		HashMap<String, Object> result = new HashMap<>();
        System.out.println(file);

        System.out.println(file.getOriginalFilename());
        System.out.println(file.getName());

        InputStream inputStream = file.getInputStream();

        FileOutputStream out001 = new FileOutputStream("D:\\Others\\Logs\\test.wav");
        FileCopyUtils.copy(inputStream, out001);
}

文件存放下来打开也是正常的。
因为正常打开,所以一开始我就很纳闷,是这个格式,为什么说不支持这个格式文件呢。
我最初想的是,难道是后端文件存放问题?我将文件变成字节数组,前后端乱七糟八整了很久。
最后我发现,根本原因是编码格式的问题。

使用H5进行录音,谷歌默认是mp3的格式,所以我在前端使用了recorder.js
这个js内部也是使用的H5的流媒体,但是它里面还封装了一个编码器。

Recorder.js


    const startButton = document.getElementById('startRecord');// 开始录音
    const stopButton = document.getElementById('stopRecord');// 停止录音
    const player = document.getElementById('player');// 播放

    function startAudio(){
        recorder = new Recorder({
            sampleBits: 16, // 采样位数,支持 8 或 16,默认是16
            sampleRate: 16000, // 采样率,支持 11025、16000、22050、24000、44100、48000,根据浏览器默认值,我的chrome是48000
            numChannels: 1
        })

        this.recorder.start().then(
            () => {
                // 开始录音
                console.log('开始录音了=========')
            },
            (error) => {
                // 出错了
                console.log(error)
            }
        )

        startButton.disabled = true;
        stopButton.disabled = false;
    }

    function stopAudio(){

        this.recorder.stop();

        startButton.disabled = false;
        stopButton.disabled = true;
    }

    function updateFile() {
        let wavBlob = this.recorder.getWAVBlob()
        let renameFile =new File([wavBlob], '文件名.wav', { type: 'audio/wav' });


        var f = new FormData(document.getElementById("fileinfo_high"));
        f.append("file", renameFile);
        $.ajax({
            url: "/RecordTools/uploadAudio",
            type: 'POST',
            data: f,
            traditional: true,
            dataType: 'JSON',
            cache: false,
            processData: false,
            contentType: false,
            success: function (data) {
                console.log(data)
                if(data.flag){
                    AtsBase.atsMsg("S", "图片上传成功!");
                }else{
                    AtsBase.atsMsg("W", "图片上传失败!");
                }
            },
            error: function () {
                AtsBase.atsAlert("Error!");
            }
        });

    }


后端代码 VOSK

maven

		<!-- 获取音频信息 -->
        <dependency>
            <groupId>org</groupId>
            <artifactId>jaudiotagger</artifactId>
            <version>2.0.3</version>
        </dependency>
        <!--  vosk 语音识别 -->
        <dependency>
          <groupId>net.java.dev.jna</groupId>
          <artifactId>jna</artifactId>
          <version>5.7.0</version>
        </dependency>
        <dependency>
          <groupId>com.alphacephei</groupId>
          <artifactId>vosk</artifactId>
          <version>0.3.32</version>
        </dependency>
@PostMapping("uploadAudio")
    public Map<String,Object> uploadAudio(MultipartFile file) throws IOException {
        HashMap<String, Object> result = new HashMap<>();
        System.out.println(file);

        System.out.println(file.getOriginalFilename());
        System.out.println(file.getName());

//        InputStream inputStream = file.getInputStream();

        /*FileOutputStream out001 = new FileOutputStream("D:\\Others\\Logs\\test.wav");
        FileCopyUtils.copy(inputStream, out001);*/

        /// LibVosk.setLogLevel(LogLevel.DEBUG);

        /*try (
             Model model = new Model("D:\\Others\\vosk\\vosk-model-small-cn-0.22");
             InputStream ais = AudioSystem.getAudioInputStream(new BufferedInputStream(inputStream));
             Recognizer recognizer = new Recognizer(model, 16000)
        ) {

            int bytes;
            byte[] b = new byte[4096];
            while ((bytes = ais.read(b)) >= 0) {
                recognizer.acceptWaveForm(b, bytes);
            }

            System.out.println(recognizer.getFinalResult() + System.lineSeparator());
        }catch (Exception e){
            e.printStackTrace();
        }*/

        try  {
            LibVosk.setLogLevel(LogLevel.DEBUG);
            Model model = new Model("D:\\Others\\vosk\\vosk-model-small-cn-0.22");//该段是模型地址
//            File audioFile = new File("D:\\Others\\Logs\\d357c391-d387-4359-b57e-c0bf8c6853da.wav");
            InputStream ais = AudioSystem.getAudioInputStream(new BufferedInputStream(file.getInputStream()));
            //该段是要转的语言文件,仅支持wav
            Recognizer recognizer = new Recognizer(model, 16000);
            //该段中12000是语言频率,需要大于8000,可以自行调整

            int nbytes;
            byte[] b = new byte[4096];
            while ((nbytes = ais.read(b)) >= 0) {
                if (recognizer.acceptWaveForm(b, nbytes)) {
                    System.out.println(recognizer.getResult());
                } else {
                    System.out.println(recognizer.getPartialResult());
                }
            }

            System.out.println("--------------------");
            System.out.println(recognizer.getFinalResult());
        }catch (Exception e){
            e.printStackTrace();
        }

        result.put("flag",true);
        return result;
    }

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1673750.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

IT行业现状与未来趋势分析

IT行业现状与未来趋势显示出持续的活力和变革&#xff0c;以下是上大学网&#xff08;www.sdaxue.com&#xff09;关于IT行业现状与未来趋势分析&#xff0c;供大家参考。 当前现状&#xff1a; 市场需求持续增长&#xff1a;随着信息时代的深入发展&#xff0c;各行各业对信息…

一条查询SQL的执行过程

1.1 假设 查询语句为&#xff1a;mysql> select * from T where ID 10 1.2 总体执行流程 1.2.1 连接器 -> 连接 作用&#xff1a;负责跟客户端建立连接、获取权限、维持和管理连接等工作流程&#xff1a; 一个用户成功建立连接后&#xff0c;如果客户端太长时间没有请…

跨ROS系统通信:使用TCP实现节点间的直连

当涉及到在机器人操作系统&#xff08;ROS&#xff09;环境中的通信时&#xff0c;标准做法通常是在同一个ROS网络内通过话题和服务进行。但在某些特定情况下&#xff0c;比如当你有两个分布在不同网络中的ROS系统时&#xff0c;标准的通信方法可能不太适用。此时&#xff0c;一…

SpringBoot集成Seata分布式事务OpenFeign远程调用

Docker Desktop 安装Seata Server seata 本质上是一个服务&#xff0c;用docker安装更方便&#xff0c;配置默认&#xff1a;file docker run -d --name seata-server -p 8091:8091 -p 7091:7091 seataio/seata-server:2.0.0与SpringBoot集成 表结构 项目目录 dynamic和dyna…

EmotiVoice 实时语音合成TTS;api接口远程调用

参考:https://github.com/netease-youdao/EmotiVoice 测试整体速度可以 docker安装: 运行容器:默认运行了两个服务,8501 一个streamlit页面,另外8000是一个api接口服务 docker run -dp 8501:8501 -p 8250:8000 syq163/emoti-voice:latest##gpu运行 (gpu运行遇到CUDA er…

山东齐鲁文化名人颜廷利:朱郭有文才,曲高‘菏’寡星光路

山东齐鲁文化名人颜廷利教授表示&#xff0c;朱郭&#xff08;谐音‘祖国’&#xff09;有文才&#xff0c;《曲高‘菏’寡》星光路… 山东菏泽歌手朱之文在2011年凭借一首《滚滚长江东逝水》一夜成名&#xff0c; 十多年之后的今天&#xff0c;菏泽市网络红人郭有才靠一首《诺…

LeetCode---循环队列

循环队列就是只有固定的内存&#xff0c;存数据&#xff0c;出数据&#xff0c;但是也和队列一样&#xff0c;先进先出。如下图所示&#xff0c;这是他的样子 在head出&#xff0c;tail进&#xff0c;但是这个如果用数组解决的话&#xff0c;就有问题&#xff0c;力扣给我们的接…

Django模型进阶-多对多关系

在Django中&#xff0c;多对多&#xff08;Many-to-Many&#xff09;关系是一种数据库关系&#xff0c;表示一个模型的实例可以与另一个模型的多个实例相关联&#xff0c;同时另一个模型的实例也可以与这个模型的多个实例相关联。换句话说&#xff0c;就是两个模型之间可以存在…

免费SSL证书获取与部署教程

在互联网时代&#xff0c;HTTPS已成为网站安全的基石&#xff0c;为用户数据传输提供加密保障。免费SSL证书的出现降低了部署HTTPS的门槛&#xff0c;尤其对于个人网站、小微企业及测试环境而言&#xff0c;它们是理想的选择。本文旨在提供一份详尽指南&#xff0c;帮助您轻松获…

找到字符串中所有的字母异位词 ---- 滑动窗口

题目链接 题目: 分析: 要找的是在s中和p是异位词的子串, 也就是说子串大小和p相同, 那么就是窗口大小固定的滑动窗口问题可以使用哈希数组来记录每个元素出现的个数, 定义hash1存放p中的各元素个数定义left 0; right 0;进窗口 让right指向的元素进窗口, 即更新hash2中的元素…

基于若依的ruoyi-nbcio流程管理系统支持指定接收人的流程审批

更多ruoyi-nbcio功能请看演示系统 gitee源代码地址 前后端代码&#xff1a; https://gitee.com/nbacheng/ruoyi-nbcio 演示地址&#xff1a;RuoYi-Nbcio后台管理系统 http://218.75.87.38:9666/ 更多nbcio-boot功能请看演示系统 gitee源代码地址 后端代码&#xff1a; h…

【SRC实战】无限获取优惠码

挖个洞先 https://mp.weixin.qq.com/s/HgMK4S8275VvFVbnSp6Qsw “ 以下漏洞均为实验靶场&#xff0c;如有雷同&#xff0c;纯属巧合 ” 01 — 漏洞证明 “ 获取优惠码有次数限制的情况下&#xff0c;如何绕过&#xff1f;” 1、新用户专属福利&#xff0c;免费领100元优惠…

Can not add resource (com.android.aaptcompiler.ParsedResource@a980fbb) to table

具体原因 资源合并时出现编译问题。 1. 什么是资源&#xff1f; 就是res目录下面的values目录下的文件。以及&#xff01;以及&#xff01;你所引入的其他依赖&#xff08;第三方库&#xff09;的values.xml文件 2. 一般什么原因会导致合并出错? 你的资源文件中的内容错误&…

python批量为图片做灰度处理

欢迎关注我👆,收藏下次不迷路┗|`O′|┛ 嗷~~ 目录 一.前言 二.代码 三.使用 四.总结

攻防世界(CTF)~web-supersqli(详细解题思路)

题目介绍 题目描述“随便注” 先看一下是否存在注入 判断闭合方式 输入1’ and 11-- -正常回显 输入1and 12-- -无回显,确认是单引号闭合 看一下列数 输入1 order by 2-- - 有回显 输入1 order by 3-- - 报错&#xff0c;由此判断两列 使用union联合注入发现select被过滤了&a…

ChatGPT4o免费体验?OpenAI 又在深夜放大招了!

&#x1f469;&#x1f3fd;‍&#x1f4bb;个人主页&#xff1a;阿木木AEcru &#x1f525; 系列专栏&#xff1a;《Docker容器化部署系列》 《Java每日面筋》 &#x1f4b9;每一次技术突破&#xff0c;都是对自我能力的挑战和超越。 目录 一、GPT4o是什么&#xff1f;二、官网…

美港通正规股票杠杆交易突破3900点,欧线集运再创历史新高

查查配5月13日,欧线集运主连高开高走,盘中一度涨超13%,截至早盘收盘涨11.93%,突破3900点。4月以来,欧线集运主连累计涨超110%。 美港通证券以其专业的服务和较低的管理费用在市场中受到不少关注。该平台提供了实盘交易、止盈止损、仓位控制等功能,旨在为投资者提供更为全面的投…

【Java的抽象类和接口】

1. 抽象类 1.1 抽象类概念 在面向对象的概念中&#xff0c;所有的对象都是通过类来描绘的&#xff0c;但是反过来&#xff0c;并不是所有的类都是用来描绘对象的&#xff0c;如果 一个类中没有包含足够的信息来描绘一个具体的对象&#xff0c;这样的类就是抽象类。 以上代码中…

网上跳蚤市场|基于SSM+vue的网上跳蚤市场系统的设计与实现(源码+数据库+文档)

网上跳蚤市场系统 目录 基于SSM&#xff0b;vue的网上跳蚤市场系统的设计与实现 一、前言 二、系统设计 三、系统功能设计 1系统功能模块 2后台登录模块 5.2.1管理员功能 5.2.2会员功能 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八…

HFSS学习-day5-边界条件

边界条件 概述边界条件类型1、理想导体边界条件&#xff08;Perfect E&#xff09;2、理想磁边界条件&#xff08;Perfect H&#xff09;3、有限导体边界条件&#xff08;Finite Conductivity&#xff09;4、辐射边界条件&#xff08;Radiation&#xff09;5、对称边界条件&…