基于百度接口的实时流式语音识别系统

news2024/12/25 12:59:32

目录

基于百度接口的实时流式语音识别系统

1. 简介

2. 需求分析

3. 系统架构

4. 模块设计

4.1 音频输入模块

4.2 WebSocket通信模块

4.3 音频处理模块

4.4 结果处理模块

5. 接口设计

5.1 WebSocket接口

5.2 音频输入接口

6. 流程图

程序说明文档

1. 安装依赖

2. 运行程序

3. 配置文件 (const.py)

4. 程序结构

5. 代码说明

5.1 主程序

代码说明

结论


基于百度接口的实时流式语音识别系统

1. 简介

本项目实现了一个实时流式语音识别系统,利用百度语音识别服务和WebSocket协议,实现从麦克风捕获音频数据并实时进行语音识别。该系统适用于需要将实时语音转换为文本的应用场景。

2. 需求分析
  • 实时捕获麦克风音频数据
  • 使用WebSocket与百度语音识别服务进行通信
  • 实时发送音频数据并接收识别结果
  • 提供可选的音频输入设备选择
3. 系统架构
  • 音频输入模块:使用PyAudio库捕获麦克风的音频数据。
  • WebSocket通信模块:使用websocket-client库与百度语音识别服务进行通信。
  • 音频处理模块:处理捕获的音频数据并通过WebSocket发送。
  • 结果处理模块:接收并处理百度语音识别服务返回的识别结果。
4. 模块设计
4.1 音频输入模块
  • 功能:从麦克风捕获音频数据并传递给WebSocket模块。
  • 实现:利用PyAudio库的回调函数实现音频数据的实时捕获。
4.2 WebSocket通信模块
  • 功能:与百度语音识别服务建立WebSocket连接,发送音频数据并接收识别结果。
  • 实现:使用websocket-client库实现WebSocket的连接、数据发送和接收。
4.3 音频处理模块
  • 功能:将捕获的音频数据按需处理并转换为适合发送的格式。
  • 实现:将音频数据转换为PCM格式并按帧发送。
4.4 结果处理模块
  • 功能:处理并显示百度语音识别服务返回的识别结果。
  • 实现:解析WebSocket返回的JSON数据并输出识别结果。
5. 接口设计
5.1 WebSocket接口
  • 连接URI:由const.URI定义
  • 连接参数:在连接建立时发送的起始参数帧,包含appid, appkey, dev_pid, cuid, sample, format等。
5.2 音频输入接口
  • 设备选择:列出可用的音频输入设备,用户选择设备索引。
6. 流程图
  1. 启动程序,列出可用音频输入设备,用户选择设备。
  2. 建立WebSocket连接。
  3. 发送起始参数帧。
  4. 开始捕获音频数据,通过WebSocket发送。
  5. 接收并处理识别结果。
  6. 发送结束帧,关闭连接。

程序说明文档

1. 安装依赖

首先,确保安装必要的库:

bash

Copy code

pip install websocket-client pyaudio

2. 运行程序

运行程序时,可以选择输入音频文件路径或者直接使用麦克风捕获音频:

python realtime_asr.py

3. 配置文件 (const.py)

在const.py文件中,需要配置以下参数:

python

Copy code

URI = "your_baidu_asr_service_uri"

APPID = "your_appid"

APPKEY = "your_appkey"

DEV_PID = 1537  # 选择合适的识别模型

4. 程序结构
  • realtime_asr.py:主程序文件,包含实时语音识别的实现。
  • const.py:配置文件,包含WebSocket URI和百度语音识别服务的appid和appkey。
5. 代码说明
5.1 主程序

python code

import websocketimport pyaudioimport threadingimport timeimport uuidimport jsonimport logging

import const

logger = logging.getLogger()

# 配置音频输入

CHUNK = 1024

FORMAT = pyaudio.paInt16

CHANNELS = 1

RATE = 16000

p = pyaudio.PyAudio()

# 列出所有音频设备

info = p.get_host_api_info_by_index(0)

numdevices = info.get('deviceCount')for i in range(0, numdevices):

    if (p.get_device_info_by_host_api_device_index(0, i).get('maxInputChannels')) > 0:

        print("Input Device id ", i, " - ", p.get_device_info_by_host_api_device_index(0, i).get('name'))

# 选择设备

device_index = int(input("Select device index: "))

def send_start_params(ws):

    req = {

        "type": "START",

        "data": {

            "appid": const.APPID,

            "appkey": const.APPKEY,

            "dev_pid": const.DEV_PID,

            "cuid": "yourself_defined_user_id",

            "sample": 16000,

            "format": "pcm"

        }

    }

    body = json.dumps(req)

    ws.send(body, websocket.ABNF.OPCODE_TEXT)

    logger.info("send START frame with params:" + body)

def send_audio(ws):

    def callback(in_data, frame_count, time_info, status):

        ws.send(in_data, websocket.ABNF.OPCODE_BINARY)

        return (in_data, pyaudio.paContinue)

    stream = p.open(format=FORMAT,

                    channels=CHANNELS,

                    rate=RATE,

                    input=True,

                    input_device_index=device_index,

                    frames_per_buffer=CHUNK,

                    stream_callback=callback)

    stream.start_stream()    

    while stream.is_active():

        time.sleep(0.1)

    stream.stop_stream()

    stream.close()

def send_finish(ws):

    req = {

        "type": "FINISH"

    }

    body = json.dumps(req)

    ws.send(body, websocket.ABNF.OPCODE_TEXT)

    logger.info("send FINISH frame")

def send_cancel(ws):

    req = {

        "type": "CANCEL"

    }

    body = json.dumps(req)

    ws.send(body, websocket.ABNF.OPCODE_TEXT)

    logger.info("send Cancel frame")

def on_open(ws):

    def run(*args):

        send_start_params(ws)

        send_audio(ws)

        send_finish(ws)

        logger.debug("thread terminating")

    threading.Thread(target=run).start()

def on_message(ws, message):

    logger.info("Response: " + message)

def on_error(ws, error):

    logger.error("error: " + str(error))

def on_close(ws):

    logger.info("ws close ...")

if __name__ == "__main__":

    logging.basicConfig(format='[%(asctime)-15s] [%(funcName)s()][%(levelname)s] %(message)s')

    logger.setLevel(logging.DEBUG)

    logger.info("begin")

    uri = const.URI + "?sn=" + str(uuid.uuid1())

    logger.info("uri is "+ uri)

    ws_app = websocket.WebSocketApp(uri,

                                    on_open=on_open,

                                    on_message=on_message,

                                    on_error=on_error,

                                    on_close=on_close)

    ws_app.run_forever()

代码说明

  • send_start_params(ws):发送识别开始的参数帧。
  • send_audio(ws):实时捕获麦克风音频并通过WebSocket发送。
  • send_finish(ws):发送识别结束的参数帧。
  • send_cancel(ws):发送取消识别的参数帧。
  • on_open(ws):WebSocket连接建立后的回调,启动一个线程发送音频数据。
  • on_message(ws, message):接收服务端返回的识别结果。
  • on_error(ws, error):处理连接错误。
  • on_close(ws):WebSocket连接关闭时的处理。

结论

本系统实现了从麦克风实时捕获音频并通过WebSocket与百度语音识别服务进行通信,实现实时语音识别的功能。该系统可应用于各种需要实时语音转文字的场景,如实时字幕、语音助手等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1792666.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

重邮803计网概述

目录 一.计算机网络向用户提供的最重要的功能 二.互联网概述 1.网络的网络 2.计算机网络的概念 3. 互联网发展的三个阶段 4.制订互联网的正式标准要经过以下的四个阶段 5.互联网的组成(功能) 6.互联网功能 7.互联网的组成(物理&#…

13_前端工程化_ES6

1.前端工程化概念 前端工程化是使用软件工程的方法来单独解决前端的开发流程中模块化、组件化、规范化、自动化的问题,其主要目的为了提高效率和降低成本。 前后端分离(前端代码工程化独立出来形成一个单独的app) 1.开发分离 2.部署分离 3.服务器分离…

图片和PDF展示预览、并支持下载

需求 展示图片和PDF类型&#xff0c;并且点击图片或者PDF可以预览 第一步&#xff1a;遍历所有的图片和PDF列表 <div v-for"(data,index) in parerFont(item.fileInfo)" :key"index" class"data-list-item"><downloadCard :file-inf…

STM32HAL-最简单的长、短、多击按键框架

目录 概述 一、开发环境 二、STM32CubeMx配置 三、编码 四、运行结果 五、总结 概述 本文章使用最简单的写法实现长、短、多击按键框架&#xff0c;非常适合移植各类型单片机&#xff0c;特别是资源少的芯片上。接下来将在stm32单片机上实现&#xff0c;只需占用1个定时…

spring 启动顺序

BeanFactoryAware 可在Bean 中获取 BeanFactory 实例 ApplicationContextAware 可在Bean 中获取 ApplicationContext 实例 BeanNameAware 可以在Bean中得到它在IOC容器中的Bean的实例的名字。 ApplicationListener 可监听 ContextRefreshedEvent等。 CommandLineRunner 整…

MySQL学习——选项文件的使用

MySQL 的许多程序都可以从选项文件&#xff08;有时也被称为配置文件&#xff09;中读取启动选项。选项文件提供了一种方便的方式来指定常用的选项&#xff0c;这样你就不必每次运行程序时都在命令行上输入这些选项。 要确定一个程序是否读取选项文件&#xff0c;你可以使用 -…

【工具箱】嵌入式系统存储芯片——CS创世 SD NAND

大家都知道MCU是一种"麻雀"虽小&#xff0c;却"五脏俱全"的主控。它的应用领域非常广泛&#xff0c;小到手机手表&#xff0c;大到航空航天的设备上都会用到MCU.市面上目前几个主流厂商有意法半导体&#xff08;其中最经典的一款就是STM32系列&#xff09;…

SSL证书国产化对提升我国网络安全的重要性

在互联网时代&#xff0c;数据安全和隐私保护成为全球关注的焦点。SSL证书作为保障网络通信安全的关键技术&#xff0c;其重要性不言而喻。然而&#xff0c;长期以来&#xff0c;我国在SSL证书领域过度依赖国外产品和技术&#xff0c;不仅存在安全隐患&#xff0c;也制约了我国…

LNMP网络架构的搭建

操作准备&#xff1a;准备三台虚拟机 安装 MySQL 服务 &#xff08;1&#xff09;准备好mysql目录上传软件压缩包并解压 cd /opt mkdir mysql tar xf mysql-boost-5.7.44.tar.gz &#xff08;2&#xff09;安装mysql环境依赖包 yum -y install ncurses ncurses-devel bison…

计算机网络之曼彻斯特编码和差分曼彻斯特编码

目录 前言 曼彻斯特编码 定义 策略 思路 差分曼彻斯特编码 定义 策略 思路 结束语 前言 今天是坚持写博客的第十九天&#xff0c;很高兴自己又坚持了一天&#xff0c;今天想送给自己一句李白《行路难》当中的诗词&#xff0c;希望我自己和大家都可以铭记于心&#x…

27、matlab傅里叶变换:fft()函数

1、fft 快速傅里叶变换 语法 Y fft(X) 使用快速傅里叶变换 (FFT) 算法计算 X 的离散傅里叶变换 (DFT)。 Y fft(X,n) 返回 n 点 DFT。 Y fft(X,n,dim) 返回沿维度 dim 的傅里叶变换。例如&#xff0c;如果 X 是矩阵&#xff0c;则 fft(X,n,2) 返回每行的 n 点傅里叶变换含…

微软不再允许Windows 11通过1@1.com绕过登录 但还有其他办法可以继续用

微软不再允许 Windows 11 通过 11.com 和 nothankyou.com 绕过登录&#xff0c;但断网的情况下使用 OOBE\BYPASSNRO 命令仍然是有效的。如果你在安装或重置系统时仍然需要创建本地账户&#xff0c;请直接使用 OOBE 命令。 在 Windows 11 家庭版和专业版中用户必须保持设备联网…

尚硅谷2024新版3小时速通Docker教程

尚硅谷2024新版3小时速通Docker教程 百度网盘&#xff1a;https://pan.baidu.com/s/1SncgHbdJehvZspjcrrbLSw?pwd6c27

linux 系统监控脚本

1.对CPU的监控函数 function GetCpu(){cpu_numgrep -c "model name" /proc/cpuinfocpu_usertop -b -n 1 | grep Cpu | awk {print $2} | cut -f 1 -d "%"cpu_systemtop -b -n 1 | grep Cpu | awk {print $4} | cut -f 1 -d "%"cpu_idletop -b -…

Github 2024-06-06 Go开源项目日报 Top10

根据Github Trendings的统计,今日(2024-06-06统计)共有10个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Go项目10Ollama: 本地大型语言模型设置与运行 创建周期:248 天开发语言:Go协议类型:MIT LicenseStar数量:42421 个Fork数量:2724 次关注人…

当边缘计算用在定位设备

什么是边缘计算&#xff1f; 边缘计算是个比较高大上的概念&#xff0c;在这里就不提众多官方与非官方的定义了&#xff0c;只说说自己的理解。 边缘计算就是在最靠近物理设备的使用现场&#xff0c;利用有限的硬件资源&#xff0c;完成设备层数据采集、协议转换、数据上传、…

Java | Leetcode Java题解之第120题三角形最小路径和

题目&#xff1a; 题解&#xff1a; class Solution {public int minimumTotal(List<List<Integer>> triangle) {int n triangle.size();int[] f new int[n];f[0] triangle.get(0).get(0);for (int i 1; i < n; i) {f[i] f[i - 1] triangle.get(i).get(i…

Chrome浏览器打开无痕模式的方法

快捷键&#xff1a;同时按住CtrlshiftN 如图&#xff0c;系统会新开一个无痕标签页&#xff0c;不需要了点右上角关闭就可以了。

探索计算机视觉:开启智能图像处理的新纪元

第一部分&#xff1a;计算机视觉概述与基本原理 计算机视觉&#xff0c;作为人工智能领域的重要分支&#xff0c;旨在让计算机具备处理和理解图像和视频数据的能力。随着深度学习技术的飞速发展&#xff0c;计算机视觉已经在许多实际应用场景中取得了显著的成果&#xff0c;如…

山东大学软件学院项目实训-创新实训-基于大模型的旅游平台(二十七)- 微服务(7)

11.1 : 同步调用的问题 11.2 异步通讯的优缺点 11.3 MQ MQ就是事件驱动架构中的Broker 安装MQ docker run \-e RABBITMQ_DEFAULT_USERxxxx \-e RABBITMQ_DEFAULT_PASSxxxxx \--name mq \--hostname mq1 \-p 15672:15672 \-p 5672:5672 \-d \rabbitmq:3-management 浏览器访问1…