linux系统中利用QT实现语音识别项目的操作方法

news2024/9/25 17:13:59

      大家好,今天主要和大家分享一下,如何使用linux系统上的语音识别项目的操作方法与实现。

 

目录

第一:语音识别基本简介

第二:语音识别产品申请账号

第三:具体代码实现


第一:语音识别基本简介

      AI音箱对传统音箱主要有两大块的技术区别,一块是语音信号的前处理,包括回声消除、波速成型、音源定位、降噪、去混响、自动语音电平控制这块是偏硬件的控制。还有一块是智 能语音交互,包括语音关键词搜索、本地语音识别、声纹识别、语音合成。

     写上面的这些是让读者了解一下专业AI音箱方案与开发板实现的语音识别的差别在哪里。

     说明语音识别项目的基本操作过程:

1、熟悉百度语音技术账号申请,及简单介绍调用流程。

2、用QT编写示例程序。流程如下,录制音频后,发送调用百度语音识别API接口,识别并返回结果。支持语音控制开发板上的LED控制。

第二:语音识别产品申请账号

      语音识别技术产品,有讯飞,百度等厂家,我们可以购买或者免费试用他们的产品。可以 直接到他们的官网上查看,有使用技术文档。下面我们以百度语音识别技术产品为例子。可以 在浏览器输入搜索“百度语音识别”,就可以找到百度 AI 开放平台。

点击进去就可以看到他的技术文档链接位置。如下图。

 或者直接打开https://ai.baidu.com/ai-doc/SPEECH/Ek39uxgre就可以跳转到百度AI开放平台》 帮助文档》语音技术页面。如下图。

 记住自己的密钥。请自行完成及创建百度帐号,按照百 度帮助文档里的步骤,领取免费额度及创建中文普通话应用,获取密钥!程序里需要用到自己 的密钥。笔者提供的密钥是百度语音识别例程里的,如果开发次数超了可能就不能使用了。程 序中只需要 API Key 与 Secret Key。注意获取 Access Token 时有效期为 30 天,到期后需要在程 序里重新获取新的 token。

第二:百度语音识别流程及示例

     在百度 AI 帮助文档里可以看见如下重要信息。

    总结:调用流程需要仔细阅读,百度提供了示例 Demo 代码,可以看到里面支持很多种编 程语言编写的 API 请求相关示例 demo 代码。没有直接 C++相关的代码。C 语言是 C++语言的 子集,我们可以直接参考 C 语言编写的例子(请自行查阅及参考百度提供的 C 语言编写的 API 请求相关示例 demo 代码)来编写 Qt 调用语音识别 API。(备注:其他语言编写的例子不在我 们教程范围。)识别的音频格式支持如上,我们可以知道一些重要的信息是支持采样率 16000、 8000 的固定值,16bit 深的单声道,音频长度最长 60 秒。格式支持 wav,恰好正点原子 Linux I.MX6U 开发板系统支持 wav 格式播放及录制。

第三:具体代码实现

     asr 是语音识别功能 demo。

1 #ifndef ASR_H
2 #define ASR_H
3
4 #include <QWidget>
5
6 #include <QNetworkAccessManager>
7 #include <QNetworkReply>
8
9 #include <QJsonDocument>
10 #include <QJsonParseError>
11 #include <QJsonObject>
12 #include <QJsonArray>
13 #include <QHostInfo>
14
15 #include <QFile>
16
17 class Asr : public QWidget
18 {
19 Q_OBJECT
20
21 public:
22 Asr(QWidget *parent = nullptr);
23 ~Asr();
24
25 /* 请求网络 */
26 void requestNetwork(QString, QByteArray);
27
28 /* 获取识别结果 */
29 void getTheResult(QString fileName);
30
31 private:
32 /* 存储获取 tokenUrl 地址 */
33 QString tokenUrl;
34
35 /* 存储 serverapi 地址 */
36 QString serverApiUrl;
37
38 /* 最终需要访问 token 的地址 */
39 QString accessToken;
40
41 /* 获取 token 的接口*/
42 const QString token_org =
"https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials
&client_id=%1&client_secret=%2&";
43
44 /* 填写网页上申请的 appkey 如 g_api_key="g8eBUMSokVB1BHGmgxxxxxx" */
45 const QString 8888;
46
47 /* 填写网页上申请的 APP SECRET 如
$secretKey="94dc99566550d87f8fa8ece112xxxxx" */
48 const QString 8888;
49
50 /* 百度服务器 API 接口,发送语音可返回识别结果 */
51 const QString server_api =
"http://vop.baidu.com/server_api?dev_pid=1537&cuid=%1&token=%2";
52
53 /* 网络管理 */
54 QNetworkAccessManager *networkAccessManager;
55
56 QString getJsonValue(QByteArray ba, QString key);
57
58 QFile file;
59
60 private slots:
61
62 /* 准备读取响应返回来的数据 */
63 void readyReadData();
64
65 /* 响应完成处理 */
66 void replyFinished();
67
68 signals:
69 void asrReadyData(QString);
70
71 };
72 #endif // ASR_H

 分析:第 45 行,请填写读者自己在网页上申请的 API Key。以防万一示例中的 API Key 过期不可 用! 第 47 行,请填写读者在网页上申请的 Secret Key。以防万一示例中的 Secret Key 过期不可 用

               

 

总结:原理 与原子云 API 接口相似。不过百度语音识别需要通过自己的帐号,指定地址获取访问的 Token 源地址,然后将得到的 Access Token 地址与语音识别服务器地址拼接,发送语音到服务 器,就可以返回识别的结果了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/175825.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java_Git:3. 远程仓库

目录 1 添加远程库 1.1 在github上创建仓库 1.2 ssh协议 1.2.1 什么是ssh? 1.2.2 基于密匙的安全验证 1.2.3 ssh密钥生成 ​​​​​​​​​​​​​​1.2.4 ssh密钥配置 1.3 同步到远程仓库 1.3.1 使用git bash 1.3.2 使用TortoiseGit同步 2 从远程仓库克隆 2.1 …

CSS颜色:RGB颜色/HEX颜色/HSL颜色(网页颜色完全总结)

目录 CSS 颜色名 CSS 背景色 实例 CSS 文本颜色 ​编辑 实例 CSS 边框颜色 实例 CSS 颜色值 实例 RGB 值 rgb(red, green, blue) 实例 实例 RGBA 值 rgba(red, green, blue, alpha) 实例 HEX 值 #rrggbb 实例 实例 HSL 值 hsla(hue, saturation, lightn…

autojs模仿QQ长按弹窗菜单

牙叔教程 简单易懂 分析弹框菜单 圆角列表, 类似grid箭头位于文字中间上(下)方需求分析 如果要写一个这样的教程, 我们需要做什么 写一个列表, 用来触发长按选项写一个弹窗菜单代码分析 列表怎么写, 先来一个最简单的布局代码 "nodejs ui"; require("rhin…

系统架构:分层架构

引子 系统在从0到1阶段时&#xff0c;为了可让产品快速上线&#xff0c;此时系统分层一般不是软件开发需要重点考虑的范畴&#xff0c;但是随着业务逐渐复杂 &#xff0c;大量代码纠缠耦合&#xff0c;此时会出现逻辑不清楚、模块相互依赖、扩展性差、改一处动全身的问题。 系…

基于双层共识控制的直流微电网优化调度(Matlab代码实现)

&#x1f4a5;&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️❤️&#x1f4a5;&#x1f4a5;&#x1f4a5; &#x1f389;作者研究&#xff1a;&#x1f3c5;&#x1f3c5;&#x1f3c5;本科计算机专业&#xff0c;研究生电气学硕…

14. python运算符

Python 语言支持以下类型的运算符 1. 算术运算符 、-、*、/、%、**、// **  返回x的y次幂 //  取整除 - 向下取接近商的整数(//得到的并不一定是整数类型的数&#xff0c;它与分母分子的数据类型有关系) print(7//2) print(7.0//2) print(7//2.0)2. 比较&#xff08;关系&…

进程概念——Linux

“技术是时间积淀出来的&#xff0c;你能速成的东西&#xff0c;别人也可以速成,所以需要耐心学习” 猛戳订阅&#x1f341;&#x1f341; &#x1f449;Linux操作系统详解&#x1f448; &#x1f341;&#x1f341; 这里是目录标题一、冯诺依曼结构为什么要存在内存&#xff1…

关系数据库-1-[mysql8]中的数据类型

详细介绍MySQL中的数据类型 1 MySQL中的数据类型 常见数据类型的属性&#xff0c;如下&#xff1a; 1.1 整数类型 一、类型介绍 整数类型一共有5种&#xff0c;包括TINYINT、SMALLINT、MEDIUMINT、INT(INTEGER)和 BIGINT。 二、可选属性 1、M:表示显示宽度 Q&#xff1a;…

【2022】年度总结——彼此当年少 莫负好时光

文章目录【2022】年度总结前言&#x1f388;&#x1f388;&#x1f388;2022的得与失&#x1f9e8;&#x1f9e8;&#x1f9e8;对2023的期望&#x1f4e7;&#x1f4e7;&#x1f4e7;写在最后的话✍&#x1f3fb;✍&#x1f3fb;✍&#x1f3fb;【2022】年度总结 前言&#x1f…

client-go实战之七:准备一个工程管理后续实战的代码

欢迎访问我的GitHub 这里分类和汇总了欣宸的全部原创(含配套源码)&#xff1a;https://github.com/zq2599/blog_demos 系列文章链接 client-go实战之一&#xff1a;准备工作client-go实战之二:RESTClientclient-go实战之三&#xff1a;Clientsetclient-go实战之四&#xff1a;…

TCP为什么是三次握手和四次挥手以及可能出现的问题

目录TCP为啥设定为三次握手(两个角度分析)不可靠产生无效链接浪费服务器资源TCP为啥四次挥手服务端有剩余数据需要发送--四次挥手(多数情况)服务端无剩余数据发送--捎带应答--四次变三次(少数情况)四次挥手可能出现的问题可能出现大量的TIME_WAIT可能出现大量的CLOSE_WAITTCP为…

关于他人交谈?顺应张莉打破预期

如果你站在权利的优势场,其实你不用可以谋划什么,就可以直接顺利交流.这个时候打破预期,就要对别人更加尊重.例子&#xff1a; 美国前总统克林顿跟每一个在场的人员握手并询问名字。交流中弱势一方的预期是在&#xff0c;希望得到对方尊重&#xff0c;而不是工具人。如果站在劣…

文件没学懂没关系,我来教你快速学会文件

1. 什么是文件 文件通常是在磁盘或固态上的一段已经命名的存储区。C把文件看作是一系列连续的字节&#xff0c;每个字节都被单独读取。 在程序设计中&#xff0c;我们一般谈的文件有两种&#xff1a;程序文件、数据文件&#xff08;从文件功能的角度来分类的&#xff09; 1.…

Spring Boot操作数据库学习之整合MyBatis

文章目录一 MyBatis简介二 配置数据源三 整合测试3.1 导入MyBatis依赖3.2 配置数据库连接信息application.yml3.3 使用idea测试数据库3.4 创建实体类【可以使用Lombok】3.5 创建实体类3.6 创建mapper目录以及对应的Mapper接口3.7 创建Mapper映射文件3.8 配置mybatis映射文件3.9…

第四十四章 动态规划——背包问题模型(一)

第四十四章 动态规划——背包问题模型&#xff08;一&#xff09;一、模型概述二、模型变形1、AcWing 423. 采药&#xff08;1&#xff09;问题&#xff08;2&#xff09;分析&#xff08;3&#xff09;代码2、AcWing 1024. 装箱问题&#xff08;1&#xff09;问题&#xff08;…

ESP8266 ArduinoIDE 物联网web客户端开发

一、使用 esp8266 实现 HTTP 客户端协议 在 arduinoIDE 中&#xff0c;并没有专门的 HTTP 协议客户端库。但是我们可以用 TCP 协议来自动手动实现。 1.1 HTTP 请求报文简介 所谓请求报文&#xff0c;即是基于 TCP/IP 协议发送的一串规范字符&#xff0c;这串规范字符描述了当…

liunx centos9安装nodejs并搭建vue 图文详解手把手教程

首先nodjs的官网找到liunx的安装包 https://nodejs.org/en/download/ 这里不推荐用源码安装&#xff0c;因为实在太慢&#xff0c;我安装时一下在不停安装连续15分钟都还在跑就是不知道什么原因 解压包 tar -xvf /root/node-v18.13.0-linux-x64.tar.xz设置全局 -s后面地址就是…

Android入门第59天-进入MVVM

什么是MVVM用“某大文豪亲”的话说&#xff1a;MVVM并不存在&#xff0c;只是xml里找控件找了太多了&#xff0c;自然而然就“找”出了一套共性。所以&#xff0c;MVVM只是包括了以下这些技术&#xff1a;DataBind&#xff1b;ViewModel双向绑定&#xff1b;Okhttp3retrofitrxj…

图解函数递归、数组详解

目录 一.修炼必备 二.图解递归的执行过程 三.数组 3.1 一维数组 3.2 二维数组 3.3 数组的共同问题 一.修炼必备 1.入门必备&#xff1a;VS2019社区版&#xff0c;下载地址&#xff1a;Visual Studio 较旧的下载 - 2019、2017、2015 和以前的版本 (microsoft.com) 2.趁手武…

视频文缩略图SDK:GleamTech VideoUltimate Crack

Video Reader and Thumbnailer for .NET Core 和 .网络框架 读取地球上的任何视频文件格式。逐帧读取视频文件。生成有意义的缩略图。 VideoUltimate是最快&#xff0c;最简单的.NET视频阅读器和缩略图器&#xff0c;可以读取任何视频文件格式 在地球上。它允许您逐帧读取视频…