鸿蒙AI功能开发【hiai引擎框架-语音识别】 基础语音服务

news2024/12/30 3:12:54

hiai引擎框架-语音识别

介绍

本示例展示了使用hiai引擎框架提供的语音识别能力。

本示例展示了对一段音频流转换成文字的能力展示。

需要使用hiai引擎框架文本转语音接口@kit.CoreSpeechKit.d.ts.

效果预览

1

使用说明:

  1. 在手机的主屏幕,点击”asrDemo“,启动应用。
  2. 点击“CreateEngine”,进行能力初始化。
  3. 点击“startRecording”,开始识别。
  4. 点击“audioTotext”,写流进行识别,需开发者准备好音频流。 若demo中采用从音频文件中读取的方式获取音频流,优先执行执行如下命令:hdc_std file send 001.pcm /data/app/el2/100/base/com.huawei.hms.asrdemo/haps/hiaiuser/files hdc_std shell chmod 777 /data/app/el2/100/base/com.huawei.hms.asrdemo/haps/hiaiuser/files/001.pcm将PCM格式的音频信息导入本demo的沙箱路径下。 点击audioTotext按钮即可从音频文件中获取音频信息并写入。
  5. 点击“finish”等按钮对识别事件进行控制。
  6. 点击“queryLanguagesCallback/queryLanguagesPromise”,查询支持的语种和音色。

具体实现

本示例展示了在@kit.CoreSpeechKit.d.ts定义的API:

  • createEngine(createEngineParams: CreateEngineParams, callback: AsyncCallback): void;
  • createEngine(createEngineParams: CreateEngineParams): Promise;
  • setListener(listener: RecognizerListener): void;
  • queryLanguages(params: LanguageQuery, callback: AsyncCallback): void;
  • queryLanguages(params: LanguageQuery): Promise;
  • startListening(params: StartParams): void;
  • writeAudio(sessionId: string, audio: Uint8Array): void;
  • finish(sessionId: string): void;
  • cancel(sessionId: string): void;
  • shutdown(): void;

业务使用时,需要先进行import导入speechRecognizer。 调用writeAudio等接口,传入想要识别的音频,得到识别结果,观察日志等。参考:

import { speechRecognizer } from '@kit.CoreSpeechKit';
import { BusinessError } from '@kit.BasicServicesKit';
import { ICapturerInterface } from './ICapturerInterface';
import FileCapturer from './FileCapturer';
import { fileIo } from '@kit.CoreFileKit';
import AudioCapturer from './AudioCapturer'

const TAG: string = 'AsrDemo';
let asrEngine: speechRecognizer.SpeechRecognitionEngine;

@Entry
@Component
struct Index {
  @State createCount: number = 0;
  @State result: boolean = false;
  @State voiceInfo: string = "";
  @State sessionId: string = "123456";
  private mFileCapturer: ICapturerInterface = new FileCapturer();
  private mAudioCapturer: ICapturerInterface = new AudioCapturer();

  build() {
    Column() {
      Scroll() {
        Column() {
          Button() {
            Text("CreateEngine")
              .fontColor(Color.White)
              .fontSize(20)
          }
          .type(ButtonType.Capsule)
          .backgroundColor("#0x317AE7")
          .width("80%")
          .height(50)
          .margin(10)
          .onClick(() => {
            this.createCount++;
            console.info(`CreateasrEngine:createCount:${this.createCount}`);
            this.createByCallback();
          })

          Button() {
            Text("CreateEngineByPromise")
              .fontColor(Color.White)
              .fontSize(20)
          }
          .type(ButtonType.Capsule)
          .backgroundColor("#0x317AE7")
          .width("80%")
          .height(50)
          .margin(10)
          .onClick(() => {
            this.createCount++;
            console.info(`CreateasrEngine:createCount:${this.createCount}`);
            this.createByPromise();
          })

          Button() {
            Text("isBusy")
              .fontColor(Color.White)
              .fontSize(20)
          }
          .type(ButtonType.Capsule)
          .backgroundColor("#0x317AE7")
          .width("80%")
          .height(50)
          .margin(10)
          .onClick(() => {
            //结束识别
            console.info(TAG, "isBusy click:-->");
            let isBusy: boolean = asrEngine.isBusy();
            console.info(TAG, "isBusy: " + isBusy);
          })

          Button() {
            Text("startRecording")
              .fontColor(Color.White)
              .fontSize(20)
          }
          .type(ButtonType.Capsule)
          .backgroundColor("#0x317AE7")
          .width("80%")
          .height(50)
          .margin(10)
          .onClick(() => {
            this.startRecording();
          })

          Button() {
            Text("audioToText")
              .fontColor(Color.White)
              .fontSize(20)
          }
          .type(ButtonType.Capsule)
          .backgroundColor("#0x317AE7")
          .width("80%")
          .height(50)
          .margin(10)
          .onClick(() => {
            this.writeAudio();
          })

          Button() {
            Text("queryLanguagesCallback")
              .fontColor(Color.White)
              .fontSize(20)
          }
          .type(ButtonType.Capsule)
          .backgroundColor("#0x317AE7")
          .width("80%")
          .height(50)
          .margin(10)
          .onClick(() => {
            this.queryLanguagesCallback();
          })

          Button() {
            Text("queryLanguagesPromise")
              .fontColor(Color.White)
              .fontSize(20)
          }
          .type(ButtonType.Capsule)
          .backgroundColor("#0x317AE7")
          .width("80%")
          .height(50)
          .margin(10)
          .onClick(() => {
            this.queryLanguagesPromise();
          })

          Button() {
            Text("finish")
              .fontColor(Color.White)
              .fontSize(20)
          }
          .type(ButtonType.Capsule)
          .backgroundColor("#0x317AE7")
          .width("80%")
          .height(50)
          .margin(10)
          .onClick(async () => {
            //结束识别
            console.info("finish click:-->");
            await this.mFileCapturer.stop();
            asrEngine.finish(this.sessionId);
          })

          Button() {
            Text("cancel")
              .fontColor(Color.White)
              .fontSize(20)
          }
          .type(ButtonType.Capsule)
          .backgroundColor("#0x317AE7")
          .width("80%")
          .height(50)
          .margin(10)
          .onClick(() => {
            //取消识别
            console.info("cancel click:-->");
            asrEngine.cancel(this.sessionId);
          })

          Button() {
            Text("shutdown")
              .fontColor(Color.White)
              .fontSize(20)
          }
          .type(ButtonType.Capsule)
          .backgroundColor("#0x317AA7")
          .width("80%")
          .height(50)
          .margin(10)
          .onClick(() => {
            //释放引擎
            asrEngine.shutdown();
          })

          Button() {
            Text("createOfErrorLanguage")
              .fontColor(Color.White)
              .fontSize(20)
          }
          .type(ButtonType.Capsule)
          .backgroundColor("#0x317AE7")
          .width("80%")
          .height(50)
          .margin(10)
          .onClick(() => {
            this.createCount++;
            console.info(`CreateasrEngine:createCount:${this.createCount}`);
            this.createOfErrorLanguage();
          })

          Button() {
            Text("createOfErrorOnline")
              .fontColor(Color.White)
              .fontSize(20)
          }
          .type(ButtonType.Capsule)
          .backgroundColor("#0x317AE7")
          .width("80%")
          .height(50)
          .margin(10)
          .onClick(() => {
            this.createCount++;
            console.info(`CreateasrEngine:createCount:${this.createCount}`);
            this.createOfErrorOnline();
          })

        }
        .layoutWeight(1)
      }
      .width('100%')
      .height('100%')

    }
  }

  //创建引擎,通过callback形式返回
  private createByCallback() {
    //设置创建引擎参数
    let extraParam: Record<string, Object> = { "locate": "CN", "recognizerMode": "short" };
    let initParamsInfo: speechRecognizer.CreateEngineParams = {
      language: 'zh-CN',
      online: 1,
      extraParams: extraParam
    };

    try {
      //调用createEngine方法
      speechRecognizer.createEngine(initParamsInfo, (err: BusinessError, speechRecognitionEngine: speechRecognizer.SpeechRecognitionEngine) => {
        if (!err) {
          console.info(TAG, 'createEngine is success');
          //接收创建引擎的实例
          asrEngine = speechRecognitionEngine;
        } else {
          //无法创建引擎时返回错误码1002200008,原因:引擎正在销毁中
          console.error("errCode: " + err.code + " errMessage: " + JSON.stringify(err.message));
        }
      });
    } catch (error) {
      let message = (error as BusinessError).message;
      let code = (error as BusinessError).code;
      console.error(`createEngine failed, error code: ${code}, message: ${message}.`)
    }
  }

  //创建引擎,通过promise形式返回
  private createByPromise() {
    //设置创建引擎参数
    let extraParam: Record<string, Object> = { "locate": "CN", "recognizerMode": "short" };
    let initParamsInfo: speechRecognizer.CreateEngineParams = {
      language: 'zh-CN',
      online: 1,
      extraParams: extraParam
    };

    //调用createEngine方法
    speechRecognizer.createEngine(initParamsInfo)
      .then((speechRecognitionEngine: speechRecognizer.SpeechRecognitionEngine) => {
        asrEngine = speechRecognitionEngine;
        console.info('result:' + JSON.stringify(speechRecognitionEngine));
      })
      .catch((err: BusinessError) => {
        console.error('result' + JSON.stringify(err));
      });
  }

  //查询语种信息,以callback形式返回
  private queryLanguagesCallback() {
    //设置查询相关参数
    let languageQuery: speechRecognizer.LanguageQuery = {
      sessionId: '123456'
    };
    //调用listLanguages方法
    try {
      console.info(TAG, 'listLanguages  start');
      asrEngine.listLanguages(languageQuery, (err: BusinessError, languages: Array<string>) => {
        if (!err) {
          //接收目前支持的语种信息
          console.info(TAG, 'listLanguages  result: ' + JSON.stringify(languages));
        } else {
          console.error("errCode is " + JSON.stringify(err));
        }
      });
    } catch (error) {
      let message = (error as BusinessError).message;
      let code = (error as BusinessError).code;
      console.error(`listLanguages failed, error code: ${code}, message: ${message}.`)
    }

  };

  //查询语种信息,以promise返回
  private queryLanguagesPromise() {
    //设置查询相关的参数
    let languageQuery: speechRecognizer.LanguageQuery = {
      sessionId: '123456'
    };
    //调用listLanguages方法
    asrEngine.listLanguages(languageQuery).then((res: Array<string>) => {
      console.info('voiceInfo:' + JSON.stringify(res));
    }).catch((err: BusinessError) => {
      console.error('error' + JSON.stringify(err));
    });
  }

  //录音转文本
  private async startRecording() {
    this.setListener();
    //设置开始识别的相关参数
    let audioParam: speechRecognizer.AudioInfo = { audioType: 'pcm', sampleRate: 16000, soundChannel: 1, sampleBit: 16 }
    let extraParam: Record<string, Object> = {
      "recognitionMode": 0,
      "vadBegin": 2000,
      "vadEnd": 3000,
      "maxAudioDuration": 20000
    }
    let recognizerParams: speechRecognizer.StartParams = {
      sessionId: this.sessionId,
      audioInfo: audioParam,
      extraParams: extraParam
    }
    //调用开始识别方法
    console.info(TAG, 'startListening start');
    asrEngine.startListening(recognizerParams);

    //录音获取音频
    let data: ArrayBuffer;
    this.mFileCapturer = this.mAudioCapturer;
    console.info(TAG, 'create capture success');
    this.mFileCapturer.init((dataBuffer: ArrayBuffer) => {
      console.info(TAG, 'start write');
      console.info(TAG, 'ArrayBuffer ' + JSON.stringify(dataBuffer));
      data = dataBuffer
      let unit8Array: Uint8Array = new Uint8Array(data);
      console.info(TAG, 'ArrayBuffer unit8Array ' + JSON.stringify(unit8Array));
      //写入音频流
      asrEngine.writeAudio("123456", unit8Array);
    });
    // await this.mFileCapturer.start();
  };

  //音频转文本
  private async writeAudio() {
    this.setListener();
    //设置开始识别的相关参数
    let audioParam: speechRecognizer.AudioInfo = { audioType: 'pcm', sampleRate: 16000, soundChannel: 1, sampleBit: 16 }
    let recognizerParams: speechRecognizer.StartParams = {
      sessionId: this.sessionId,
      audioInfo: audioParam
    }
    //调用开始识别方法
    asrEngine.startListening(recognizerParams);

    //文件中获取音频
    let data: ArrayBuffer;
    let ctx = getContext(this);
    let filenames: string[] = fileIo.listFileSync(ctx.filesDir);
    if (filenames.length <= 0) {
      console.error('length is null');
      return;
    }
    let filePath: string = ctx.filesDir + '/' + filenames[0];
    (this.mFileCapturer as FileCapturer).setFilePath(filePath); // 文件
    this.mFileCapturer.init((dataBuffer: ArrayBuffer) => {
      data = dataBuffer
      let unit8Array: Uint8Array = new Uint8Array(data);
      asrEngine.writeAudio("123456", unit8Array);
    });
    await this.mFileCapturer.start();
  }

  //设置回调
  private setListener() {
    //创建回调对象
    let setListener: speechRecognizer.RecognitionListener = {
      //开始识别成功回调
      onStart(sessionId: string, eventMessage: string) {
        console.info(TAG, "setListener onStart sessionId: " + sessionId + "eventMessage: " + eventMessage);
      },
      //事件回调
      onEvent(sessionId: string, eventCode: number, eventMessage: string) {
        console.info(TAG, "setListener onEvent sessionId: " + sessionId + "eventMessage: " + eventCode + "eventMessage: " + eventMessage);
      },
      //识别结果回调,包括中间结果和最终结果
      onResult(sessionId: string, res: speechRecognizer.SpeechRecognitionResult) {
        let isFinal: boolean = res.isFinal;
        let isLast: boolean = res.isLast;
        let result: string = res.result;
        console.info('setListener onResult: ' + 'sessionId: ' + sessionId + ' isFinal: ' + isFinal + ' isLast: ' + isLast + ' result: ' + result);
      },
      //识别完成回调
      onComplete(sessionId: string, eventMessage: string) {
        console.info(TAG, "setListener onComplete sessionId: " + sessionId + "eventMessage: " + eventMessage);
      },
      //错误回调,错误码通过本方法返回
      //返回错误码1002200002,开始识别失败,重复启动startListening方法时触发
      //返回错误码1002200003,输入的音频超过支持的最大音频长度
      //返回错误码1002200004,结束识别失败,当前没有正在识别的任务时调用finish方法触发
      //返回错误码1002200005,取消识别失败,当前没有正在识别的任务时调用cancel方法触发
      //返回错误码1002200006,识别引擎正忙,引擎正在识别中
      //返回错误码1002200007,引擎未初始化时调用startListening、writeAudio、finish、cancel等方法时触发
      onError(sessionId: string, errorCode: number, errorMessage: string) {
        console.error(TAG, "setListener onError sessionId: " + sessionId + "errorCode: " + errorCode + "errorMessage: " + errorMessage);
      }
    }
    //调用回调方法
    asrEngine.setListener(setListener);
  };

  //使用不支持的语种创建引擎,返回错误码返回错误码1002200001,语种不支持
  private createOfErrorLanguage() {
    //设置创建引擎参数
    let initParamsInfo: speechRecognizer.CreateEngineParams = {
      //不支持的语种
      language: 'zh-CNX',
      online: 1
    };
    try {
      //调用createEngine方法
      speechRecognizer.createEngine(initParamsInfo, (err: BusinessError, speechRecognitionEngine: speechRecognizer.SpeechRecognitionEngine) => {
        if (!err) {
          console.info(TAG, 'createEngine is success');
          //接受创建引擎的实例
          asrEngine = speechRecognitionEngine;
        } else {
          //返回错误码1002200001,语种不支持,初始化失败
          console.error("errCode: " + err.code + " errMessage: " + JSON.stringify(err.message));
        }
      });
    } catch (error) {
      let message = (error as BusinessError).message;
      let code = (error as BusinessError).code;
      console.error(`createEngine failed, error code: ${code}, message: ${message}.`)
    }
  }

  //使用不支持的模式创建引擎,返回错误码1002200001,模式不支持初始化失败
  private createOfErrorOnline() {
    //设置创建引擎参数
    let initParamsInfo: speechRecognizer.CreateEngineParams = {
      language: 'zh-CN',
      online: 2
    };
    try {
      //调用createEngine方法
      speechRecognizer.createEngine(initParamsInfo, (err: BusinessError, speechRecognitionEngine: speechRecognizer.SpeechRecognitionEngine) => {
        if (!err) {
          console.info(TAG, 'createEngine is success');
          //接受创建引擎的实例
          asrEngine = speechRecognitionEngine;
        } else {
          //返回错误码1002200001,模式不支持,初始化失败
          console.error("errCode: " + err.code + " errMessage: " + JSON.stringify(err.message));
        }
      });
    } catch (error) {
      let message = (error as BusinessError).message;
      let code = (error as BusinessError).code;
      console.error(`createEngine failed, error code: ${code}, message: ${message}.`)
    }
  }
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1992724.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

CMake基础教程二

常用 环境变量 SET(ENV{VAR} VALUE)**常用变量&#xff1a;**| 变量名 | 含义 | | ----------------------------- | ---------------------------------------------------------…

Bitwise 首席投资官:忽略短期的市场波动,关注加密货币的发展前景

原文标题&#xff1a;《The Crypto Market Sell-Off: What Happened and Where We Go From Here》撰文&#xff1a;Matt Hougan&#xff0c;Bitwise 首席投资官编译&#xff1a;Chris&#xff0c;Techub News 加密货币市场在周末经历了大幅下跌。从上周五下午 4 点到周一早上 7…

2024年下软考报名全流程+备考指南(八月最新版)

2024年下半年软考备考&#xff0c;一定要知道这几点&#xff01; 2024年下半年软考报名已迫在眉睫&#xff0c;不知不觉间&#xff0c;留给下半年考试小伙伴们的复习时间只有三个月。备考的小伙伴们准备好了吗&#xff1f;这些全程重点&#xff0c;请务必收藏保存&#xff0c;…

C/C++数字与字符串互相转换

前言&#xff1a; 在C/C程序中&#xff0c;会需要把数字与字符串做出互相转换的操作&#xff0c;用于实现程序想要的效果。下面将介绍多种方法实现数字与字符串互相转换。 字符串转为数字 一、利用ASCII 我们知道每个字符都有一个ASCII码&#xff0c;利用这一点可以将字符-0…

vue文件style标签变成黄色,media query is expected

效果如下图所示&#xff0c;红色波浪线&#xff0c;鼠标放上去提示 media query is expected 对比其他文件后发现是引入scss文件后后面少了分号&#xff0c;导致报错&#xff0c;加上分号&#xff0c;效果如下图&#xff0c;完美解决~

文件操作常用函数及makefile的使用

文件操作中常用函数 1. getpwuid 定义: struct passwd *getpwuid(uid_t uid);功能: 根据用户ID&#xff08;UID&#xff09;返回与之对应的passwd结构体指针&#xff0c;该结构体包含用户的详细信息。常用字段: pw_name: 用户名。pw_uid: 用户ID。pw_gid: 用户的组ID。pw_dir…

Qt实现类似淘宝商品看板的界面,带有循环翻页以及点击某页跳转的功能

效果如下&#xff1a; #ifndef ModelDashboardGroup_h__ #define ModelDashboardGroup_h__#include <QGridLayout> #include <QLabel> #include <QPushButton> #include <QWidget>#include <QLabel> #include <QWidget> #include <QMou…

Jenkins保姆笔记(3)——Jenkins拉取Git代码、编译、打包、远程多服务器部署Spring Boot项目

前面我们介绍过&#xff1a; Jenkins保姆笔记&#xff08;1&#xff09;——基于Java8的Jenkins安装部署 Jenkins保姆笔记&#xff08;2&#xff09;——基于Java8的Jenkins插件安装 本篇主要介绍基于Java8的Jenkins第一个Hello World项目&#xff0c;一起实践下Jenkins拉…

第十九节 大语言模型与多模态大模型loss计算

文章目录 前言一、大语言模型loss计算1、loss计算代码解读2、构建模型输入内容与label标签二、多模态大模型loss计算方法1、多模态loss计算代码解读2、多模态输入内容2、大语言模型输入内容3、图像embending如何嵌入文本embeding前言 如果看了我前面文章,想必你基本对整个代码…

Java学习Day24:基础篇14:多线程

1.程序、进程和线程 程序 进程 进程(process)是程序的一次执行过程&#xff0c;或是一个正在执行的程序。是一个动态的过程&#xff1a;有它自身的产 生、存在和消亡的过程。 如&#xff1a; 运行中的QQ运行中的音乐播放器视频播放器等&#xff1b;程序是静态的&#xff0c…

写给小白程序员的一封信

文章目录 1.编程小白如何成为大神&#xff1f;大学新生的最佳入门攻略2.程序员的练级攻略3.编程语言的选择4.熟悉Linux5.学会git6.知道在哪寻求帮助7.多结交朋友8.参加开源项目9.坚持下去 1.编程小白如何成为大神&#xff1f;大学新生的最佳入门攻略 编程已成为当代大学生的必…

音视频开发,最新学习心得与感悟

音视频技术的知识海洋浩瀚无垠&#xff0c;自学之路显得尤为崎岖&#xff0c;技术门槛的存在是毋庸置疑的事实。 对于渴望踏入这一行业的初学者而言&#xff0c;学习资源的匮乏成为了一道难以逾越的障碍。 本次文章主要是给大家分享音视频开发进阶学习路线&#xff0c;虽然我…

三大口诀不一样的代码,小小的制表符和换行符玩的溜呀

# 小案例&#xff0c;打印输出加法口诀 for i in range(1,10):for j in range(1,10):if j>i:breakprint(f"{j}{i}{ji}".strip(),end\t)print() print(\n) for i in range(1,10):for j in range(1,10):if j>i:breakprint(f"{j}x{i}{j*i}",end\t)print…

[Spring] Spring AOP

&#x1f338;个人主页:https://blog.csdn.net/2301_80050796?spm1000.2115.3001.5343 &#x1f3f5;️热门专栏: &#x1f9ca; Java基本语法(97平均质量分)https://blog.csdn.net/2301_80050796/category_12615970.html?spm1001.2014.3001.5482 &#x1f355; Collection与…

【Linux】sudo提升权限(入门)

相关专栏&#xff1a;《Linux》 目录 1. sudo功能介绍 2. 任何人都能用 sudo 吗&#xff1f; &#xff08;1&#xff09;查看配置文件/etc/sudoers &#xff08;2&#xff09;修改/etc/sudoers提权 3. 改变sudo输入密码时间 4. 显示sudo 密码 5.常见 sudo 命令 -k 参数 …

ajax part4

图片上传 <!DOCTYPE html> <lang"en"><head>cmeta charset"UTF-8><meta http-equiv"X-UA-Compatibleb content" IEedge"><meta name"viewportR content" wiclthdevic6-widths initial-scalel. 0"&…

做报表用什么工具?不想再用Excel了!!!

一、什么是中国式报表&#xff1f; 不知道大家现在还是使用Excel来制作报表&#xff0c;然后跟领导汇报工作吗&#xff1f;虽然Excel功能很强大&#xff0c;但是用Excel做过中国式报表的小伙伴一定知道它的制作过程有多复杂。 中国式报表可以用一句话简单概括&#xff1a;格式…

C++笔试强训11

文章目录 一、选择题1-5题6-10题 二、编程题题目一题目二 一、选择题 1-5题 A. 不是任何一个函数都可定义成内联函数&#xff1a;这是正确的。因为内联函数需要在编译时展开&#xff0c;如果函数体过大或包含复杂的控制结构&#xff08;如循环、递归等&#xff09;&#xff0c…

Linux/C 高级——分文件编程

1.头文件&#xff1a;.h结尾的文件 头文件引用、宏定义、重命名typedef、结构体、共用体、枚举的定义、函数声明、外部引用extern。 一般全局变量不会定义在头文件中 2.源文件&#xff1a;.c结尾的文件 包含main函数的.c文件&#xff1a;main函数 包含子函数的.c文件&#xff1…

【LLM】-17-会话存储

目录 1、会话存储类型 2、版本代码说明 3、对话缓存存储 3.1、示例代码 3.2、响应response说明 3.3、流式输出 3.4、添加提示词模板 3.5、指定回答语言 4、限制令牌数存储 4.1、trim_messages 4.1.1、自定义tokens计数器 4.1.2、自定义tokens计数器 4.2、完整chat…