背景
柴火创客空间作为大湾区科技创新的窗口,每年到访空间的社区伙伴众多,为了更好的进行空间信息交互,我们希望有一个装置是可以解决:当空间管理员不在现场的时候,到访者可以通过装置获得清晰的介绍与引导。
为了解决这个问题,K同学设计了一个智能语音识别系统,它作为一个智能语音向导,能够向用户介绍产品和项目,同时引导他们参观柴火创客空间。这个系统利用XIAO ESP32S3微控制器和Edge Impulse平台进行语音识别。当用户说出特定的语音指令时,系统能够识别并执行相应的操作,例如介绍产品、指引方向等。
材料清单
- XIAO ESP32S3 Sense
- MP3 V4 模块
- DIP 人体感应模块
- 电脑音响
- 按钮
软件
- Arduino IDE
- Edge Impluse
Edge Impluse 介绍
Edge Impulse是一个专为边缘设备和嵌入式系统开发机器学习模型的平台。 它提供了一套全面的工具和服务,使开发人员能够快速创建、训练和部署机器学习模型,而无需深入了解机器学习。
该平台提供了一系列全面的工具和服务,帮助开发人员迅速构建、训练和部署机器学习模型,无需深入了解机器学习原理。 Edge Impulse提供的数据收集工具能轻松地从各种传感器和设备中收集数据,并上传至平台进行管理和标注。 此外,Edge Impulse还提供了一系列预处理和特征提取算法,能自动处理原始数据并提取有用的特征,为模型的训练做好准备。 一旦模型训练完成,可以轻松地部署到各种边缘设备和嵌入式系统上,包括Arduino、树莓派和各类微控制器。Edge Impulse提供多种部署选项,例如生成优化的C++代码、二进制文件或自定义SDK。
Edge Impulse的一大优势是其用户友好性和易用性。通过直观的图形界面和引导式工作流程,即使是机器学习初学者也能快速上手,创建出高质量的机器学习模型。 此外,Edge Impulse还提供了大量的教程、示例项目和社区支持,帮助开发人员学习和分享知识。它与各种硬件平台和传感器生态系统无缝集成,使得在边缘设备上部署机器学习变得更加简单。 总的来说,Edge Impulse是一个强大的平台,它降低了机器学习的门槛,使得开发和部署智能应用程序在边缘设备上变得更加简单高效。无论您是初学者还是经验丰富的开发人员,Edge Impulse都能帮助您创建出创新的物联网和嵌入式智能解决方案。
XIAO ESP32S3 Sense 介绍
特征:
强大的MCU板:集成ESP32S3 32位双核Xtensa处理器芯片,工作频率高达240 MHz,安装多个开发端口,支持Arduino / MicroPython
高级功能:可拆卸的OV2640摄像头传感器,分辨率为1600*1200,兼容OV5640摄像头传感器,集成附加数字麦克风
大内存带来更多可能性:提供8MB PSRAM和8MB闪存,支持SD卡插槽用于外部32GB FAT内存
出色的射频性能:支持2.4GHz Wi-Fi和BLE双无线通信,连接U.FL天线时支持100m+远程通信
拇指大小的紧凑型设计:21 x 17.5mm,采用XIAO的经典外形,适用于可穿戴设备等空间有限的项目
语音识别模型
采集(本地)音频数据
可以使用手机,电脑等可以录音的设备进行录音,值得一提的是XIAO ESP32S3也可以进行录音并存储到SD卡上, 我们需要录制“你好”,“Hello”和背景的三种音频样本
PS:1. 如果用手机,电脑录音的话请记住要将文件命名类似为“hello.1”“hello.2”“hello.3”“noise.1”...等等
- 文件格式需要为WAV
不过也可以用XIAO ESP32S3 进行录音:
设置硬件
将 microSD 卡插入 microSD 卡插槽。注意插入方向,金手指的一面应朝内,如下图所示。
用数据线将开发板连接到电脑的USB接口上,如下图所示。
打开Arduino IDE软件,选择 工具 》PSRAM:”OPI PSRAM” 》OPI PSRAM ,如下图所示。
3.1.2 上传录音采集程序
利用XIAO ESP32S3 Sense 开发板采集音频数据,并将音频数据以wav格式转存到microSD卡上。
录音采集程序.zip 下载解压缩录音采集程序文件后,用Arduino IDG软件打开此程序。
步骤如下:
打开录音程序,并上传到XIAO ESP32S3 Sense 开发板上
上传前,先设置开发板类型和端口号,然后单击上传图标,上传录音程序。
- 等待数秒后,录音程序上传成功。
3.1.3 采集hello音频样本
假设要采集三个音频,将其分别命名为hello 、stop和other三个标签,每一个标签代表一种关键词;比如建立一个hello标签,并多次采集hello声音,这样就建立一个hello标签的音频样本,采集步骤如下:
- 在Arduino IDE软件录音程序中,单击右上角的“串口监视器”图标,打开串口监视器。
- 在串口监视器文本框中输入hello分类标签并按键盘回车键,这样就建立了一个分类。
- 在串口监视器文本框中输入“rec”命令并回车,这时进入录音模式,请对着开发板说hello,多说几次会采集10秒钟音频。
- hello音频采集完成后,会有提示写入文件,再次采集可以继续输入rec命令再次采集hello音频。
- 在串口监视器文本框中输入rec命令并回车,进入hello分类录音模式。
- 对着XIAO开发板说hello,多说几次大概10秒钟时间,看到提示写入文件就完成了。
建议:您为每个标签样本提供足够大的声音。每次录音提供10秒钟录音时间,录制过程中多次重复您的关键词,关键字之间需要有一定的间隔时间。 |
---|
采集stop音频样本
通过rec命令采集了5次hello音频样本,接着在串口监视器的文本框中输入stop,就会生成一个新的分类标签,再输入rec命令录制stop音频样本,步骤如下:
- 在串口监视器文本框中输入stop命令
- 接着串口监视器文本框中输入rec命令,进入录音模式。
- 进入录音模式后,对着XIAO开发板说stop,多说几次需要采集10秒钟,通过多次输入rec命令,就可以多次采集stop音频,这里采集5次。
3.1.5 采集other音频样本
通过rec命令采集了5次stop音频样本,接着在串口监视器的文本框中输入other,就会生成一个新的分类标签,再输入rec命令录制other音频样本,other音频样本可以录制背景音或者杂音,步骤如下:
- 在串口监视器文本框中输入other,生成一个新的分类标签。
- 接着在串口监视器文本框中输入rec命令,进入录音模式。
- 进入录音模式后,对着XIAO开发板录制背景杂音,通过多次输入rec命令,就可以多次采集other音频样本了,这里采集5次。
3.1.6 导出SD卡音频样本
通过录音程序采集了hello 、stop和other三种分类的音频样本,每个分类又至少采集了5次10秒的音频数据,这些数据被转存到了SD卡上,接下来需要将SD卡上的音频文件拷贝到电脑上。
- 将XIAO开发板上的SD卡取出,插入到SD卡读卡器中,并插入电脑USB接口上。
- 在电脑中打开SD卡盘符,可以看到采集的音频文件,比如hello1.wav、hello2.wav的音频
- 在电脑D盘建一个sound文件夹,将SD卡中的音频文件全部复制到此文件夹中
3.2 使用Edge Impulse 训练数据集 ,在XIAO ESP32S3 Sense 部署语音关键词识别模型
3.2.1 上传收集的声音数据
使用Edge Impulse 训练数据集 ,在XIAO ESP32S3 Sense 部署语音关键词识别模型
3.2.1 上传收集的声音数据
上传收集的声音数据,步骤如下:
- 进入Edge Impulse 网站,注册一个登录账号,进入后点击右上角账户名称,单击【创建新项目】选项。
- 弹出创建一个新项目窗口,在输入新项目的名称中输入”kws”,然后单击右下角的【创建新项目】按钮
- 进入kws项目窗口,然后单击添加现有数据 【Add existing data】选项。
- 弹出添加现有数据窗口,单击【Upload data】选项。
- 进入上传数据窗口,单击【选择文件】按钮,
- 打开文件选择窗口,找到存储音频样本的sound文件夹,全部选中然后单击【打开】按钮。
- 接着单击上传数据【Upload data】按钮。
- 在上传数据窗口的右侧,可以看到上传数据成功了,然后单击右上角的关闭窗口图标。
- 可以在左侧数据采集【Data acquisition】菜单中,看到上传的音频数据的每一条的具体内容。
3.2.2 拆分数据
训练数据用到的数据都是1秒钟时间,但是采集的音频样本 10 秒,必须拆分为 1s 样本才能兼容。
- 先选中一个音频样本比如stop2,单击右侧3个点图标,在弹出菜单中单击【Split sample】分割样本选项。
- 弹出分割窗口,可以看到会自动生成多个1秒的音频区间,选中一个1秒区间可以对其左右移动,扩大或缩小区间范围,还可以播放和删除此区间。
- 在stop2音频样本的第一个区间,通过播放发现声音有中断的杂音,将分割区间移动到了右边的地方,发现右边的音频声音比较清晰。
- 调整好音频区间后,单击右下角的【Split】按钮。
- 分割完成后,在音频数据列表中,已经将stop2音频样本分割成6个1秒钟的音频样本了。
- 使用分割数据的方式,将数据列表中所有10秒的样本都分割为1秒的音频样本。分割过程中,要注意音频质量的取舍和调整。
3.2.3 添加学习块
- 音频样本数据分割完成后,单击左侧【Create impulse】创造脉冲选项。
- 此窗口是设置时间序列数据,使用默认值即可。
- 添加预处理模块,这里使用音频处理模块MFCC。
每个 1 秒的音频样本应进行预处理并转换为图像(例如,13 x 49 x 1)。我们将使用 MFCC,从音频信号中提取特征,这对人声非常有用。 |
---|
- 接着单击【Add a learning block】添加机器学习模块选项,如下图所示。
- 添加【Classification】分类学习模块,单击【Add】添加按钮,如下图所示。
- 这样就添加上了分类学习模块,如下图所示。
- 最后单击保持按钮保持设置,如下图所示。
3.2.4 预处理
- 单击左侧【MFCC】选项,右侧会进去其设置页面,如下图所示。。
- 使用默认设置即可,单击蓝色保存按钮,如下图所示。。
3.2.5 生成特征
1、接着单击【Generate features】生成特征按钮,生成特征图,如下图所示。。
- 训练完成后会生成特征图,通过不同颜色的小圆点代表不同分类,如下图所示。。
3.2.6 训练模型
- 接着在左侧菜单,单击【Classifier】进入分类训练,如下图所示。
- 这个训练模型由100训练周期和0.005学习率组成,使用默认值即可,如下图所示。。
- 此选项是采用的卷积神经网络的,本模型采用了两个 Conv1D + MaxPooling 块(分别具有 8 个和 16 个神经元)和一个 0.25 Dropout 组成,单击【Start training】开始训练,如下图所示。。
- 开始训练后,在右侧可以看到训练过程,训练时间比较长,这和电脑的CPU性能有很大关系,如下图所示。
- 最后的训练成绩(验证集),如下图所示。
- 通过训练数据集,结果关键词识别准确率还是很高的,这个模型符合要求可以使用。如果,准确率低于80%,就是音频素材样本不够多,需要多添加样本后在进行训练。
3.2.7 导出Arduino 库模型
- 训练完成后,单击左侧【Deployment】部署选项
- 单击搜索文本框,弹出菜单选择Arduino 库。
- 接着单击【Enable EON™ Compiler】前面的关闭选项,关闭EON功能。
- 单击底部的【Build】按钮,生成并下载为库文件
- 等待一段时间后,会弹出提示生成Arduino库窗口。
- 同时,会自动下载一个Arduino zip库文件。然后,单击
在文件夹显示图标,可以【下载】文件夹看到下载的库文件。
3.2.8 导入库文件
- 打开Arduino IDE软件,选择【项目】-【导入库】-【添加ZIP库】选项。
- 在【下载】文件夹找到生成的库文件,双击此文件。
- 在Arduino IDE软件中等待一段时间后,在【输出】窗口中会提示已安装完成
3.2.9 更新ESP NN文件
由于Edge Impulse 平台还没有发布对ESP NN加速器的支持,而XIAO ESP32S3 Sense 设备启动了ESP NN加速器功能,直接使用导入的模型库文件会造成开发板冲突错误,需要更新ESP NN文件。
- 在Arduino库文件中找到刚添加的模块库文件夹,接着此文件夹中按src/edge-impulse-sdk/porting/espressif/ESP-NN ,这个路径找到ESP-NN文件夹
- 用我们提供的新的【ESP-NN】文件夹替换此文件夹
PS 、
- 建议把原【ESP-NN】文件删掉再将新下载的【ESP-NN】文件复制进去。
- 如果在后续的程序测试中出现报错,可以将原【ESP-NN】文件复原,因为可能会因为不同的电脑不同的系统,不需要执行替换【ESP-NN】文件。
3.2.10 导入库文件部署预测模型
我们准备了测试程序,你需要将新导入的模块库文件引入到此测试程序中。
关键字预测程序.zip 下载并打开关键字预测程序。
- 打开测试程序,选择【项目】-【导入库】-【新添加的库名称】选项,替换红框中的预测库文件。
- 单击【上传】按钮,上传测试程序,等待一段时间后上传成功,单击右上角的串口监视器,可以看到预测结果
- 对着XIAO开发板说hello或者stop,看看板载Led灯会不会有反应
MP3 V4
参考代码,用来测试MP3模块是否正常工作,并且可以检查TF卡中的文件是否正确。 我们需要用到库可以从链接下载
https://github.com/Seeed-Studio/Seeed_Serial_MP3_Player 。
如果出现报错:
fatal error: circular_queue.h: No such file or directory
#include <circular_queue.h>
^~~~~~~~~~~~~~~~~~
需要在库管理器把EspSoftwareSerial库给移除再下载其8.1.0的版本。
#include "WT2605C_Player.h"
// #ifdef __AVR__
#include <SoftwareSerial.h>
SoftwareSerial SSerial(D7,D6); // RX, TX
#define COMSerial SSerial
// #define ShowSerial Serial
WT2605C<SoftwareSerial> Mp3Player;
void setup() {
Serial.begin(9600);
COMSerial.begin(115200);
// while (!Serial){
// // ShowSerial.println("1");
// };
Serial.println("+++++++++++++++++++++++++++++++++++++++++++++++++++++");
Mp3Player.init(COMSerial);
Serial.println("0...");
int vol = 2;
uint8_t uint_8_num;
// 使用强制类型转换将int转换为uint8_t
uint_8_num = (uint8_t)vol;
Mp3Player.volume(uint_8_num);
Serial.println("Volume set to: " + String(vol));
int index = 1;
Mp3Player.playSDRootSong(index);
Serial.println("Play music: " + String(index));
delay(20000);
// index = 2;
// Mp3Player.playSDRootSong(index);
// Serial.println("Play music: " + String(index));
// delay(500);
}
void loop() {
}
由于该模块的AUX音频输出不能改变音量且输出音量很小我们需要添加一个功放板
按钮控制
在噪声环境中,语音识别系统可能会受到干扰,导致识别准确性下降。为了提升用户体验和系统的可靠性,我们可以引入按钮控制机制,以便用户在嘈杂环境下能够通过物理按键轻松地管理音频播放。这种设计不仅增加了系统的交互方式,还确保了用户即使在背景噪音较大的情况下,也能准确无误地控制音乐播放的内容。通过结合按钮控制和语音识别,我们能够创造一个更加灵活和用户友好的语音播放系统。
参考代码
// constants won't change. They're used here to set pin numbers:
#define buttonPin1 D7 // the number of the pushbutton pin
#define buttonPin2 D8
// variables will change:
int buttonState1 = 0; // variable for reading the pushbutton status
int buttonState2 = 0;
void setup() {
// initialize the LED pin as an output:
Serial.begin(9600);
// initialize the pushbutton pin as an input:
pinMode(buttonPin1, INPUT);
digitalWrite(buttonPin1, LOW);
pinMode(buttonPin2, INPUT);
digitalWrite(buttonPin2, LOW);
}
void loop() {
// read the state of the pushbutton value:
buttonState1 = digitalRead(buttonPin1);
buttonState2 = digitalRead(buttonPin2);
// Serial.println("button checking");
// check if the pushbutton is pressed. If it is, the buttonState is HIGH:
if (buttonState1 == HIGH) {
// turn LED on:
digitalWrite(ledPin, HIGH);
Serial.println("button1 push");
}
else if (buttonState2 == HIGH) {
// turn LED on:
digitalWrite(ledPin, HIGH);
Serial.println("button2 push");
}
else {
// turn LED off:
Serial.println(" no button push");
digitalWrite(ledPin, LOW);
}
}
多线程按钮控制
多线程技术是一种在计算机编程中实现并发执行的技术。通过多线程,程序可以同时执行多个任务,从而提高程序的效率和响应速度。在按钮控制场景中,如果将按钮控制逻辑直接嵌入到主循环中,由于识别语音需要占用一定时间来录音,会导致接收按钮信号时出现延迟,需要长按按钮才能捕捉到按钮的信号。为了解决这个问题,我们可以利用多线程技术来接收按钮信号。
具体来说,我们可以将按钮信号的接收和处理作为一个独立的线程来运行。当按钮被按下时,这个独立的线程会立即响应并执行相应的处理逻辑,而不会受到主循环中语音识别任务的干扰。这样,我们就可以实现按钮信号的快速响应,提高用户体验。
总之,多线程技术在按钮控制中的应用,可以有效地解决由于语音识别任务导致的按钮信号接收延迟问题,提高程序的响应速度和用户体验。
可以参考代码:
#include<Arduino.h>
#define USE_MULTOCRE 0
int num = 0;
void xTaskOne(void *xTask1){
int count = 0;
while (count < 10) {
Serial.println("Task1");
delay(500);
count++;
num++;
}
// 当任务完成时,删除自身
vTaskDelete(NULL);
}
void xTaskTwo(void *xTask2){
int count = 0;
while (count < 10) {
Serial.println("Task2");
delay(1000);
count++;
// Serial.println("count");
}
vTaskDelete(NULL);
}
void setup() {
// put your setup code here, to run once:
Serial.begin(115200);
delay(10);
#if !USE_MULTCORE
xTaskCreate(
xTaskOne,/* Task function. */
"TaskOne",/* String with name of task. */
4096,/* Stack size in bytes.*/
NULL,/* parameter passed as input of the task */
1,/* priority of the task.(configMAx PRIORITIES - 1 being the highest, and @ being the lowest.) */
NULL);/* Task handle.*/
xTaskCreate(
xTaskTwo,/* Task function.*/
"TaskTwo",/* String with name of task. */
4096,/* Stack size in bytes.*/
NULL,/* parameter passed as input of the task */
2,/* priority of the task.(configMax PRIORITIES - 1 being the highest, and being the lowest.) */
NULL); /* Task handle.*/
#else
//最后一个参数至关重要,决定这个任务创建在哪个核上.PRO_CPU 为 ,APP_cPu 为1,城者tskNoAFFINITY允许任务在两者上运行.
xTaskCreatepinnedToCore(xTaskOne,"TaskOne",4096,NULL,1,NULL,0);
xTaskCreatepinnedToCore(xTaskTwo,"TaskTwo",4896,NULL,2,NULL,1);
#endif
}
void loop() {
// put your main code here, to run repeatedly:
Serial.println("XTask is running");
Serial.println(num);
delay(1000);
}
RIP人体感应器
在最终的方案设计中,我们必须充分考虑空间内长期会员的工作习惯和需求,避免频繁的语音播报干扰他们的专注和效率。同时,考虑到项目要求硬件设备长期运行,持续的热量累积可能会导致设备过早损坏,甚至影响整个项目的稳定性和可靠性。为了实现节能和延长设备寿命的双重目标,我们将启用设备的睡眠模式,使其在非工作时段进入低功耗状态,从而有效减少能源消耗并延长设备的使用寿命。
然而,关键问题在于,如何在需要时即时唤醒设备,以确保项目的顺利进行和会员的使用体验。为此,我们计划采用先进的PIR人体感应技术,当有人靠近时,自动激活XIAO esp32S3,从而实现智能唤醒。这种设计既确保了设备的即时响应,又避免了不必要的能源浪费,实现了效率与节能的完美平衡。
参考程序
#define MOTIONPIN GPIO_NUM_4
void setup() {
Serial.begin(9400);
pinMode(LED_BUILTIN, OUTPUT);
pinMode(MOTIONPIN, INPUT);
}
void loop() {
Serial.println("it wake");
digitalWrite(LED_BUILTIN, HIGH);
delay(250);
digitalWrite(LED_BUILTIN, LOW);
delay(250);
digitalWrite(LED_BUILTIN, HIGH);
delay(250);
digitalWrite(LED_BUILTIN, LOW);
delay(250);
digitalWrite(LED_BUILTIN, HIGH);
delay(250);
digitalWrite(LED_BUILTIN, LOW);
delay(250);
digitalWrite(LED_BUILTIN, HIGH);
delay(250);
digitalWrite(LED_BUILTIN, LOW);
delay(250);
digitalWrite(LED_BUILTIN, HIGH);
delay(250);
digitalWrite(LED_BUILTIN, LOW);
delay(250);
digitalWrite(LED_BUILTIN, HIGH);
Serial.println("Going to sleep...");
delay(1000);
esp_sleep_enable_ext0_wakeup(MOTIONPIN, 1);
delay(5000);
Serial.println("Going to sleep...");
esp_deep_sleep_start();
}
最终程序
// If your target is limited in memory remove this macro to save 10K RAM
#define EIDSP_QUANTIZE_FILTERBANK 0
/*
** NOTE: If you run into TFLite arena allocation issue.
**
** This may be due to may dynamic memory fragmentation.
** Try defining "-DEI_CLASSIFIER_ALLOCATION_STATIC" in boards.local.txt (create
** if it doesn't exist) and copy this file to
** `<ARDUINO_CORE_INSTALL_PATH>/arduino/hardware/<mbed_core>/<core_version>/`.
**
** See
** (https://support.arduino.cc/hc/en-us/articles/360012076960-Where-are-the-installed-cores-located-)
** to find where Arduino installs cores on your machine.
**
** If the problem persists then there's not enough memory for this model and application.
*/
/* Includes ---------------------------------------------------------------- */
//#include <XIAO-ESP32S3-KWS_inferencing.h>
// #include <Marco-KWS-KIC_inferencing.h>
#include <Caihuo_nihao_hello_inferencing.h>
#include <I2S.h>
#include "WT2605C_Player.h"
#include <Arduino.h>
// #ifdef __AVR__
#include <SoftwareSerial.h>
SoftwareSerial SSerial(D7,D6); // RX, TX
#define COMSerial SSerial
// #define ShowSerial Serial
WT2605C<SoftwareSerial> Mp3Player;
#define SAMPLE_RATE 16000U
#define SAMPLE_BITS 16
#define LED_BUILT_IN 21
#define MOTIONPIN GPIO_NUM_4
#define buttonPin1 D9 // the number of the pushbutton pin CHINESE
#define buttonPin2 D8 // ENGLISH
int buttonState1 = 0; // variable for reading the pushbutton status
int buttonState2 = 0;
int collectTimes = 0;
#define USE_MULTOCRE 0
int Language = 3;
int remember_language = 3;
void xTaskOne(void *xTask1){
int count = 0;
int buttonstate = 3;// if press english return 0; if press chinese return 1 ; no buttun pressed return 3
int i = 0;
while (1) {
if(Language == 3){
buttonstate = Check_button();
// Serial.println("+=+=+=+=+=+=+=+=+==+++=+");
if(buttonstate != 3 /*按钮按下*/ && buttonstate != Language /*更换语言*/){
Language = buttonstate;
// Serial.println("-------------");
// Serial.print("xTaskOne : ");
// Serial.println(Language);
// Serial.println("-------------");
// vTaskDelete(NULL);
}
delay(10);
i++;
}else{
delay(1000);
// Serial.println("+++++++++++");
// Serial.print("xTaskOne : ");
// Serial.println(Language);
// Serial.println("++++++++++");
}
}
// 当任务完成时,删除自身
vTaskDelete(NULL);
}
int Language_2 = 3;
void xTaskTwo(void *xTask2){
int count = 0;
while (count < 10) {
// Serial.println("*****");
// bool m = microphone_inference_record();
// if (!m) {
// ei_printf("ERR: Failed to record audio...\n");
// return;
// }
// signal_t signal;
// signal.total_length = EI_CLASSIFIER_RAW_SAMPLE_COUNT;
// signal.get_data = µphone_audio_signal_get_data;
// ei_impulse_result_t result = { 0 };
// EI_IMPULSE_ERROR r = run_classifier(&signal, &result, debug_nn);
// if (r != EI_IMPULSE_OK) {
// ei_printf("ERR: Failed to run classifier (%d)\n", r);
// return;
// }
// int pred_index = 0; // Initialize pred_index
// float pred_value = 0; // Initialize pred_value
// int buttonstate = Check_button();
// int language = 3; // 1 is chinese, 0 is english, 3 is not selected yet
// Serial.println("Task2");
// delay(1000);
// // count++;
// // Serial.println("count");
// ei_printf("Predictions ");
// ei_printf("(DSP: %d ms., Classification: %d ms., Anomaly: %d ms.)",
// result.timing.dsp, result.timing.classification, result.timing.anomaly);
// ei_printf(": \n");
// for (size_t ix = 0; ix < EI_CLASSIFIER_LABEL_COUNT; ix++) {
// ei_printf(" %s: ", result.classification[ix].label);
// ei_printf_float(result.classification[ix].value);
// ei_printf("\n");
// if (result.classification[ix].value > 0.2){
// pred_index = ix;
// pred_value = result.classification[ix].value;
// }
// }
// // Display inference result
// ei_printf("now test the sound : %d \n", EI_CLASSIFIER_LABEL_COUNT );
// if ((pred_index == 0) && (pred_value > 0.6)){
// ei_printf("idex 0 \n");//English
// language = 0;
// }else if((pred_index == 2) && (pred_value > 0.6)){
// ei_printf("idex 2 \n");
// digitalWrite(LED_BUILT_IN, LOW); //noise trun on noise
// Language_2 = 3;
// }
// else if((pred_index == 1) && (pred_value > 0.6)){
// ei_printf("idex 1 \n");
// digitalWrite(LED_BUILT_IN, HIGH); //Turn off //nihao
// Language_2 = 1;
// }
}
vTaskDelete(NULL);
}
// check which button is press
// if press english return 0; if press chinese return 1 ; no buttun pressed return 3
int Check_button(){
buttonState1 = digitalRead(buttonPin1);
buttonState2 = digitalRead(buttonPin2);
if (buttonState1 == HIGH) {
// turn LED on:
digitalWrite(LED_BUILT_IN, HIGH);
Serial.println("Chinese push");
return 1;
}
else if (buttonState2 == HIGH) {
// turn LED on:
digitalWrite(LED_BUILT_IN, HIGH);
Serial.println("English push");
return 0;
}
else {
// turn LED off:
// Serial.println(" no button push");
digitalWrite(LED_BUILT_IN, LOW);
return 3;
}
}
/** Audio buffers, pointers and selectors */
typedef struct {
int16_t *buffer;
uint8_t buf_ready;
uint32_t buf_count;
uint32_t n_samples;
} inference_t;
static inference_t inference;
static const uint32_t sample_buffer_size = 2048;
static signed short sampleBuffer[sample_buffer_size];
static bool debug_nn = false; // Set this to true to see e.g. features generated from the raw signal
static bool record_status = true;
/**
* @brief Arduino setup function
*/
void setup()
{
// put your setup code here, to run once:
Serial.begin(9600);
// comment out the below line to cancel the wait for USB connection (needed for native USB)
COMSerial.begin(115200);
// while (!Serial){
// // ShowSerial.println("1");
// };
Serial.println("+++++++++++++++++++++++++++++++++++++++++++++++++++++");
Mp3Player.init(COMSerial);
Serial.println("0...");
while (!Serial);
Serial.println("Edge Impulse Inferencing Demo");
pinMode(LED_BUILT_IN, OUTPUT); // Set the pin as output
digitalWrite(LED_BUILT_IN, HIGH); //Turn off
// digitalWrite(LED_BUILT_IN, LOW);
I2S.setAllPins(-1, 42, 41, -1, -1);
if (!I2S.begin(PDM_MONO_MODE, SAMPLE_RATE, SAMPLE_BITS)) {
Serial.println("Failed to initialize I2S!");
while (1) ;
}
// summary of inferencing settings (from model_metadata.h)
ei_printf("Inferencing settings:\n");
ei_printf("\tInterval: ");
ei_printf_float((float)EI_CLASSIFIER_INTERVAL_MS);
ei_printf(" ms.\n");
ei_printf("\tFrame size: %d\n", EI_CLASSIFIER_DSP_INPUT_FRAME_SIZE);
ei_printf("\tSample length: %d ms.\n", EI_CLASSIFIER_RAW_SAMPLE_COUNT / 16);
ei_printf("\tNo. of classes: %d\n", sizeof(ei_classifier_inferencing_categories) / sizeof(ei_classifier_inferencing_categories[0]));
ei_printf("\nStarting continious inference in 1 seconds...\n");
ei_sleep(1000);
if (microphone_inference_start(EI_CLASSIFIER_RAW_SAMPLE_COUNT) == false) {
ei_printf("ERR: Could not allocate audio buffer (size %d), this could be due to the window length of your model\r\n", EI_CLASSIFIER_RAW_SAMPLE_COUNT);
return;
}
ei_printf("Recording...\n");
pinMode(LED_BUILTIN, OUTPUT);
pinMode(MOTIONPIN, INPUT);
digitalWrite(LED_BUILTIN, HIGH);
delay(250);
digitalWrite(LED_BUILTIN, LOW);
delay(1000);
digitalWrite(LED_BUILTIN, HIGH);
delay(250);
// initialize the pushbutton pin as an input:
pinMode(buttonPin1, INPUT);
digitalWrite(buttonPin1, LOW);
pinMode(buttonPin2, INPUT);
digitalWrite(buttonPin2, LOW);
delay(10);
int vol = 10;
// uint8_t uint_8_num;
// // 使用强制类型转换将int转换为uint8_t
// uint_8_num = (uint8_t)vol;
Mp3Player.volume(vol);
// Mp3Player.volume(vol);
Serial.println("Volume set to: " + String(vol));
#if !USE_MULTCORE
xTaskCreate(
xTaskOne,/* Task function. */
"TaskOne",/* String with name of task. */
4096,/* Stack size in bytes.*/
NULL,/* parameter passed as input of the task */
1,/* priority of the task.(configMAx PRIORITIES - 1 being the highest, and @ being the lowest.) */
NULL);/* Task handle.*/
xTaskCreate(
xTaskTwo,/* Task function.*/
"TaskTwo",/* String with name of task. */
4096,/* Stack size in bytes.*/
NULL,/* parameter passed as input of the task */
2,/* priority of the task.(configMax PRIORITIES - 1 being the highest, and being the lowest.) */
NULL); /* Task handle.*/
#else
//最后一个参数至关重要,决定这个任务创建在哪个核上.PRO_CPU 为 ,APP_cPu 为1,城者tskNoAFFINITY允许任务在两者上运行.
xTaskCreatepinnedToCore(xTaskOne,"TaskOne",4096,NULL,1,NULL,0);
xTaskCreatepinnedToCore(xTaskTwo,"TaskTwo",4896,NULL,2,NULL,1);
#endif
}
/**
* @brief Arduino main function. Runs the inferencing loop.
*/
void loop()
{
bool m = microphone_inference_record();
if (!m) {
ei_printf("ERR: Failed to record audio...\n");
return;
}
signal_t signal;
signal.total_length = EI_CLASSIFIER_RAW_SAMPLE_COUNT;
signal.get_data = µphone_audio_signal_get_data;
ei_impulse_result_t result = { 0 };
EI_IMPULSE_ERROR r = run_classifier(&signal, &result, debug_nn);
if (r != EI_IMPULSE_OK) {
ei_printf("ERR: Failed to run classifier (%d)\n", r);
return;
}
int pred_index = 0; // Initialize pred_index
float pred_value = 0; // Initialize pred_value
int buttonstate = Language;
Serial.println(buttonstate);
int language = 3; // 1 is chinese, 0 is english, 3 is not selected yet
if(buttonstate == language){ // which means language didn't change ==> didn't select ==> then try to rec sound to select language
// print the predictions
ei_printf("Predictions ");
ei_printf("(DSP: %d ms., Classification: %d ms., Anomaly: %d ms.)",
result.timing.dsp, result.timing.classification, result.timing.anomaly);
ei_printf(": \n");
for (size_t ix = 0; ix < EI_CLASSIFIER_LABEL_COUNT; ix++) {
ei_printf(" %s: ", result.classification[ix].label);
ei_printf_float(result.classification[ix].value);
ei_printf("\n");
if (result.classification[ix].value > 0.2){
pred_index = ix;
pred_value = result.classification[ix].value;
}
}
}
// int language = 3; // 1 is chinese, 0 is english, 3 is not selected yet
// check any buton is press?
// buttonstate = Check_button();
if(buttonstate == language){ // if the button no press return 2, then check sound language
// Display inference result
ei_printf("now test the sound : %d \n", EI_CLASSIFIER_LABEL_COUNT );
if ((pred_index == 0) && (pred_value > 0.6)){
ei_printf("idex 0 \n");//English
language = 0;
Language = 1;
}else if((pred_index == 2) && (pred_value > 0.6)){
ei_printf("idex 2 \n");
digitalWrite(LED_BUILT_IN, LOW); //noise trun on noise
language = 3;
}
else if((pred_index == 1) && (pred_value > 0.6)){
ei_printf("idex 1 \n");
digitalWrite(LED_BUILT_IN, HIGH); //Turn off //nihao
language = 1;
}
}else {
language = buttonstate; // langague already change
}
// if language is selected
// if(language != 3 && language != remember_language){
if(language != 3){
// play the introduction .
remember_language = language;
delay(10);
Serial.println("music stop ");
// Mp3Player.stop();
// delay(10);
//if language change by button press change language.
//if language change play the introduction again.
Serial.println("Play the MP3");
delay(10);
if(language == 0) { // english
int index = 3;
Mp3Player.playSDRootSong(index);
Serial.println("Play music: " + String(index));
// delay(2000);
// Mp3Player.stop();
}else{ // Chinese
int index = 2;
Mp3Player.playSDRootSong(index);
Serial.println("Play music: " + String(index));
// delay(2000);
// Mp3Player.stop();
}
Language = 3;
delay(1000);
delay(2000);
collectTimes = 0;
}
//if the
#if EI_CLASSIFIER_HAS_ANOMALY == 1
ei_printf(" anomaly score: ");
ei_printf_float(result.anomaly);
ei_printf("\n");
#endif
collectTimes++;
// if all loop is finish
// deep sleep with RIP wakeup
if(collectTimes > 10){
Mp3Player.stop();
Serial.println("Going to sleep...");
delay(1000);
collectTimes = 0;
esp_sleep_enable_ext0_wakeup(MOTIONPIN, 1);
// Serial.println("it wake");
delay(5000);
Serial.println("Going to sleep...");
esp_deep_sleep_start();
}
}
static void audio_inference_callback(uint32_t n_bytes)
{
for(int i = 0; i < n_bytes>>1; i++) {
inference.buffer[inference.buf_count++] = sampleBuffer[i];
if(inference.buf_count >= inference.n_samples) {
inference.buf_count = 0;
inference.buf_ready = 1;
}
}
}
static void capture_samples(void* arg) {
const int32_t i2s_bytes_to_read = (uint32_t)arg;
size_t bytes_read = i2s_bytes_to_read;
while (record_status) {
/* read data at once from i2s - Modified for XIAO ESP2S3 Sense and I2S.h library */
// i2s_read((i2s_port_t)1, (void*)sampleBuffer, i2s_bytes_to_read, &bytes_read, 100);
esp_i2s::i2s_read(esp_i2s::I2S_NUM_0, (void*)sampleBuffer, i2s_bytes_to_read, &bytes_read, 100);
if (bytes_read <= 0) {
ei_printf("Error in I2S read : %d", bytes_read);
}
else {
if (bytes_read < i2s_bytes_to_read) {
ei_printf("Partial I2S read");
}
// scale the data (otherwise the sound is too quiet)
for (int x = 0; x < i2s_bytes_to_read/2; x++) {
sampleBuffer[x] = (int16_t)(sampleBuffer[x]) * 8;
}
if (record_status) {
audio_inference_callback(i2s_bytes_to_read);
}
else {
break;
}
}
}
vTaskDelete(NULL);
}
/**
* @brief Init inferencing struct and setup/start PDM
*
* @param[in] n_samples The n samples
*
* @return { description_of_the_return_value }
*/
static bool microphone_inference_start(uint32_t n_samples)
{
inference.buffer = (int16_t *)malloc(n_samples * sizeof(int16_t));
if(inference.buffer == NULL) {
return false;
}
inference.buf_count = 0;
inference.n_samples = n_samples;
inference.buf_ready = 0;
// if (i2s_init(EI_CLASSIFIER_FREQUENCY)) {
// ei_printf("Failed to start I2S!");
// }
ei_sleep(100);
record_status = true;
xTaskCreate(capture_samples, "CaptureSamples", 1024 * 32, (void*)sample_buffer_size, 10, NULL);
return true;
}
/**
* @brief Wait on new data
*
* @return True when finished
*/
static bool microphone_inference_record(void)
{
bool ret = true;
while (inference.buf_ready == 0) {
delay(10);
}
inference.buf_ready = 0;
return ret;
}
/**
* Get raw audio signal data
*/
static int microphone_audio_signal_get_data(size_t offset, size_t length, float *out_ptr)
{
numpy::int16_to_float(&inference.buffer[offset], out_ptr, length);
return 0;
}
/**
* @brief Stop PDM and release buffers
*/
static void microphone_inference_end(void)
{
free(sampleBuffer);
ei_free(inference.buffer);
}
//
//static int i2s_init(uint32_t sampling_rate) {
// // Start listening for audio: MONO @ 8/16KHz
// i2s_config_t i2s_config = {
// .mode = (i2s_mode_t)(I2S_CHANNEL_MONO),
// .sample_rate = sampling_rate,
// .bits_per_sample = (i2s_bits_per_sample_t)16,
// .channel_format = I2S_CHANNEL_FMT_ONLY_RIGHT,
// .communication_format = I2S_COMM_FORMAT_I2S,
// .intr_alloc_flags = 0,
// .dma_buf_count = 8,
// .dma_buf_len = 512,
// .use_apll = false,
// .tx_desc_auto_clear = false,
// .fixed_mclk = -1,
// };
// i2s_pin_config_t pin_config = {
// .bck_io_num = -1, // IIS_SCLK 26
// .ws_io_num = 42, // IIS_LCLK 32
// .data_out_num = -1, // IIS_DSIN -1
// .data_in_num = 41, // IIS_DOUT 33
// };
// esp_err_t ret = 0;
//
// ret = i2s_driver_install((i2s_port_t)1, &i2s_config, 0, NULL);
// if (ret != ESP_OK) {
// ei_printf("Error in i2s_driver_install");
// }
//
// ret = i2s_set_pin((i2s_port_t)1, &pin_config);
// if (ret != ESP_OK) {
// ei_printf("Error in i2s_set_pin");
// }
//
// ret = i2s_zero_dma_buffer((i2s_port_t)1);
// if (ret != ESP_OK) {
// ei_printf("Error in initializing dma buffer with 0");
// }
//
// return int(ret);
//}
//
//static int i2s_deinit(void) {
// i2s_driver_uninstall((i2s_port_t)1); //stop & destroy i2s driver
// return 0;
//}
#if !defined(EI_CLASSIFIER_SENSOR) || EI_CLASSIFIER_SENSOR != EI_CLASSIFIER_SENSOR_MICROPHONE
#error "Invalid model for current sensor."
#endif
总结
实现该项目的过程中,我遇到了一些挑战,主要来自于对硬件的不熟悉,这无疑增加了项目的完成时间。此外,在处理语音识别和图像识别时,我们注意到它们在处理上的差异,这导致了单线程执行时可能会出现一定的延迟。为了优化系统的性能,我考虑引入多线程处理。通过多线程,我们可以同时处理多个任务,从而提高控制系统的流畅性和合理性,使其能够更好地满足用户的交互体验。在实现该项目时,我们采用了XIAO ESP32S3作为核心硬件平台。这款微控制器具有强大的处理能力和丰富的外设接口,非常适合用于智能语音识别应用。为了提供智能语音向导的功能,我使用了在Edge impluse训练的语音模型,该模型能够识别特定的语音指令,并据此执行相应的操作。