面向压埋探测的人体代谢气体识别方法的研究与应用
实现对非目标气体的检测
数据预处理
(1a)标准化
将采集到的数据先进行变换,统一数量级。其中,xij为第j个传感器的第i个采样值;xj为第 j 个气体传感器的所有采样值,其中i ∈ [1, n],j ∈ [1, m]。m为传感器数目,n为采样总数;`xj表示 xj的平均值;σxj表示xj的标准差。Z-score 标准化法则是使得处理后的数据均值变为0,方差变为 1。这种方法使得数据更容易比较和分析,同时保持了数据原有特性。
(1b)基线特征提取
基线特征,采用相对电阻值(Relative resistance,RV),即当前 i 时刻传感器响应电阻值与传感器初始基线电阻的平均值。其中,vi是每个特定传感器在时间i时的电阻值,v0是每个特定传感器的基线电阻值。计算公式为:
构造最优特征集合
(2a)提取可用特征
处理后的数据,特征可以分别从原始数据曲线,曲线拟合,变换域中提取,其中原始数据曲线特征的方法即从传感器原始响应曲线中提取零碎特征信号,包括最大值,均值,积分,导数,面积值,上升时间,下降时间,上升斜率,下降斜率等稳态响应和瞬态响应。曲线拟合方法主要有指数函数拟合、正弦函数拟合,傅里叶函数拟合等,变换域主要包括傅里叶变换和小波变换等。在原始数据曲线中最大值,均值最常用,在曲线拟合中通常需要通过对变量间物理概念的学习和对专业知识的深入理解来确定函数的基本类型或者通过观察实验数据曲线的总趋势来确定函数的类型。在变换域中一般使用小波变换。从这三种特征提取方法中选择一定数量的方法进行特征提取。
(2b)使用相关系数法选择特征
训练KPCA+MRVM模型
训练GMM(高斯混合模型)
假设有N种不同的气体标签,P个传感器。则构建高斯混合库需要构建N个高斯混合模型。
使用EM算法训练参数
基于主动学习的气体传感器漂移抑制方法
利用主动学习的方式对数据集进行不断更新,使得分类器始终能使用当前传感器
主动学习是一种机器学习的方法,旨在通过有选择性地标注最有信息价值的样本,从而最小化需要标注的数据量,同时达到最大化分类准确度的目标。
数据样本—(样本选择策略)挑选样本—专家标记----训练
样本选择策略包括不确定策略+随机策略
一般应用流程为:
- 使用漂移前样本初始化初始分类器 C。
- 当漂移样本达到一定数量后,使用样本选择策略选出高价值的漂移样本,
即对分类器性能提升最有帮助的样本,将这些样本交给人工专家进行标记,从而
生成漂移矫正集 L。 - 使用漂移校正集 L 对分类器 C 进行更新,从而提升分类器 C 在持续漂移
环境下的分类性能。
重复以上步骤,标签获取、漂移校正和识别测试三个核心步骤能够持续循环
地进行,这样就组成了一个通用的一般主动学习方法下的气体传感器漂移矫正流
程
首先使用K-means算法进行分类,只保存微簇信息𝑀𝐶 = (𝑳𝑺, 𝑺𝑺, 𝑺, ω, 𝑇)。其中 LS 和 SS 为 n 维向量, LSj代表微簇中类别为 j
的样本的特征值线性和, SSj则为微簇中类别 j 样本的平方和,其计算方法如公式
3-1 和公式 3-2 所示。 S 是由 N 个元素组成的一维向量,其记录了每个类别的样本
数量, S 的所有元素之和即为微簇内样本总数。ω为微簇权重,其主要用于模型
更新阶段评估微簇的重要性,在初始化阶段微簇形成时,设置其初始值为 1。 T
记录模型的创建时间,用来比较微簇间的新旧程度,并用于模型更新阶段的微簇
权重调整机制、微簇合并机制以及微簇删除机制。
分类过程:
将概率第一大的类别与概率第二大的类别的差值与对应的阈值比较,若大于则分类正确,小于且分类正确更改阈值,若分类错误进行重新规划标签,加入缓冲区
更新过程
当缓冲区满了之后,删除或者合并一些簇,为新簇增加空间,包含飘移样本。