一、Model
1、将声学特征设为X,经过语音识别得到的tokens设为Y,目标是找到通过X得到Y的最大概率,可以通过概率公式改变为
分为两个概率
2、将tokens序列Y转化为states序列S,声学特征分得更细
3、从states到声学特征的过程
二、HMM中从P(X|Y) -> P(X|S)
1、Transition Probability:从一个state转化为别的state的可能性
2、Emission Probability:前提是,人在发每一个state时,都有固定概率的声音信号
3、最终形态为Subspace GMM,所有的state共用一个Gaussian Mixture池
三、alignment
1、用于计算Emission概率
2、穷举所有alignment序列
3、计算
四、DL用于语音识别
1、Tandem:语音辨识HMM系统不变,唯一变化的是使用DNN(state classifer)给我们比较好的state(从声学特征到state),其他不变
2、DNN-HMM Hybrid
(1)将Gaussian Mixture Model使用DNN取代掉,也就是将得到P(x|a)转化为P(a|x)。
(2)通过概率公式转化
(3)train state classifier
a、使用DNN-HMM Hybrid得出state与声学特征对应的最大概率关系
b、有了对应关系可以训练classifier(DNN)
c、如果想要更精确,可以使用训练出来的更精确的classifier作为寻找state与声学特征对应关系的Model,训练处DNN2。