PCA(Principal Component Analysis)
该转换器是主成分分析方法,是统计学领域中对数据样本的正相关的转换与分析方法,在一批具有相关性的数据样本的数据集中,删除多余的重复的相关变量,得到少量具有信息代表性的非相关变量的向量集,也就是,使用统计学分析方法对数据样本数据集执行降维处理。
如上所示,data定义一个数据样本向量集合,schema定义一个数据表格,df定义一个数据框架,pca训练一个主成分分析的模型,result是输出主成分分析的向量集。
如上所示,使用scala语言环境对pac的代码执行分析,输出非相关的向量集合,数据样本向量数据集的维度从5降低到3。
Polynomial Expansion
多项式分解是使用多项式系数的方式扩展原始特征向量集到n维度,其计算方程式是,假设,存在向量集合(x,y),则使用多项式扩展到3维的输出是,(x,x*x,x*x*x,y,y*x,y*x*x,y,y*x,y),依次类推,得出n维的多项式扩展对应的特征向量集。
如上所示,polyExpansion定义一个3维度的多项式特征扩展类,data是定义一个原始特征数据集,schema定义一个数据表格,df定义一个数据框架,polyDF是多项式扩展输出的向量集。
如上所示,使用scala语言环境执行维度是3的多项式展开的特征扩展。
DCT Discrete Cosine Transform)
离散余弦变换(DCT for Discrete Cosine Transform)是与傅里叶变换相关的一种变换,它类似于离散傅里叶变换(DFT for Discrete Fourier Transform),但是只使用实数
如上所示,data定义输入的样本数据集,schema定义一个特征数据表格,df定义一个数据框架,dct定义一个离散余弦变换,dctF是执行转换的输出。
如上所示,使用scala语言环境执行离线余弦变换,其输出的维度是输入的维度的两倍。
(未完待续)