评估数据质量的指标总结1
1、RMSE(root mean square error)均方根误差
作用:RMSE是估计的度量值与“真实”值之间的距离的度量。
计算方法:
2、相关系数r(coefficient of correlation ®)
作用:皮尔逊相关系数(Pearson correlation coefficient)是连续类型数据关联的标准度量。
计算方法:
- Sx和Sy是每个样本的方差;
- n是观测数据的个数;
- r取值范围【-1,1】。
3、root mean square deviation (RMSD)均方根偏差
均方根偏差(Root Mean Square Deviation,简称 RMSD)是一种用于衡量两个数据之间的差异程度的常用方法。在化学、生物学领域中应用广泛,常用于蛋白质或其他大分子结构之间的比较。
计算方法:
注意:RMSE和RMSD区别
RMSD 是指均方根偏差,是一种用于衡量两个数据集之间差异程度的方法,常用于分子结构比较中。RMSE 是指均方根误差,是一种用于衡量回归模型预测结果与实际结果之间差异程度的方法,常用于机器学习和数据挖掘中。
RMSD 的计算方式是将两个数据集中每个数据点之间的差值的平方和除以数据点数量后取平方根。它主要应用于比较两个分子结构之间的相似性,例如在蛋白质结构比对中。
RMSE 的计算方式也是将预测值与实际值之间的差值求平方和,但是除以的是数据点数量减1,并且最后还需要再取平方根。它主要用于评估回归模型的预测精度。