归一化/标准化实质是一种线性变换,线性变换有很多良好的性质,这些性质决定了对数据改变后不会造成“失效”,反而能提高数据的表现,
(1)无量纲化
例如房子数量和收入,因为从业务层知道,这两者的重要性一样,所以把它们全部归一化。 这是从业务层面上作的处理。
(2)避免数值问题
太大的数会引发数值问题。摘自数据预处理:归一化和标准化 - 知乎 (zhihu.com)
M是上界
m是下界
上述是一致化
下来是无量纲化
防止大数据吃小数据
1.向量归一化,每一个向量÷其他向量之和,在0-1范围之内=
2.极差变换法
对于正向指标=
对于逆向指标
线性比例法:
顺便介绍两种一般不太用的综合评价法
1.线性加权综合法
用线性加权函数作为综合评价模型,对n个习题进行综合评价
各评价指标之间相互独立,对不完全独立的情况,不能反映实际
权重系数对评价结果的影响明显
2.非线性加权综合法
用非线性函数
要求xj大于0
各指标之间有较强关联性
对数据要求比较高,指标数值不能为0,负数
乘除容易拉开评价档次,对小数值变动比较敏感