均方根误差 RMSE/RMS
定义
RMSE是观察值与真实值偏差的平方,对于一组观测值
y
i
y_i
yi 和对应的真值
t
i
t_i
ti
R
M
S
E
=
1
n
∑
i
=
1
n
(
y
i
−
t
i
)
,其中n是观测次数
RMSE=\sqrt{\frac1n \sum_{i=1}^n (y_i-t_i)} \text{,其中n是观测次数}
RMSE=n1i=1∑n(yi−ti),其中n是观测次数
意义
RMSE衡量了观测值与真值之间的平均误差大小,它对较大的误差更加敏感,因为误差是经过平方后再取平均和开方的。若误差大于1时,RMSE的值越小,说明观测值与真值之间的差异越小,模型的预测精度越高。反之,误差小于1时,同理
均方误差 MSE
定义
MSE是观测值与真值偏差的平方和与观测次数的比,对于一组观测值
y
i
y_i
yi 和对应的真值
t
i
t_i
ti
M
S
E
=
1
n
∑
i
=
1
n
(
y
i
−
t
i
)
2
MSE=\frac1n \sum_{i=1}^n (y_i-t_i)^2
MSE=n1i=1∑n(yi−ti)2
意义
MSE衡量了观测值与真值之间的平均平方误差,它反映了模型的预测值与真实值之间的差异程度。MSE的值越小,说明模型的预测精度越高。反之,误差小于1时,同理
应用
RMSE 和 MSE 通常用于评估模型的预测精度,特别是在回归问题中。它们可以帮助我们比较不同模型的性能,选择最优的模型
标准差
定义
方差的算数平方根
标准差是一组数据偏离平均数的程度的一种度量。对于一组数据
x
i
x_i
xi
σ
=
1
n
∑
i
=
1
n
(
x
i
−
μ
)
2
,其中
μ
是平均数,
n
是数据数量
\sigma=\sqrt{\frac1n \sum_{i=1}^n (x_i-\mu)^2} \text{,其中 $\mu$ 是平均数,$n$ 是数据数量}
σ=n1i=1∑n(xi−μ)2,其中 μ 是平均数,n 是数据数量
意义
标准差反映了数据的离散程度,标准差越大,说明数据的波动越大,离散程度越高;标准差越小,说明数据的波动越小,离散程度越低
用做衡量模型拟合的一个度量
方差
定义
方差是各个数据与平均数之差的平方值的平均数
D ( x ) = 1 n ∑ i = 1 n ( x i − x ˉ ) D(x)=\frac1n \sum_{i=1}^n (x_i - \bar{x}) D(x)=n1i=1∑n(xi−xˉ)
意义
差反映了数据偏离平均数的程度。方差越大,说明数据的波动越大,离散程度越高;方差越小,说明数据越集中在平均数附近,离散程度越低
一般用来计算样本的离散程度
正态分布
定义
-
正态分布,也称高斯分布
-
正态分布的曲线呈钟形
-
f ( x ) = 1 σ 2 π e − ( x − μ ) 2 2 σ 2 其中 μ 是均值, σ 是标准差 f(x)=\frac1{\sigma \sqrt{2 \pi}} e^{-\frac{(x-\mu)^2}{2 \sigma^2}} \text{其中$\mu$ 是均值,$\sigma$ 是标准差} f(x)=σ2π1e−2σ2(x−μ)2其中μ 是均值,σ 是标准差
许多自然现象和社会现象都近似服从正态分布,例如人的身高、体重、考试成绩
意义
- 决定曲线的“胖瘦"
- 标准差越大,正态分布曲线越“胖”,数据的分散程度越大。这意味着数据在均值附近的集中度较低,更多的数据分布在离均值较远的位置。
- 标准差越小,正态分布曲线越“瘦”,数据的分散程度越小。数据更加集中在均值附近。
- 概率关系
- 约68%的数据落在 [ μ − σ , μ − σ ] [\mu-\sigma,\mu-\sigma] [μ−σ,μ−σ]
- 约95%的数据落在 [ μ − 2 σ , μ − 2 σ ] [\mu-2\sigma,\mu-2\sigma] [μ−2σ,μ−2σ]
- 约99.7%的数据落在 [ μ − 3 σ , μ − 3 σ ] [\mu-3\sigma,\mu-3\sigma] [μ−3σ,μ−3σ]
在正态分布中,三倍标准差是一个重要的概念,它在质量控制、统计推断和金融风险管理等领域都有广泛的应用
参考文章
方差、标准差、均方差、均方误差(MSE)区别总结 - 知乎 (zhihu.com)