最广为使用的基于模型的聚类方法依赖于多元正态分布。多元正态分布是对p个变量正态分布的一种推广。该分布使用一组均值和协方差矩阵∑定义。协方差矩阵是变量间相关性的度量.
协方差矩阵∑由p个方差以及所有变量对的协方差σi,ji≠j)构成。矩阵的行和列均用变量表示,形式为:以及所有变量对的协方差,构成。矩阵的行和列均用变量表示,形式为
鉴于协方差矩阵是对称的,即,因此矩阵中只有p( p-1)-p个协方差项,协方差矩阵共有p(p-1)个参数。多元正态分布表示为:
符号化表示表明所有的变量均符合正态分布,整体分布使用变量均值的向量和协方差矩阵描述。
图显示了具有两个变量X和Y的多元正态分布的概率轮廓线(例如,图中的0.5概率轮廓线包含了50%的分布)。
该分布的均值是μx= 0.5和μy= -0.5,协方差矩阵为:
由于协方差为正,所以X和Y是正相关的。