目录
第10章 直接数据分析
10.1 引言
10.2 均值的方向和集中度(Mean direction and concentration about the mean)
10.3 假设检验(Hypothesis testing)
10.4 分组数据(Grouped data)及其与Fourier的关联
10.4.1 分组数据
10.4.2 分组数据与Fourier的关联
10.5 高次谐波(Higher harmonics)
第10章 直接数据分析
10.1 引言
在前面的章节中,我们将数据向量设想为有序的数字列表。我们已经看到,无论这些数字是实数值(即标量)还是复数值(即二维向量),Fourier分析的方法同样适用。 在本章中,我们特别关注介于实数值和复数值之间的一类数据。这些是二维向量,向量的幅度部分对其没有意义或益处。 换句话说,我们希望检查只有方向重要的数据。 一些示例是视觉对象的运动感知(perceived)方向、视网膜神经节细胞(retinal ganglion cells)的首选方向以及视觉诱发的皮层电位(cortical potential)的电偶极子(electric dipole)发生器的轴。
一个独立的统计学分支已经发展到处理生物学(biology)、地质学(geology)和生理学(physiology)等不同领域的定向数据。方向数据与其他单变量数据之间的主要区别在于,方向数据绘制在圆上而不是实线上。因此,方向数据是周期性的,且因为如此,为计算数据的集中趋势(central tendency)和离散度(dispersion)的简单度量而设计的公式与Fourier分析的公式有着惊人的相似之处。这种相似性允许方向数据分析的Fourier解释揭示了这两种不同数据分析方法之间的密切关系。
10.2 均值的方向和集中度(Mean direction and concentration about the mean)
考虑求得两个罗盘(compass)读数的平均值的问题:5°和 355°。 由于这两个方向都非常接近偏北方向,因此平均值也应该偏北。但是,这两个值的算术平均值为 180°,即正南。 此外,这两个数字的标准偏差为 175°,对于几乎相同的两个方向而言,这远远大于合理值。显然,如果我们要获得合理的结果,就需要一种不同的方法来计算方向数据的均值和分布。 Batschelet (1972) 和 Mardia (1972) 设计的方法如下图 10.1 所示。 这个想法是将各个方向视为单位向量与水平面所成的角度,可以将其视为复平面中的单位相量。 现在假设这些数据 根据向量加法(或复数求和)的普通规则求和,并将结果除以数据点的数量,根据等式
-------------------------------------------------------------------------------------[10.1]
其中, 是第 n 个单位向量,n 是求向的向量数目,且 B 是向量和的归一化结果。在所示的特定示例中,B 是水平方向上长度为 0.996 的向量。 因此,B 的方向是定义平均方向的明显选择,而 B 的长度提供了所有数据向量指向同一方向的程度的合理度量。 如果初始假设是方向随机分布在圆周上,则向量 B 将成为衡量数据偏向特定方向的程度的有用度量。 由于这个原因,B 被称为“偏量向量(bias vector)”(Thibos & Levick,1985)。请注意,如果两个向量指向相反的方向,B 的长度将为零,如果两个向量指向相同的方向,则 B 的长度为 1。一般而言,无论平均方向的数量如何,偏置向量 B 的长度都在范围为 0.0(随机方向)到 1.0(所有方向相同)的方便尺度上提供了关于平均值的数据集中度的度量。
----------------------------------------------图10.1 方向数据分析-------------------------------------------------
10.3 假设检验(Hypothesis testing)
Greenwood & Durand (1955) 设计了 B = 0 零假设的统计检验,称为Rayleigh检验。 Raleigh 统计量 z 是
-------------------------------------------------------------------------------------[10.2]
其中 n 是样本中的方向数,|B| 是偏置向量的长度。 如果 z 的值超过 Greenwood & Durand (1955) 表 2 中列出的临界值,则零假设将被拒绝,而备择假设即方向不是随机分布的。
10.4 分组数据(Grouped data)及其与Fourier的关联
10.4.1 分组数据
假设为了将数据分组到图 10.2 中所示的箱(bins)中,将圆细分为大小相等的 D 个扇区。假如在第i个箱的圆心方向的单位向量被分配给 ,并且,假设 数据落入这个箱中,则那组数据可以用分组数据表示为
-----------------------------------------------------------------------------------[10.3]
按照这种约定,数据点的总数 n 等于组向量的长度之和
------------------------------------------------------------------------------[10.4]
则,偏置向量计算为分级向量的平均值
--------------------------------------------------------------------------------------[10.5]
图 10.2 中所示的数据列于表 10.1 中,其中记录了偏置向量 B = (1/3, -1/3) 的计算。 从这个结果我们得出结论,这些数据的平均方向是沿着将 组 和 组 分开的-45度轴方向。 B 的长度 = ,Rayleigh 的统计量为 。该值小于表格中的临界值 2.86( 5% 水平),因此不能拒绝数据围绕圆均匀分布的零假设。
-----------------------------------图10.2 分组数据分析--------------------------------------------
10.4.2 分组数据与Fourier的关联
为了通过等式[10.5]计算偏置向量B 。首先需要将每个群向量从极坐标形式转换为矩形形式,然后分别对这些正交分量求和。 因此,偏置向量的 𝗑 分量和 𝗒 分量分别由下式给出
----------------------------------------------------------------------[10.6]
其中,D 是分组向量数。这些表达式也称为 的第一三角矩(trigonometrical moments),且它们与通过将图 10.2 的数据重新绘制为如图 10.3 所示的出现频率直方图(a frequency-of-occurrence histogram)而获得的离散数据函数的Fourier系数计算惊人地相似。
--------------------------------图 10.3 分组数据直方图-----------------------------------------
为了更清楚地理解偏置向量和Fourier系数 和 之间的关系,我们重新调整等式[10.6]为如下形式
------------------------------------------------------------------------------------[10.7]
-------------------------------------------------------------------------------[10.8]
将这些结果简化,我们注意到 ,因此
-----------------------------------------------------------------------------------[10.9]
据此,我们推导出
---------------------------------------------------------------------------------------[10.9]
以极坐标形式解释此结果,我们看到分组方向数据中的偏置量等于直方图模型的基本Fourier分量调制(modulation)的一半
------------------------------------------[10.10]
此外,均值方向等于基本分量的相位
(译注:arg = average)--------------------[10.11]
总之,我们发现偏置向量(也称为第一个三角矩)的长度等于模型的基本Fourier分量调制的一半,以适应频率直方图。 通过同样的推理,可以证明第 k 个三角矩
------------------------------------------------------[10.12]
也等于第 k 次谐波调制的一半。
10.5 高次谐波(Higher harmonics)
前面的讨论假定方向跨越 0-360 度的范围。 但是,如果考虑其他范围,则可以扩展这些方法应用的实用性。 例如,线的方向限制在 0-180 度范围内,因为 190°方向与 10° 方向相同。 这种情况可以视为数据沿圆周的周期性。 在方向测量的情况下,周期性是二次谐波,因此 k = 2。 某些其他度量可能会沿单位圆重复三次,在这种情况下 k = 3,依此类推。为了在方向数据分析中处理这些高次谐波,通常的方法是通过将所有角度乘以预期的谐波数 k 来计算第 k 个三角矩,如等式 [10.12] 所示。然后,我们继续进行上述标准形式的分析,以获得平均角度 = arg(M)。 在将结果解释为平均方向之前,必须将该计算出的平均角度除以 k 。
二次谐波分布的示例如图 10.4 所示,其中被分析的量可能是眼睛的散光轴或暴风雨期间与船桅垂直方向的角度。 按照惯例,坐标轴介于 0 到 180 度之间,此示例显示集中在 0 = 180 度附近。
二次谐波分布的示例如图 10.4 所示,其中被分析的量可能是眼睛的散光轴或暴风雨期间与船桅垂直方向的角度。按照惯例,坐标轴介于 0 到 180 度之间,此示例显示集中在 0 = 180 度附近。
--------------------------------图10.4 轴数据200个值的分布-------------------------------------
为了计算偏置向量 B,我们首先将所有轴值加倍,如图 10.5 所示,然后应用等式 [10.1]。 以复数表示的结果为 0.93 + 0.03i,其中双轴图的平均方向 = 1°,浓度 = 0.93。 因此,平均轴为 1/2 度,这在直觉上是令人满意的。
--------------------------------图10.5 轴数据200个值的分布----------------------------------------
内容来源:
<< Fourier Analysis for Beginners>> Larry N. Thibos