参考资料:
严威凯等: 双标图分析在农作物品种多点试验中的应用【作物学报】
https://cran.r-project.org/web/packages/GGEBiplots/GGEBiplots.pdf
1、如何判断双标图是否充分体现数据中的规律
在对双标图的解释中,有一个隐含的假设,就是所讨论的 2-D双标图可以充分近似所代表的两
向表数据。
如何知道上面这个假设是否满足,首先要看双标图的拟合度(Goodness of Fit), 即前两个主成分(PC1 和 PC2)所解释的两向表中总变异的百分数。如果拟合度高, 则双标图能较好地近似实际数据。
假定待分析数据中有 g 个品种和 e 个环境(地点)。那么百分之百表现这套数据所需要的最大主成分数目是 K =min (g–1, e)。如果数据中品种间和环境间没有任何关系或规律, 每个主成分所解释的变异应当都是总变异的1/K。如果数据中存在一些关系或规律, 那么有些主成分所解释的变异的比例就会大于1/K,而其他的主成分所解释的比例则小于1/K。
按此推理, Yan 和 Tinker提出了“信息比”(IR)的概念, 它是各主成分所解释总变异的份额乘以 K。这样, 对于一个主成分, IR >1 表示含有规律性信息,IR = 1 表示含有独立性信息,IR <1 则表示不含任何规律或重要信息。对于一套数据, 有几个主成分具有 IR ≥1, 就需要几个主成分来充分近似之。如果只需要 1 个主成分, 那么双标图分析就是多余的。如果需要 2 个主成分, 则 2-D 双标图足以表现数据中规律。如果需要 3 个主成分, 则 2-D 双标图不足以表现数据中所有规律,但3-D 双标图则可。如果需要 3 个以上主成分, 说明数据中规律复杂但没有突出规律。
以GGEBiplots包自带的Ontario案例进行分析,查看本例的主成分信息比情况:
# 查看主成分的特征值、解释总变异的百分数及信息比
K=min(c(nrow(Ontario)-1,ncol(Ontario)))
eigval<-GGE1$eigenvalues
expl<-GGE1$varexpl
IR<-expl*K/100
tab<-data.frame(特征值=eigval,解释总变异百分比=expl,信息比=IR)
tab
结果显示:只有前 2 个主成分满足 IR >1, 可以认为双标图可以充分体现数据中的规律。
经验表明,多数情况下,2-DGGE双标图足以充分近似一年内多点试验的数据。但在数据较大(同时有很多品种和很多环境)或涉及到广泛的地理分布,或把不同年份的数据放在一起分析时,情况可能不同。2-D双标图不能充分近似数据时,可以考虑采取以下方法:
第1种方法是使用3-D双标图。
第2种方法是把试验点分组并分别进行研究。按照2-D双标图表现出的环境间关系把环境分组,然后按组分别研究,是解决数据较大、关系较复杂的有效途径。
第3种方法是去掉数据中的低产品种或产量不稳定品种。2-D双标图不能充分表现数据中的规律多是因为数据中的GE关系复杂而得不到充分表现;后者又可能是因为品种主效益较强所致。在这个前提下,去掉一些在所有或多数环境下都低产的品种,可以减少双标图中G的分量,使较多的GE得以在双标图上表现,从而取得对环境更好的区分。
2、如何检验双标图上关系的显著性
由于双标图本身没有一个判断显著性的尺度,在按照双标图做出重要决定之前需要进行统计检验。因此,原则上应当把双标图当作一个建立假说的工具而不是作出最终结论的工具。具体如何检验,可参考:严威凯等: 双标图分析在农作物品种多点试验中的应用【作物学报】。
3、双标图的定标
未定标的GGE双标图是不经过数据定标,直接将环境中心化的数据进行特征值分解而建立的。其特点是,在采用聚焦环境的特征值分配(SVP="column")时,图中各环境向量的长度与各环境内品种均值间的标准差(SD,等于环境内表型方差的平方根)呈近似直线关系。近似的程度与双标图的拟合度有关。某试验点内SD的大小可以作为衡量该试验点对品种的表型区分能力的指标。
用未定标GGE双标图对试验点进行有效评价是有条件的,即各试验点的试验误差相同或相近(称为误差同质性原则);而这个条件在实际中不一定能满足。
数据定标是把同一环境内各品种的数值除以(或乘以)某个能够表征该环境的量,以便把各环境放在同一尺度下比较。GGEBiplots包中只提供了SD标定,故这里只讨论SD标定。用环境内品种均值间的标准差(SD)对各环境进行定标,即以环境SD去除两向表中相应环境内各品种的数值,可以消除各环境在SD上的差异。在SD-定标的GGE双标图上,在拟合度较高的前提下,各个环境之向量的长度应当是相同或相近的。这一特性有两个用途。第一,由于各环境的向量长度相近,此图更便于直观分析各环境在品种排序上的相似性。第二,可据以判断双标图是否充分表现数据。如果双标图上各环境的向量长度显著不同,则说明该双标图不能充分体现数据中环境间的关系。
与这些优点相伴而来的缺点是, SD定标双标图上环境向量的长度不再是其对品种区分能力的度量。
# 查看数据中各试验点的标准差
apply(Ontario,2,sd)
# 对数据进行定标
GGE2<-GGEModel(Ontario,scaling="sd")
# 展示“区分力和代表性”功能图
DiscRep(GGE2)
SD-定标的GGE 双标图与多元分析中常用的主成分分析模型相一致, 因而在多元数据(如品种-性状两向表, 品种-遗传标记两向表, 等等)分析中有广泛应用。在需要把各环境看得同等重要时, SD-定标的GGE 双标图应当是第一选择。