参考资料:
严威凯等: 双标图分析在农作物品种多点试验中的应用【作物学报】
https://cran.r-project.org/web/packages/GGEBiplots/GGEBiplots.pdf
1、安装GGEBiplots包
目前搜索到的资料多数为“GGEBiplotGUI”安装包,但在安装时报错,如下:
后按照GGEBiplotGUI软件包如何安装?-CSDN博客中的内容进行操作,未能操作成功,故放弃安装包。
后经过在R语言安装包的库(CRAN: Available Packages By Name)中检索,找到了GGEBiplots安装包。通过安装语言:install.packages("GGEBiplots"),可顺利安装。另外,还需安装一个gge的安装包,因为在GGEBiplots中可能会用到gge(使用gge包可以处理含有缺失值的数据)。
install.packages("GGEBiplots")
install.packages("gge")
2、加载内置案例数据
library(GGEBiplots)
library(gge)
data(Ontario)
Ontario
此数据来源于:严威凯在1993 年加拿大安大略省冬小麦区域试验的产量数据。
3、环境中心化
环境中心化的双标图只含与品种评价有关的G和GE,而不含与品种评价无关的其他效应,因此称为“GGE双标图”。GGE双标图不仅适用于品种评价, 而且适用于试验环境(试验点)评价和品种生态区划分。GGE 双标图有一个独特的性质, 即任两环境间夹角之余弦近似等于该两环境间的遗传相关系数。这个特性被称为“余弦-相关系数等值原理”; 它是用双标图评价试验点的重要基础。
在数量遗传和生物统计上, 这个值被称为表现型(P), 按照线性统计模型, P = M + E + G + GE; 式中 M 代表多点试验产量的总平均值, E 代表环境主效应, G 代表品种主效益, GE 代表品种-环境互作效应。其中只有G和GE 都带个“G”字, 因而与品种评价有关。
环境中心化:从两向表的每个数据减去相应环境下的平均值将去掉M和E, 形成一个环境中心化的两向表。
环境中心化的方法建议使用使用GGEBiplots自带的GGEModel()函数,即可以进行中心化操作,也可以进行标定操作。GGEModel()函数形式如下:
GGEModel(Data, centering = "tester", scaling = "none", SVP = "column")
其中:data为data.frame格式或矩阵。centering表示对数据进行中心化操作;centering默认等于tester即环境中心化(G+GE);若为global则为总均值中心化(E+G+GE);若为double则为双向中心化,若为none则表示不中心化。未经中心化处理的模型是不能进行GGEPlot作图的。scaling表示对数据进行定标,默认等于none即不定标;若为sd则表示对数据进行标准差定标。SVP通常默认为column即可。
## 环境中心化-方法一
# 自定义函数
func1<-function(x){x-mean(x)}
# Ontario数据按列减去对应的均值
Ontario.ec<-apply(Ontario,2,func1)
Ontario.ec
## 方法二
# 在计算GGE模型时,使用GGEBiplots自带的GGEModel()函数
GGE1<-GGEModel(Ontario,
centering = "tester",
scaling="none",
SVP="column")
# 同GGE1<-GGEModel(Ontario)
4、“哪个赢在哪里”功能图
此图按照品种-环境的相互关系来对试验点分组并揭示各组内最高产的品种。图中的多边形由连接同一方向上距离原点最远的品种而成;它把所有品种都框在其内。由原点发出的射线是对多边形各边的垂线。
# 哪个赢在哪里功能图
WhichWon(GGE1)
9 个试验点被分为两组,OA93和KE93为一组, 其他 7 个试验点为另一组。这种功能图有一个有趣而重要的特性,各区内位于多边形顶角上的品种恰好是本区内各环境下名义上最高产的品种。本例中,品种zav在试验点OA93和KE93 最高产, 是“赢家”, 品种fun 在另 7 个试验点最高产, 是“赢家”。
此图所展示的最高产品种因地区而异的现象称为交叉性互作(crossover GE)。它的存在是划分品种生态区的重要依据。
5、“环境间关系”功能图
环境间关系功能图可用于直观分析各试验点之间在品种评价上的相似性。图中连接原点和各环境的直线称为“向量”。向量的长度和向量间的夹角都有生物学上的解释。两环境向量间夹角的余弦近似于它们之间的遗传相关系数。夹角小于90°表示正相关,大于90°表示负相关,接近90°表示无相关。正相关说明两环境对品种的排序相似;负相关说明两环境对品种的排序相左。
无相关或负相关意味着可能存在不同品种生态区。 紧密正相关则意味着有一些试验点可能是重复设置的;去掉一些试验点可以减少试验成本而不影响对品种的评价。
在GGEModel()函数中scaling的设置为none时,环境向量的长度是试验点对品种区分能力的度量,向量越长,对品种的区分能力越强。
# 环境间关系功能图
EnvRelationship(GGE1)
此图中,多数试验点之间存在正相关,如EA93、BH93、HW93、ID93之间的相关性以及WP93和NN93之间的相关性都相对比较紧密。少数试验点之间的相关性存在复相关,如RN93和OA93。在品种的区分能力方面,OA93和KE93对品种的区分能力明显强于其他试验点,RN93的品种区分能力最弱。
6、“区分力和代表性”功能图
理想的试验地点应当具备两个条件, 一是对参试品种有较强的区分能力, 二是对目标生态区有较强的代表性。GGE 双标图之“区分力和代表性”功能图专为直观评价试验点的这两个方面而设计。图中箭头的位置代表“平均环境”。它的位置取决于各试验环境坐标的平均值。我们用这个平均环境来代表目标环境。带箭头的直线通过双标图的原点和平均环境,称为平均环境向量或平均环境轴(Average Environment Axis 或 AEA)。如上所述, 各试验点向量的长度是其区分能力的度量。而试验点向量与平均环境向量的角度是其对目标环境的代表性的度量。角度越小, 代表性越强。角度越大, 代表性越弱。如果一个试验点与平均环境向量的夹角是钝角, 则它不适合作为试验点。
平均环境轴箭头所指方向是对试验点区分力和代表性两方面的综合评价,没有区分能力的试验点是无用的。有区分能力但没有代表性的试验点可用于淘汰不稳定的品种, 但不能用于选择优良品种。只有既有区分力又有代表性的试验点才能用来有效地选择高产稳产的品种。
# 区分力和代表性功能图
DiscRep(GGE1)
此图中,就区分力而言,试验点OA93和KE93的区分力最好。就代表性而言,试验点BH93的代表性最好,其次是:EA93、HW93和ID93这三个试验点。本例中没有与平均环境向量呈钝角的试验点向量,即本例中没有不适合的试验点。
7、“高产性和稳产性”功能图
在特定品种生态区内, 理想的品种应当既高产又稳产。GGE 双标图之“高产性和稳产性”功能图专为同时了解品种的高产性和稳产性而设计。带单箭头的直线是平均环境轴。它所指的方向是品种在所有环境下的近似平均产量。与平均环境轴垂直并通过原点的、带有双箭头的直线代表各品种与各环境相互作用的倾向性; 箭头向外指向较大的不稳定性,越偏离平均环境轴越不稳定。
另外需要注意:稳产性或稳定性只在与高产相结合时才有意义。品种评价必须针对特定的品种生态区才有意义。因此, 高产性和稳产性这一功能图应当在所有试验点属于同一品种生态区时使用。
与前3个功能图不同,本功能图是基于聚焦品种的特征值分配(SVP ="row"), 因为这里关注的焦点是品种(品种位于行上,试验点位于列上)。在前 3 个功能图中采用了聚焦环境的特征值分配(SVP = "column"), 因为研究的焦点是试验点。对特征值分配的选择不影响“哪个赢在哪里”的模式和结论。
# 高产性和稳定性功能图
GGE2<-GGEModel(Ontario,SVP="row")
MeanStability(GGE2)
本图中,就产量而言,品种的产量沿着平均环境轴的箭头方向是逐渐增大的,所以:fun的平均产量最高,其次是cas、har、zav,依次类推。就品种的稳定性而言,高产的fun产量稳定性较差,而产量位于第二的cas稳定性很好,可以说是既高产又稳产的品种。