GWAS 分析模型

GWAS 分析模型 | FaST-LMM

news2026/2/16 13:18:15

GWAS 分析模型 | FaST-LMM

FaST-LMM (Factored Spectrally Transformed Linear Mixed Models) 是一个用于进行全基因组关联分析（GWAS）的模型。与标准混合线性模型相比，FaST-LMM 通过对遗传相似性矩阵进行单次谱分解来减少计算资源消耗并提升运行速度，因此特别适用于超大型数据集的 GWAS 分析。

扫码关注微信公众号【生信F3】获取更多生物信息学最新知识。

安装

FaST-LMM 提供了供直接运行的预编译版本（FastLmmC v2.07.20140723），下载后即可使用：

https://www.microsoft.com/en-us/download/details.aspx?id=52588

./fastlmmc

用法

FaST-LMM 需要四个输入文件（ASCII 编码），包含

SNP 数据
用于计算个体间遗传相似性（亲缘关系矩阵）的 SNP 数据（可以与1不同）
表型数据
一组协变量（可选）

仅计算遗传相似性矩阵：

./fastlmmc -runGwasType NORUN \
 -pheno Trait1.plink.txt -missingPhenotype NA \
 -fileSim test \
 -simOut test.sim

-runGwasType

计算遗传相似矩阵的谱分解后，运行 GWAS 或退出。使用 NORUN，缓存谱分解。默认值：RUN。

运行 GWAS：

./fastlmmc
-tfile test
-pheno Trait1.plink.txt
-tfileSim test
-simOut out.sim
-out test_fastlmm.out.txt
-missingPhenotype NA -maxChromosomeValue 1000000 -maxThreads 5

常用选项

1. 基因型

输入文件 SNP 数据应该为 PLINK 格式（ped/map, tped/tfam, bed/bim/fam, or fam/dat/map）。使用依赖 SNP 排序的二进制格式可以获得最快的速度。这些文件中的表型条目必须被设置为虚值并将被忽略（FaST-LMM 软件使用单独的表型文件）。性别应该被编码为一个数字。缺失的 SNP 值将被按均值填补。

注意：该软件只能接受整数或字符串形式（X、Y、XY 或 MT）的染色体编号，因此对于非模式物种，建议在 SNP 标识符中包含染色体 ID，并将染色体 ID 列全部以数字 0 填充。

-file basefilename

.map 和 .ped 格式的文件基名

-bfile basefilename

二进制 .bed, .fam 和 .bin 格式的文件基名

-tfile basefilename

转置后 .tfam 和 .tped 格式的文件基名

2. 亲缘关系

-tfileSim basefilename

用于构建遗传相似度（亲缘关系）的转置后 .tfam 和 .tped 格式的文件基名（可与基因型数据保持一致）

-simOut filename

指定将遗传相似度写入此文件

3. 表型

-pheno filename 表型文件名

-missingPhenotype

缺失值的标识符。如果一个个体的表型缺失，那么该个体就会被忽略。如果一个个体的协变量值缺失，则以平均值估算。默认值为 -9。

包含表型数据的文件使用 PLINK 的表型格式。其至少包含三列：familyID、individualID 和任意数量的表型值。列间以制表符或空格分隔。默认仅测试第一列表型值，缺失值默认以 -9 表示，但一般建议以 -missingPhenotype 选项来指定缺失值。第一列 familyID 与第二列 individualID 相连接从而为个体创建唯一的标识符，并与上述 PLINK 文件中的个体条目相匹配。例如：

cid0P0 cid0P0 0.4853395139922632
cid1P0 cid1P0 -0.2076984565752155
cid2P0 cid2P0 1.4909084058931985
cid3P0 cid3P0 -1.2128996652683697
cid4P0 cid4P0 0.4293203431508744

4. 其它

-maxThreads <int>

该选项被传递给 MKL 数学库（Intel）以 "建议" 使用的并行程度。指定一个大于计算机上核心数的数字可能会导致程序运行得更慢。指定一个小于核心数的数字可能会使计算机在运行 FastLmmC 时不会在程序的不同阶段消耗所有的 CPU 资源。在使用 ACML 数学库（AMD）时，MaxThreads 选项将被忽略。

-covar filename

包含协变量的可选文件