1.sh plink 格式转化

plink1.map/plink1.ped ------plink2.bim/fam/bed
plink --file 1001genomes_snps_only_ACGTN1 --make-bed --out plink2

2.sh 群体结构分析

时间过久：
for K in 2 3 4 5 6 7 8 9 10;
do admixture --cv plink2.bed $K ∣ t ee a d mi x t r u e$ {K}.out; done
这里你要有一个k值, 如果你不知道你的群体能分为几个类群, 可以做一个测试, 比如从1~7分别分群, 然后看他们的cv值哪个小, 用那个k值.

短时间：
已知有3类可以做群体结构分析
admixture hapmap3.bed 3
我们的格式：
只有三列Q结果
在这里插入图片描述

调整群体结构文件的格式：（以下为正常格式）
在这里插入图片描述

生成plink2.3.Q

调整格式：
使用plink1.ped第一列替换plink2.3.Q的第四列
awk ‘FNR==NR{a[NR]=$1;next}{$4=a[FNR]}1’ plink1.ped plink2.3.Q >tmp.txt

使用使用plink1.ped第一列替换tmp.txt的第五列
awk ‘FNR==NR{a[NR]=$1;next}{$5=a[FNR]}1’ plink1.ped tmp.txt >tmp1.txt

交换顺序tmp1.txt
awk ‘{print $5,$4,$1,$2,$3 > “tmp1.txt”}’ tmp1.txt

echo 1>tmp1.txt
第三列增加一列1
awk ‘{print $1,$2,1,$3,$4,$5}’ tmp1.txt > emmax.cov.txt

3.加入群体结构为协变量进行全基因组关联分析

8.sh
#!/bin/bash
#SBATCH -p v6_384
#SBATCH -N 1
#SBATCH -n 1
#SBATCH -c 4
export PATH=/public3/home/sch7166/emmax/emmax-beta-07Mar2010:$PATH
emmax -v -d 10 -t 1001genomes_snps_maf0.1 -p final.txt -k 1001genomes_snps_maf0.1.hIBS.kinf -c emmax.cov.txt -o adimixtrue_var

生成adimixtrue_var.ps文件