使用plink和git进行数据处理

news2026/2/10 7:05:05

首先使用git进行plink环境配置，显示环境安装成功，在此环境下可以使用plink

在基因型数据处理过程中，看到vcf文件后首要做的就是将vcf文件转成二进制文件，输入命令 plink --vcf genotype.vcf --allow-extra-chr --recode --out test 之后，转化为了如下图所示四种类型的文件，其中有map和ped文件。

通过 wc -l test test.map test.ped 查看样本的数量，这里是有20000个SNP和300个样本，we -l test 是查看基本情况，后边接想要查看的文件

通过执行命令 plink --file test --allow-extra-chr --missing 检查基因型和样本缺失值情况，命令显示缺失值情况文件已被写入plink.lmiss文件

根据提示，可以查看缺失的数据有哪些，通过执行命令 head plink.imiss 和 head plink.lmiss ，也可以查看缺失率

setwd("F:/基因组选择/文章代码/DNNGP/2.15DNNGP培训材料/Data-cleaning/data")#设置工作路径

library(data.table)
library(openxlsx)
library(sommer)
library(dplyr)
library(ggplot2)
library(VIM)
library(mice)
library(zoo)

#标记缺失
snpmiss<-read.table(file="plink.lmiss",header = TRUE)
  dim(snpmiss)
  head(snpmiss)
  hist(snpmiss[,5],main="Histogram SNP missingness",xlab = 'SNP miss rate',
       ylab='Frequency',col = '#E47D28',cex=0.5,pch=19,
       font.lab = 2,cex.lab = 1.2,ylim=c(0,4000))

#个体缺失
indmiss<-read.table(file="plink.imiss",header = TRUE)
  dim(indmiss)
  head(indmiss)
  hist(indmiss[,6],main = "Histogram individual missingness",
       xlab = 'Individual miss rate', ylab='Frequency',
       col = '#753281',cex=0.5,pch=19,
       font.lab = 2,cex.lab = 1.2,ylim=c(0,150))

通过执行R代码，可以对查看的标记和个体缺失进行可视化分析。