文章目录
- 下载Greengenes数据库
- 在QIIME2中使用
- 导入QIIME2中
- 提取引用读取
- 训练分类器
- 测试分类器
- 导出结果
- 生成可视化文件
由于Bugbase功能注释时,输入的OTU表需经Greengenes注释(且由于时间原因须是第一版),故尝试使用Greengenes对16S进行注释
下载Greengenes数据库
下载地址:
https://ftp.microbio.me/greengenes_release/gg_13_8_otus/taxonomy/
在QIIME2中使用
导入QIIME2中
time qiime tools import \
--type 'FeatureData[Sequence]' \
--input-path 99_otus.fasta \
--output-path 99_otus.qza
time qiime tools import \
--type 'FeatureData[Taxonomy]' \
--input-format HeaderlessTSVTaxonomyFormat \
--input-path 99_otu_taxonomy.txt \
--output-path ref-taxonomy.qza
共耗时3min
提取引用读取
研究表明,当朴素贝叶斯分类器仅在测序的目标序列区域进行训练时,16S rRNA基因序列的分类学分类准确性会提高
以779F/1193R为例
time qiime feature-classifier extract-reads \
--i-sequences 99_otus.qza \
--p-f-primer AACMGGATTAGATACCCKG \
--p-r-primer ACGTCATCCCCACCTTCC \
--p-trunc-len 350 \
--o-reads ref-seqs.qza
共耗时4min
训练分类器
现在,我们可以使用刚刚创建的参考读取和分类法,按如下方式训练朴素贝叶斯分类器
time qiime feature-classifier fit-classifier-naive-bayes \
--i-reference-reads ref-seqs.qza \
--i-reference-taxonomy ref-taxonomy.qza \
--o-classifier classifier.qza
共耗时4min
测试分类器
最后,我们通过对代表性序列进行分类并可视化生成的分类分配来验证分类器是否正常工作。
time qiime feature-classifier classify-sklearn \
--i-classifier classifier.qza \
--i-reads rep-seqs.qza \
--o-classification taxonomy.qza
## 耗时30min
time qiime metadata tabulate \
--m-input-file taxonomy.qza \
--o-visualization taxonomy.qzv
## 耗时1min
导出结果
taxaonomy里的taxnomy.tsv是输入文件之一,为后续分析做准备
qiime tools export --input-path taxonomy.qza --output-path taxonomy
生成可视化文件
物种注释的结果
time qiime metadata tabulate \
--m-input-file taxonomy.qza \
--o-visualization taxonomy.qzv
柱状累积图
time qiime taxa barplot \
--i-table table.qza \
--i-taxonomy taxonomy.qza \
--m-metadata-file sample.tsv \
--o-visualization taxa-bar-plots.qzv
导出结果
qiime tools export --input-path taxa-bar-plots.qzv --output-path taxa-bar-plots
参考:
[1]官方文档:使用 q2-feature-classifier 训练特征分类器