基因组注释流程

news2025/2/24 2:21:56

一边学习,一边总结,一边分享!

详细教程请访问:
组学分析流程

本期分析流程

  1. Hisat2-Samtools
  2. Trinity_GG_denovo
  3. PASA

本期教程文章


题目:Genomic insights into local adaptation and future climate-induced vulnerability of a keystone forest tree in East Asia

Hisat2-samtools分析流程

#!/bin/bash

genome=$1
index=${genome%.*}
rna_1_fq=`cat $2|grep 1P|sed ":a;N;s/\n/,/g;ta"` #1.fq path list
rna_2_fq=`cat $2|grep 2P|sed ":a;N;s/\n/,/g;ta"` #2.fq path list

#echo $index
hisat2-build -p 20 $genome $index

hisat2 -x $index \
           -1 $rna_1_fq\
           -2 $rna_2_fq\
           --threads 20 \
           --min-intronlen 20 \
           --max-intronlen 20000 \
           --dta \
           --score-min L,0.0,-0.4 \
           -S ${index}.sam


samtools sort -@ 20 \
                  -o ${index}.sorted.bam \
                      -O BAM \
                ${index}.sam

PSSA_align

#!/bin/bash

export PATH="$PATH:/usr_storage/jcf/.conda/envs/PASA"
source  /pub_storage2/new_PASA/.bashrc

#cat $Trinity_GG $Trinity_denovo >transcripts.fasta #
transcripts_fasta="$1" # transcripts.fasta generated from merging fasta file of Trinity denovo and Trinity genome guided mode

#perl -e 'while(<>) { print "$1\n" if />(\S+)/ }' Trinity.fasta >tdn.accs #
denovo_transcript_id="$2" 
alignAssembly_config="$3"
genome="$4" #reference fasta file



seqclean $transcripts_fasta \
	     -v /pub_storage2/PASA/UniVec
		 

Launch_PASA_pipeline.pl -c $alignAssembly_config \
					    -C -R -T \
						-g $genome \ 
						-t $transcripts_fasta.clean \
						-u ${transcripts_fasta} \
						--ALIGNERS gmap,blat \
						--CPU 8 \ 
						--TDN $denovo_transcript_id
                        

Trinity GG denovo

#!/bin/bash

#conda activate trinity

export PATH="$PATH:/usr_storage/jcf/.conda/envs/trinity"

rna_1_fq="cat $1|sed ":a;N;s/\n/,/g;ta"" #1.fq path list 
rna_2_fq="cat $2|sed ":a;N;s/\n/,/g;ta"" #2.fq path list
bam="$3"  #sorted.bam from hisat
out=${bam%.*}


Trinity --left $rna_1_fq \
	    --right $rna_2_fq \
		--seqType fq  \
		--max_memory 100G \
		--no_normalize_reads \
		--CPU 20 \
		--bflyCalculateCPU  \
		--output trinity_denovo_$out
		
Trinity --genome_guided_bam $bam  \
		--genome_guided_max_intron 10000 \
		--max_memory 100G \
		--no_normalize_reads \
		--CPU 20 \
		--bflyCalculateCPU\
		--output trinity_GG_$out

ab homo

#!/bin/bash

export PATH="$PATH:/usr_storage/jcf/.conda/envs/BUSCO"
source /usr_storage/jcf/geta-user204/.bashrc


rna_1_fq="cat $1|sed ":a;N;s/\n/,/g;ta"" #1.fq path list 
rna_2_fq="cat $2|sed ":a;N;s/\n/,/g;ta"" #2.fq path list
genome="$3" #genome fasta file 
conf="$4" #small genome conf.txt of geta pipepline setting as default parameters
out=${genome%.*}
homo_pro="$5"

geta.pl \
	--RM_species Embryophyta\
	--out_prefix `pwd`/$out \
	--config $conf \
	--cpu 20 \
	--protein $homo_pro\
	-genome $genome \
	-1 $rna_1_fq \
	-2 $rna_2_fq \
	--augustus_species $out

Evm

#!/bin/bash

export PATH="/usr_storage/xyf/jcf/genewise/EVM/EVidenceModeler-1.1.1/EvmUtils/:$PATH"

genome="$1" #genome fasta file 
augustus_gff3="$2" #gff3 generated from augutus 
genewise_gff3="$3" #gff3 generated from tblastn and genewise
pasa_align_gff3="$4" #gff3 generated from PASA 
repeat_gff3="$5" #repeat gff3 generated from repeatemasker
partition="$6" #partition path for evm



partition_EVM_inputs.pl \
		--genome $genome\
		--gene_predictions $augustus_gff3 \
		--protein_alignments $genewise_gff3 \
		--transcript_alignments $pasa_align_gff3 \
		--repeats $repeat_gff3 \
		--segmentSize 5000000 \
		--overlapSize 10000 \
		--partition_listing $partition
		
write_EVM_commands.pl \
		--genome $genome \
		--gene_predictions $augustus_gff3 \
		--protein_alignments $genewise_gff3 \
		--transcript_alignments $pasa_align_gff3 \
		--repeats $repeat_gff3 \
		--output_file_name evm.out \
		--weights $weight >command.list
		
ParaFly -c command.list -CPU 32 

recombine_EVM_partial_outputs.pl \
		--partitions $partition \
		--output_file_name evm.out 
		
convert_EVM_outputs_to_GFF3.pl \
		--partitions $partition \
		--output_file_name evm.out \
		--genome  $genome 

cat */evm.out.gff3 >evm.out.gff3

PASA update

#!/bin/bash


export PATH="$PATH:/usr_storage/jcf/.conda/envs/PASA "
source  /pub_storage2/new_PASA/.bashrc

genome="$1" #genome fasta file
annotation_conf="$2" #pasa annotation compare conf 
transcripts_fasta="$3" #transcripts_fasta file for PASA seqclean step
gff3="$4" #gff3 for PASA updata


Launch_PASA_pipeline.pl \
		-c $annotation_conf\
		-A -T -L \
		-g $genome\
		-t ${transcripts_fasta}.clean \
		-u $transcripts_fasta \
		--annots $gff3

这里只是提供了各个分析流程的脚本,对于初学者来说是比较有好的。我们在转录组上游分析教程[零基础]中提供了详细转录组上游分析的参数,对于初学者来说是比较友好的。

往期文章:

1. 复现SCI文章系列专栏

2. 《生信知识库订阅须知》,同步更新,易于搜索与管理。

3. 最全WGCNA教程(替换数据即可出全部结果与图形)

  • WGCNA分析 | 全流程分析代码 | 代码一

  • WGCNA分析 | 全流程分析代码 | 代码二

  • WGCNA分析 | 全流程代码分享 | 代码三

  • WGCNA分析 | 全流程分析代码 | 代码四

  • WGCNA分析 | 全流程分析代码 | 代码五(最新版本)


4. 精美图形绘制教程

  • 精美图形绘制教程

5. 转录组分析教程

转录组上游分析教程[零基础]

小杜的生信筆記 ,主要发表或收录生物信息学的教程,以及基于R的分析和可视化(包括数据分析,图形绘制等);分享感兴趣的文献和学习资料!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1286024.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2023Q4 私有化版本发布,和鲸 ModelWhale 持续赋能大科研、高校教改的 AI for Science

作为数据科学多人协同平台&#xff0c;和鲸 ModelWhale 从一而终地为各级用户提供完备而周全的解决方案&#xff0c;覆盖数据研究、算法探索、模型调优、Python 案例教学等多个场景。特别地&#xff0c;如果对研究分析平台有更高的安全合规要求、希望兼容原有业务系统&#xff…

自定义构建jdk镜像

&#xff08;1&#xff09;准备jdk压缩包、创建Dockerfile文件 jdk压缩包、Dockerfile文件在同一目录&#xff0c;如下 Dockerfile文件内容如下 # 指定基础镜像 FROM centos:latest # 作者和电子邮件 MAINTAINER vinegar93 "vinegar93163.com" # 指定工作目录 WORK…

【JavaScript手撕代码】浅拷贝的五种实现

目录 Object.assign扩展运算符数组方法slice()concat 手写 Object.assign ES6提供的方法&#xff0c;接收多个参数&#xff0c;第一个参数是目标对象&#xff0c;后面的参数是源对象 &#xff0c;这个API将源对象复制到目标对象上&#xff0c;但是注意&#xff1a; 若源对象和…

StarGAN 使用指南:一个模型实现多个域的迁移

StarGAN 使用指南 网络结构多数据集训练使用指南StarGAN v2 论文地址&#xff1a;https://arxiv.org/pdf/1711.09020.pdf 我们有猫的图片集、狗的图片集和兔子的图片集。 目标是让猫的图片看起来像狗的图片&#xff0c;狗的图片看起来像兔子的图片&#xff0c;兔子的图片看起…

CUDA简介——CUDA内存模式

1. 引言 前序博客&#xff1a; CUDA简介——基本概念CUDA简介——编程模式CUDA简介——For循环并行化CUDA简介——Grid和Block内Thread索引 CUDA内存模式&#xff0c;采用分层设计&#xff0c;是CUDA程序与正常C程序的最大不同之处&#xff1a; Thread-Memory Correspondenc…

Linux信息收集

Linux信息收集 本机基本信息 #管理员 $普通用户 之前表示登录的用户名称&#xff0c;之后表示主机名&#xff0c;再之后表示当前所在目录 / 表示根目录 ~表示当前用户家目录1、内核&#xff0c;操作系统和设备信息 uname -a 打印所有可用的系统信息 uname -r 内核版本 u…

每日一题 2477. 到达首都的最少油耗(中等,树)

去参加CCF软件大会&#xff0c;好多天没做每日一题了 我的思路&#xff1a; 看到题目是一个由叶子节点向根节点汇聚的过程&#xff0c;就想到拓扑排序每次移动都只将叶子节点向前移动一格&#xff0c;并删除它&#xff0c;此时移动的目标节点数量加一&#xff0c;并根据该叶子…

vue创建项目,使用可视化界面安装插件

安装项目&#xff1a; vue create vue-app 选择默认配置就行&#xff0c;也可以按需选择自定义配置 vue ui通过可视化管理项目 通过可视化安装全家桶插件

文件重命名:删除文件名中的空格,提高文件可读性和可管理性的方法

在计算机科学中&#xff0c;有效的文件管理对于提高工作效率和保持数据的一致性至关重要。工作中经常会遇到文件名中包含空格的情况&#xff0c;这不仅会使文件在某些情况下难以读取&#xff0c;而且可能导致管理上的困扰。在文件名中添加空格可能会使文件名变得模糊和不明确&a…

批量创建/更新外协工序采购信息记录

批量创建/更新没有物料号的外协工序采购信息记录。 执行事务代码ZME1X_OP,下载模板。(此程序可同时用于外协工序的创建和修改)创建外协工序的时候如果是新建则不需要输入采购信息记录号,如果是要更新外协工序价格,则必须输入采购信息记录号。价格单位默认为‘1’,货币代码…

Flannel源码解析

Flannel源码解析 项目地址: https://github.com/flannel-io/flannel 更多文章访问 https://www.cyisme.top flannel中有三种工作模式: udp。 性能最低&#xff0c;利用tun/tap设备&#xff0c;通过udp封装ip包。中间需要经过多次内核态和用户态的切换。vxlan。 性能中等&…

JavaWeb(六)

一、Maven的常用命令 maven的常用命令有:compile(编译)、clean(清理)、test(测试)、package(打包)、install(安装)。 1.1、compile(编译) compile(编译)的作用有如下两点: 1、从阿里云下载编译需要的jar包&#xff0c;在本地仓库也能看到下载好的插件(远程仓库配置的是阿里…

【希尔排序和直接插入排序】

文章目录 一. 直接插入排序代码实现:过程思想&#xff1a;性能分析: 希尔排序基本思想:代码实现&#xff1a;特性总结&#xff1a;希尔排序由于gap的取值有很多方法和组&#xff0c;导致没有一定规律去计算&#xff0c;因此目前为止众多大佬通过大量实验证明例如&#xff0c;Kn…

[每周一更]-(第75期):Go相关粗浅的防破解方案

Go作为编译语言&#xff0c;天然存在跨平台的属性&#xff0c;我们在编译完成后&#xff0c;可以再不暴露源代码的情况下&#xff0c;运行在对应的平台中&#xff0c;但是 还是架不住有逆向工程师的反编译、反汇编的情形&#xff1b;&#xff08;当然我们写的都不希望被别人偷了…

如何在应用程序中实现在线更新功能

大家好&#xff0c;我是咕噜-凯撒。随着技术的不断发展和应用程序的普及&#xff0c;保持应用的最新版本成为开发者们必须面对的挑战之一。在线更新功能的引入可以帮助开发者简化用户体验&#xff0c;用户始终使用的都是最新版本的应用。下面简单的介绍一下如何在应用程序中实现…

【JavaEE进阶】 Spring核⼼与设计思想

文章目录 &#x1f332;Spring 是什么&#xff1f;&#x1f384;什么是IoC呢&#xff1f;&#x1f388;传统程序开发&#x1f388;传统程序开发的缺陷&#x1f388;如何解决传统程序的缺陷&#xff1f;&#x1f388;控制反转式程序开发&#x1f388;对⽐总结规律 &#x1f340;…

想考研到电子类,未来从事芯片设计,目前该怎么准备?

最近看不少天坑学子想考研微电子专业&#xff0c;但却不知道该怎么准备&#xff1f;接下来就带大家一起来具体了解一下~ 首先是目标院校的选择&#xff1f; 目前所设的微电子专业学校里&#xff0c;比较厉害的有北京大学、清华大学、中国科学院大学、复旦大学、上海交通大学、…

关系型数据库的数据隔离级别Read Committed与Repeatable Read

一、背景 数据库隔离级别会影响到我们的查询&#xff0c;本文试图以生产中的示例&#xff0c;给你一个直观的认识。 所谓&#xff0c;理论要结合实践&#xff0c;才能让我们理解得更加透彻。 另外&#xff0c;隔离级别的知识面很大&#xff0c;本文也不可能俱全&#xff0c;…

大数据SpringBoot项目|基于SpringBoot+MyBatis框架健身房管理系统的设计与实现

大数据SpringBoot项目|基于SpringBootMyBatis框架健身房管理系统的设计与实现 摘 要:本文基于Spring Boot和MyBatis框架&#xff0c;设计并实现了一款综合功能强大的健身房管理系统。该系统涵盖了会员卡查询、会员管理、员工管理、器材管理以及课程管理等核心功能&#xff0c;…

理解js中原型链的封装继承多态

前言 面向对象有三大特性:封装继承多态。 不过,js和java的封装继承多态是不一样的,我和从事java开发的朋友有过一次对话(抬杠 !--)。 我说:javascript也是面向对象语言, 他说:不对吧,js不是面向对象吧。 我说:是的,官方说的就是面向对象语言。 他说:那你知道三大特性吗?…