Trinity软件对转录组进行无参比对教程

news2024/11/25 15:20:26

写在前面

2023年将结束,小杜的生信笔记分享个人学习笔记也有2年的时间。在这2年的时间中,分享算是成为工作、学习和生活中的一部分。自己为了运行和维护社群也算花费大量的时间和精力,自己认为还算满意吧。对于个人来说,自己一直的目的都是分享自己的学习笔记,以及多多少少可以帮助解决一下需要帮助的同学。我们这里所说的是需要帮助的人,而不是大部分人。自己的能力和精力自己清楚,自己研究的方向也是比较局限,我们并不知专职做这块的博主,等等…。因此,我这边一直在鼓励大家投稿,但事与愿违的事情很多…。

害!最后,还是那句话:一边学习,一边总结,一边分享!

转录组无参比对教程

当作物是没有参考基因组时,需要无参进行比对。Trinity是现在使用最广泛的转录组De novo组装软件。

Trinity 是无参考转录组从头组装转录组的常用软件,且trinity的使用文档非常详细,整合的内容非常完整,包括从组装,比对,定量到差异分析等。因此有大神也推荐Trinity可作为初学者了解熟悉转录组分析流程的入门和进阶学习文档。

原文链接:转录组无参比对教程

1.1 软件安装

**官方文档:**https://github.com/trinityrnaseq/trinityrnaseq/wiki

Trinity通过有秩序的对大规模的RNA-seq Reads数据进行读取,高效的完成转录组的组装,包含三个独立的软件模块:

Inchworm 
	将RNA-seq原始数据组装成unique序列
Chrysalis 
	将Inchworm 生成contigs聚类,每个类构建Bruijn图
Butterfly 
	处理Bruijn图,依据图中reads
  • conda安装
## 搜索conda的版本
$ conda search trinity 
#---
trinity                        2.9.1      h8b12597_1  anaconda/cloud/bioconda
trinity                       2.11.0      h5ef6573_0  anaconda/cloud/bioconda
trinity                       2.11.0      h5ef6573_1  anaconda/cloud/bioconda
trinity                       2.12.0      h5ef6573_0  anaconda/cloud/bioconda
trinity                       2.12.0      ha140323_1  anaconda/cloud/bioconda
trinity                       2.12.0      ha140323_2  anaconda/cloud/bioconda
trinity                       2.12.0      ha140323_3  anaconda/cloud/bioconda
trinity                       2.13.2      h00214ad_1  anaconda/cloud/bioconda
trinity                       2.13.2      h15cb65e_2  anaconda/cloud/bioconda
trinity                       2.13.2      ha140323_0  anaconda/cloud/bioconda
trinity                       2.13.2      hea94271_3  anaconda/cloud/bioconda
#-----------
conda install -y trinity
  • 源码安装

The Trinity software package can be downloaded here on GitHub. Legacy versions (pre-2015) are still available at our Sourceforge Trinity software archive.

Runtime and transcript reconstruction performance stats are available for current and previous releases.

wget https://github.com/trinityrnaseq/trinityrnaseq/archive/refs/tags/Trinity-v2.15.0.zip
unzip Trinity-v2.15.0.zip
## 
echo 'PATH=$PATH:~/software/trinityrnaseq-Trinity-v2.15.0'

1.2 Trinity使用

Trinity组装原理

Trinity组装依据的算法是de Bruijn Graph,即从打断的文库中提取一定长度的K-mer,然后根据k-1错位相似的方法拼接组装的可能路径,最终确定完整的参考组装转录组。

Trinity根据该原理,将主要操作步骤分为3个模块,分别形象的命名为虫,蛹,蝶:

  • 序列延伸 (inchworm) ——虫
    • 将 reads切为 k-mers (k bp长度的短片段)
    • 利用Overlap关系对k-mers进行延伸 (贪婪算法)
    • 输出所有的序列 (“contigs”)
  • 构建 de Bruijn graph (chrysalis)——蛹
    • 聚类所有相似区域大于k-1bp的 contigs
    • 构图 (区分不同的 “components”)
    • 将reads比对回 components,进行验证
  • 解图,列举转录本 (butterfly)——蝶
    • 拆分graph 为线性序列
    • 使用reads以及 pairs关系消除错误序列

      Trinity组装
Trinity --seqType fq --max_memory 100G --left reads_1.fq.gz --right reads_2.fq.gz --SS_lib_type RF --CPU 30 --output ../outputPATH --min_contig_length 200 --jaccard_clip --trimmomatic --normalize_reads --bflyCalculateCPU

必须参数:

--seqType <string>      :type of reads: ('fa' or 'fq')
	reads的类型
--max_memory <string>      :suggested max memory to use by Trinity where limiting can be enabled. (jellyfish, sorting, etc)
                            provided in Gb of RAM, ie.  '--max_memory 10G'
	最大内存的大小,GB
--left  <string>    :left reads, one or more file names (separated by commas, no spaces)
	双段转录组数据编号为1的数据,如果对多组数据进行分析,则使用都好`,`将文件进行分开
--right <string>    :right reads, one or more file names (separated by commas, no spaces)
	双段转录组数据编号为2的数据,如果对多组数据进行分析,则使用都好`,`将文件进行分开

## 或是使用下面的表达方式
or, if unpaired reads:
      --single <string>   :single reads, one or more file names, comma-delimited (note, if single file contains pairs, can use flag: --run_as_paired )

  Or,
      --samples_file <string>         tab-delimited text file indicating biological replicate relationships.
                                   ex.
                                        cond_A    cond_A_rep1    A_rep1_left.fq    A_rep1_right.fq
                                        cond_A    cond_A_rep2    A_rep2_left.fq    A_rep2_right.fq
                                        cond_B    cond_B_rep1    B_rep1_left.fq    B_rep1_right.fq                                        cond_B    cond_B_rep2    B_rep2_left.fq    B_rep2_right.fq

                      # if single-end instead of paired-end, then leave the 4th column above empty.

可选参数:

--SS_lib_type
	reads的方向,成对的reads:RF or FR; 不成对的reads:F or R。在数据具有特异性的时候,设置参数,则正义与反义转录子能得到区分。默认情况下,不设置此参数,reads被当做非特异性处理。
	RF:reads.1.fq文件的序列和基因序列反向互补,reads.2.fq文件的序列和基因序列一致,次情况下特异性测序的类型。
	FR:与RF相反,reads。1.fq文件的序列和基因序列一致,reads。2.fq文件的序列和基因序列互补。
	
.......

原文链接:转录组无参比对教程


往期文章:

1. 复现SCI文章系列专栏

2. 《生信知识库订阅须知》,同步更新,易于搜索与管理。

3. 最全WGCNA教程(替换数据即可出全部结果与图形)

  • WGCNA分析 | 全流程分析代码 | 代码一

  • WGCNA分析 | 全流程分析代码 | 代码二

  • WGCNA分析 | 全流程代码分享 | 代码三

  • WGCNA分析 | 全流程分析代码 | 代码四

  • WGCNA分析 | 全流程分析代码 | 代码五(最新版本)


4. 精美图形绘制教程

  • 精美图形绘制教程

5. 转录组分析教程

转录组上游分析教程[零基础]

一个转录组上游分析流程 | Hisat2-Stringtie

小杜的生信筆記 ,主要发表或收录生物信息学的教程,以及基于R的分析和可视化(包括数据分析,图形绘制等);分享感兴趣的文献和学习资料!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1332746.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Tauri:构建高效安全的桌面应用程序 | 开源日报 No.124

tauri-apps/tauri Stars: 64.6k License: Apache-2.0 Tauri 是一个开源项目&#xff0c;它可以通过 Web 前端构建更小、更快和更安全的桌面应用程序。 该项目具有以下优势和特点&#xff1a; Tauri 可以帮助用户构建桌面应用程序&#xff0c;并使用 web 前端技术进行界面设计…

uniapp框架——初始化vue3项目(搭建ai项目)

uniapp框架 uni-app 是一个使用 Vue.js 开发所有前端应用的框架&#xff0c;开发者编写一套代码&#xff0c;可发布到iOS、Android、Web&#xff08;响应式&#xff09;、以及各种小程序&#xff08;微信/支付宝/百度/头条/飞书/QQ/快手/钉钉/淘宝&#xff09;、快应用等多个平…

[deepspeed]deepspeed安装和测试代码

deepspeed官方对linux系统支持非常好&#xff0c;安装流程较为简单&#xff0c;推荐使用linux系统使用deepspeed.deepspeed由于要使用大模型进行训练和推理&#xff0c;建议显存>24GB。windows上官方不直接支持&#xff0c;但是网上有安装whl文件&#xff0c;只能0.8.3这样老…

【IO】IO模型与零拷贝

前言&#xff1a; 正在运行的程序其实就是系统中的一个进程&#xff0c;操作系统会为每一个进程分配内存空间&#xff0c;而内存空间分为两部分&#xff0c;一部分是用户空间&#xff0c;这是用户进程访问的内存区域&#xff1b;另一部分是内核空间&#xff0c;是操作系统内核访…

matlab实践(十一):导弹追踪

1.题目 a9.94,x062.06 2.方程 我们有&#xff1a; ( d x d t ) 2 ( d y d t ) 2 w 2 (\frac{\mathrm d\mathrm x}{\mathrm d\mathrm t})^2(\frac{\mathrm d\mathrm y}{\mathrm d\mathrm t})^2\mathrm w^2 (dtdx​)2(dtdy​)2w2 还有导弹始终指向船 ( d x d t d y d t ) …

R语言——基本操作(二)

目录 一、矩阵与数组 二、列表 三、数据框 四、因子 五、缺失数据 六、字符串 七、日期和时间 参考 一、矩阵与数组 matrix&#xff1a;创建矩阵&#xff0c;nrow 和 ncol 可以省略&#xff0c;但其值必须满足分配条件&#xff0c;否则会报错 只写一个值则自动分配&…

用CSDN训练的InsCode AI创作博文:数据治理体系建设

想不想用AI帮我们写方案&#xff1f; 想尝试用CSDN提供的InsCode AI创作助手协助我们进行技术方案的创作&#xff0c;看看效果如何&#xff0c;能不能辅助我们日常的方案编写与创作&#xff1f;以前用ChatGPT也尝试过&#xff0c;但对于专业性更强的内容&#xff0c;还有表现的…

企业知识库与企业文化:相互影响与共同发展

在当今知识经济的时代&#xff0c;企业知识库和企业文化已经成为企业核心竞争力的重要组成部分。它们之间相互影响&#xff0c;共同发展&#xff0c;为企业的发展提供强大的支撑。本文将探讨企业知识库与企业文化之间的关系&#xff0c;以及如何通过相互促进&#xff0c;推动企…

Windows漏洞利用开发——利用ROP绕过DEP保护

实验6 Windows漏洞利用开发 6.1实验名称 Windows漏洞利用开发 6.2实验目的 学习windows漏洞利用开发&#xff0c;使用kali linux相关工具对windows内目标程序进行漏洞利用 6.3实验步骤及内容 第三阶段&#xff1a;利用ROP绕过DEP保护 了解DEP保护理解构造ROP链从而绕过DEP…

【习题】运行Hello World工程

判断题 1. DevEco Studio是开发HarmonyOS应用的一站式集成开发环境。 正确(True)错误(False) 正确(True) 2. main_pages.json存放页面page路径配置信息。 正确(True)错误(False) 正确(True) 单选题 1. 在stage模型中&#xff0c;下列配置文件属于AppScope文件夹的是&am…

详解现实世界资产(RWAs)

区块链中的现实世界资产&#xff08;RWAs&#xff09;是代表实际和传统金融资产的数字通证&#xff0c;如货币、大宗商品、股票和债券。 实际世界资产&#xff08;RWA&#xff09;的通证化是区块链行业中最大的市场机会之一&#xff0c;潜在市场规模可达数万万亿美元。理论上&…

【Pytorch】学习记录分享7——PyTorch数据增强/经典网络架构训练图像分类模型

【Pytorch】学习记录分享7——PyTorch 1. 数据增强、transform 模块数据预处理部分&#xff1a;网络模块设置&#xff1a;网络模型保存与测试 2. 迁移学习3. 参考pytorch官网例子 1. 数据增强、transform 模块 数据预处理部分&#xff1a; 数据增强&#xff1a;torchvision中…

MySQL高级应用-2

MySQL高级应用-2 1事务应用场景:以上三个场景的共同点是什么&#xff1f;事务的概念&#xff1a;事务特性ACIDMySQL事务控制实例演示示例 1示例 2 拓展&#xff1a;事务的隔离级别作用JAVA处理事务-模拟转账 2 自定义变量用户变量示例&#xff1a;局部变量示例 3 流程控制结构分…

JavaWeb笔记之WEB项目

一. 版本控制 版本控制是指对软件开发过程中各种程序代码、配置文件及说明文档等文件变更的管理&#xff0c;是软件配置管理的核心思想之一。 版本控制最主要的功能就是追踪文件的变更。它将什么时候、什么人更改了文件的什么内容等信息忠实地了记录下来。每一次文件的改变&a…

C# SqlSugar 数据库 T4模板

生成效果 模板代码 <# template debug"false" hostspecific"true" language"C#" #> <# output extension".cs" #> <# assembly name"System.Core" #> <# assembly name"System.Data" #>…

Ubuntu 22.04.3 Server通过修改yaml配置文件方法设置静态IP

目录 1.查看网卡信息 2.修改yaml配置文件 3.应用新的网络配置 4.重新启动网络服务 文章内容 本文介绍Ubuntu 22.04.3 Server系统通过修改yaml配置文件配置静态 ip 的方法。 1.查看网卡信息 使用ifconfig命令查看网卡信息获取网卡名称​ 如果出现Command ifconfig not fo…

41 sysfs 文件系统

前言 在 linux 中常见的文件系统 有很多, 如下 基于磁盘的文件系统, ext2, ext3, ext4, xfs, btrfs, jfs, ntfs 内存文件系统, procfs, sysfs, tmpfs, squashfs, debugfs 闪存文件系统, ubifs, jffs2, yaffs 文件系统这一套体系在 linux 有一层 vfs 抽象, 用户程序不用…

【眼镜】相关知识

眼镜相关 配眼镜可以事先了解的事情&#xff1a; 折射率&#xff1a;先说结论&#xff0c;高度数可以考虑选高折射率&#xff0c;低度数没必要。 折射率&#xff1a;1.50折射率 1.56折射率 1.60折射率 1.67折射率 1.71折射率 1.74折射率. 折射率越高&#xff0c;镜片越薄&a…

C语言--if...else语句【语法讲解】

一.if...else语句的介绍 if…else 语句是编程中常用的一种分支语句&#xff0c;用于根据条件执行不同的操作。 它的基本语法如下&#xff1a; if (条件表达式) {// 当条件表达式为真时执行的代码块 } else {// 当条件表达式为假时执行的代码块 } 当条件表达式为真时&#xff…

PWM/PFM 自动切换升压型转换器系统(一)

通过对芯片整体设计要求的考虑&#xff0c;搭建全负载高效率升压型 DC-DC 转换器的整体系 统框架&#xff0c;对系统的工作过程和模块电路的功能进行简要阐述&#xff0c;对外围电路的选取进行准确计 算&#xff0c;分析系统的损耗来源&#xff0c;实现高效率的设计目标。 芯片…