转录组无参比对教程

news2025/2/24 16:01:44

写在前面

2023年将结束,小杜的生信笔记分享个人学习笔记也有2年的时间。在这2年的时间中,分享算是成为工作、学习和生活中的一部分。自己为了运行和维护社群也算花费大量的时间和精力,自己认为还算满意吧。对于个人来说,自己一直的目的都是分享自己的学习笔记,以及多多少少可以帮助解决一下需要帮助的同学。我们这里所说的是需要帮助的人,而不是大部分人。自己的能力和精力自己清楚,自己研究的方向也是比较局限,我们并不知专职做这块的博主,等等…。因此,我这边一直在鼓励大家投稿,但事与愿违的事情很多…。

害!最后,还是那句话:一边学习,一边总结,一边分享!

转录组无参比对教程

当作物是没有参考基因组时,需要无参进行比对。Trinity是现在使用最广泛的转录组De novo组装软件。

Trinity 是无参考转录组从头组装转录组的常用软件,且trinity的使用文档非常详细,整合的内容非常完整,包括从组装,比对,定量到差异分析等。因此有大神也推荐Trinity可作为初学者了解熟悉转录组分析流程的入门和进阶学习文档。

原文链接:转录组无参比对教程

1.1 软件安装

**官方文档:**https://github.com/trinityrnaseq/trinityrnaseq/wiki

Trinity通过有秩序的对大规模的RNA-seq Reads数据进行读取,高效的完成转录组的组装,包含三个独立的软件模块:

Inchworm 
	将RNA-seq原始数据组装成unique序列
Chrysalis 
	将Inchworm 生成contigs聚类,每个类构建Bruijn图
Butterfly 
	处理Bruijn图,依据图中reads
  • conda安装
## 搜索conda的版本
$ conda search trinity 
#---
trinity                        2.9.1      h8b12597_1  anaconda/cloud/bioconda
trinity                       2.11.0      h5ef6573_0  anaconda/cloud/bioconda
trinity                       2.11.0      h5ef6573_1  anaconda/cloud/bioconda
trinity                       2.12.0      h5ef6573_0  anaconda/cloud/bioconda
trinity                       2.12.0      ha140323_1  anaconda/cloud/bioconda
trinity                       2.12.0      ha140323_2  anaconda/cloud/bioconda
trinity                       2.12.0      ha140323_3  anaconda/cloud/bioconda
trinity                       2.13.2      h00214ad_1  anaconda/cloud/bioconda
trinity                       2.13.2      h15cb65e_2  anaconda/cloud/bioconda
trinity                       2.13.2      ha140323_0  anaconda/cloud/bioconda
trinity                       2.13.2      hea94271_3  anaconda/cloud/bioconda
#-----------
conda install -y trinity
  • 源码安装

The Trinity software package can be downloaded here on GitHub. Legacy versions (pre-2015) are still available at our Sourceforge Trinity software archive.

Runtime and transcript reconstruction performance stats are available for current and previous releases.

wget https://github.com/trinityrnaseq/trinityrnaseq/archive/refs/tags/Trinity-v2.15.0.zip
unzip Trinity-v2.15.0.zip
## 
echo 'PATH=$PATH:~/software/trinityrnaseq-Trinity-v2.15.0'

1.2 Trinity使用

Trinity组装原理

Trinity组装依据的算法是de Bruijn Graph,即从打断的文库中提取一定长度的K-mer,然后根据k-1错位相似的方法拼接组装的可能路径,最终确定完整的参考组装转录组。

Trinity根据该原理,将主要操作步骤分为3个模块,分别形象的命名为虫,蛹,蝶:

  • 序列延伸 (inchworm) ——虫
    • 将 reads切为 k-mers (k bp长度的短片段)
    • 利用Overlap关系对k-mers进行延伸 (贪婪算法)
    • 输出所有的序列 (“contigs”)
  • 构建 de Bruijn graph (chrysalis)——蛹
    • 聚类所有相似区域大于k-1bp的 contigs
    • 构图 (区分不同的 “components”)
    • 将reads比对回 components,进行验证
  • 解图,列举转录本 (butterfly)——蝶
    • 拆分graph 为线性序列
    • 使用reads以及 pairs关系消除错误序列

      Trinity组装
Trinity --seqType fq --max_memory 100G --left reads_1.fq.gz --right reads_2.fq.gz --SS_lib_type RF --CPU 30 --output ../outputPATH --min_contig_length 200 --jaccard_clip --trimmomatic --normalize_reads --bflyCalculateCPU

必须参数:

--seqType <string>      :type of reads: ('fa' or 'fq')
	reads的类型
--max_memory <string>      :suggested max memory to use by Trinity where limiting can be enabled. (jellyfish, sorting, etc)
                            provided in Gb of RAM, ie.  '--max_memory 10G'
	最大内存的大小,GB
--left  <string>    :left reads, one or more file names (separated by commas, no spaces)
	双段转录组数据编号为1的数据,如果对多组数据进行分析,则使用都好`,`将文件进行分开
--right <string>    :right reads, one or more file names (separated by commas, no spaces)
	双段转录组数据编号为2的数据,如果对多组数据进行分析,则使用都好`,`将文件进行分开

## 或是使用下面的表达方式
or, if unpaired reads:
      --single <string>   :single reads, one or more file names, comma-delimited (note, if single file contains pairs, can use flag: --run_as_paired )

  Or,
      --samples_file <string>         tab-delimited text file indicating biological replicate relationships.
                                   ex.
                                        cond_A    cond_A_rep1    A_rep1_left.fq    A_rep1_right.fq
                                        cond_A    cond_A_rep2    A_rep2_left.fq    A_rep2_right.fq
                                        cond_B    cond_B_rep1    B_rep1_left.fq    B_rep1_right.fq                                        cond_B    cond_B_rep2    B_rep2_left.fq    B_rep2_right.fq

                      # if single-end instead of paired-end, then leave the 4th column above empty.

可选参数:

--SS_lib_type
	reads的方向,成对的reads:RF or FR; 不成对的reads:F or R。在数据具有特异性的时候,设置参数,则正义与反义转录子能得到区分。默认情况下,不设置此参数,reads被当做非特异性处理。
	RF:reads.1.fq文件的序列和基因序列反向互补,reads.2.fq文件的序列和基因序列一致,次情况下特异性测序的类型。
	FR:与RF相反,reads。1.fq文件的序列和基因序列一致,reads。2.fq文件的序列和基因序列互补。
	
.......

原文链接:转录组无参比对教程


往期文章:

1. 复现SCI文章系列专栏

2. 《生信知识库订阅须知》,同步更新,易于搜索与管理。

3. 最全WGCNA教程(替换数据即可出全部结果与图形)

  • WGCNA分析 | 全流程分析代码 | 代码一

  • WGCNA分析 | 全流程分析代码 | 代码二

  • WGCNA分析 | 全流程代码分享 | 代码三

  • WGCNA分析 | 全流程分析代码 | 代码四

  • WGCNA分析 | 全流程分析代码 | 代码五(最新版本)


4. 精美图形绘制教程

  • 精美图形绘制教程

5. 转录组分析教程

转录组上游分析教程[零基础]

一个转录组上游分析流程 | Hisat2-Stringtie

小杜的生信筆記 ,主要发表或收录生物信息学的教程,以及基于R的分析和可视化(包括数据分析,图形绘制等);分享感兴趣的文献和学习资料!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1334467.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Docker介绍、常用命令与操作

Docker介绍、常用命令与操作 学习前言为什么要学习DockerDocker里的必要基础概念常用命令与操作1、基础操作a、查看docker相关信息b、启动或者关闭docker 2、容器操作a、启动一个镜像i、后台运行ii、前台运行 b、容器运行情况查看c、日志查看d、容器删除 3、镜像操作a、镜像拉取…

使用 Docker 部署企业培训系统 PlayEdu

1&#xff09;PlayEdu 介绍 官网&#xff1a;https://www.playedu.xyz/ GitHub&#xff1a;https://github.com/PlayEdu/PlayEdu PlayEdu 是一款适用于搭建内部培训平台的开源系统&#xff0c;旨在为企业/机构打造自己品牌的内部培训平台。PlayEdu 基于 Java MySQL 开发&…

C语言--直接插入排序【排序算法|图文详解】

一.直接插入排序介绍&#x1f357; 直接插入排序又叫简单插入排序&#xff0c;是一种简单直观的排序算法&#xff0c;它通过构建有序序列&#xff0c;对于未排序的数据&#xff0c;在已排序序列中从后向前扫描&#xff0c;找到相应位置并插入。 算法描述&#xff1a; 假设要排序…

Golang实现JAVA虚拟机-运行时数据区

一、运行时数据区概述 JVM学习&#xff1a; JVM-运行时数据区 运行时数据区可以分为两类&#xff1a;一类是多线程共享的&#xff0c;另一类则是线程私有的。 多线程共享的运行时数据区需要在Java虚拟机启动时创建好&#xff0c;在Java虚拟机退出时销毁。对象实例存储在堆区类信…

2023.12.22 关于 Redis 数据类型 String 常用命令

目录 引言 String 类型基本概念 SET & GET SET 命令 GET 命令 MSET & MGET MSET 命令 MGET 命令 SETNX & SETEX & PSETEX SETNX 命令 SETEX 命令 PSETEX 命令 计数命令 INCR 命令 INCRBY 命令 DECR 命令 DECRBY 命令 INCRBYFLOAT 命令 总结…

【GoLang】Go语言几种标准库介绍(一)

你见过哪些令你膛目结舌的代码技巧&#xff1f; 文章目录 你见过哪些令你膛目结舌的代码技巧&#xff1f;前言几种库bufio&#xff08;带缓冲的 I/O 操作&#xff09;特性示例 bytes (实现字节操作)特性示例 总结专栏集锦写在最后 前言 随着计算机科学的迅猛发展&#xff0c;编…

复试情报准备

英语自我介绍&#xff0c;介绍完老师会根据你的回答用英语问你问题&#xff0c;比如介绍一下你的本科学校&#xff0c;或者家乡什么的。计网过一遍&#xff0c;会问两道题。接下来是重点&#xff0c;我当时是根据我成绩单&#xff0c;问了我本科学过的科目&#xff0c;比如pyth…

【Docker容器精解篇 】深入探索Docker技术的概念与容器思想

&#x1f3ac; 鸽芷咕&#xff1a;个人主页 &#x1f525; 个人专栏: 《docker容器精解篇》《粉丝福利》 ⛺️生活的理想&#xff0c;就是为了理想的生活! 文章目录 前言一、Docker 的介绍1.1 Docker 的由来1.1.1 环境不一致1.1.2 隔离性1.1.3 弹性伸缩1.1.4 学习成本 1.2 Doc…

推荐五个免费的网络安全工具

导读&#xff1a; 在一个完美的世界里&#xff0c;信息安全从业人员有无限的安全预算去做排除故障和修复安全漏洞的工作。但是&#xff0c;正如你将要学到的那样&#xff0c;你不需要无限的预算取得到高质量的产品。这里有SearchSecurity.com网站专家Michael Cobb推荐的五个免费…

网站检测有哪些好用的监测工具

目前网站监测工具良莠不齐&#xff0c;网站监控工具有很多&#xff0c;选择合适功能强大的网站监控工具&#xff0c;对我们的业务安全有非常大的帮助。目前市场上好用的一些网站监测工具如德迅云眼、观测云等&#xff0c;它们都提供了网站性能监测、安全防护、故障预警等功能&a…

天呐,我找到财务报表开发的通关密码了!

要问我们IT最不愿做的报表开发有哪些&#xff0c;首当其冲的一定是财务分析。我对开发财务报表这事就一个态度&#xff1a;只要不谈开发财务报表&#xff0c;我们就还是好朋友&#xff0c;谈了会怎样&#xff1f;不好意思&#xff0c;我会破大防。 1、财务的分析逻辑和需求&am…

Azure Machine Learning - 如何使用 GPT-4 Turbo with Vision

介绍如何在Azure中使用GPT-4 Turbo with Vision 关注TechLead&#xff0c;分享AI全维度知识。作者拥有10年互联网服务架构、AI产品研发经验、团队管理经验&#xff0c;同济本复旦硕&#xff0c;复旦机器人智能实验室成员&#xff0c;阿里云认证的资深架构师&#xff0c;项目管理…

加速计算,为何会成为 AI 时代的计算力“新宠”

随着科技的发展&#xff0c;处理大量数据和进行复杂计算的需求越来越高&#xff0c;人工智能、大数据和物联网等领域更是如此&#xff0c;传统的计算方式已经无法满足这些需求。因此&#xff0c;加速计算作为一种现代计算方式&#xff0c;成了必要的手段。加速计算具有前所未有…

项目应用多级缓存示例

前不久做的一个项目&#xff0c;需要在前端实时展示硬件设备的数据。设备很多&#xff0c;并且每个设备的数据也很多&#xff0c;总之就是数据很多。同时&#xff0c;设备的刷新频率很快&#xff0c;需要每2秒读取一遍数据。 问题来了&#xff0c;我们如何读取数据&#xff0c…

AutoBookmark Adobe Acrobat快速自动批量添加书签/目录

前言 解决问题&#xff1a;Adobe Acrobat快速自动批量添加书签/目录, 彻底告别手动添加书签的烦恼 AutoBookmark 前言1 功能简介2 实现步骤2.1 下载插件2.2 将插件复制到Acrobat文件夹下2.3 自动生成书签 1 功能简介 我们在查看PDF版本的论文或者其他文件的时候, 虽然相比较于…

傻瓜式教学Docker 使用docker compose部署 php nginx mysql

首先你可以准备这个三个服务,也可以在docker compose 文件中 直接拉去指定镜像,这里演示的是镜像服务已经在本地安装好了,提供如下: PHP # 设置基础镜像 FROM php:8.2-fpm# install dependencies RUN apt-get update && apt-get install -y \vim \libzip-dev \libpng…

goland错误:该版本的1%与您运行的windows版本不兼容

创建第一个go语言的hello world后&#xff0c;报错。 需要将 package gotest1 改为 package main main是主程序的入口

【leetcode100-020】【矩阵】旋转图像

【题干】 给定一个 n n 的二维矩阵 matrix 表示一个图像。请你将图像顺时针旋转 90 度。 你必须在 原地 旋转图像&#xff0c;这意味着你需要直接修改输入的二维矩阵。请不要 使用另一个矩阵来旋转图像。 【思路】 怎么还整上小学奥数题了&#xff08;不是对角翻转水平/垂…

第11章 GUI Page436 使用缓冲DC, wxBufferedPaintDC

所谓“缓冲DC”&#xff0c;是指将所有图元都先划到一个人眼看不到的“设备上下文”之上&#xff0c;最后再一次性复制到真正的屏幕DC之上&#xff0c;这样我们就看不到中间画的过程了&#xff0c;也就不会感到闪烁了。 注意&#xff0c;这时不能解除ScrolledWindow1的背景擦除…

代码签名的功能实现原理

代码签名是一种用来确保软件或程序来源和完整性的技术&#xff0c;它通过对程序文件进行数字签名和验证来保证软件未被篡改过。下面我将为您介绍代码签名的功能实现原理。 1. 数字证书颁发机构&#xff08;CA&#xff09;&#xff1a; 代码签名的实现依赖于权威的数字证书颁发…