生信技能树--转录组--个人笔记

news2024/12/26 22:25:19

这周主要内容是学习转录组的比对,选择的软件为hisat2,该笔记仅供个人参考谨慎搬运代码

# hisat2 可以快速准确地将测序得到的 RNA 片段(reads)比对到参考基因组,从而确定这些RNA 片段在基因组上的精确位置,进一步可以用于基因表达量定量,剪接位点的检测等多种 RNA-Seq分析任务

#安装hisat2
conda install -c bioconda hisat2
#检查是否安装成功
hisat2 --help

① 建立索引

hisat2 需要一个 index 索引才能进行比对,hisat2 提供了一些 index,但很少,只有人类、小鼠等基因组的,我们研究梨的,所以就需要自己建立索引,使用的是DG参考基因组序列,前面已经下载好了,使用下列命令建立索引。

# 把下方的文件比对到索引上
-rw-rw-r-- 1 yinwen yinwen 2133867146 Jan 20 15:58 DG5_1_R1_val_1.fq.gz

#如何构建索引?查了不少资料解决了

# 技能树视频里面构建索引部分直接跳过了,走了一个小时弯路QAQ、
# 先把底下两个文件上传到我们的linux服务器,然后rename一下,尾缀是什么并不重要

# 重命名后运行如下代码,自己构建索引
hisat2-build dananguo_genome.fa genome

# 下面是走到一些弯路,从弯路里面提取点有用的

# 将fastq文件转化为fasta文件
wget http://hannonlab.cshl.edu/fastx_toolkit/fastx_toolkit_0.0.13_binaries_Linux_2.6_amd64.tar.bz2
tar xjvf fastx_toolkit_0.0.13_binaries_Linux_2.6_amd64.tar.bz2
fastx_toolkit --help
fastq_to_fasta -Q33 -i 输入.fq -o 输出.fa

# 索引构建完成后,出现 8 个以 ht2为拓展名的文件👇

(py2env) [yinwen@node hisat2]$ ls -l
total 765852
-rw-rw-r-- 1 yinwen yinwen 174481544 Jan 27 16:29 genome.1.ht2
-rw-rw-r-- 1 yinwen yinwen 127714808 Jan 27 16:29 genome.2.ht2
-rw-rw-r-- 1 yinwen yinwen       287 Jan 27 16:18 genome.3.ht2
-rw-rw-r-- 1 yinwen yinwen 127714802 Jan 27 16:18 genome.4.ht2
-rw-rw-r-- 1 yinwen yinwen 224243805 Jan 27 16:31 genome.5.ht2
-rw-rw-r-- 1 yinwen yinwen 130051792 Jan 27 16:31 genome.6.ht2
-rw-rw-r-- 1 yinwen yinwen        12 Jan 27 16:18 genome.7.ht2
-rw-rw-r-- 1 yinwen yinwen         8 Jan 27 16:18 genome.8.ht2

② 进行比对

# 注意-x 后跟索引文件,不加拓展名,保证 ht2 文件和 fa 文件的文件名一致即可
hisat2 -x genome -p 5 -1 /home/yinwen/clean/DG5_1_R1_val_1.fq -2 /home/yinwen/clean/DG5_1_R2_val_2.fq -S genome.sam
#运行后得到.sam文件

成功了!分析一下(成就感max)

① 总共有22937356个读取序列;

② 所有读取序列中 100.00%都成对存在;

③ 成对端序列中 24.64%的序列没有成功比对到基因组上;

④ 63.30%的序列只比对到了基因组上的一个位置;

⑤ 12.06%的序列比对到了基因组上的多个位置;

⑥ 对于没有成功比对的成对端序列,有 64.74%的序列不一致地(非正确配对的)比对到了基因组上一个位置;

⑦ 有的序列无法一致地或不一致地比对,这些序列占所有没有成功比对的成对端序列的 1992944对,它们一共包含3985888 个“pairs”序列;

⑧ 在这些“pairs”序列中:

  • 40.37%的序列没有比对到任何地方

  • 55.11%的序列比对到了基因组上的一个位置

  • 4.52%的序列比对到了基因组上的多个位置

整体上的比对成功率为 96.49%(满足比对率基本都85%甚至90%以上)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1415377.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MYSQL表的约束详解!

文章目录 前言一、空属性二、默认值三、列描述四、zerofill五、主键六、自增长七、唯一键八、外键 前言 真正约束字段的是数据类型,但是数据类型约束很单一,需要有一些额外的约束,更好的保证数据的合法性,从业务逻辑角度保证数据…

excel统计分析——卡方检验(基本原理)

参考资料:生物统计学 卡方检验(chi-square test)又称检验,是英国数理统计学家Karl Pearson推导出来的,该方法是处理分类变量或离散型数据的一类重要方法。分类变量或离散型数据时生物学和医学领域常见的数据类型。 1、…

ETCD高可用架构涉及常用功能整理

ETCD高可用架构涉及常用功能整理 1. etcd的高可用系统架构和相关组件1.1 Quorum机制1.2 Raft协议 2. etcd的核心参数2.1 常规配置2.2 特殊优化配置2.2.1 强行拉起新集群 --force-new-cluster2.2.2 兼容磁盘io性能差2.2.3 etcd存储quota 3. etcd常用命令3.1 常用基础命令3.1.1 列…

人脸识别 FaceNet人脸识别(一种人脸识别与聚类的统一嵌入表示)

人脸识别 FaceNet人脸识别(一种人脸识别与聚类的统一嵌入表示) FaceNet的简介Facenet的实现思路训练部分 FaceNet的简介 Facenet的实现思路 import torch.nn as nndef conv_bn(inp, oup, stride 1):return nn.Sequential(nn.Conv2d(inp, oup, 3, stride…

C++20 高级编程

文章目录 前言前奏lambda浅谈std::ref的实现浅谈is_same浅谈std::function的实现std::visit 与 std::variant 与运行时多态SFINAE类型内省标签分发 (tag dispatching)软件设计六大原则 SOLID To be continue.... 前言 C20 是C在C11 之后最大的一次语言变革, 其中引入了大量具有…

Python网络爬虫实战——实验7:Python使用apscheduler定时采集任务实战

【实验内容】 本实验主要介绍在Django框架中使用APScheduler第三方库实现对数据的定时采集。 【实验目的】 1、掌握APScheduler库的使用; 2、学习在Django中实现多个定时任务调度; 【实验步骤】 步骤1 Apscheduler简介与特点 步骤2 Apscheduler基本…

【开源】基于JAVA语言的公司货物订单管理系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 客户管理模块2.2 商品维护模块2.3 供应商管理模块2.4 订单管理模块 三、系统展示四、核心代码4.1 查询供应商信息4.2 新增商品信息4.3 查询客户信息4.4 新增订单信息4.5 添加跟进子订单 五、免责说明 一、摘要 1.1 项目…

字符串相关的函数和内存块相关函数

𝙉𝙞𝙘𝙚!!👏🏻‧✧̣̥̇‧✦👏🏻‧✧̣̥̇‧✦ 👏🏻‧✧̣̥̇:Solitary-walk ⸝⋆ ━━━┓ - 个性标签 - :来于“云”的“羽球人”。…

概念抽取:构建认知基础的关键步骤

目录 前言1 概念抽取任务定义1.1 概念知识图谱的关系定义1.2 实体与概念的紧密关联1.3 多样的概念关系 2 概念在认知中的重要角色2.1 语言理解的基础2.2 上下位关系的深化理解 3 概念抽取方法3.1 基于模板的抽取3.2 基于百科的抽取3.3 基于机器学习的方法 4 应用4.1 自然语言理…

ENVI下基于知识决策树提取地表覆盖信息

基于知识的决策树分类是基于遥感影像数据及其他空间数据,通过专家经验总结、简单的数学统计和归纳方法等,获得分类规则并进行遥感分类。分类规则易于理解,分类过程也符合人的认知过程,最大的特点是利用的多源数据。 决策树分类主要的工作是获取规则,本文介绍使用CART算法…

C++力扣题目62--不同路径 63--不同路径II 343--整数拆分 96--不同的二叉搜索树

62.不同路径 力扣题目链接(opens new window) 一个机器人位于一个 m x n 网格的左上角 (起始点在下图中标记为 “Start” )。 机器人每次只能向下或者向右移动一步。机器人试图达到网格的右下角(在下图中标记为 “Finish” )。…

leetcode hot100岛屿数量

本题中要求统计岛屿数量(数字1的上下左右均为1,则是连续的1,称为一块岛屿)。那么这种类型题都是需要依靠深度优先搜索(DFS)或者广度优先搜索(BFS)来做的。这两种搜索,实际…

DS:带头双向循环链表的实现(超详细!!)

创作不易,友友们给个三连吧!!! 博主的上篇文章介绍了链表,以及单链表的实现。 单链表的实现(超详细!!) 其实单链表的全称叫做不带头单向不循环链表,本文…

uni-app 接口封装,token过期,自动获取最新的token

一、文件路径截图 2、新建一个文件app.js let hosthttp://172.16.192.40:8083/jeecg-boot/ //本地接口 let myApi {login: ${host}wx/wxUser/login, //登录 } module.exports myApi 3、新建一个文件request.js import myApi from /utils/app.js; export const r…

Linux ---- Shell编程之函数与数组

目录 一、函数 1、函数的基本格式 2、查看函数列表 3、删除函数 4、函数的传参数 5、函数返回值 实验: 1.判断输入的ip地址正确与否 2. 判断是否为管理员用户登录 6、函数变量的作用范围 7、函数递归(重要、难点) 实验&#xff1…

P1024 [NOIP2001 提高组] 一元三次方程求解————C++

目录 [NOIP2001 提高组] 一元三次方程求解题目描述输入格式输出格式样例 #1样例输入 #1样例输出 #1 提示 解题思路Code运行结果 [NOIP2001 提高组] 一元三次方程求解 题目描述 有形如: a x 3 b x 2 c x d 0 a x^3 b x^2 c x d 0 ax3bx2cxd0 这样的一个一元…

【2024-01-27可用】NVM安装太慢,镜像地址失效

安装nvm时, Could not retrieve https://registry.npm.taobao.org/latest/SHASUMS256.txt. 解决如下 ### 具体配置 安装路径 root: D:\Program Files\nvm path: D:\Program Files\nodejs镜像地址 node_mirror: https://npmmirror.com/mirrors/node/ npm_mirror:…

STL容器大总结区分(上)

如图所示 ,按大小说明其重要性 那就先说两个最重要的: vector---数组 list-----链表 vector 基本概念 功能: vector 数据结构和 数组非常 相似 ,也称为 单端数组 vector 与普通数组区别: 不同之处在于数组是静态空间&…

vue3添加pinia

概述:Pinia 是一个专为 Vue.js 开发的状态管理库。Vue.js 是一个流行的 JavaScript 框架,用于构建用户界面。Pinia 旨在提供一个简单、灵活且性能高效的状态管理方案,使开发者能够更容易地管理应用的状态。 以下是 Pinia 的一些特点和概念&a…

在 React 组件中使用 JSON 数据文件,怎么去读取请求数据呢?

要在 React 组件中使用 JSON 数据&#xff0c;有多种方法。 常用的有以下几种方法&#xff1a; 1、直接将 JSON 数据作为一个变量或常量引入组件中。 import jsonData from ./data.json;function MyComponent() {return (<div><h1>{jsonData.title}</h1>&…