生信教程:多序列比对

news2024/11/22 19:05:41

摘要

所有系统发育推断方法都需要同源数据集作为输入。因此,当核苷酸序列用于系统发育分析时,第一步通常是推断不同类群序列中的哪些核苷酸彼此同源,以便这些核苷酸之间的差异仅源于序列进化中发生的变化。不同序列的核苷酸之间的同源性推断最常通过属于“多序列比对”类别的方法来完成。

本教程[1]中,我将介绍如何使用最快、最流行的多序列比对工具之一,程序 MAFFT(Katoh 和 Standley 2013)。我将进一步演示如何检测和排除其中核苷酸同源性可能存在问题的比对区域,如何使用公共序列数据库(NCBI 的 GenBank)识别其他同源序列,以及如何使用这些序列来补充现有数据集。

数据集

本教程中使用的数据集是 Matschiner 等人使用的数据的一小部分。估计非洲和新热带丽鱼科鱼类与冈瓦纳大陆印度、马达加斯加、非洲和南美洲分裂相关的分化时间。这里使用的数据集包括两个基因的序列;编码 16S 核糖体 RNA 的线粒体 16S 基因和编码重组激活蛋白 1 的核 RAG1 基因。

依赖

  • MAFFT:MAFFT 网页上提供了 MAFFT 的安装说明和预编译版本。虽然该程序的安装在所有操作系统上都应该很容易,但本教程的所有步骤也可以使用 MAFFT 的服务器版本进行;因此,该软件的安装是可选的。
  • AliView:为了可视化序列比对,推荐使用软件 AliView (Larsson 2014)。 AliView 的安装在 http://www.ormbunkar.se/aliview/ 中进行了描述,并且应该可以在所有操作系统上进行。
  • BMGE:BMGE对于识别和删除序列比对中对齐不良的区域非常有用。最新版本的 BMGE 以 Java jar 文件形式提供,位于 ftp://ftp.pasteur.fr/pub/gensoft/projects/BMGE/。

比对与可视化

我们将首先使用 MAFFT 程序比对线粒体 16S 基因的序列,然后使用软件 AliView 可视化并改进比对。

  • 将包含 16S 序列的文件 16s.fasta 下载到您的分析目录。在文本编辑器或命令行上查看该文件,例如使用 less 命令:
less 16s.fasta

您将看到每条记录都由一个 ID 和一个序列组成,其中 ID 始终位于以“>”符号开头的单行上,后面是包含序列的行。序列尚未对齐;这就是它们不包含间隙且长度不同的原因。可以应用其他命名方案,而不是该文件中使用的 14 个字符的 ID;但是,我强烈建议使用简短的 ID,因为在系统发育分析中,如果您使用包含空格或连字符的实际拉丁名或常见物种名称,许多程序或脚本可能无法工作。

  • 打开 MAFFT 在线版本的网站。该网站提供了 MAFFT 对齐程序的 Web 界面。如果您成功安装了 MAFFT,您还可以在计算机上使用 MAFFT,而不是使用该网站。
  • 在 MAFFT 服务器网站上的“高级设置”标题下(向下滚动查看),您将找到可用的对齐选项。在第一个标题为“策略”的灰色框中,您可以在全局和局部对齐方法之间进行选择。 “G-INS-i”方法实现全局 Needleman-Wunsch 算法(Needleman 和 Wunsch 1970),“L-INS-i”方法实现局部“Smith-Waterman”算法(Smith 和 Waterman 1981)。为简单起见,保留默认的“自动”选项。如果您在自己的计算机上使用 MAFFT 的命令行版本而不是 MAFFT 服务器,则等效命令如下:
mafft --auto 16s.fasta > 16s_aln.fasta
  • 在“高级设置”部分的第三个灰色框中,标题为“参数”,您可以更改评分矩阵。对于氨基酸序列,您可以选择任何与 PAM 矩阵等效的 BLOSUM 矩阵。对于核苷酸序列,可以选择“1PAM / K=2”、“20PAM / K=2”和“200PAM / K=2”。目前,保留所有默认选项。单击“提交”按钮。将 Fasta 格式的比对下载到您的计算机。为此,请右键单击页面最顶部的“Fasta 格式”链接。将文件命名为 16s_aln.fasta。

  • 重复相同的操作,这次惩罚设置为 2,而不是默认值 1.53。将分析所得的比对文件命名为 16s_op2_aln.fasta。如果您使用 MAFFT 的命令行版本,则等效命令如下:

mafft --auto --op 2 16s.fasta > 16s_op2_aln.fasta
  • 在AliView中打开文件16s_aln.fasta。在不关闭 AliView 窗口的情况下,在第二个 AliView 窗口中打开文件 16s_op2_aln.fasta。比较右下角状态栏中显示的总对齐长度。在两个 AliView 窗口中,滚动到位置 1250 和 1350 之间的区域。
  • 在 16s_aln.fasta 的窗口中,识别对齐不良的区域(例如位置 1020 到 1040 周围)并尝试重新对齐。为此,请通过单击路线顶部的标尺来选择区域,如下面的屏幕截图所示。
alt
  • 选择对齐不良的区域后,单击 AliView 的“对齐”菜单中的“重新对齐所选块”。

BMGE 自动对齐过滤

正如您所看到的,16S 序列的比对包含高度可变区域和保守区域的混合。因此,核苷酸的同源性在基因的某些部分相当明显,但在其他部分可能不明确。为了避免下游系统发育分析中的比对错误导致的问题,我们将根据缺口的比例和这些区域内发现的遗传变异来识别比对不良的区域,并将它们从比对中排除。

  • 要从 16S 比对中排除不可靠的比对区域,请使用软件 BMGE。要检查该程序是否在您的计算机上运行并查看可用选项,请打开命令行窗口(例如 Mac OSX 上的终端应用程序)并键入以下命令:
java -jar BMGE.jar -?
  
# 如果上述方法有效,请输入以下命令:
java -jar BMGE.jar -i 16s_aln.fasta -t DNA -of 16s_filtered.fasta -oh 16s_filtered.html

通过上述命令,BMGE 以 Fasta 格式在文件 16s_filtered.fasta 中写入过滤后的比对,并在文件 16s_filtered.html 中以 HTML 格式可视化过滤后的比对。在浏览器中打开文件 16s_filtered.html。滚动浏览对齐并注意黑色对齐块。在对齐的最顶部,您将看到为每个站点以浅灰色和黑色绘制的两个值。差距比例用浅灰色等号显示,范围从 0 到 1。黑色冒号表示 BMGE 的作者所说的“平滑熵状分数”(Criscuolo 和 Gribaldo 2010)。基本上,这是对该位点核苷酸多样性的衡量。您会注意到黑色对齐块与低间隙比例和低熵的区域一致,这是最适合系统发育推断的对齐位置。我们对对齐块的选择基于 BMGE 的熵分数截止(选项 -h)、间隙率截止(-g)和最小块大小(-b)的默认设置。默认情况下,BMGE 选择熵分数低于 0.5 (-h 0.5) 且间隙比例低于 0.2 (-g 0.2) 的位点,并且仅当这些位点形成至少 5 个具有这些属性的位点 (-b 5) 时。

  • 使用熵分数截止、间隙率截止和最小块大小的自定义设置重复 BMGE 块选择,并注意这如何改变所选站点的总数以及对齐中所选块的分布。例如,使用 -g 0.3 增加允许的间隙比例:
java -jar BMGE.jar -i 16s_aln.fasta -t DNA -g 0.3 -of 16s_g03_filtered.fasta -oh 16s_g03_filtered.html
  • BMGE 到终端的标准输出告诉您有多少站点(字符)仍被选中。请注意最后两次运行之间的差异。除了文件 16s_filtered.html 之外,还要在单独的浏览器窗口中打开文件 16s_g03_filtered.html。滚动对齐。您会注意到,由于每个站点允许的间隙比例增加,现在有更多区域被标记为黑色。
  • 在AliView中打开文件16s_filtered.fasta。请注意,它现在比以前的对齐方式更短并且看起来更压缩。使用 AliView 的“文件”菜单中的“另存为 Phylip(全名和填充)”选项,将文件以 Phylip 格式保存为 16s_filtered.phy。还可以使用“另存为 Nexus”选项将文件保存为 Nexus 格式的 16s_filtered.nex。
  • 在文本编辑器中打开 Phylip 和 Nexus 文件以查看文件格式之间的差异。

Reference

[1]

Source: https://github.com/mmatschiner/tutorials/blob/master/multiple_sequence_alignment/README.md

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/988265.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Windows11 上使用 QEMU 创建 Ubuntu aarch64(ARM64)虚拟机

文章目录 背景步骤要点一、下载QEMU二、下载 QEMU UEFI 固件文件三、Ubuntu 光盘镜像文件四、安装设置 QEMU五、创建虚拟网卡1、安装 tap-windows2、重命名新网卡3、共享物理网卡的网络 六、创建硬盘镜像七、从iso镜像安装虚拟机八、启动镜像九、连接 ssh过程中 powershell 执行…

【已更新建模代码】2023数学建模国赛B题matlab代码--多波束测线问题

一、 问题重述 1.1问题背景 海洋测深是测定水体深度与海底地形的重要任务,有两种主要技术:单波束测 深与多波束测深。单波束适用于简单任务,但多波束可提供更精确的地形数据。多 波束系统的关键在于覆盖宽度与重叠率的设计,以确保…

【Python 自动化】小说推文一键生成思路概述

最近看了一下小说推文成品软件的思路,发现可以完全迁移到我的 BookerAutoVideo 上面来。这篇短文里面,我试着分析一下整个推文视频生成的流程,以及简要阐述一下有什么工具。 整体流程是这样: 分句 原文是按照段落组织的&#xf…

下载安装包,安装 PySide2 到 windows 系统

20201206 修订:修改 PyCharm 中工具的配置描述 一、下载两个.whl 文件到本地, 可以在此下载 https://mirrors.tuna.tsinghua.edu.cn/ 我选用的是以下两个版本: shiboken2-5.15.2-5.15.2-cp35.cp36.cp37.cp38.cp39-none-win_amd64.whl …

Netty源码剖析之HashedWheelTimer时间轮

版本信息: JDK1.8 Netty-all:4.1.38.Final 时间轮的介绍 我们知道钟表分为很多块,每时钟滴答一次就往前走一个块,而时间轮就是使用这个思想。如下图 上图总共分为8块,每过100ms就往前走一块,然后周而复始。此时&#…

关于faust勒索病毒,这些您该了解,勒索病毒解密,数据恢复

faust勒索病毒是一种近年来流行的恶意软件,它通过对计算机系统进行加密并要求支付赎金来达到释放系统的目的。faust勒索病毒的流行程度和危害性不断上升,给企业和个人带来了严重的安全威胁。接下来云天数据恢复中心将从faust勒索病毒的背景、特点、危害、…

paddlespeech on centos7

概述 paddlespeech是百度飞桨平台的开源工具包,主要用于语音和音频的分析处理,其中包含多个可选模型,提供语音识别、语音合成、说话人验证、关键词识别、音频分类和语音翻译等功能。 paddlespeech整体是比较简单易用的,但是安装…

开学季!ChatGPT遭多国高校“封杀”!

美国OpenAI公司研发的聊天机器人ChatGPT,在过去的几个月席卷全球。 OpenAI的创始人之一马斯克(Elon Musk)曾在社交媒体平台上称赞ChatGPT:“这是全新的世界。和家庭作业说再见吧!”(Its a new world. Good…

轮播图横向和纵向同时滚动

轮播图横向和纵向同时滚动: <view><swiper v-if"noticeList.length > 0" style"margin-left: 20rpx;position: fixed;margin-top: 10rpx;z-index: 9999;width: 710rpx;border-radius: 20rpx !important;overflow: hidden;transform: translateY(0)…

js-13-Js中的事件模型

事件模型分为&#xff1a;事件与事件流、原始事件模型、标准事件模型和IE事件模型 1、事件与事件流 js中的事件&#xff0c;可以理解为是在HTML中文档或者浏览器中发生的一种交互操作&#xff0c;使得网页具备互动性&#xff0c;常见的有加载事件、鼠标事件、自定义事件等。 由…

CocosCreator3.8研究笔记(十)CocosCreator 图像资源的理解

一、图像资源导入 Cocos Creator 可使用图像文件格式&#xff0c;支持 JPG、PNG、BMP、TGA、HDR、WEBBP、PSD、TIFF 等。 将图像资源直接拖拽到 资源管理器 即可将其导入 二、图像资源的类型 在 属性检查器 面板中便可根据需要设置图像资源的使用类型&#xff1a;raw 、 textu…

window和linux下载ffmpeg

window 进入官方 进入 download 页面并选择 window 版本 下载 zip 压缩包 解压压缩包 解压压缩包之后&#xff0c;在 bin 目录下有三个文件&#xff0c;我们要下载的 window 版 ffmpeg.exe 就在其中&#xff0c;后续你可以添加系统环境变量或者在每次执行 ffmpeg.exe 都带上路…

leetcode386. 字典序排数(java)

字典序排数 题目描述递归法迭代 题目描述 难度 - 中等 leetcode386. 字典序排数 给你一个整数 n &#xff0c;按字典序返回范围 [1, n] 内所有整数。 你必须设计一个时间复杂度为 O(n) 且使用 O(1) 额外空间的算法。 示例 1&#xff1a; 输入&#xff1a;n 13 输出&#xff1a…

学习Jetpack Compose的反思,总结及新的开始(无干货,纯叙事)

前言及个人简介 我是一名90后安卓开发者&#xff0c;我是从去年五月四日开始学习 Jetpack Compose的&#xff0c;出于对前沿安卓知识的渴望&#xff0c;我点开了Jetpack Compose官网的网页&#xff0c;开始了我的学习之旅&#xff0c;那时候国内的相关文档还没有现在多&#x…

小程序中使用分包

前言 小程序在未使用的分包的情况下仅支持大小为2M,如果图片等资源过多的情况下可以使用分包功能&#xff0c;使用分包的情况下单个分包大小不能超过2M,总大小不能超过20M&#xff0c;分包有两种情况&#xff1a;普通分包和独立分包&#xff0c;下面介绍的是普通分包。官方文档…

Linux常用命令——cp命令

在线Linux命令查询工具 cp 将源文件或目录复制到目标文件或目录中 补充说明 cp命令用来将一个或多个源文件或者目录复制到指定的目的文件或目录。它可以将单个源文件复制成一个指定文件名的具体的文件或一个已经存在的目录下。cp命令还支持同时复制多个文件&#xff0c;当一…

大佬带飞,代码分享不会用?玩转Git,跟上大佬节奏!

一、安装 Git 客户端 这里为大家提供了windows版的Git客户端以及安装图文详解文档。百度网盘&#xff1a; https://pan.baidu.com/s/1CDu0Ke199pt3Ysv-QtWObA 提取码&#xff1a;8888 如果过期了请留言联系我。 二、注册码云账号 打开码云网站&#xff1a;https://gitee.co…

分布式 - 服务器Nginx:基础系列之Nginx静态资源配置优化sendfile | tcp_nopush | tcp_nodelay

文章目录 1. sendfile 指令2. tcp_nopush 指令3. tcp_nodelay 指令 1. sendfile 指令 请求静态资源的过程&#xff1a;客户端通过网络接口向服务端发送请求&#xff0c;操作系统将这些客户端的请求传递给服务器端应用程序&#xff0c;服务器端应用程序会处理这些请求&#xff…

ARM+Codesys标准通用型控制器

整机工业级设计&#xff0c;通讯外设经过隔离保护 电源宽电压设计(9~36V DC ) 丰富的通讯接口&#xff0c;满足多种场合控制和通讯需求 四核工业级处理器&#xff0c;高性能&#xff0c;低功耗&#xff0c;高可靠性 机身无风扇设计&#xff0c;外壳小巧 搭载内核 100% 自主…

【面试高频题】二叉树“神级遍历“入门

题目描述 这是 LeetCode 上的 「99. 恢复二叉搜索树」 &#xff0c;难度为 「中等」。 Tag : 「二叉树」、「树的搜索」、「递归」、「迭代」、「中序遍历」、「Morris 遍历」 给你二叉搜索树的根节点 root&#xff0c;该树中的 恰好 两个节点的值被错误地交换。请在不改变其结…