生物信息【蛋白序列对比blosum】

news2024/9/29 21:32:47

参考学习:传统蛋白质序列比对算法 - 知乎 (zhihu.com)

一、蛋白序列同源、相似

同源”(homology)和“相似”(similarity):

同源是指有相同的祖先,在这个意义上,无所谓同源的程度,两条序列要么同源,要么不同源。

而相似则是有程度的差别,如两条序列的相似程度达到30%或60%。一般来说,相似性很高的两条序列往往具有同源关系。【但也有例外,即两条序列的相似性很高,但它们可能并不是同源序列,这两条序列的相似性可能是由随机因素所产生的,这在进化上称为“趋同”(convergence),这样一对序列可称为同功序列。】


二、序列对比

序列比对算法主要分为全局比对(Global alignment)局部比对(Local alignment)两种,分别从整体序列和局部序列来反映蛋白序列的特征。在实际上,生物序列只是局部相似而不是全长相似,我们往往采用局部比对算法,并且局部比对具有更高的灵敏性也更有生物意义。

序列比对分为序列两两比对多序列比对

首先在这里引入替换计分矩阵(打分矩阵)(替换矩阵)的概念,氨基酸序列的替换计分矩阵主要是考虑在进化过程中,不同氨基酸的替代对蛋白质功能和结构的影响不同,所以用相同氨基酸匹配得1分【等价矩阵】这种方法显然不行。

替换计分矩阵【氨基酸替换矩阵】:

氨基酸序列常用的打分矩阵主要有BLOSUM score matrix【blocks substitution matrix】,PAM score matrix,位置特异性矩阵PSSM

【1】BLOSUM 矩阵

BLOSUM 矩阵是通过关系比较远的序列来获得矩阵元素的,BLOSUM 矩阵最早由 Steven Henikoff. 和 J.G Henikoff 在他们的论文中被提出。其中,他们从 BLOCKS 数据库中对那些在高度保守序列中的蛋白质家族进行观察测量进而整理出了氨基酸替换的概率。BLOSUM 打分矩阵的内容皆由观察得出。

BLOSUM 替换计分矩阵是一个log-odds矩阵, 基于序列之间的identity(大于一个阈值)将这些蛋白质序列cluster为500个group,每个group里面的序列做多序列比对,将保守无gap【空位】的区域划分为block,一共2000多个。identity可以取很多值,BLOSUM62矩阵用的是identity大于等于62%。然后基于这些block,可以找出20种氨基酸所有替换情况的频率。

计算过程如下:

一个氨基酸被另一个氨基酸替换所观察到的频率除以它俩因为随机而出现在一起的概率,然后取log值。

 

  • 计算出一个block中每一列每一种配对出现的频数

 

  • 遍历block的每一列,将特定配对情况的频数都加起来

其中,w为列数,n为行数。

  • 计算出每一种配对情况的观察到的频率

以AB配对为例:

  • 基于block计算某种氨基酸出现的概率

以A为例,AA配对贡献两个A,A(其他氨基酸)这类配对贡献一个,氨基酸在配对过程中总的出现次数是105*2

拓展到其它情况,氨基酸i出现的概率:

  • 计算由于随机因素两个氨基酸一起出现的期望概率
  • 求出log odds ratio
  • 确定计分矩阵

上面的值再乘以2四舍五入取整即可。BLOSUM62矩阵广泛应用于双序列比对,也是BLAST程序默认调用的计分矩阵。BLOSUM62.txt

 

【2】PAM score matrix

【3】位置特异性矩阵PSSM 

见参考学习链接:传统蛋白质序列比对算法 - 知乎 (zhihu.com)



对比野生型和突变型蛋白的blosum62【Sbl】:获得蛋白序列特征之一的方法 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/174401.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MybatisPlus学习笔记(二)

分页查询 分页在网站使用十分之多1.原始的limit进行分页2.pageHelper第三方插件3.MP内置的分页插件如何使用 1.配置拦截器组件 2.使用page对象 删除操作 逻辑删除 物理删除:从数据库中直接移除逻辑删除:在数据库中没有被删除,而是通…

Centos 7升级系统内核版本

步骤一:检查内核版本 [rootmaster ~]# uname -rs Linux 3.10.0-1160.el7.x86_64 步骤二:升级内核 CentOS 允许使用 ELRepo,这是一个第三方仓库,可以将内核升级到最新版本 rpm --import https://www.elrepo.org/RPM-GPG-KEY-elr…

二叉树知识锦囊(二)

作者:爱塔居 专栏:数据结构 作者简介:大三学生,希望和大家一起进步! 文章目录 文章目录 一、二叉树的存储 二、二叉树的遍历(重点) 2.1 前序遍历 2.2 中序遍历 2.3 后序遍历 2.4 层序遍历 2.5 小…

AX7A200教程(2): DDR3仿真平台搭建(二)

本章主要新建ddr3工程,然后将官方的ddr3仿真文件加入到工程里进行仿真,开发环境2020.1。新建ddr3_test工程新建ddr3工程顶层新建的ddr3_top顶层文件,目前还是空白的调用mig控制器,请参考我上一个章节,这里不在具体写调…

搜索引擎——Elasticsearch

文章目录1.ElasticSearch简介2.基本概念3.Elasticsearch概念-倒排索引4.Elasticsearch和Kibana的安装5.Elasticsearch入门操作5.1_cat5.2PUT&POST新增数据5.3PUT&POST修改数据5.4GET查询数据5.5DELETE删除数据5.7bulk批量操作5.6乐观锁字段6.Elasticsearch进阶操作6.1批…

蓝桥杯重点(C/C++)(随时更新)

目录 1 重点 1.1 取消同步(节约时间,甚至能多骗点分,最好每个程序都写上) 1.2 万能库(可能会耽误编译时间,但是省脑子) 1.3 蓝桥杯return 0千万别忘了写!! 1.4 …

【nginx】Windows下的常见问题踩坑

▒ 目录 ▒🛫 导读需求1️⃣ 安装2️⃣ 中文路径3️⃣ alias指定目录错误及原因正确示例📖 参考资料🛫 导读 需求 最近写了一个前端应用,需要部署后,让别人能访问,想来想去,还是选择了目前最强…

TeeChart Pro VCL FMX 2022.36.220929 Crack

TeeChart Pro VCL FMX图表组件库提供数百种用于数据可视化的 2D 和 3D 图形样式、56 种数学、统计和财务函数供您选择,还有无限数量的轴和 30 个调色板组件。 快速浏览 跨平台的一个来源 针对 Windows、Web 和移动应用程序 Delphi VCL 图表组件 使用 Embarcadero 的…

elasticsearch搜索功能(二)

一、DSL查询文档(P100) 1. DSL查询分类 Elasticsearch提供了基于JSON的DSL(Domain Specific Language)来定义查询。常见的查询类型包括: (1)查询所有:查询出所有数据,一…

《Python程序设计(第3版)》[美] 约翰·策勒(John Zelle) 第 9 章 答案

《Python程序设计(第3版)》[美] 约翰策勒(John Zelle) 第 9 章 答案 答案仅供参考,若有错误欢迎指正 判断对错 计算机可以生成真正的随机数。Python 的 random 函数返回伪随机整数。自顶向下的设计也称为逐步求精。…

Redis优惠券秒杀 | 黑马点评

目录 一、全局唯一ID 1、全局ID生成器 二、实现秒杀下单 1、基本的下单功能 2、超卖问题 3、乐观锁解决并发问题 三、实现一人一单 1、思路分析 2、代码初步实现 3、关于锁的范围 4、关于事务失效 5、集群下线程并发问题 一、全局唯一ID 订单如果用自增长会存在…

QT动画实例代码QPropertyAnimation的应用

用QT实现动画,我们必定用到QPropertyAnimation,这里我们介绍几种情形的动画实现。如直线动画,曲线动画,路径动画。 一、基础知识 1、QPropertyAnimation的初始化 我们首先必须在包涵QPropertyAnimation的头文件或者模块&#x…

Android之WorkManager处理后台定时任务

WorkManager和Service并不相同,也没有直接的联系。Service是Android系统四大组件之一,它没有被销毁的情况下是一直保持在后台运行的。而WorkManager只是一个处理定时任务的工具,它可以保证即使在应用退出甚至手机重启的情况下,之前…

动手深度学习-pytorch数据操作

N维数组是机器学习和神经网络的主要数据结构创建数组需要形状:如3*4的矩阵每个元素的类型:例如32位浮点数每个元素的值:例如全是0.或者随机数数据操作首先,导入torch张量表示一个数值组成的数组,这个数组可能有多个维度…

acwing基础课——欧拉函数

由数据范围反推算法复杂度以及算法内容 - AcWing 常用代码模板4——数学知识 - AcWing 基本思想: 这里我们了解一下欧拉函数是什么以及用筛法求欧拉函数,我们先给出欧拉函数的定义: 然后我们了解一下互质的概念,只要两数的公因…

连你女朋友都能看懂的分布式架构原理!

目录 从一个新闻门户网站案例引入推算一下你需要分析多少条数据?黄金搭档:分布式存储分布式计算 这篇文章聊一个话题:什么是分布式计算系统? 一、从一个新闻门户网站案例引入 现在很多同学经常会看到一些名词,比如分…

CSDN官方模板

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注…

数据结构(栈)

目录 栈的定义 形象比喻 栈的相关术语 栈的抽象数据类型(栈Stack的ADT) 顺序栈 顺序栈类的声明 顺序栈类成员函数的实现 基本效率分析 顺序栈的应用(小测试) main.cpp 共享栈 双共享栈 链式栈 链式栈基本操作分析 链…

cf Educational Codeforces Round 134 E. Prefix Function Queries

原题: You are given a string s, consisting of lowercase Latin letters. You are asked q queries about it: given another string t, consisting of lowercase Latin letters, perform the following steps: concatenate s and t; calculate the prefix func…

实战打靶集锦-001-Funbox2

**写在前面:**这应该是本人第一次自主成功完成的打靶,纪念一下下。 目录1. 主机发现2. 端口扫描3. 服务枚举4. 服务探查4.1 Apache探查4.1.1 浏览器访问4.1.2 站点地图查看4.1.3 目录枚举4.1.4 公共EXP搜索4.2 FTP探查4.2.1 手工登录FTP4.2.2 公共EXP搜索…