生物信息学知识点
- 1. 序列比对:
- 1.1 基本概念:
- 1.2 全局比对和局部比对:
- 1.3 空位罚分的改进:
- 1.4 同源性和相似性:
- 1.5 相似性矩阵:
- 1.5.1 PAM:
- 1.5.2 BLOSUM:
- 2. BLAST算法:
- 2.1 原理:
- 2.2 步骤:
1. 序列比对:
1.1 基本概念:
|表示相同;
:表示不太相同,正分;
.表示很不相同,负分。
比对是对称的,且对上下文不敏感。
空位罚分使用一次函数。
1.2 全局比对和局部比对:
局部比对:罚分不小于0。所以起点不一定在左上角,终点不一定在右下角。
1.3 空位罚分的改进:
1.4 同源性和相似性:
相似性:一种很直接的数量关系,比如部分相同或相似的百分比或其它一些合适的度量。
同源性:是指从一些数据中推断出的基因或者蛋白质之间是否曾具有共同祖先的结论,是质的判断。
直系同源(orthologous) 指的是不同物种之间的同源性,例如蛋白质的同源性,DNA序列的同源性。Orthologs是指来自于不同物种的由垂直家系(物种形成)进化而来的蛋白,并且典型的保留与原始蛋白有相同的功能。
旁系同源(Paralogs)是那些在一定物种中的来源于基因复制的蛋白,可能会进化出新的与原来有关的功能。
前者指不同物种中具有相同功能和共同起源的基因,后者则指在同一物种内具有不同功能,但也有共同起源的基因,例如同是起源于珠蛋白的α珠蛋白、β珠蛋白和肌红蛋白。
1.5 相似性矩阵:
罚分情况的矩阵。
1.5.1 PAM:
两个序列的残基每相差1%就相距1PAM。1PAM等于1次进化。
1.5.2 BLOSUM:
差异大的序列使用BLOSUM45,差距小使用BLOSUM80,中间使用BLOSUM62。
2. BLAST算法:
2.1 原理:
提前猜测最佳比对的大致位置。
2.2 步骤:
1.找到两条序列之间高度相似的小片段(种子);
2.从种子处向两端延伸构建HSPs;
3.计算统计显著性。
首先将序列切成若干小段(一般蛋白质3个一段,核酸11个一段),即seed words。
然后根据事先建立的索引表快速定位相关的候选序列。
然后找到hit map,筛选出两个及以上连续hit