从fasta文件中提取指定长度序列构建矩阵

news2026/3/21 18:46:14

要从 FASTA 文件中提取指定长度的序列并构建矩阵，你可以使用 BioPython 库，它可以方便地处理生物序列数据。你可以通过从 FASTA 文件中读取序列，然后将每个序列拆分成指定长度的子序列，最终构建矩阵。

以下是一个示例代码，它从一个 FASTA 文件中读取序列，并根据指定的长度提取子序列构建矩阵。

在这里插入图片描述

1、问题背景

给定一个fasta文件，需要从fasta文件中提取指定长度的序列，并对这些序列应用一个名为identical_segment()的函数，然后将这些序列构建成一个矩阵。

2、解决方案

使用python的内置函数open()打开fasta文件，并逐行读取文件内容。
当读取到一行以">"开头的行时，则表示这是新序列的开始，需要将前一个序列的子序列加入到all_codons列表中，并创建一个新的文件outfile，用于保存当前序列的子序列。
当读取到一行不以">"开头的行时，则表示这是当前序列的一部分，需要将这行内容写入到outfile文件中。
读取完整个fasta文件后，将outfile文件关闭，并使用open()函数再次打开outfile文件，用于读取序列的子序列。
逐行读取outfile文件，并将每行内容作为序列的子序列加入到all_codons列表中。
创建一个空列表matrix，用于存储序列子序列的相似度矩阵。
遍历all_codons列表，并对每个序列的子序列应用identical_segment()函数，将返回的相似度值加入到matrix列表中。
将matrix列表转换为一个numpy数组，并打印出来。

代码示例

import numpy as np

def identical_segment(seq):
    """
    计算两个序列的相似度

    Args:
        seq: 序列

    Returns:
        相似度
    """
    # 将序列转换为大写
    seq = seq.upper()

    # 计算序列的长度
    n = len(seq)

    # 创建一个相似度矩阵
    matrix = np.zeros((n, n))

    # 遍历序列
    for i in range(n):
        for j in range(i + 1, n):
            # 计算两个序列的相似度
            similarity = 0
            for k in range(n):
                if seq[i] == seq[j]:
                    similarity += 1

            # 将相似度存储在相似度矩阵中
            matrix[i][j] = similarity

    # 返回相似度矩阵
    return matrix


# 打开fasta文件
fasta_file = open('input.fasta', 'r')

# 创建一个文件用于存储序列的子序列
outfile = open('outf', 'w')

# 逐行读取fasta文件
for line in fasta_file:
    # 如果这一行以">"开头，则表示这是新序列的开始
    if line[0] == ">":
        # 将前一个序列的子序列加入到all_codons列表中
        all_codons.append(codons)

        # 创建一个新的文件outfile，用于保存当前序列的子序列
        outfile = open('outf', 'w')
    # 如果这一行不以">"开头，则表示这是当前序列的一部分
    else:
        # 将这行内容写入到outfile文件中
        outfile.write(line.strip())

# 读取完整个fasta文件后，将outfile文件关闭
outfile.close()

# 使用open()函数再次打开outfile文件，用于读取序列的子序列
outfile = open('outf', 'r')

# 逐行读取outfile文件，并将每行内容作为序列的子序列加入到all_codons列表中
for line in outfile:
    # 将这一行内容作为序列的子序列加入到all_codons列表中
    seq = line.strip()
    codons = [seq[i:i+3] for i in xrange(0, len(seq), 3) if len(seq[i:i+3])==3]
    all_codons.append(codons)

# 创建一个空列表matrix，用于存储序列子序列的相似度矩阵
matrix = []

# 遍历all_codons列表，并对每个序列的子序列应用identical_segment()函数，将返回的相似度值加入到matrix列表中
for codons in all_codons:
    # 将序列的子序列转换为numpy数组
    seq = np.array(codons)

    # 对序列的子序列应用identical_segment()函数，得到相似度矩阵
    sim_matrix = identical_segment(seq)

    # 将相似度矩阵加入到matrix列表中
    matrix.append(sim_matrix)

# 将matrix列表转换为一个numpy数组
matrix = np.array(matrix)

# 打印出相似度矩阵
print(matrix)