01 背景
DNA 中的串联重复(Tandem Repeat)指的是两个或多个相邻且近似的核苷酸模式的拷贝。Tandem Repeats Finder (TRF) 是一个程序,用于定位并显示 DNA 序列中的串联重复。用户只需提交一个以 FASTA 格式编写的序列,无需指定重复模式、模式大小或其他参数。程序输出两个文件:一个重复表格文件和一个比对文件。
重复表格文件可以在网页浏览器中查看,包含每个重复的相关信息,包括其位置、大小、拷贝数量和核苷酸组成。点击表格条目中的位置索引,可以打开另一个浏览器页面,显示重复序列与共识模式的比对结果。程序运行速度非常快,可在几秒钟内分析约 0.5Mb 的序列。提交的序列长度可以是任意的,程序可以检测模式大小范围在 1 到 2000 个碱基之间的重复。
02 参考
https://github.com/Benson-Genomics-Lab/TRF #官网
https://tandem.bu.edu/trf/trf.html #官网2
03 安装
编译指南
编译 TRF 需要:
- C 编译器(如
gcc
、clang
),并安装标准库。
TRF 已在基于 UNIX 的系统(如 Linux 和 macOS)以及 Windows 的 Cygwin/MinGW 环境中进行了测试。
简略编译步骤(高级用户):
# 检查实际版本
tar xzvf trf-4.10.0.tar.gz
cd trf-4.10.0
mkdir build
cd build
../configure
make
# 安装到系统
sudo make install
# 或将二进制文件复制到其他目录
cp src/trf DESTINATION
从仓库克隆的替代方法:
git clone https://github.com/Benson-Genomics-Lab/TRF.git
cd TRF
逐步编译:
- 打开终端,切换到克隆的 TRF 仓库目录。
- 创建名为
build
的目录:mkdir build
,并切换到该目录。 - 运行
../configure
。 - 运行
make
。 - 如果希望安装可执行文件,运行
sudo make install
,否则只需从build/src
目录中复制生成的二进制文件。
conda安装
conda install bioconda::trf
04 使用
trf File Match Mismatch Delta PM PI Minscore MaxPeriod [options]
参数详细说明:
File:输入序列文件(FASTA 格式)。
Match, Mismatch, Delta:用于 Smith-Waterman 比对的匹配、错配、插入/删除的权重。推荐值为 Match=2, Mismatch=7, Delta=7。
PM, PI:匹配和插入/删除的概率。推荐值为 PM=80, PI=10。
Minscore:最小比对得分。
MaxPeriod:最大模式长度。
选项:
-m:生成掩码序列文件(重复序列位置标记为 N)。
-f:记录重复的两侧序列。
-d:生成 .dat 数据文件(文本格式,适合进一步处理)。
-h:禁止生成 HTML 输出。
-l <n>:指定最大重复长度(单位:百万碱基,默认值为 2)。
-u:显示帮助信息。
-v:显示版本信息。
05 常用参数
运行 TRF 的可执行文件测试文件 test_seqs.fasta
,命令如下(假设可执行文件名为 trf
):
trf test_seqs.fasta 2 5 7 80 10 50 2000 -l 10
这将生成 9 个文件,其中包括:
test_seqs.fasta.2.5.7.80.10.50.2000.summary.html
- 若干
.html
文件和.txt.html
文件,显示重复信息及比对结果。
推荐的命令行如下:
trf yourfile.fa 2 5 7 80 10 50 2000
运行后,将生成两个或多个 HTML 文件,可使用浏览器查看重复表格和比对结果。
输出说明
表格解释:
重复表格包含以下信息:
- 重复序列的索引。
- 模式长度(周期)。
- 拷贝数量。
- 模式的共识序列大小。
- 匹配百分比。
- 插入/删除百分比。
- 对齐得分。
- 各碱基的组成百分比。
- 熵(基于碱基组成计算)。
比对解释:
比对文件包含:
- 每个周期的序列与共识序列的比对。
- 插入/删除(用
-
表示)和错配(用*
表示)。 - 邻接碱基的匹配统计。
06 引用
Benson G.
Tandem repeats finder: a program to analyze DNA sequences.
Nucleic Acids Res. 1999; 27(2):573–580. doi:10.1093/nar/27.2.573