一文读懂单分子标签UMI

news2026/2/12 21:06:25

背景

在整理分子标签（unique molecular identifier，UMI）之前，先了解下：

NGS 中潜在的错误来源有哪些？

1. 来源建库过程：文库制备、靶向序列捕获和测序均涉及 DNA 聚合酶以及扩增步骤。这些过程会引入偏差，包括重复、相应的不均匀扩增以及因聚合酶误差导致的假象，这种误差会引入原始样品中本不存在的序列变化。

2. 仪器系统误差：最常使用的Illumina 测序仪来说，误差率在 ~0.05% 到 ~1% 之间，具体取决于读取长度、所用的碱基识别算法和测定的变异类型。

01 UMI 是啥？

分子标签（Unique Molecular Indentifier，UMI）是一段随机化或特定的核苷酸短序列，通常设计为完全随机的核苷酸链（如NNNNNN），部分简并核苷酸链（如NNNRNYN， R | Y：可以是ATCG中的一种）或者固定核苷酸链（在模板分子有限的情况下）。

02 UMI 原理

UMI技术的原理是在PCR扩增前给每一条原始DNA加上一段特有的3~8 bp短标签序列，经文库构建及PCR扩增后一起进行测序。具有不同分子条形码的读出序列代表不同的原始DNA 分子，而具有相同条形码的读出序列则是相同原始分子经 PCR 复制的结果。这样，根据不同的标签序列我们就可以区分不同来源的DNA模板。虽然分子条形码无法阻止 PCR 重复的产生，但可帮助用户追踪这些重复并在下游分析中将其去除。此外，使用分子条形码还能将 PCR 假阳性与原始分子中的真正变异区分开来，从而在变异等位基因频率 (VAF) 极低时进行变异检测。

更多完整内容请阅读原文：9.实用干货— 一文读懂单分子标签UMI (qq.com)https://mp.weixin.qq.com/s?__biz=MzIyMTI1NDU0Ng==&mid=2247485063&idx=1&sn=263295d238f86b27ecb2238e6e27f6ae&chksm=e83ec07adf49496cedc88272bca446decb092b04088b5c336858739e3768d9a4d83bf9f8e530&token=1373935942&lang=zh_CN#rd