背景
在整理分子标签(unique molecular identifier,UMI)之前,先了解下:
NGS 中潜在的错误来源有哪些?
1. 来源建库过程:文库制备、靶向序列捕获和测序均涉及 DNA 聚合酶以及扩增步骤。这些过程会引入偏差,包括重复、相应的 不均匀扩增以及因聚合酶误差导致的假象,这种误差会引入原始样品中本不存在的序列变化。
2. 仪器系统误差:最常使用的Illumina 测序仪来说,误差率在 ~0.05% 到 ~1% 之间,具体取决于读取长度、所用的碱基识别算法和测定的变异类型 。
01 UMI 是啥?
分子标签(Unique Molecular Indentifier,UMI)是一段随机化或特定的核苷酸短序列,通常设计为完全随机的核苷酸链(如NNNNNN),部分简并核苷酸链(如NNNRNYN, R | Y:可以是ATCG中的一种)或者固定核苷酸链(在模板分子有限的情况下)。
02 UMI 原理
UMI技术的原理是在PCR扩增前给每一条原始DNA加上一段特有的3~8 bp短标签序列,经文库构建及PCR扩增后一起进行测序。具有不同分子条形码的读出序列代表不同的原始DNA 分子,而具有相同条形码的读出序列则是相同原始分子经 PCR 复制的结果。这样,根据不同的标签序列我们就可以区分不同来源的DNA模板。虽然分子条形码无法阻止 PCR 重复的产生,但可帮助用户追踪这些重复并在下游分析中将其去除。此外,使用分子条形码还能将 PCR 假阳性与原始分子中的真正变异区分开来,从而在变异等位基因频率 (VAF) 极低时进行变异检测。
更多完整内容请阅读原文:9.实用干货— 一文读懂单分子标签UMI (qq.com)https://mp.weixin.qq.com/s?__biz=MzIyMTI1NDU0Ng==&mid=2247485063&idx=1&sn=263295d238f86b27ecb2238e6e27f6ae&chksm=e83ec07adf49496cedc88272bca446decb092b04088b5c336858739e3768d9a4d83bf9f8e530&token=1373935942&lang=zh_CN#rd