转座子的鉴定

news2024/11/25 13:26:22

1.鉴定

将转座子鉴别和注释的方法分为3大类:

①从头算法;

②基于同源性的方法 ;

③联合算法。

其中,从头算法又包括基于基因组序列比对的方法、K—mer方法和基于结构特征的方法 ;

基于同源性的方法包括基于同源序列比对的方法和基于隐马尔柯夫模型(HMM)的方法。

不同的算法实现的目标有所不同,如从头算法主要是为了发现新的转座子 ,因此常用来在新测序的基因组中鉴别新的转座子 ,而多数基于同源性算法的软件主要被用来注释基因组中的转座子。

从头( De novo ) 算法
  • 从头算法鉴别转座子的原理是基于转座子的重复特征,该算法可在不借助任何转座子数据库的情况下查找到几乎所有类型的转座子。优点:算法主要用于发现新的、未注释的转座子家族, 对于高频出现的转座子鉴别尤其有效。缺点:计算量大。另外, 由于从头算法是基于用一个转座子的拷贝数来定义重复家族, 这样低拷贝数的转座子可能被忽略掉。根据算法原理的不同, 从头算法又包括基于基因组序列比对的方法、K-mer 方法和基于结构特征的方法。

  • 基于基因组序列比对的方法基于序列相似性,该方法利用 BLAST 等软件将基因组与基因组进行比对, 然后将双序列比对的结果转换成多序列比对, 最后用聚类方法将相关序列聚成家族,从而得到重复序列( 包括转座子) 家族。代表:RECON

  • K-mer 方法。 该类从头算法检索重复出现的定长 Kmer 种子( 序列短串) , 然后再将它扩展为更长的序列。代表:RepeatScout。软件首先在未知的基因组序列中计算出所有定长 K-mer 种子出现的频率, 再选择出最高频率的 K-mer 种子及其周围区域的序列, 一次一个碱基向两边扩展, 每次生成一条具有代表性 K-mer 重复家族的共有序列。然后调整已出现过的 K-mer 频率数, 再选择出包括调整过的最高频率 K-mer 及其周围区域序列, 扩展并产生共有序列,直到最高频率到达所设定的最小阈值结束, 这样就得到了这一基因组的转座子家族。RepeatScout与 RECON 相比, 所得到结果更加准确,而且敏感度和运行速度都有很大的提高。其他使用 K-mer 方法的软件还有RepeatFinder等。

  • 基于结构特征的算法。 转座子中 LTR 逆转录转座子、SINE、微型反向重复转座元件( MITE) 、Helitron 等都具有较明显的特征, 基于结构特征的算法可根据这些特征对这些转座子进行鉴别。代表:LTR_STRUC,LTR_FINDER,LTRharvest ,LTRdigest。LTR_finder 和 LTRharvest 是目前为止鉴定 LTR 最敏感的程序,但假阳性依然很高。

基于同源性的算法
  • 基于同源性的算法是将一条未知序列与已知的转座子序列或序列特征模型进行比较,从而鉴别转座子的一类方法。根据同源序列比较方法的不同, 基于同源性的方法又可分为基于同源序列比对的算法和基于 HMM 的算法 2 类。
  • 基于同源序列比对的算法。该类算法与从头算法中的基于基因组序列比对的方法都是使用 BLAST 等工具来发现序列相似性, 但与后者不同的是, 基于同源序列比对的方法是将未知序列与数据库中的转座子序列进行比较来鉴别转座子。转座子数据库可使用公共数据库 Repbase, 但现在自己物种的研究,基本都是通过当前的全基因组序列,训练重复序列集构建本地repeat library,再通过RepeatMasker注释重复序列。其中,与RepeatMasker配套的RepeatModeler,可以实现。
    代表:RepeatMasker。RepeatMasker 利用 BLAST 工具在转座子数据库(Repbase或者自己构建的repeat library)中比对查找已知的重复因子家族, 是目前基因组转座子注释最常用的软件。
  • 基于 HMM 的算法。中文论述见 https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CJFD&dbname=CJFD2013&filename=AHNY201308003&uniplatform=NZKPT&v=%25mmd2Fe0g9nSKUuUK1GjQz6eD4Op0avSl%25mmd2BYGyQTsPxiKcx27YQ9yw%25mmd2FVAPSWnHERxDx8gt
数据库
  • RepBase Update (https://www.girinst.org/repbase/update/) 是检索真核生物基因组中各类移动元件/转座元件共有序列集的最常用的数据库之一。数据库旨在给出每一类TE家族的共有序列和代表型元件类型。它将转座元件分为三类:DNA转座子,LTR逆转录转座子(Long Terminal Repeat Retrotransposons)和non-LTR逆转录转座子。
  • Dfam是一个较RepBase更“年轻”的真核生物TE-centric数据库,这个数据库更正式地定义了转座元件,并且将共有序列一样的转座元件形成一个“集合”,利用隐马尔可夫模型(hidden Markov models)来进行多序列比对(multiple sequence alignments)。
  • TREP,一个可用于研究植物和真菌中转座元件的数据库。这个存储库有两个子库,一个包含不同TE元件子类的共有序列(nrTREP),另一个包含单个插入的TE元件的完整序列(total_TREP);同时这个存储库中还有一个数据库是对那些插入序列进行蛋白预测的(PTREP)。
  • P-MITE是一个植物特有的数据库,其中MITErepdb主要包含共有序列信息,而MITEdb主要用于注释41种植物基因组中的各个微型倒置重复转座元件(miniature inverted repeat TE, MITE)。
  • RiTE是特别用于水稻及其相关物种基因组中重复元件研究的数据库,这个数据库中包含水稻基因组中全部转座元件的序列,共有序列以及单个转座子在参考基因组中的插入信息。
  • MASiVEdb数据库包含和RiTE差不多的信息,只是MASiVEdb包含更多的植物物种的转座子注释信息。
  • 还有一些数据库是对那些插入到基因组上各基因的编码区的转座元件做汇总,包括TranspoGene, HESAS, 以及LINE FUSION GENES。
  • RepeatExplorer database (REXdb):https://link.springer.com/article/10.1186/s13100-018-0144-1 REXdb根据来自于80个植物物种保守的多蛋白结构域,将Copia和Gypsy反转录转座子分别分为16个和14个谱系。
RepeatModeler,LTR_retriever
  • RepeatModeler 利用全基因组序列从头预测(de novo),训练重复序列集构建本地 repeat library。
    RepeatModeler1.0 核心组件是 RECON(de novo,基于基因组序列比对)和 RepatScout (de novo,基于 K-mer)。RepeatModeler2.0更新后加入了 LtrHarvest(de novo,基于结构),LTR_retriever(主要有LTR_FINDER,LTRharvest,都是 de novo 基于结构) 等,可以识别LTR的结构。

  • 公司的重复序列注释流程:使用RepeatModeler从头鉴定(都是 de novo,1.0基于基因组序列比对,基于 K-mer;2.0 基于基因组序列比对,基于 K-mer,基于结构)重复区域家族,生成repeat library。然后再用RepeatMasker(基于同源性)鉴别基因组上的重复区域。

  • 用 LTRharvest 和 LTRdigest 进行 LTR 基于结构 的从头预测( de novo,基于结构 )

  • 2017 年密歇根州立大学园艺系的 Shujun Ou 团队开发 LTR_retriever 平台用于 LTR 的鉴定,文章发表在 Plant Physiology 上。这是一款整合软件,以一或多个 LTR 预测软件鉴定 LTR 的结果作为输入文件,通过不同模块对 LTR 进行过滤和修正来对预测软件的预测结果进行整合和调整,得到非冗余精准且完整的物种特异 LTR 库,再使用 RepeatMasker 进行预测。

    LTR_retriever不是一个独立的工具,他的主要作用就是整合 LTRharvest, LTR_FINDER, MGEScan 3.0.0, LTR_STRUC, 和 LtrDetector的结果,过滤其中的假阳性LTR-RT,得到高质量的LTR-RT库。尽管LTR_retriever支持多个LTR工具的输入,但其实上LTRharverst和LTR_FINDER的结果就已经很不错了。目前推荐的是LTR_Finder(de novo,基于结构)和LTR_harvest(de novo,基于结构)组合鉴定,之后使用LTR_retreiver整合两者的结果。

EDTA, 全称是 Extensive de-novo TE Annotator, 一个综合性的流程工具,它整合了目前LTR预测工具结果(LTR_retriever,基于结构),TIR预测工具结果,MITE预测工具结果,Helitrons预测工具结果,从而构建出一高可信,非冗余的TE数据库,再通过 RepeatMasker(基于同源性) 注释重复序列。

EDTA的下载安装及使用方法参考 EDTA-github

2. 重复序列的校正和分类

常用的软件TEclass(Institute of Bioinformatics WWU Münster)、REPCLASS(http://wweb.uta.edu/faculty/cedric/repclass.htm)等

3. 基因组注释(重复序列的屏蔽)

重复序列库经过校正和分类以后, 就可以用于全基因组重复序列注释。这个过程被称为重复序列屏蔽, 鉴定为重复序列的核苷酸区域常用N或者X替 代。常用的软件有RepeatMakser(RepeatMasker Home Page和CENSOR(Submit sequence to CENSOR - GIRI)等, 详细的使用说明请参考。此过程在很大程度上依赖于重复序列库的质量 , 例如一致序列的准确性及分类的准确性等。


参考:
TE的鉴定 - 简书

GitHub - oushujun/EDTA: Extensive de-novo TE Annotator

基因组转座子鉴别与注释方法研究进展 - 中国知网

真核生物转座子的鉴定与分类

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1186706.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Vue中的 配置项 setup

setup 是 Vue3 中的一个全新的配置项,值为一个函数。 setup 是所有 Composition API(组合式API)的入口,是 Vue3 语法的基础。 组件中所用到的数据、方法、计算属性等,都需要配置在 setup 中。 setup 会在 beforeCre…

说说对React中类组件和函数组件的理解?有什么区别?

一、类组件 类组件,顾名思义,也就是通过使用ES6类的编写形式去编写组件,该类必须继承React.Component 如果想要访问父组件传递过来的参数,可通过this.props的方式去访问 在组件中必须实现render方法,在return中返回…

Python实用技巧:将 Excel转为PDF

将Excel文件转换为PDF可以方便储存表格数据,此外在打印或共享文档时也能确保表格样式布局等在不同设备和操作系统上保持一致。今天给大家分享一个使用第三方Python库Spire.XLS for Python 实现Excel转PDF的简单方法。 实现步骤 首先,通过pip命令来安装依…

基于深度模型的日志异常检测

本文转载自:深度模型的日志异常检测,还有谁不会?PPT下载地址:https://bbs.huaweicloud.com/forum/thread-100052-1-1.html视频讲解地址:https://bbs.huaweicloud.com/live/DevRun_live/202101222000.html 文章目录 1. …

pyqt5的组合式部件制作(三)

到目前为止,组合式部件的制作已经初具雏形,唯一需要完善的是所有部件和子部件的自动初始化,如果有一个层次比较复杂的组合式部件,靠人工逐个输入子部件的名称显然不现实,比如下图: 这个部件由多层、多个部件…

类EMD的“信号分解方法”及MATLAB实现(第九篇)——小波包变换(WPT)/小波包分解(WPD)

在上一篇我们讲到了离散小波变换DWT,在建立了小波分解的基本概念后,我们现在转向小波包分解——一种更精细的小波分析方法。小波包分解在多分辨率分析的基础上,提供了一种全面的频率分析工具,这在许多复杂信号处理场合中被证明是极…

第五章:java方法重写/覆盖

系列文章目录 文章目录 系列文章目录前言一、方法重写/覆盖二、方法的重写和重载的比较总结 前言 方法重写指的是子类重写父类的方法。 一、方法重写/覆盖 方法覆盖(重写)就是子类有一个方法并且和父类的某个方法的名称、返回类型、参数一样,那么我们就说子类的这…

Docker指定容器使用内存

Docker指定容器使用内存 作者:铁乐与猫 如果是还没有生成的容器,你可以从指定镜像生成容器时特意加上 run -m 256m 或 --memory-swap512m来限制。 -m操作指定的是物理内存,还有虚拟交换分区默认也会生成同样的大小,而–memory-…

MySQL json相关函数详解

MySQL提供了一系列的JSON函数,用于解析、提取、修改和操作JSON数据。以下是一些常用的JSON函数及其功能。 以下所有操作都使用该表(zone_test)用来演示: 一:JSON_OBJECT(key1,value1,key2,value2) 1、作用:…

聚观早报 |GPT-4周活用户数达1亿;长城汽车10月销量增加

【聚观365】11月8日消息 GPT-4周活用户数达1亿 长城汽车10月销量增加 xAI宣布推出PromptIDE工具 aigo爱国者连发5款儿童手表 SpaceX预计今年营收90亿美元 GPT-4周活用户数达1亿 在OpenAI首届开发者大会上,该公司首席执行官萨姆奥特曼(Sam Altman&a…

【Python】python获取本机IP的两种方式

1.使用专用网络 通过进入网站:http://myip.ipip.net获取本机ip地址 代码实现: import requests res requests.get(http://myip.ipip.net, timeout5).text print(res) 也可以在终端cmd中用如下代码实现; curl http://myip.ipip.net 2.使用自带的socke…

java8中的函数式接口的应用

函数式接口详解&#xff08;Java&#xff09;-CSDN博客 下面是一个去重的代码 /*** 学习Function匿名函数 和Predicate匿名函数 的定义* author Administrator**/ public class DistinctFilterList {public static final List<Dish> menu Arrays.asList( new Dish(&quo…

数据源、映射器的复用

开发环境&#xff1a; Windows 11 家庭中文版Microsoft Visual Studio Community 2019VTK-9.3.0.rc0vtk-example参考代码目的&#xff1a;学习与总结 demo解决问题&#xff1a;复用球体数据源、映射器&#xff0c;vtkSmartPointer与std::vector、vtkNew与std::array的搭配使用…

实验5-2——网络yum源的配置

网络yum源的配置 实验步骤&#xff1a; 1.在/etc/yum.repos.d中新建一个文件夹bak备份原来的东西,查看/etc/yum.repos.d/内容 cd /etc/yum.repos.d mkdir bak ls 2.把/etc/yum.repos.d中已有的repo文件都移入bak文件夹中并查看 mv *.repo bak ls 3. 下载安装weget以防万一本…

程序员男盆友给自己做了一款增进感情的小程序

前言 又是无聊的一天&#xff0c;逛GitHub的时候发现一个给女朋友做了一个互动微信小程序&#xff0c;据说女朋友更爱自己了&#xff0c;所以当晚。。。。给自己做了丰盛的晚餐&#xff0c;我当即点开立马开发粘贴复制起来&#xff0c;想到做的小程序可以和未来的女朋友增进感…

带有滑动菜单指示器的纯 CSS 导航选项卡

效果展示 CSS 知识点 filter 属性回顾 transition 属性回顾 使用单选框实现导航菜单的思路 单选框当点击完成后就会有一个:checked属性&#xff0c;可以利用这个属性来实现导航菜单底部滑动块的滑动动画和当前菜单项激活状态的管理。 整体页面结构 <div class"tab…

C#创建Windows Service(Windows 服务)基础教程

Windows Service这一块并不复杂&#xff0c;但是注意事项太多了&#xff0c;网上资料也很凌乱&#xff0c;偶尔自己写也会丢三落四的。所以本文也就产生了&#xff0c;本文不会写复杂的东西&#xff0c;完全以基础应用的需求来写&#xff0c;所以不会对Windows Service写很深入…

springboot内容协商

1.基于请求头 Accept: application/json Accept: application/xml Accept: application/xxx 自定义数据 发的请求头的数据类型 期望返回的数据类型 2.通过请求参数 例如 /football?formatjson 一般respondbody 默认以json方式进行返回 如何请求同一个接口&#xff0c;可以…

四川芸鹰蓬飞:抖音短视频运营是做什么的?

抖音短视频作为一种新兴的社交媒体平台&#xff0c;它的运营团队肩负着将用户需求与平台资源相结合&#xff0c;促使平台发展壮大的重要任务。抖音短视频运营旨在通过精准的用户分析和有针对性的内容推送&#xff0c;提高用户留存和活跃度&#xff0c;增加广告收入&#xff0c;…

idea使用git删除本地提交(未推送)

1、找到reset head 2、打开弹窗&#xff0c;在HEAD后面输入^ 结果为HEAD^ 注释&#xff1a; Reset Type 有三种&#xff1a; Mixed&#xff08;默认方式&#xff09;&#xff0c;保留本地源码&#xff0c;回退 commit 和 index 信息&#xff0c;最常用的方式Soft 回退到某个版本…