生物信息学 GO、KEGG

news2024/10/5 19:09:11

文章目录

  • 北大
    • 基因本体论
    • 分子通路KEGG
    • GO注释
    • 分子通路鉴定
  • 关于同源 相似性

b站链接:北大课程
概述了当前生物信息学领域中几个重要的概念和工具,介绍基因本体论(Gene Ontology, GO)、分子通路知识库KEGG(Kyoto Encyclopedia of Genes and Genomes)以及分子通路鉴定和GO注释的过程。
首先从北京大学生物信息学团队的研究工作讲起,解释了基因本体论的框架,它是一套用于表示基因产品属性的控制词汇表。然深入探讨了KEGG数据库如何系统地整合了生物化学通路和分子交互网络的信息。此外,还探讨了GO注释的重要性,它是指将基因本体论的术语分配给基因产品以描述其特性的过程。文章解释了分子通路的鉴定如何帮助科学家理解复杂的生物学过程和疾病机理。

北大

基因本体论

当时不同的生物测序,同源基因对不上,于是大家商讨着确定一套体系

  1. 在信息科学中,ontology 是对特定领域的概念和概念之间关系的一种规范描述。它通常使用共享词汇来定义领域内的概念类型、属性以及这些概念之间的关系。简单来说,它是一种数据模型,用于组织和整合信息,使其可查询、可分析。
  2. 在哲学中,ontology 是研究存在本质、变化、实在性以及存在的基本类别及其相互关系的领域。它探讨了现实和存在的基础框架以及如何理解世界的本质。

  1. 通信(Communication): 本体可以帮助确保不同团队或不同学科领域之间的无歧义沟通。举例来说,在各种基因组项目中,不同研究组对基因功能的注释可能各不相同。使用本体,这些注释可以统一标准化,确保所有人对同一术语有相同理解。
  2. 计算(Computation): 本体使知识可以以计算机可处理的形式表示,这意味着文献和数据可以结构化,使得计算机程序能够自动执行分析。例如,研究人员可以编写程序来查询和分析基因或蛋白质的功能,这一过程由本体中定义的结构化知识支持。
  3. 模式发现(Discovery of Patterns): 本体还可以用来发现更大规模的模式和关联。例如,研究人员可以通过本体来识别涉及特定基因集的更广泛的功能分类或代谢途径,从而提供一个从局部到整体的视角。这就像从鸟瞰视角看问题,而不仅仅是从地面水平视角看问题。

  • Gene Ontology (GO)
    • 从刚开始的三家,到现在有二十多家机构参与

  • 三个部分

这张幻灯片介绍了基因本体论(Gene Ontology, GO)中的三个主要类别:

  1. 分子功能(Molecular Function):指的是基因产品(如蛋白质)的基本活动或任务,比如特定的生化活动。例如,某个蛋白质可能具有碳水化合物结合的功能或ATP酶活性。
  2. 生物过程(Biological Process):涉及多个分子功能的集合,这些集合合作实现某个宽泛的生物目标或目的,如细胞分裂(有丝分裂)或嘌呤代谢。
  3. 细胞组分(Cellular Component):特定的细胞位置或复杂体,如亚细胞结构、位置或大分子复合体。这可能包括核、端粒或RNA聚合酶II整体等。
  • 使用基因本体论(Gene Ontology, GO)来描述与色素形成(pigmentation)相关的生物过程的一个例子
    • GO提供了一个用于描述基因功能和相关生物学特性的标准化词汇。
    • 这个系统中,生物过程、分子功能和细胞组分是通过有向无环图(Directed Acyclic Graph, DAG)的形式展现的,其中节点表示GO术语,而边表示这些术语之间的关系。

在这个例子中,每个方框代表一个GO术语,这些术语描述了色素形成的不同方面,例如:

  • 色素形成过程
  • 发育期间的色素形成调控
  • 色素代谢过程

箭头表示的是不同术语之间的关系,比如某个过程是另一个过程的一部分,或者一个过程是另一个过程的调控(正调控或负调控)。GO的这种层级结构和术语间的关系有助于研究人员精确地描述和理解基因产物的功能和它们在生物学中的作用。

  • 如何将像上面的图**(有向无环图)**存储进电脑

  • 几种存储格式

    • OBO File Format

      • [Term]
      • id
      • name
      • Namespace(三大类)
      • def
      • synonym 同义词 简称
      • Is_a 从属于哪些更大的类别
    • XML

      • Go:term
        • go:accession
        • go:name
        • go:synonym
        • go:definition
        • go:isa
        • Go:dbxref. 其他数据库如果也存在,就给出其他数据库的链接

  • 三种relationship
    • is a
    • part of
    • regulates
  • 这样的推断规则就让计算机比较方便的处理

  • 目前的GO的规模(2018年)

可以在官网搜索

分子通路KEGG

Main types of biological pathways:

  • Metabolic pathways:添加原材料(食物和氧气),转化成产品(能量、生长和维修所需的分子)并分配到身体的各个部分。
  • Gene regulation pathways:根据外界/自身的情况,调节哪些基因多表达一些,哪些少表达一些。
    • 确定哪些工厂(基因)应当在什么时候开工,生产多少商品(蛋白质和RNA)
  • Signal transduction pathways:信号转导
    • 帮助城市的各个部分(细胞)根据收到的消息(信号分子)做出反应,调整各自的活动

最完善的是代谢相关的通路

  • 每一个pathway也会链到其他的pathway

  • 重要的就是interactions

    • PPI
    1. 磷酸化(Phosphorylation):一个蛋白质(酶)向另一个蛋白质添加磷酸基团,通常导致被磷酸化的蛋白质活性的增加或减少。
    2. 去磷酸化(Dephosphorylation):磷酸基团从蛋白质上移除,这个过程通常是由另一类酶执行的,可以逆转磷酸化的效果。
    3. 泛素化(Ubiquitination):将泛素(一种小蛋白质)附加到目标蛋白质上,通常标记蛋白质进行降解。
    4. 糖基化(Glycosylation):添加糖基团到蛋白质上,这可以影响蛋白质的稳定性、位置和功能。
    5. 甲基化(Methylation):添加甲基团到蛋白质上,这种修改可以影响蛋白质的活性或相互作用。
    6. 激活(Activation):使蛋白质变得活跃或增强其活性。
    7. 抑制(Inhibition):降低蛋白质的活性或完全停止其功能。
    8. 间接效应(Indirect effect):一个蛋白质对另一个蛋白质产生的非直接作用,比如通过影响一个中间分子。
    9. 状态变化(State change):蛋白质状态的改变,例如从不活跃状态到活跃状态。
    10. 结合/联合(Binding/Association):两个或多个蛋白质形成稳定的复合物。
    11. 解离(Dissociation):蛋白质复合物的分离。
    12. 复合物(Complex):两个或多个蛋白质通过结合形成的稳定结构。
    • Gene expression relations
    • 酶之间的反应
  • KEGG Pathway File

    • KGML格式

  • KEGG Orthology (KO)
    • KEGG的一个数据库,存储“KO”号
    • 主要是对于不同物种中具有相似功能基因的标识符,更多的是针对基因
    • KO 提供了一个标准化的方法来标识和分类这些基因和蛋白质,并将它们与 KEGG Pathways 中描述的特定生物化学过程相关联。
      • 每个 KO 都是一个编码特定分子功能的基因或蛋白质的集合,在不同物种中,执行相同功能的基因或蛋白质会被分配相同的 KO 编号。
      • 在 KEGG Pathways 的上下文中,可以使用 KO 来标识途径中涉及的特定基因或蛋白质,这有助于跨物种比较途径成分。这种关联是双向的:一个特定的 KO 可能参与多个不同的途径,而一个途径可能涉及多个不同的 KO。

KO vs GO

  • 基因本体论(Gene Ontology, GO):GO 为基因产品(主要是蛋白质)的功能提供了一个结构化的、动态更新的控制词汇。GO 将基因产品的功能描述为属于三个不同领域的属性:生物过程(biological process)、分子功能(molecular function)和细胞组分(cellular component)。GO 更多关注单个基因产品的特定功能,以及它们在细胞内外的位置。
  • KEGG:KEGG 关注的是基因产品参与的整体生物化学途径和网络。KEGG 提供了对这些网络的图形表示,强调了不同基因和蛋白质如何协同工作,影响生物学功能。KO 系统是 KEGG 用来标准化和整合这些信息的方式,侧重于跨物种的功能比较。

GO注释

  • 通过实验证据,并且人工review过的

  • 通过计算分析,并通过人工review的

  1. ISO (Inferred from Sequence Orthology): 这是当一个基因产品的功能被推断出与其他已知功能的基因产品有序列同源性时使用的。通常涉及比较进化上相关物种之间的基因。
  2. ISA (Inferred from Sequence Alignment): 通过序列比对的方法推断功能。如果一个未知功能的蛋白质与已知功能的蛋白质序列对齐,那么未知蛋白质可能具有类似的功能。
  3. ISM (Inferred from Sequence Model): 通过比对特定的序列模式或序列特征,如保守域或基序,预测功能。
  4. ISS (Inferred from Sequence or Structural Similarity): 当一个基因产品由于序列或结构相似性被推断具有某种功能时使用。这可以基于序列比对或三维结构的比较。
  5. IGC (Inferred from Genomic Context): 根据基因在基因组中的位置来推断功能,例如在同一操作单元中的基因,或基因的邻近性,可能参与相同的代谢途径或生物过程。
  6. IBA (Inferred from Biological aspect of Ancestor): 当一个功能从一个祖先物种中推断出来,并且被认为在当前物种中仍然存在时使用。
  7. IBD (Inferred from Biological aspect of Descendant): 如果一个功能可以在下游的物种中观察到,并且这种功能被推断在共有的祖先物种中存在,就会使用这种方法。
  8. RCA (Inferred from Reviewed Computational Analysis): 功能推断是基于经过审查的计算分析,可能涉及多种生物信息学工具和方法。
  9. IKR (Inferred from Key Residues): 相反的推断,如果序列差不多,但是缺少了关键的残基,那么就排除该序列具有该功能
  10. IRD (Inferred from Rapid Divergence): 当一个基因或蛋白质与已知的功能相似,但序列发生了快速演变,使其在某些位置有显著差异,可能指示功能上的差异化时使用。
  • 通过计算分析但没有人工review
  • 其他奇怪的
    • 就是说一些没有足够的证据的注释,比如作者在论文中提了一嘴这样
  • 这是一个关于不同物种注释类型的数据统计
    • 可以看出水果的话,大部分都是实验得到的和经过人工review注释,计算机推测的比较少
    • 而对于猪的话,就是计算机推测的还没经过人工review的占比比较大

分子通路鉴定

当时老师课题组的一个工作

  1. 给基因注释上通路(有时候能注释到8 90% 有时候一半都不到)

  • KO
    • 存储了KEGG里pathway的表
    • 存储了KEGG里KO的表
    • 存储了KO对应pathway的表
  • Gene
    • 存储了gene对应pathway的表 (推理出的)
    • 存储了ko对应gene的表(推理出的)
    • 存储了genes的信息

大概的思路,是query的gene序列,跟KEGG 里的genes做blast,相似度高的,进行一个mapping。就是query对应到KEGG里的gene的KO,然后再从KO对应到pathway

  1. 哪些通路是sigificant的

很多时候由于实验,数据是带有噪声的,即数据中存在由测量误差、实验条件或其他非相关生物学过程导致的变异,因此需要统计方法来确定哪些结果是真正具有生物学意义的。

  • Most frequent pathway

  • Most enriched pathway 通路富集

    • 对于某一个通路(一个一个看),
    • 研究的一个基因组中,所有能注释到的基因称为“background”
    • 评估自己实验条件下的这些基因在通路中的概率,跟background中所有基因落在通路中的概率,比较这二者,算p值
  • 其实就是一个抽样问题,用超几何分布来算p值

多假设检验矫正 FDR矫正

因为前面是一个一个通路去做检测的,所以每个通路判断的误差累计起来还是不容忽视的,所以这里进行一个多假设检验的矫正

如果这个期望小于0.05,那么认为是比较有生物学意义的

有三类分析方法,这里只介绍了第一种,并且给出了一些分析软件

关于同源 相似性

homology

Ortholog直系同源:不同物种的相同功能序列,来自历史上同个祖先

paralog旁系同源:同个物种,发生复制

同源性往往具有相似性,所以我们常常会根据相似性去推断同源性

相似性矩阵

  • 对于氨基酸
    • PAM矩阵
    • BLOSUM矩阵

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1544496.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

测试环境搭建整套大数据系统(十二:挂载磁盘到hadoop环境)

一:链接硬盘 将硬盘连接到计算机的 SATA 接口或 USB 接口,并确保硬盘通电并处于可用状态。 二:查看硬盘信息 sudo fdisk -l三:创建分区 gdisk /dev/vbd重新扫描磁盘 partprobe /dev/vdb格式化磁盘 mkfs.ext4 /dev/vdb2查看磁…

Maven高级(工程分模块开发,聚合于继承,版本锁定,Mavne私服的搭建和发布)【详解】

目录 一、Maven复习 1. Maven基本概念 1 Maven的作用 2 Maven的仓库 3 坐标的概念 2. Maven安装配置 3. Maven构建项目 4. Maven依赖管理 5. Maven依赖传递 二、工程分模块开发 1. 分模块开发介绍 2. 工程分模块示例 (1) 创建父工程 (2) 创建pojo模块步骤 (3) 创…

小程序从入门到入坑:事件系统

前言 哈喽大家好,我是 SuperYing,本文是小程序从入门到入坑系列的第 3 篇,将比较详尽的讲解 小程序事件系统 的相关知识点,欢迎小伙伴阅读。 读完本文您将收获: 了解小程序事件及基础使用。了解小程序事件分类及多种的…

vscode添加gitee

1.创建仓库 2.Git 全局设置 3.初始化仓库 2.1 打开vscode打开需要上传到给git的代码文件 2.2.点击左边菜单第三个的源代码管理->初始化仓库 4.点击加号暂存所有更改 5.添加远程仓库 5.1 添加地址,回车 5.2 填写库名,回车 6.提交和推送 6.1 点击✔提交…

Istio 部署 Spring Coud 微服务应用

Istio 服务部署 这篇文章讲述如何将 Java Spring Cloud 微服务应用部署到 Istio mesh 中。 准备基础环境 使用 Kind 模拟 kubernetes 环境。文章参考:https://blog.csdn.net/qq_52397471/article/details/135715485 在 kubernetes cluster 中安装 Istio 创建一…

企业计算机服务器中了rmallox勒索病毒怎么办,rmallox勒索病毒解密工具流程

在网络计算机技术飞速发展的现在,越来越多的企业利用网络开展各项工作业务,网络为企业的生产运营提供了极大便利,但同时,网络也为企业的数据安全带来严重的威胁。近日,网络上的勒索病毒非常猖狂,时不时就会…

Node.js之沙盒专题

​ Node.js一直是薄弱项,今天特意整理一下,基本上是各个大佬写的大杂烩,仅用于学习记录~~~ 1. child_process 首先介绍一下nodejs中用来执行系统命令的模块child_process。Nodejs通过使用child_process模块来生成多个子进程来处理其他事物…

用BI来做金蝶的数据分析,真能随时自助分析?

BI数据分析快的事,大家都知道,那用BI来分析金蝶ERP上的数据也很快,也能随时想怎么分析就怎么分析,想分析哪些数据就分析哪些数据吗? 用BI分析金蝶数据,不仅可随时自助分析,还可极大提高分析效率…

极光笔记|极光消息推送服务的云原生实践

摘要 极光始终秉承“以开发者为中心”的战略导向,极光推送(JPush)是国内领先的消息推送服务。极光推送(JPush)本质上是一种软件付费应用程序,结合当前主流云厂商基础施设,逐渐演进成了云上SaaS…

【iOS ARKit】3D文字

首先,3D场景中渲染的任何虚拟元素都必须具有网格(顶点及顶点间的拓扑关系),没有网格的元素无法利用GPU 进行渲染,因此,在3D 场景申渲染 3D文字时,文字也必须具有网格。在计算机系统中&#xff0…

集合(JAVA)

一、数组和集合的区别 相同点 都是容器,可以存储多个数据 不同点 数组的长度是不可变的,集合的长度是可变的数组可以存基本数据类型和引用数据类型集合只能存引用数据类型,如果要存基本数据类型,需要存对应的包装类 二、集合类体系结构 三、Collection 集合 1.Collection集合…

【经验分享||快速解决】VScode+Python配置Selenium环境配置问题。ERROR: Cannot uninstall ‘certifi‘.

目录 正常安装遇到的问题 当在控制台输入pip install selenium时候,遇到的问题如下: 主要爆红的问题为 解决办法和正确安装方法 降低selenium的版本即可 在vscode控制台输入上面的代码即可。 总结 正常安装遇到的问题 当在控制台输入pip instal…

mac电脑下安装和启动nginx

一,安装homebrew 必须安装了homebrew,可在终端输入命令brew -v查看是否已经安装,没安装的话安装一下: 如果未安装先安装(网上很多文章) 二,查看nginx是否存在 使用命令:brew search nginx查看nginx是否存在: 不存在的话,就使用brew inst…

【STL】list类的讲解及模拟实现

🪐🪐🪐欢迎来到程序员餐厅💫💫💫 今日主菜:vector类 主厨:邪王真眼 所属专栏:c专栏 主厨的主页:Chef‘s blog 总用光环在陨落,总有新星…

Conda 常用命令合集

Anaconda是一个开源的Python和R语言的分布式发行版,用于科学计算(数据科学、机器学习应用、大规模数据处理和预测分析)。Anaconda旨在提供一个简单的一站式解决方案来进行科学计算的需求。它包括了许多用于科学计算、数据分析的最流行的库和工…

各种需要使用的方法-->vue/微信小程序/layui

各种需要使用的方法-->vue/微信小程序/layui 1、vue里样式不起作用的方法,可以通过deep穿透的方式2、 js获取本周、上周、本月、上月日期3、ArrayBuffer Blob 格式转换ArrayBuffer与Blob的区别ArrayBuffer转BlobBlob转ArrayBuffer需要借助fileReader对象 4、使用…

Java面试篇:Redis使用场景问题(缓存穿透,缓存击穿,缓存雪崩,双写一致性,Redis持久化,数据过期策略,数据淘汰策略)

目录 1.缓存穿透解决方案一:缓存空数据解决方案二:布隆过滤器 2.缓存击穿解决方案一:互斥锁解决方案二:设置当前key逻辑过期 3.缓存雪崩1.给不同的Key的TTL添加随机值2.利用Redis集群提高服务的可用性3.给缓存业务添加降级限流策略4.给业务添加多级缓存 4.双写一致性…

每日一练:LeeCode-21、合并两个有序链表【链表+递归+非递归】

将两个升序链表合并为一个新的 升序 链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。 示例 1: 输入:l1 [1,2,4], l2 [1,3,4] 输出:[1,1,2,3,4,4] 示例 2: 输入:l1 [], l2 [] 输出:[…

家政服务管理平台设计与实现|SpringBoot+ Mysql+Java+ B/S结构(可运行源码+数据库+设计文档)

本项目包含可运行源码数据库LW,文末可获取本项目的所有资料。 推荐阅读100套最新项目 最新ssmjava项目文档视频演示可运行源码分享 最新jspjava项目文档视频演示可运行源码分享 最新Spring Boot项目文档视频演示可运行源码分享 2024年56套包含java,…

阐述区块链“链游”项目3D/2D模式系统开发

随着区块链技术的不断发展,区块链游戏作为其应用领域之一也逐渐受到关注。在区块链游戏中,构建3D/2D模式系统是至关重要的,它决定了游戏的视觉效果、用户体验和技术实现。本文将探讨区块链游戏开发中构建3D/2D模式系统的关键要素和实现方法。…