生物信息—数据库

news2024/11/25 14:39:28

文章目录

  • 核酸数据库
    • 1 一级核酸数据库:GenBank
      • 1.1 原核生物核酸序列
      • 1.2 真核生物成熟mRNA
      • 1.3 真核生物DNA序列
    • 2 一级核酸数据库:基因组数据库:Ensemble
    • 3 一级核酸数据库:微生物宏基因组数据库:JCVI
    • 4 二级核酸数据库
  • 蛋白质数据库
    • 1 一级蛋白质序列数据库 UniProtKB
    • 2 一级蛋白质结构数据库 PDB
    • 3 二级蛋白质数据库
      • 3.1 Pfam
      • 3.2 Cath
      • 3.3 SCOP2
  • 专用数据库
    • 1 KEGG
      • 1.1 三羧酸循环
      • 1.2 Toll样受体(Toll-like receptors, TLR)
    • 2 OMIM

b站:山东大学生物信息学课程
概述了几种主要的生物信息学数据库,包括核酸序列、蛋白质序列及其结构和专用生物路径数据库。文章从一级核酸数据库开始,详细介绍了GenBank、Ensemble和JCVI等数据库,这些数据库提供了广泛的原核和真核生物的遗传信息。然后是蛋白质数据库,从UniProtKB的基本序列信息到PDB的三维结构信息,以及如Pfam、Cath和SCOP2等二级蛋白质数据库的深入分析。最后,探讨了KEGG和OMIM等专用数据库,提供了详细的生物化学路径和遗传疾病信息。

  • 数据库
    • 核酸数据库
      • 一级核酸数据库
      • 二级核酸数据库
    • 蛋白质数据库
      • 一级蛋白质数据库
        • 一级蛋白质序列数据库
        • 一级蛋白质结构数据库
      • 二级蛋白质数据库
    • 专用数据库
      • 文献数据库PubMed

核酸数据库

  • 一级核酸数据库

    • NCBI GenBank:美国国家生物技术信息中心
    • ENA
    • DDBJ
    • 这三合并为INSDC:国级核酸序列数据库合作联盟

1 一级核酸数据库:GenBank

1.1 原核生物核酸序列

  • 原核生物没有内含子

  • 原核生物序列的一个基因序列,举例,同一个基因的名字是一样的,但是在不同数据库的检索号不同

  • LOCUS ACCESSION VERSION GI

    • LOCUS 是姓名 ACCESSION是学号
    • 同一个基因在不同的数据库中LOCUS是一样的,ACCESSION不同
  • 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

  • Features

    • 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

    • 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

    • 蛋白质数据库中的大部分蛋白质序列,都是核酸序列,根据翻译密码本,翻译过来的

    • 计算机预测出来的该序列上的其他基因,还没有实验验证,这种情况很常见

      • 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
    • 完整序列

    • 下载序列

    • 下载纯文本格式


1.2 真核生物成熟mRNA

因为真核生物有内含子,所以真核生物的核酸序列信息比原核生物要复杂得多

浏览编码人(真核生物)dUTPase的成熟mRNA(加工过之后的)序列信息:U90223

重点讲一下不同点

  • 数据库经常出现数据不完整、更新不及时的问题,当然现在已经更新了

  • 信号肽就是用于决定蛋白质工作的地方,后面matpeptide就是编码成熟蛋白的序列

  • 编码区差三位,是因为最后三位是终止密码子

1.3 真核生物DNA序列

前面的都是线性的,这里是非线性的

浏览编码人(真核生物)dUTPase的基因组DNA序列信息:AF018430

当时还是第三个外显子,现在已经几个外显子被整合拼成完整基因了 AH005568

  • 完整的gene 和 成熟的mrna(经过剪接)

  • 对应多种mRNA 分别对应在线粒体中的蛋白质和细胞核中的蛋白质

  • 以下为四个外显子片段(四条序列上的该基因外显子部分)

不同的剪接方式会有不同的外显子形成不同的氨基酸序列。这可能涉及基因的表达调控,不是简单分类。

选择性剪接:许多基因通过选择性剪接可以产生多个mRNA变体。这意味着从同一个基因序列中,通过在成熟的mRNA中包含或排除不同的外显子,可以制造出多种不同的蛋白质。这是蛋白质多样性的重要来源。

真核生物比原核生物复杂得多

2 一级核酸数据库:基因组数据库:Ensemble

这才是真正的天书!

  • 显示演示了如何从染色体入手找到一个具体的基因
  • 更多的方法需要大家去实践熟悉

3 一级核酸数据库:微生物宏基因组数据库:JCVI

  • 微生物研究计划之一HMP

    • 人们不知道微生物跟人的具体关系是什么,相互之间如何影响。

    • WGS全基因组鸟枪法测序项目数据库

    • SRA高通量测序数据库

    • Annotation是基因组在genbank中所有注释的链接


4 二级核酸数据库

一级数据库是直接实验得出的数据,二级数据库是经过处理、注释、分析的序列数据

  • 二级核酸数据库(举例)
    • RefSeg数据库:参考序列数据库,是通过自动及人工精选出的非冗余数据库,包括基因组序列、转录序列和蛋白质序列。
    • dbEST数据库:表达序列标签数据库,包含来源于不同物种的表达序列标签 (EST)
    • Gene数据库:为用户提供基因序列注释和检索服务,收录了来自5300多个物种的430万条基因记录
    • 非编码RNA数据库:ncRNAdb,其不编码蛋白质,但在细胞中起调节作用
    • microRNA数据库:miRBase,可以获得microRNA在基因组中的定位,挖掘microRNA序列之间的关系

蛋白质数据库

蛋白质数据库比核酸数据库种类多,但是annotation要直白的多

  • 一级蛋白质数据库分为蛋白质序列数据库和蛋白质结构数据库
    • 都是实验直接得出的数据
  • 二级蛋白质数据库是基于一级数据库基础上,分析加工出来的

1 一级蛋白质序列数据库 UniProtKB

swissprot:人工标注的蛋白质序列数据库,可信度高,冗余度低

TrEMBL:蛋白质序列数据(由计算机完成):把数据库中能编码蛋白质的核酸序列,都翻译成蛋白质序列,然后存在里面,可信度低,冗余度大。所以剔除了所有swissprot中已经人工标注的序列

PIR:支持基因组学、蛋白质组学、和系统生物学综合研究的数据库

2002年这三个合并为Uniprot,

  • UniProt三个层次数据库:

    • UniParc:收录所有UniProt数据库子库中的蛋白质序列,量大,粗糙。
    • UniRef:归纳UniProt几个主要数据库并将重复序列去除后的数据库。
    • UniProtKB:有详细注释并与其他数据库有链接的数据库,分为
  • swiss-port是经过检查的,TrEMBL是没经过检查的,计算机生成的

  • 我们搜索"human dutpase"查看相关蛋白质序列信息

  1. 序列号
  2. 有这个标志的,就是swiss-port中的,也就是经过实验检查的
  3. 序列名 可以发现是来自哪个物种的
  4. 蛋白质名字
  5. 对应基因名
  6. 物种
  7. 长度
  • 点击一条进去查看

annotation score 就是注释打分,表示注释是否全面

  • 具体注释

    • Function:蛋白质功能相关信息 描述、催化反应方程式、辅助因子、代谢途径

    • Names&Taxonomy:蛋白质名字,所属物种的分类学信息等基本信息

      • 包括全称、别名等等 所属物种 分类谱系
    • Subcell location(重要)

      • 成熟的蛋白质必须在特定的细胞位置才可以发挥其生物学功能。蛋白质在细胞内不同组分的定位,即为蛋白质的亚细胞定位

      • 目前研究亚细胞定位的数据基本都来源于swissprot数据库

      • 在上一节我们知道but基因有两种剪切方式,其中一种会保留前端的一种信号肽,会将蛋白质定位于线粒体,而没有的会留在细胞核。跟这里的注释是一样的

    • 所以这个蛋白质有两个异构体

  • Pathology & Biotech: 提供蛋白质突变或缺失导致的族病及表型信息。

    • 比如99位的丝氨酸会突变成丙氨酸,导致磷酸化的缺失,具体参考来源文献
  • PTM/ Processing:

    • 提供蛋白质翻译后修饰 (Post-translationalmodification, PTM) 或翻译后加工的相关信息
    • 比如信号肽到了指定位点后会被剪切掉
    • 有些氨基酸位点上会发生甲基化 乙酰化 磷酸化的翻译后修饰
  • Eexpression:

    • 提供了基因在mRNA水平上的表达信息,或者在细胞中蛋白质水平上的表达信息,或者在不同器官组织中的表达信息。
  • Interaction:

    • 提供了蛋白质之间相互作用的信息
    • 直接两两作用的蛋白质链接
    • 蛋白质网络数据库中涉及的记录链接
  • Structure:提供蛋白质二级结构和三级结构信息注:只有那些通过实验方法测定三级结构并且已提交到蛋白质结构数据库PDB的蛋白质才有结构注释。

    • 一条蛋白质对应多个结构
  • Family & Domains:

    • 提供蛋白质家族及结构域信息。
    • 与系统发生数据库和结构域数据库链接
  • Sequence:

    • 提供蛋白质氨基酸序列信息。多个isoform(异构体)会显示多条序列。
  • Publications:列出了有关这个蛋白质已发表的所有文献信息


保存下载

可以保存成纯文本格式的file,其中每行开头的字母表示这一行记录什么内容

参考如下表

2 一级蛋白质结构数据库 PDB

  • 蛋白质的结构可分为四级:
    • 一级结构 Primary structure
      • 氨基酸序列
    • 二级结构 Secondaty structure
      • 周期性的结构构象,Q螺旋,阝折叠等
    • 三级结构 Tertiary structure
      • 整条多肽链的三维空间结构,3D结构
    • 四级结构 Quaternary structure
      • 几个蛋白质分子(亚基)形成的复合
        体,如四聚体

我们前面讲过苏教授发表的关于dUTPase晶体结构的文章,我们在PDB数据库中就查找该文章所发现的蛋白质晶体结构

搜索"Su X D dUTPase"

打开“3H6X”这个

  • PDB

    • 蛋白质结构数据库

    • 同一个蛋白质可能有多个不同结构,可能是不同的作者提交的,也有可能是不同形态

      • 每个结构对应的PDB ID是唯一的,而不是蛋白质对应的PDB ID是唯一的。就如同上面这个“3H6X”一样
    • 真正的结构存储在pdb纯文本文件中,需要download

      • 打开后第一部分是基本信息描述

      • HEADER:分子类别,日期,PDBID
      • COMPND:对各个分子的描述
      • KEYWDS:系列关键词, 可用于数据库搜索
      • SOURCE:结构中包括的每一个分子的实验来源(生物学/化学
      • EXPDTA:测定结构所用的实验方法:
        • 绝大多数:X-RAY DIEERACTION X-射线衍射
      • REVDAT:历史上曾经对该数据库记录进行过的修改
      • JRNL:发表这个结构的文献
      • REMARK:无法归入以上内容的注释
      • 一级结构信息部分
      • 一级结构
        • DBREF:一级结构信息:该蛋白质在蛋白质序列数据库UniProt中的检索号等信息
        • SEQRES:氨基酸序列
        • MODRES:对标准残基上的修饰
          • 比如这些位置上的蛋氨酸被硒代蛋氨酸给取代
      • 非标准残基部分
      • 二级结构部分
        • 哪里是螺旋、哪里是折变
      • 比如106号氨基酸上的C和107号上的氨基酸上的N形成肽键,键长1.32
      • 除了肽键,还有氢键、二硫键等等
    • 3D坐标部分,每个原子的一些信息,蛋白上的每一个氨基酸上的每一个原子都能找到自己的位置,也就是因为这个,可以实现3d蛋白质结构的建模

  • 3D结构直观呈现:

    • 很多软件,如JMOL,会根据原子坐标、大小,以及原子间距离画上化学键
    • 安装java

PDB在线的查看只能看,没有分析功能,具体会在第六章介绍

3 二级蛋白质数据库

蛋白质一般是由一个或多个功能区城组成,这些功能区域通常称作结构域(domain)。在不同的蛋白质中结构域以不同的组合出现,形成了蛋白质的多样性。识别出蛋白质中的结构域对于了解蛋白质的功能有重要意义

  • 比如人体内有很多toll样受体蛋白,但是他们都分为三个结构域,如上图

    • 胞外域识别入侵的东西,跨膜区穿模,胞内域行使一些胞内信号传导
  • 最右边这个图可以看到,有一个免疫蛋白MYD88存在于细胞内,虽然功能与Toll样受体不同,但是有一个与Toll样受体胞内域相同的结构域,可以结合激活下游的一些信号传导

  • 所以如果我们能够探明一个未知功能的蛋白质上有哪些已知的结构域,那就大致可以推测出它的功能了

3.1 Pfam

在Pfam平台(现已停用)查找该蛋白相关结构域

TIR就是胞内域,可以点开查看其具体注释

  • 有一些平台,可以输入蛋白质序列,然后检测出其上有已知的结构域
    • 可以获得结构域的功能注释和功能信息

3.2 Cath

结构分类是针对结构域进行的,而不是整个蛋白质 ,所以CATH中一个蛋白质可能对应多个分类

  • 蛋白质结构分类数据库
    • CATH分类对象是PDB中存储的已经测定结构的结构域名(domain)
  • 分类代码

目前CATH已经为15万个蛋白质的50多万个结构域进行了分类,可以归类进5481多个蛋白质超家族中(2024.3.16)

  • 聚类
    • 所有拥有2.70.40.10.10.1.1.2.1结构域的蛋白质序列,进行聚类

3.3 SCOP2

4层分类

专用数据库

1 KEGG

KEGG:生物总的代谢通路图,百科全书

1.1 三羧酸循环

点击pathway-metabolism(global)-metabolic pathways

  • 节点:代表特定的生化分子,如酶、代谢物或中间体。节点通常会被标注为特定的化合物(如“Fumarate”),或者以数字代码表示特定的酶,如“1.1.1.37”代表某个特定的酶的EC编号(酶的编码系统)。
  • 线:代表生化反应,显示了分子如何转化为另一种分子,或者如何通过酶的作用被修改。通常,线的方向表示反应的方向。

  • 进一步详细查看三羧酸循环的具体路径

  • 具体点开一个酶,展示了一个pathway条目,可以发现KO体系,提供酶在代谢网络中的上下文,包括它所参与的所有生化通路

  • 酶学分类:提供对该酶更具体的生化特征的深入信息,包括它催化的特定反应以及在这些反应中使用的底物和产物。

1.2 Toll样受体(Toll-like receptors, TLR)

点击pathway之后,选择“5 Organismal Systems”,选择“5.1”里的“Toll-like receptor signaling pathway”

人类的Toll样受体信号通路的简化示意图,用于展示我们的免疫系统如何通过Toll样受体(TLRs)识别病原体。

  1. TLRs:不同的TLRs(例如TLR1, TLR4, TLR5)识别病原体的特定成分。
  2. 信号传递:当TLRs识别到病原体后,它们激活信号传递分子,如MyD88,开始一系列的反应。
  3. 激活核因子:信号传递激活了如NF-κB这样的转录因子。
  4. 产生细胞因子:激活的转录因子调控炎症反应相关的基因,引导细胞因子(如TNF-α, IL-1β, IFN-α/β)的产生。
  5. 产生效应:细胞因子促进炎症反应,吸引免疫细胞到感染部位,并激活抗病毒防御机制。

  • 随便点开一个toll样受体,比如TLR4,可以看到它的详细信息

可以提供很多信息,比如这里提供了药物靶点,就是针对这个TLR4设计的药

2 OMIM

搜索阿尔兹海默症AD,找到了相关的基因

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1545613.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

(2022级)成都工业学院Java程序设计(JAVA)实验二:类和对象

写在前面 1、基于2022级软件工程/计算机科学与技术实验指导书 2、代码仅提供参考 3、如果代码不满足你的要求,请寻求其他的途径 运行环境 window11家庭版 IntelliJ IDEA 2023.2.2 jdk17.0.6 实验要求 1、 控制台菜单。在 Exp02_x 类中添加一个方法 menu_x&…

Flutter开发进阶之瞧瞧BuildOwner

Flutter开发进阶之瞧瞧BuildOwner 上回说到关于Element Tree的构建还缺最后一块拼图,build的重要过程中会调用_element!.markNeedsBuild();,而markNeedsBuild会调用owner!.scheduleBuildFor(this);。 在Flutter框架中,BuildOwner负责管理构建…

Java基础--128陷阱

问题引入 Integer a 123; Integer b 123; System.out.println(ab); 结果为true。 但是如果代码如下 Integer a 1230;Integer b 1230;System.out.println(ab); 这个的结果就是false。 问题解决 当Integer a 123时,其实他底层自动转换成了Integer a Inte…

数据库专题(oracle基础和进阶)

前言 本专题主要记录自己最近学的数据库,有兴趣一起补习的可以一起看看,有补充和不足之处请多多指出。希望专题可以给自己还有读者带去一点点提高。 数据库基本概念 本模块有参考:数据库基本概念-CSDN博客 数据库管理系统是一个由互相关联的…

Arduino+ESP8266+华为云物联网平台实现智能开关

前言 最近在做一个物联网项目,涉及到智能开关的开发。目前已经实现简单的TCP通信远程控制,但是考虑到后期的设备管理以及设备通信所需要的技术和服务器的维护成本,我决定将设备接入云平台。本文将详细阐述如何利用华为云的物联网平台&#x…

Linux系统下安装部署Linux管理面板1panel

目录 一 1panel介绍 1、1Panel简介 2、1Panel特点 二、本地环境规划 1、本此实验目的 2、本地环境部署 三、部署1Panel(在线安装) 1.创建安装目录 2.一键部署1Panel 3.检查1Panel服务运行状态 4.检查1Panel监听端口 四、关闭防火墙和selinux…

小动物主动跑轮和被动跑轮的功能和目的?

小动物主动跑轮和被动跑轮在运动方式、实验目的和设计构造方面上是有区别的。 运动方式不同。主动跑轮是由动物自主运动来推动跑轮转动的。这种设置可以真实地反映动物自发的运动情况。相对地,被动跑轮则是一种强迫运动的方式,通常由电机带动跑轮转动从…

视频生成Sora的全面解析:从AI绘画、ViT到ViViT、TECO、DiT、VDT、NaViT等

前言 真没想到,距离视频生成上一轮的集中爆发(详见《Sora之前的视频生成发展史:从Gen2、Emu Video到PixelDance、SVD、Pika 1.0》)才过去三个月,没想OpenAI一出手,该领域又直接变天了 自打2.16日OpenAI发布sora以来(其开发团队包…

基于yolov8安全帽检测的系统

基于yolov8安全帽检测的系统 项目描述: 安全头盔检测(计算机视觉) 1.自训练数据集1538张数据图片,进行标注,并进行100轮的训练,准确率达0.966 2.使用 Flask 和 Ultralytics YOLOv8 模型开发了一个 Web 应…

Matlab有限差分法求解狄利克雷(Dirichlet)边界的泊松(Poisson)问题,边界值为任意值

参考l链接: 有限差分法简介有限差分法-二维泊松方程及其Matlab程序实现弹性力学方程 有限差分法matlab,泊松方程的有限差分法的MATLAB实现 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%% Matrix method for Poisson Equation …

景联文科技上新高质量大模型训练数据!

在过去的一年中,人工智能领域呈现出了风起云涌的态势,其中模型架构、训练数据、多模态技术、超长上下文处理以及智能体发展等方面均取得了突飞猛进的发展。 在3月24日举办的2024全球开发者先锋大会的大模型前沿论坛上,上海人工智能实验室的领…

[Linux]知识整理(持续更新)

前言 Linux的目录结构 Linux的目录结构是一个树型结构 Windows 系统可以拥有多个盘符, 如 C盘、D盘、E盘 Linux没有盘符这个概念, 只有一个根目录 /, 所有文件都在它下面 Linux路径的描述方式 第一章 基本命令 命令格式 例:ls –la /etc 说明: 1)个别命令使用不遵循…

照片尺寸怎么修改?高效快速处理方法

在分享照片到不同平台时,也需要符合不同尺寸要求,在不同场景中,应该如何修改图片尺寸呢?还有不同的证件类型有着不同的证件照尺寸要求,因此我们需要根据要求对证件照尺寸进行调整,接下来就介绍几个可以图片…

35.基于SpringBoot + Vue实现的前后端分离-在线考试系统(项目 + 论文)

项目介绍 本站是一个B/S模式系统,采用SpringBoot Vue框架,MYSQL数据库设计开发,充分保证系统的稳定性。系统具有界面清晰、操作简单,功能齐全的特点,使得基于SpringBoot Vue技术的在线考试系统设计与实现管理工作系统…

Netty学习——源码篇6 Pipeline设计原理 备份

1 Pipeline设计原理 在Netty中每个Channel都有且仅有一个ChannelPipeline与之对应,它们的组成关系如下图: 通过上图可以看到,一个Channel包含了一个ChannelPipeline,而ChannelPipeline中又维护了一个由ChannelHandlerContext组成的…

HTTP工具类封装与http请求响应

一、前言 在Java web系统中经常需要与外部接口进行对接,比较多的方式就是是http的方式。在springboot中,我们可以直接使用封装的feign如:我们去请求微信的接口,定义一个client客户端,使用feign框架去请求就可以。但是…

全志A33编译踩坑!

领导给了个新sdk。然后开编。 编译的标准流程是这样 cd lichee ./build.sh config 这还得了,每次都选很烦(虽然只需要选一次),于是新写法是这样 ./build.sh -p sun8iw5p1_android -k linux-3.4 -b evb 果断提示 ERROR: inv…

[深度学习]yolov8+streamlit搭建精美界面GUI网页设计源码实现三

【设计思路介绍】 为了使用YOLOv8和Streamlit搭建一个精美的界面GUI网页,你需要遵循几个关键步骤。以下是一个简化的流程,帮助你设计并实现这一目标: 1. 环境准备 安装YOLOv8 YOLOv8是一个先进的实时目标检测模型。你需要先下载并安装YOL…

Excel双击单元格后弹窗输入日期

Step1. 在VBE界面新建一个窗体(Userform1),在窗体的工具箱的空白处右键,选中添加附件,勾选Calendar control 8.0,即可完成日历的添加。 PS:遗憾的是, Office 64 位没有官方的日期选择器控件。唯一的解决方案是使用Excel 的第三方日历。 参考链接:How to insert calen…

2024最新最全Selenium自动化测试面试题!

1、什么是自动化测试、自动化测试的优势是什么? 通过工具或脚本代替手工测试执行过程的测试都叫自动化测试。 自动化测试的优势: 1、减少回归测试成本 2、减少兼容性测试成本 3、提高测试反馈速度 4、提高测试覆盖率 5、让测试工程师做更有意义的…