基因表达分析聚类分析

news2024/12/28 4:50:21

基因表达分析聚类&分析

1. Introduction to gene expression analysis

  • Technology: microarrays vs. RNAseq. Resulting data matrices
  • Supervised (Clustering) vs. unsupervised (classification) learning

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

  • 微阵列技术:

    • 制备DNA探针阵列并进行互补性杂交。

    • 变化:

      • 每个基因使用一个长探针。
      • 每个基因使用许多短探针。
      • 在基因组中制备瓦片状k-mer阵列。
    • 优点:

      • 可以专注于小区域的研究,即使每个细胞的分子数目很少也可以进行。
  • RNA测序(RNA-Seq)技术:

    • 从mRNA中测序短片段,并将其映射到基因组上。

    • 变化:

      • 计数映射到每个已知基因的读取数。
      • 在每次实验中重建转录组(reconstruct transcriptome de novo)。
    • 优点:

      • 提供数字化的测量,每次实验都可以进行新的转录组重建(de novo transcriptome reconstruction)。

微阵列技术:是一种生物技术,它允许研究者在单一实验中测量数千甚至数万基因的表达。这是通过创建包含许多特定DNA探针的阵列来实现的。这些探针可以设计为特异性地结合到特定的mRNA目标,从而允许研究者定量地测量每个基因的mRNA表达。微阵列技术可以提供全基因组的表达画像,帮助研究者了解不同条件下基因表达的变化。

RNA测序(RNA-Seq)技术:是一种基因表达剖析的先进技术。它使用下一代测序(NGS)技术,**从mRNA生成一系列短片段或“读取”,然后这些读取可以映射回参考基因组,从而确定它们来自哪个基因。**RNA-Seq技术比微阵列更精确,能检测更广泛的基因表达水平,也能发现新的转录和剪接事件。

值得注意的是,这两种技术各有优缺点。例如,微阵列技术成本较低,但其检测范围有限,只能测量已知的基因。而RNA-Seq虽然能提供更详细的信息,但成本更高,数据处理也更复杂。

DNA探针的制备一般涉及以下步骤:

  1. 确定目标:选择需要检测或分析的特定DNA序列作为目标。
  2. 合成探针:通过生物化学方法,合成一段与目标序列完全互补的DNA片段,即DNA探针。
  3. 标记:将探针与放射性、荧光或酶等标记物结合,以便在后续实验中检测和跟踪。
  4. 杂交:将标记的探针与待测样品进行杂交,探针会寻找并结合到与其序列完全匹配的DNA或RNA片段。
  5. 检测:通过放射性、荧光或酶等方式检测探针,从而确定目标序列是否存在,以及存在的数量。

基因测序之后就可以得到基因表达阵列,并可以对其进行分析
每一行代表不同的基因,每一列对应着不同的实验条件(如不同的组织细胞/不同疾病/不同人群/以及等等其他)

  • 对于每行数据,你可以看到同一个基因在不同实验下的差异表达
  • 对于每列数据,你可以看到不同试验下,整条基因组的差异

  • 对于基因测序数据,存在着很多潜在的任务,最典型的就是 聚类和分类 两种问题
    • Clustering【无监督学习】: 具有相似功能的基因表达往往会富集在一处,因此也揭示了潜在的结构
      • 注释:特定基因功能
      • 不提前注释
    • Classification【监督学习】: 从数据中提取特征,并且强制机器去学到这些不同类别之间数据特征的差异
      • 提前有注释,分类好的集群

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

评估聚类性能

聚类是一种无监督学习方法,常用于探索数据集中的自然分组或模式。在生物信息学中,聚类常常被用于基因表达数据分析,以发现具有相似表达模式的基因群

这里提到了两种常见的评估方法:鲁棒性和类别富集。

  1. 鲁棒性: 这种方法主要用于评估聚类的稳定性。这通常涉及到从数据集中随机选择样本进行聚类,然后重复这个过程。如果某个聚类在所有的子样本中都出现,那么我们就可以认为这个聚类是鲁棒的。如果聚类结果在多次随机抽样后变化不大,那么我们就可以认为这个聚类方法是稳定的。

  2. 类别富集:这种方法主要用于寻找在特定聚类中“过度表达”的基因类别。这是一种后验验证方法,可以用于评估聚类结果的生物学意义。例如,如果一个聚类包含了许多在某种生物过程中起作用的基因,那么我们就可以认为这个聚类可能与这个生物过程有关。这种方法也常常用于基因表达模式的发现。

  • 使用超几何分布来评估聚类结果

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

超几何分布是一种描述从有限的两类对象(例如正例和负例)的总体中无放回地抽取的概率模型。在生物信息学中,这种方法经常用于基因富集分析,以评估某个基因集合(例如一个聚类)中特定基因类别的富集情况是否超过了随机期望。

  • 为了具体说明,我们设

    • N为总体的大小
    • p为总体中标记为"+"的元素数量
    • N-p为标记为"-"的元素数量。
    • 我们随机抽取k个元素,其中m个标记为"+“,k-m个标记为”-"。
  • 超几何分布可以帮助我们计算出,在这种情况下,随机抽取k个元素中至少有r个"+"的概率。这个概率可以用来评估我们观察到的聚类中特定类别的基因数量是否比随机期望的要多。

  • "P-value of uniformity"和"P-value of single cluster containing k elements of which at least r are +"就是根据超几何分布计算出来的p值。

    • 如果p值很小(例如小于0.05),那么我们就可以认为观察到的富集情况是非常罕见的。
    • 因此可能不是随机产生的,而是有一些生物学的原因。
    • 这样就可以帮助我们找出聚类结果中生物学上有意义的模式。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

通过使用人类基因在成纤维细胞中的表达时间序列进行聚类分析。这个聚类分析将8600个人类基因划分到了五个主要的类别中。

A) 胆固醇生物合成:这个类别的基因可能主要涉及在细胞中生产胆固醇的过程。

B) 细胞周期:这个类别的基因可能主要参与控制细胞的生命周期,包括细胞的生长、DNA复制、分裂等过程。

C) 即时早期反应:这个类别的基因可能主要涉及细胞对各种刺激的快速反应,例如应对环境变化、压力或损伤。

D) 信号传导和血管生成:这个类别的基因可能主要参与细胞间的通信,以及血管的形成和发展。

E) 伤口愈合:这个类别的基因可能主要参与伤口修复和再生的过程。

每个类别都是由在相似条件下表达的基因组成的。这意味着这些基因可能在相同的生物过程中起作用,或者受到相同的调控机制影响。这种类型的分析对于理解基因的功能,以及它们如何在复杂的生物过程中协同作用非常有帮助。

总结

  • 两种分类方法

在分类问题中,通常有两种主要的方法:生成方法(Generative)和判别方法(Discriminative)。

  • 生成方法(Generative):

    • 生成方法试图学习数据的联合概率分布P(X, Y),然后使用贝叶斯定理来推导出条件概率分布P(Y|X)。生成模型能够产生新的数据样本,这是它们名字的由来。代表性的算法有贝叶斯分类器(例如朴素贝叶斯)和隐藏马尔可夫模型(HMM)等。
    • 生成模型将分类问题描述为概率问题,它在不同类别中建模特征分布,并使用概率计算进行决策。在基因发现(Gene Finding)问题中,隐藏马尔可夫模型就是一种常用的生成模型。
  • 判别方法(Discriminative)

    • 与生成方法不同,判别方法直接学习决策边界或者条件概率分布P(Y|X)。判别模型并不对数据的分布做假设,它们直接学习输入和输出之间的映射关系。代表性的算法有支持向量机(SVM)、决策树、随机森林、逻辑回归、深度学习等。
    • 判别模型不对底层分布进行建模,而是使用距离边界的距离来进行决策。在基因发现问题中,条件随机场(CRF)就是一种常用的判别模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1118811.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

(2)Nmap

笔记目录 渗透测试工具(1)wireshark 渗透测试工具(2)Nmap渗透测试工具(3)Burpsuite 1.工具简介 (1)定义 ①功能 网络扫描和嗅探工具包,三个主要基本功能: 探测一组主机是否在线 扫描主机端口、嗅探所提供的网络服务 推断出主机所用的操作系统 ②namp …

配置Linux

首先安装VMware: 安装说明:(含许可证的key) https://mp.weixin.qq.com/s/XE-BmeKHlhfiRA1bkNHTtg 给大家提供了VMware Workstation Pro16: 链接:https://pan.baidu.com/s/1q8VE3TkPzDnM3u9bkTdA_g 提取码&…

【【萌新的FPGA学习之快速回顾 水 水 】】

萌新的FPGA学习之快速回顾 水 水 上一条FPGA的更新在9 25 并且2个礼拜没写 verilog 了 正好 刷新一下记忆 FPGA CPU DSP 的对比 在数字电路发展多年以来,出现了 CPU、DSP 和 FPGA 三种经典器件,每个都是具有划时代意义的器件。CPU、DSP 和 FPGA 都有各…

[SQL开发笔记]在windows系统安装Postgres

一、软件简介 PostgreSQL是一种自由软件的对象-关系型数据库管理系统(ORDBMS),它以加州大学计算机系开发的POSTGRES,4.2版本为基础。PostgreSQL支持大部分的SQL标准并且提供了很多其他现代特性,如复杂查询、外键、触发…

5G来临,迎客莱带你探索运营商大数据的应用

随着5G时代的来临,不仅在算力的基础上得到了加强和保障,同时也丰富了计算的方式和模式,如边缘计算、霾计算等。计算方式和模式的改变,对于运营商来说,意味着更丰富的数据维度,更鲜活的数据和更强大的数据处…

1021 个位数统计

#include<bits/stdc.h> using namespace std; map<int,int>mp; int main(){string str;cin>>str;for(auto t:str){int kt-0;mp[k];}for(auto t:mp){cout<<t.first<<":"<<t.second<<endl;} }

find_element_by_id()方法的使用上。这个方法已经被弃用,建议使用find_element()方法替代。

from selenium import webdriver path chromedriver.exe browser webdriver.Chrome(path) url https://www.baidu.com browser.get(url) button browser.find_element_by_id(su) print(button) 修改后代码 from selenium import webdriver path chromedriver.exe browse…

国密https访问

前言 现在的SSL的加密算法实际上主要是国际算法&#xff0c;包括JDK&#xff0c;Go等语言也仅支持国际算法加密&#xff08;毕竟是国外开源项目&#xff09;&#xff0c;hash。随着国密算法的普及&#xff0c;比如openssl就支持国密了&#xff0c;还要新版本的Linux内核也开始…

识别准确率竟如此高,实时语音识别服务

前言 本文将介绍一个准确率非常高的语音识别框架&#xff0c;那就是FunASR&#xff0c;这个框架的模型训练数据超过几万个小时&#xff0c;经过测试&#xff0c;准确率非常高。本文将介绍如何启动WebSocket服务和Android调用这个服务来实时识别&#xff0c;一边说话一边出结果…

2.卷积神经网络(CNN)

一句话引入&#xff1a; 如果我们要做图像识别&#xff0c;用的是一个200x200的图片&#xff0c;那么BP神经网络的输入层就需要40000个神经元&#xff0c;因为是全连接&#xff0c;所以整个BP神经网络的参数量就是160亿个&#xff0c;显然不能这样来训练网络&#xff0c;所以我…

【RNA structures】RNA转录的重构和前沿测序技术

文章目录 RNA转录重建1 先简单介绍一下测序相关技术2 Map to Genome Methods2.1 Step1 Mapping reads to the genome2.2 Step2 Deal with spliced reads2.3 Step 3 Resolve individual transcripts and their expression levels 3 Align-de-novo approaches3.1 Step 1: Generat…

MySQL——八、MySQL索引视图

MySQL 一、视图1、什么是视图2、为什么需要视图3、视图的作用和优点4、创建视图5、视图使用规则6、修改视图7、删除视图 二、索引1、什么是索引2、索引优缺点3、索引分类4、索引的设计原则5、创建索引5.1 创建表是创建索引5.2 create index5.3 ALTER TABLE 6、删除索引7、MySQL…

英语——歌诀篇——歌诀记忆法

介词用法速记歌 年月季前要用in&#xff0c; 日子前面却不行。 遇到几号要用on&#xff0c; 上午下午又用in。 要说某时上下午&#xff0c; 用on换in才可行。 午夜黄昏和黎明&#xff0c; 要用at不用in。 差儿分到几点&#xff0c; 写个“to”在中间。 若是几点过几分&#xf…

操作系统【OS】进程的通信

共享存储 各个进程对共享空间的访问应该是互斥的&#xff08;可以使用P、V操作&#xff09;低级通信 基于数据结构的共享速度慢、限制多高级通信 基于存储区的共享数据的形式、存放的位置由通信进程控制速度快 消息传递 进程间的数据交换以格式化的消息为单位 消息头&#…

《windows核心编程》第2章 UNICODE字符

一、基础内容 1.1 UNICODE和UTF-8 下面是我个人的理解 UNICODE用2个字节来代表一个字符 UTF-8用1-4个字节来表示一个字符。可变长度的实现原理是ASCII字符只有7位&#xff0c;首位如果是1表示不是ASCII&#xff0c;说明这个字符和后面的字符联合起来形成新字符。 1.2 字符的…

【经历】跨境电商公司目前已在职近2年->丰富且珍贵

我入职了跨境电商公司 *背景 上篇说我在2021-11月离职了&#xff0c;交接期间已经拿到了新公司的offer&#xff0c;然后因上家公司项目交接时间比较长(原因在上篇)&#xff0c;导致新公司这边延迟了两次入职的时间&#xff0c;最后结果是直接无缝衔接了新公司&#xff08;周五…

#电子电器架构 —— 车载网关初入门

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 PS:小细节,本文字数7000+,详细描述了网关在车载框架中的具体性能设置。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 没有人关注你。也无需有人关注你。你必须承认自己的价值,你不能站在他…

IOS(刘海/留海/流海)屏幕判断

IPhone 8 没刘海屏幕 示例代码: // // ViewController.m // IOS_SAFEAREA_TEST // // Created by Hacker X on 2023/10/14. //#import "ViewController.h"interface ViewController ()endimplementation ViewController- (void)viewDidLoad {[super viewDidLoad]…

类的属性和方法(java)

类和对象的使用 创建类&#xff0c;设计类的成员创建类的对象通过“对象.属性”或“对象.方法”调用对象的结构 代码 public class Per {public static void main(String[] args) {// TODO Auto-generated method stub//创建Person类的对象Person p1 new Person();//Scanne…

清除浮动会对性能有什么影响吗?

清除浮动本身不会对性能产生显著的影响。它只是一种修复布局问题的技术&#xff0c;主要影响的是布局的正确性和可靠性&#xff0c;而不是性能。 然而&#xff0c;使用不当的清除浮动方法可能会对性能产生一些间接的影响。以下是一些与清除浮动相关的潜在性能问题&#xff1a;…