知识速递(六)|ChIP-seq分析要点集锦

news2024/11/19 10:23:09

书接上文组学知识速递(五)|ChIP-seq知多少?,当我们实验完成,拿到下机数据之后,我们最关心的就是,这个数据能不能用?所谓数据能不能用,其实我们会重点关注以下问题:

1)fastq的测序质量过不过关?

2)实验本身有没有问题,处理组与对照组是否有区别?

3)分析结果是否能挖掘出有用或者新的信息?

接下来,一起来找寻答案吧!

Q1  ChIP-seq的分析一般有哪些步骤呢?

ChIP-Seq即染色质免疫共沉淀-高通量测序,是指通过染色质免

1)FastQC用于简单的质量控制(quality control),FastQ_Screen用于检查测序数据有无污染;

2)经过质控的reads通过bowtie2与参考基因组比对;

3)ChIP-seq peaks则用MACS2进行分析;

4)这些peaks则通过ChIPseeker进行注释,motif预测则使用HOMER;

5)最后Peak差异则使用MAnrom1。

Q2  有效数据量达到多少比较合适?

一般情况下,分析得到差异显著的峰的个数随着reads数目的增加而以稳定的比例增加(图中实线所示),这种情况下reads的数目没有饱和。但是,当对Chip样品和Input DNA样品的峰之间的差异定义一个最小的富集阈值后,分析得到的新峰的比率逐渐减小(图中虚线所示),这时,当分析足够具有显著差异peaks数目的时候,结合位点数目的饱和点出现,可以通过定义几个不同的阈值,分析几个曲线到达平台期的数值来定义饱和的标准(图中桔黄色线所示),所指定的阈值即为最小饱和富集比率(the minimum saturation enrichment ratio,MSER),所得到的最小饱和富集比率可以作为测序深度选择的参数。

当然一般的Human或者mouse的ChIP-seq数据选择20 million的数据就已经足够了。测序量不够,一些比较弱的信号可能就会被噪音给盖住。

Q3  比对率达到多少是合格的?

一般来说,Illumina 测序的样品比例应该超过80%。不过也有例外,像IgG这样的非dna结合蛋白的标记率通常较低(约60%)。当然,这些数字也不是绝对的,不是说80%可以,79%就不成,我们得根据实验设计来做具体判断。

80%以上的数据比对到了基因组上,说明至少样本没有出问题。至于数据能不能用,还得看peak calling步骤结果,或者可以用IGV大致看看有没有信号。

Q4  如何理解覆盖度累积曲线中反映的信号富集程度?

对样本比对结果reads累积情况进行展示。一定长度窗口(bin)上reads数进行计数,然后排序,再依次累加画图。input 在基因组上理论是均匀分布,随着测序深度增加趋近于直线,实验组在排序越高的窗口处reads累积速度越快,说明这些区域富集的越特异。

narrow peak :富集程度高;broad peak:富集程度低。富集程度低不代表失败, 如broad peak。但是如果是转录因子, 富集程度低则需要谨慎对待。

Q5  什么样的igv可视化图可表征特异性片段富集?

Q6  不同的组蛋白组结合区域有什么区别?

虽然大多数ChIP-seq工具都是针对特定基因组区域的sharp peaks,如转录起始位点(TSS),但一些组蛋白修饰与大基因组结构域相关,从而导致富集区域广泛分布。H3K27me3和H3K36me3富集分布在几百个碱基上,而H3K9me3 peaks通常扩展到几兆碱基。增强子标记H3K27ac和H3K4me1产生sharp peaks,但有时也会构建broad富集区域,称为“超级增强子”。H3K4me3启动子标记还可以覆盖小鼠卵母细胞中的broad结构域。这种peak形状和宽度变化影响最佳计算工具的选择。比如,ROSE用于检测超级增强子位点,Music用于计算要研究样本平均的peaks宽度。

Q7  不同的组蛋白call peak的区别是什么呢?

对于不同组蛋白call peaks要根据在基因组结合的模式来判断是narrow 或者broad peaks,然后再判断用何种方法去把相应的peaks 鉴定出来。在得到peaks list以后要随机在peaks list选取几个peaks拿到UCSC上去check一下,看是否这些peaks足够准确。如不够sensitive则需要根据情况调整参数。

Q8  Call peaks的工具该如何选择?

ChIP-seq技术经过多年的发展,已经开发出了很多call peaks的工具,例如FindPeaks、MACS、PeakSeq、SISSRs等等,而且也都有大量发表的高水平文章引用这些工具,常用的是MACS。然而需要注意的是对ChIP-seq数据进行call peaks分析需要具体问题具体分析,这是由于不同的蛋白以及表观遗传学修饰在基因上分布的pattern是非常不一样的,有H3K4me3那样非常sharp的peaks,也有H3K27me3那样非常broad的peaks。因此针对不同的ChIP-seq应该用不同的工具。一般针对于peaks比较sharp的ChIP-seq 数据用MACS14,而针对peaks比较 broad的ChIP-seq数据,用MACS2 callpeaks broad模式。

Q9  怎么知道结合的位置是broad还是sharp呢?用igv看吗,还是有什么评估的方法?

主要先用IGV或者UCSC genome browser先看一下ChIP-seq的pattern更像哪一种patttern,然后再决定使用哪种工具。

Q10  如何在ChIP-seq结果中寻找目标富集的Motif?

有些蛋白是直接结合DNA,此种情况下,基于peak的motif预测结果,查找是否有自己的目标蛋白;

有些蛋白是与其它蛋白互作,间接结合在DNA上,此种情况下,建议先查下自己的目标蛋白是否有互作蛋白,然后再基于peak的motif预测结果,查找motif list中是否有与自己的目标蛋白互作的蛋白。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/927988.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

预防缓存穿透工具类

1. 前言 缓存穿透大家都知道,这里简单过一下 缓存和数据库中都没有的数据,而用户不断发起请求。比如查询id -1 的值 想着很多面向C端的查询接口,可能都需要做一下缓存操作,这里简单写了个自定义注解,将查询结果(包含…

黄金现货价格强弱怎么看?

相对强弱指标RSI由韦尔斯.怀尔德(Welles Wilder)提出,最初被用于期货交易之中,后来人们发现该指标用在现货黄金市场上的效果也十分不错,并对它的特点不断进行归纳和总结,如今已经成为市场上被应用得最为广泛的技术指标之一。 我们…

【C++】GCC对应C++的版本支持

1、查看当前GCC的版本 pffNUC12WSKi7:~$ gcc -v Using built-in specs. COLLECT_GCCgcc COLLECT_LTO_WRAPPER/usr/lib/gcc/x86_64-linux-gnu/9/lto-wrapper OFFLOAD_TARGET_NAMESnvptx-none:hsa OFFLOAD_TARGET_DEFAULT1 Target: x86_64-linux-gnu Configured with: ../src/co…

高忆管理股市资讯:保持合理息差水平 新一轮存款利率下调可期

1年期借款商场报价利率(LPR)日前再度下调,意味着实体经济融资本钱将随之下行。业内人士以为,当时商业银行负债端本钱仍显刚性,净息差已降至近年来低位,为保持合理息差水平,商业银行存款挂牌利率或许迎来新一轮下调。 上…

实训笔记8.25

实训笔记8.25 8.25笔记一、Flume数据采集技术1.1 Flume实现数据采集主要借助Flume的组成架构1.2 Flume采集数据的时候,核心是编写Flume的采集脚本xxx.conf1.2.1 脚本文件主要由五部分组成 二、Flume案例实操2.1 采集一个网络端口的数据到控制台2.1.1 分析案例的组件…

NFT Insider #104:The Sandbox:全新土地销售活动 Turkishverse 来袭

引言:NFT Insider由NFT收藏组织WHALE Members、BeepCrypto联合出品,浓缩每周NFT新闻,为大家带来关于NFT最全面、最新鲜、最有价值的讯息。每期周报将从NFT市场数据,艺术新闻类,游戏新闻类,虚拟世界类&#…

校园供水系统智能管理

import pandas as pd data1pd.read_excel("C://Users//JJH//Desktop//E//附件_一季度.xlsx") data2pd.read_excel("C://Users//JJH//Desktop//E//附件_二季度.xlsx") data3pd.read_excel("C://Users//JJH//Desktop//E//附件_三季度.xlsx") data4…

Unity3D Pico VR 手势识别 二

Unity3D Pico VR 手势识别_Cool-浩的博客-CSDN博客 此篇主要讲解怎么手势追踪,手势姿态自定义预制识别,不会导入SDK和配置环境的请看上一章节 环境要求 SDK 版本:2.3.0 及以上PICO 设备型号:PICO Neo3 和 PICO 4 系列PICO 设备系…

Elasticsearch 集成---Spark Streaming 框架集成

一.Spark Streaming 框架介绍 Spark Streaming 是 Spark core API 的扩展,支持实时数据流的处理,并且具有可扩展, 高吞吐量,容错的特点。 数据可以从许多来源获取,如 Kafka , Flume , Kin…

网络地址转换NAT-动态NAT的使用范围和配置-思科EI,华为数通

网络地址转换NAT-动态NAT的使用范围和配置 什么是动态NAT? 使用公有地址池,并以先到先得的原则分配这些地址。当具有私有 IP 地址的主机请求访问 Internet 时,动态 NAT 从地址池中选择一个未被其它主机占用的 IP 地址一对一的转化。当数据会话…

操作无法完成错误0x0000709的解决方法分享,教你快速修复错误代码问题

在使用计算机时,我们有时会遇到各种错误代码。其中之一是错误代码0x0000709,表示操作无法完成。这个错误代码可能由多种原因引起,但幸运的是,我们可以采取一些措施来解决它。本文将介绍错误代码0x0000709的含义,提供几…

使用vlc在线播放rtsp视频url

1. 2. 3. 工具链接: https://download.csdn.net/download/qq_43560721/88249440

人效九宫格城市沙龙暨《人效九宫格白皮书》发布会 —上海站,圆满结束

8月11日,在上海龙之梦万丽酒店,由盖雅工场主办的人效九宫格城市沙龙暨《人效九宫格白皮书》发布会 —上海站,圆满结束。 近百位来自多个行业的企业管理者及人力资源从业者汇聚一堂,共同探讨企业如何将盈利模式从数量增长转为质量增…

生成式 AI 在 Gartner 的 2023 年炒作周期中备受关注

原创 | 文 BFT机器人 01 背景 Gartner, Inc. 在其最新的 2023 年新兴技术炒作周期中,将生成人工智能(AI)定位于膨胀期望的顶峰,预计它将在未来两到五年内带来转型效益。这种人工智能变体是更广泛的新兴人工智能趋势的一部分,预示…

挂耳式运动耳机哪个款式戴着跑步舒服、挂耳式运动耳机推荐

对于和我一样热爱健身和运动的人来说,音乐就像一种调动情绪的"兴奋剂",在戴上耳机、聆听着动感的音乐时,我们能够感受到肌肉的收缩,完全沉浸在自己的世界中。这种状态让我们的训练状态达到巅峰,快乐倍增。因…

暖手宝方案

充电暖手宝因为它的便携性,既能供暖又能当充电宝使用而备受人们喜爱。航誉微推出充电暖手宝方案,主控芯片为航誉微单片机HU系列,具有智能温控功能,可定制冷光显示屏。一、暖手宝方案原理 目前,市场常见的暖手宝大致有三…

大数据领域都有什么发展方向

近年来越来越多的人选择大数据行业,大数据行业前景不错薪资待遇好,各大名企对于大数据人才需求不断上涨。 大数据从业领域很宽广,不管是科技领域还是食品产业,零售业等都是需要大数据人才进行大数据的处理,以提供更好…

钡铼技术BL102 PLC网关案例:远程调试西门子PLC程序

网口PLC 远程下载 1、打开网关配置软件,点击“搜索”,搜索局内网网关BL102 ​2、搜索到的网关设备,选择要配置的设备,双击登录 ​3、输入登录密码登录,默认是123456 ​4、配置网关网口采集PLC,远程下载暂…

行业首家·合规典范|昂首资本携手菲律宾警察局,树立经纪商合规经营典范

Anzo Capital 昂首资本携手菲律宾达沃市警察局长阿尔贝托P卢帕兹受邀参加由 AFP-PNP Southern Mindanao Press Corps( 菲律宾武装部队(AFP)和菲律宾国家警察(PNP)南部棉兰老岛记者团)举办的新闻发布会。 本次新闻发布会在菲律宾达沃市皇家曼达亚酒店举行,Anzo Cap…

STM32 + RTThread + UGUI

一、概述 开发板:STM32F103C8T6显示器:ST7735SRT-Thread:5.0.0 玩过 GUI 的小伙伴都知道,界面的显示是一个个像素点组合起来的,那么直接构建出来炫酷的 GUI 还是相对比较困难的,所以我们一般都会使用一些…