20W+喜爱的Pathview网页版 | 整合表达谱数据KEGG通路可视化

news2024/11/28 8:26:17

Pathview网站简介

网址:https://pathview.uncc.edu/

图片

图片

前段时间介绍了一个R包 — Pathview。它可以整合表达谱数据并可视化KEGG通路,操作是先自动下载KEGG官网上的通路图,然后整合输入数据对通路图进行再次渲染。从而对KEGG通路图进行一定程度的个性化处理,并且丰富展示信息。

Pathview包6大功能分别是:化合物和基因集同时绘制在通路上,多状态或样本同时或分开绘制,展示离散数据标记上下调或是否存在,不同来源的ID的转换和映射,不同物种使用时名称的处理和未注释物种的处理 (直接用于宏基因组或微生物组数据)。具体见Pathview包:整合表达谱数据可视化KEGG通路

Pathview网站是在该包的基础上,对一些核心功能进行延伸:

 
  • 简单直观的图形使用界面。

  • 用的是RESTful API,因此访问速度很快。(该API是一个bash脚本,通过cURL使用。cURL是一个利用URL语法在命令行下工作的文件传输工具)

  • 有完整的通路分析流程,支持多组学数据和整合分析。

  • 交互式并带有超链接的结果图能更好地解释数据。

  • 通过同步常规数据库获得最完整以及最新的通路数据。

  • 所有资源和分析都是开源的。

  • 注册免费,登录之后可以共享数据和保存分析历史。

  • 有完整的在线Help和帮助文档。

  • 多个示例带你快速上手使用。

输入数据

 

输入数据是最重要的且是唯一一个没有默认值的选项。储存数据矩阵的文件格式都是以tab或者逗号分隔的txt或者csv文件,点击编辑框可设置对照组和处理组样本。

图片

数据类型主要分为两类:

  • 任何类型基因数据(表达谱、组蛋白修饰、染色质开放性等)的数据表,需要包含一列基因ID用于数据映射,比如ENTREZ GeneSymbolRefSeqGenBank Accession NumberEnzyme Accession Number等等,在选项框中共有13种基因ID可选。这里的基因数据是一个广泛的概念,包括基因、转录本、蛋白质、酶及其表达、修饰和任何可测量的属性。基因数据文件的第一列是基因ID,第一行是样本ID。如果文件只有一列基因ID也是可以的。

  • 化合物数据也是如此,包括代谢物、药物、小分子和它们的测量值和属性,以及用于数据映射的化合物ID,选项框中化合物数据库ID共计22种,常用的是KEGG数据库ID。除了行是化合物,化合物数据文件格式和基因数据文件的基本一致(或许还需要指定样本列和实验设计)。

输出结果

 

结果主要是数据整合得到的通路图,有两种:原始KEGG视图和Graphviz视图。

图片

  • 原始KEGG视图将数据渲染到KEGG通路图(栅图,比如png格式),带有大量的前后关系和元数据,解释性更强。浏览器版本中该图是可交互的,每个Node都带有超链接,可点击它们转到更详细的解释。

  • 3种不同形状表示不同的对象。

  • 4种箭头表示四种对象之间的关系。

  • 12种蛋白质-蛋白质相互作用关系

  • 4种基因表达之间的关系。

  • 1种酶-酶关系:两步连续反应。

图片

  • Graphviz视图是使用Graphviz引擎(矢量图,如pdf格式)渲染的通路图,在点/线属性和图形拓扑上更好理解。

  • 16种连线类型

  • 4种节点类型

操作

网页版用示例展示了4个主要功能:多样本的KEGG视图,多样本的Graphviz视图,ID mapping和整合通路分析。最后一个会得到可视化文件和通路分析的结果统计文件(可下载),耗时较长。

该网站最突出的功能是ID mapping,整合的Mapper模块将13种的基因或者蛋白质ID,22种化合物或者代谢物ID比对到标准KEGG的基因或化合物ID。换句话说,能将输入的不同类型的数据ID精准比对到目标KEGG通路。

输入和输出选项/Input&Output

物种|Species:对应物种的KEGG号,科学名称或公用名称,比如可以在该选项中直接选择KEGG OrthologyKO——ko-KEGG Orthology-N。常用的是hsa——home sapiens-human。具体根据导入的数据类型判断。

通路选择|Pathway Selection:对于连续型数据采用GAGE(Generally Applicable Gene-set Enrichment)方法或者离散型数据(比如基因或者化合物ID表)采用over-representation方法做通路分析(GO、GSEA富集分析一网打进)

GAGE是一种自限性原假设的基因集分析方法,充分利用了表达谱数据,并将表达数据分为实验集和通路集分别进行分析处理,会考虑到基因集的上调和下调,得到更为准确和科学的结果。

如果没有得到显著的通路,会自动选择靠前的几个通路。基因数据和化合物数据一起分析的时候,会先各自筛选通路,然后通过meta分析将结果组合成更强大的全局统计量/ p值。

Pathway Selection一般建议选用auto,这在不确定通路的情况下再适用不过。若想自定义几个通路,则可以选择Manual

图片

通路ID|PathwayID:是KEGG的通路ID,一般是5位数字,当通路选择是auto时该选项自动关闭。

输出后缀|Output Suffix:在结果文件名后面添加的后缀。

图形选项/Graphics

Kegg Native:有KEGG图形渲染(.png)和Graphviz引擎渲染(.pdf)。Graphviz引擎渲染可能会因为KEGG的xml数据文件缺失数据而丢失点。

Same Layer:图层控制

  • Kegg Native项被勾选时,点的颜色会和通路图在一个图层,修改颜色的时候,节点标签不变。

  • Kegg Native项未被勾选时,线/点类型的图例会在一个图层,节点标签也会从原来的KEGG基因标签(或EC编号)变为官方基因符号。

离散型(基因和化合物数据)|Discrete:基因数据或者化合物数据一般是作为连续型数据使用。但也可以选择被视为离散数据,这样就可以以p值,倍数变化来选择显著的基因或者化合物列表,从而个性化标出离散数据中是否存在上下调。

但是网页版本没有设置选值的选项,还是Pathview包更适合使用这个设置。

Keys Alignment:当基因数据和化合物数据都不为NULL时如何对齐颜色标签。默认选项为“ x”(由x坐标对齐)和“ y”(由y坐标对齐)。

多状态|Multi State:默认值为TRUE,判定多状态(指多个样本或多列)基因数据或化合物数据是否应该整合并绘制在一张图中。

换句话说,不勾选“Multi State”的情况下,基因或者化合物节点会切成多个来对应数据中的状况数或者样本数,即由”一张图每个节点多种颜色”变为”多张图每个节点一种颜色”。

数据匹配|Match Data:默认是TRUE,判定基因数据或化合物数据的样本数是否匹配。

假设基因数据和化合物数据的样本大小分别为m和n(m>n),多余的空列NA(不加颜色显示)会在保证样本大小一致的情况下添加部分到化合物数据中,如此,才能在Multi StateTRUE时,得到相同数量的基因节点和化合物节点片段。

Signature Position:pathview的署名位置,默认是左下角。选择“None”的时候不显示。

Key Position:颜色标签的位置,默认是“左上角”。一般上面是基因节点,下面是化合物节点。选择“None”的时候不显示。

化合物节点名偏移|Compound Label Offset:设置化合物节点标签在默认位置或者节点中心处的长度(仅在Kegg Native=FALSE时有用)。这个选项在化合物用全名标记时很实用,能决定化合物节点的外观。

颜色选项/Coloration

节点计算|Node Sum:在比对有多基因或化合物时选择计算节点总数的方法。默认值是Sum,还有meanmedianmax,max.absrandom

空值的颜色|NA Color:基因数据或者化合物数据中缺失值或NA值的颜色。选项有透明"transparent"和灰色 "grey"

限制(基因和化合物)|Limit (Gene and Compound):基因数据或化合物数据转换为颜色时的限制值(即颜色标签的数值范围)。

这个选项是数值型的,一个框可以输入用逗号分隔的两个数字,比如“1,2”(不带引号)—— 第一个数字表示下限,第二个数字表示上限。输入单个值“n”的时候,网站认为范围是(-n, n)。

Bins (Gene and Compound): 在基因数据和化合物数据转换为颜色时,此参数可以设置颜色标签的长度。预设值为10。

Low, Mid, High (Gene and Compound):低,中,高(基因和化合物),这些参数可以选择“基因数据”和“化合物数据”的色谱。

“基因数据”和“化合物数据”的默认数据(低-中-高)分别是“绿色-灰色-红色”和“蓝色-灰色-黄色”。

这里既可以用颜色的通用名称(绿色,红色等),也可以用十六进制颜色代码(比如00FF00,D3D3D3等)或颜色选择器指定颜色。

网页版优势

以上是网页版的参数选择,较Pathview包而言少了Split Group|分组扩展节点|Expand Node功能,个别参数的灵活性也待改进,但网页版不需要占用本地内存,KEGG视图的节点能超链接到更详细的信息,而且多通路分析作为网页版最大的优势,有着完整的通路分析流程,支持多组学数据和连接公共通路。

这一步在本地的话还需要用gage包得到基因集在KEGG数据库的所有通路分析结果,代码如下:

> library(gage)
> data(gse16873)
> cn <- colnames(gse16873)
> hn <- grep('HN',cn, ignore.case =TRUE)
> dcis <- grep('DCIS',cn, ignore.case =TRUE)
> data(kegg.gs)
> #pathway analysis using gage  用gage做通路分析
> gse16873.kegg.p <- gage(gse16873, gsets = kegg.gs,
+ ref = hn, samp = dcis)
> #prepare the differential expression data  准备差异表达数据
> gse16873.d <- gagePrep(gse16873, ref = hn, samp = dcis)
> #equivalently, you can do simple subtraction for paired samples 得到成对的样本
> gse16873.d <- gse16873[,dcis]-gse16873[,hn]
> #select significant pathways and extract their IDs 得到重要通路的ID
> sel <- gse16873.kegg.p$greater[, "q.val"] < 0.1 & !is.na(gse16873.kegg.p$greater[,
+ "q.val"])
> path.ids <- rownames(gse16873.kegg.p$greater)[sel]
> path.ids2 <- substr(path.ids[c(1, 2, 7)], 1, 8)
> #pathview visualization Pathview可视化
> pv.out.list <- sapply(path.ids2, function(pid) pathview(gene.data = gse16873.d[,
+ 1:2], pathway.id = pid, species = "hsa"))

网页版本实现方式如下——Example 4

图片

导入必要的数据,这里主要是设置了Pathway Selectionauto,选完之后点Submit就能得到完整分析结果,出来的页面的中心处是设置说明,右侧Completed下是分析结果和分析日志。

图片

展示的是6种结果中的oxidative phosphorylation-氧化磷酸化代谢途径的结果。

图片

完整结果可看:

https://pathview.uncc.edu/resultview?analyses=5ddcd97621bd9&id=hsa-Homo%20sapiens&suffix=multistatekegg&autopathwayselection=True

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1897025.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

揭秘数据之美:【Seaborn】在现代【数学建模】中的革命性应用

目录 已知数据集 tips 生成数据集并保存为CSV文件 数据预览&#xff1a; 导入和预览数据 步骤1&#xff1a;绘制散点图&#xff08;Scatter Plot&#xff09; 步骤2&#xff1a;添加回归线&#xff08;Regression Analysis&#xff09; 步骤3&#xff1a;分类变量分析&…

[数据集][目标检测]护目镜检测数据集VOC+YOLO格式888张1类别

数据集格式&#xff1a;Pascal VOC格式YOLO格式(不包含分割路径的txt文件&#xff0c;仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数)&#xff1a;888 标注数量(xml文件个数)&#xff1a;888 标注数量(txt文件个数)&#xff1a;888 标注类别…

Python爬虫教程第0篇-写在前面

为什么写这个系列 最近开发了个Python爬虫的脚本&#xff0c;去抢一个名额&#xff0c;结果是程序失败了&#xff0c;中间有各种原因&#xff0c;终究还是准备不足的问题。我想失败的经验或许也可贵&#xff0c;便总结一下当初从0开始学Python&#xff0c;一步步去写Python脚本…

windows中使用nssm设置nginx开机自启动

1、下载nssm工具 https://nssm.cc/release/nssm-2.24.zip 2、解压并根据自己电脑的位数定位到64或32 3、执行nssm.exe install 4、执行命令启动服务并设置开机自启动 #启动服务 net start nginxService #开机自启动 sc config nginx-service startauto

延边幼儿园1*3 OLED柔性屏翻页一体机安装项目

一、产品介绍 本次项目在吉林省延吉市延边幼儿园内&#xff0c;引入了先进的55寸1*3 OLED柔性屏翻页一体机。该设备集高清显示、灵活翻页、互动教学等功能于一体&#xff0c;专为现代幼儿教育环境设计&#xff0c;旨在通过科技手段提升教学质量&#xff0c;丰富教学手段&#x…

某积分商城任意金额支付漏洞分析利用及思考

扫码领取网安教程 大部分开发人员在开发时都会有一种思维惯性&#xff0c;传参处处有校验处处都可信&#xff0c;但这个等式并非恒成立 前言 这个漏洞是在工作中例行渗透测试的时候发现的&#xff0c;虽然前端做了防篡改措施&#xff0c;但这是很经典的没有后端校验导致的任意…

获取VC账号,是成为亚马逊供应商的全面准备与必要条件

成为亚马逊的供应商&#xff0c;拥有VC&#xff08;Vendor Central&#xff09;账号&#xff0c;是众多制造商和品牌所有者的共同目标。这不仅代表了亚马逊对供应商的高度认可&#xff0c;也意味着获得了更多的销售机会和更广阔的市场前景。 全面准备与必要条件是获取VC账号的关…

如何选择小红书矩阵系统

在内容营销领域&#xff0c;小红书已成为一个不可忽视的平台&#xff0c;尤其是对于品牌和个人创作者来说。小红书矩阵系统&#xff0c;指的是一系列策略和工具&#xff0c;它们可以帮助用户在小红书上高效地管理和分发内容。本文将探讨如何选择适合自己需求的小红书矩阵系统&a…

光伏储能电厂设备连接iec61850平台解决方案

在当今日益发展的电力系统中&#xff0c;光伏储能技术以其独特的优势逐渐崭露头角&#xff0c;成为可再生能源领域的重要组成部分。而在光伏储能系统的运行与监控中&#xff0c;通信协议的选择与实现则显得至关重要。本文将重点介绍光伏储能系统中的Modbus协议、电力IEC 61850平…

数字经济时代:AI+引领企业数字化新高度

随着新一轮科技革命和产业变革深入发展&#xff0c;5G、大数据、云计算等技术的广泛应用&#xff0c;数字经济不仅在中国&#xff0c;且在全球范围内&#xff0c;都被视为推动经济增长的关键动力。以人工智能&#xff08;AI&#xff09;为例&#xff0c;《全球数字经济白皮书&a…

C++:Level3阶段测试

1、黑客小知识&#xff1a; &#xff08;1&#xff09;常用的黑客头文件有____和____。 &#xff08;2&#xff09;创建文件的函数叫做________。 &#xff08;3&#xff09;我更新了____个黑客头文件。 &#xff08;4&#xff09;万能头文件包含的黑客头文件是________。 …

【国产开源可视化引擎Meta2d.js】图层

独立图层 每个图元都有先后绘画顺序&#xff0c;即每个图元拥有一个独立图层&#xff0c;即meta2d.data().pens的数组索引。 可以通过meta2d.top/bottom/up/down等函数改变独立图层顺序。 分组图层 通过标签可以标识一个分组图层&#xff0c;通过meta2d.find(图层标签)获取…

TCP 的安全可靠

TCP的安全可靠 重传机制往返时间测量快速重传 流量控制拥塞控制 重传机制 T C P确认从另一端收到的数据以提供可靠的运输层&#xff0c;但数据和确认都有可能会丢失。 T C P通过在发送时设置一个定时器来解决这种问题。如果当定时器溢出时还没有收到确认&#xff0c;它就重传该…

AI大模型在各国政务领域应用深度研究报告 2024_龙政智搜

当前&#xff0c;生成式人工智能大模型成为各行各业关注重点和热议话题。以 ChatGPT、Bard 为代表的大模型是人工智能技术的一次飞跃&#xff0c;代表着 AI 技术从感知世界、理解世界向创造世界的跃迁。政务领域涉及大量内容生产及人与人交互环节&#xff0c;与生成式 AI 大模型…

Vue2基础 14:自定义指令

自定义指令 1 函数式1.1 案例--v-text放大10倍 2 对象式2.1 案例--v-fbind默认获取焦点&#xff08;函数式&#xff09;2.2 案例--v-fbind默认获取焦点&#xff08;对象式&#xff09; 3 自定义指令容易犯的错4 全局指令写法&#xff08;参考过滤器写法&#xff09;&#xff1a…

如何在 Odoo 16 中向新视图添加字段

例如,让我们看看如何在新视图或新操作窗口中创建“many2one”字段。 请考虑下面的屏幕截图,它表示不包含任何字段的新视图类型或客户端操作窗口。 我们现在可以将与“res.partner”关联的“多对一”字段引入到我们的新视图或客户端操作窗口中。 为了实现这一点,在 XML 模板…

趣玩双色球APP-PyQt5实现

开发环境及软件主要功能说明 开发环境 win10 Vscode Python10.5-64_bit 使用的python库 requests,bs4,pandas,PyQt5 主要功能说明&#xff1a; 数据库更新&#xff0c;保存&#xff0c;另存为功能过滤显示&#xff0c;根据期数&#xff0c;开奖日期&#xff0c;开间期号过…

如何利用Kimi解读Kimi的KVCache技术细节

最近Kimi公布了一篇Mooncake: Kimis KVCache-centric Architecture for LLM Serving的文章&#xff0c;详细介绍了Kimi背后的推理架构&#xff0c;因此笔者想到用Kimi解读Kimi&#xff0c;梳理相关技术要点如下&#xff0c;供大家参考&#xff1a; 文章 "Mooncake: A KVCa…

深入讲解C++基础知识(二)

目录 一、复合类型1.引用1.1 引用的定义和使用1.2 引用的注意事项 2. 指针2.1 指针的定义和使用2.2 指针的四种状态2.3 指针的注意事项2.4 其他指针操作2.5 void* 指针 3. 理解复合类型变量的声明4. const 限定符4.1 const 对象的注意事项4.2 const 和引用4.2.1 术语&#xff1…

MAS马氏数控制榫机控制面板维修显示屏MDK3113B

马氏数控榫头机触摸屏/显示面板维修型号&#xff1a;MX3810A&#xff1b;MDK3113B&#xff1b;MXK2815B MAS马氏数控开榫机触摸屏/显示面板维修型号&#xff1a; MX2108B&#xff1b;MD2108A&#xff1b;MJ105А 数控面板维修包括&#xff1a;马氏数控榫头机、开榫机、制榫机…