DTI综述(更新中)

news2024/11/19 7:23:35

Deep Learning for drug repurposing:methods,datasets,and applications

综述读完,觉得少了点东西,自己写个DTI综述

Databases(包括但不限于文章中的)

DATABASEDESCRIBE
BindingDB有详细的drug信息和对应的target,V5.1.7包括13791个drug entries(DTI)
KEGG(Kyoto Encylopedia of Genes and Genomes)集成数据库,包含来自基因,蛋白质,生物通路和人类疾病的大规模分子数据集,
Pubchem化学分子数据库及其对生物测定的活性,包括110万个化合物,27100万个substances以及297 million bioactivities,提供了多种分子信息,包括化学结构和物理性质、生物属性、生物活性、安全性、毒性信息、专利、文献、引用等
CCLE对抗癌药物有用
ChemDB提供了化学结构和分子性质,还预测了分子3D结构
CTD(Comparative Toxicogenomics Database)CTD提供了有关化学基因(chemical-gene?)或蛋白质相互作用、化学疾病和基因疾病关系的manually curated information
DGIdb从30个来源挖掘的DTI,包括DrugBank、PharmGKB、Chembl,DrugTarget Commons,Therapeutic Target Database
DrugBank将药物数据信息(chemical,pharmacological,pharmaceutical)和药物靶标信息(sequence,structure,pathway)结合
DrugCentral提供了active chemical entities and dug mode of action
DTC(Drug Target Commons)DTC整理了生物活性数据以及蛋白质分类into superfamilies,临床阶段和不良反应以及disease indications
DTP(Drug Target Profiler)DTP包含drug target生物活性数据并实现了网络可视化,还包含药物的基于细胞的药物反应图谱及其临床相位信息
GCLIDA包含DTI for G-protein-coupled receptors(GPCRs)
GtopDB包含已批准的药物和在调查中的化合物的定量生物活性数据
PathwayCommon包含生化反应、complex assembly、物理相互作用的,涉及蛋白质、DNA、RNA、小分子和复合物
PharmGKB包含临床以实和研究人员药物反应的遗传变异的综合数据
STITCH存储了化学品和蛋白质已知和预测的相互作用,涵盖了来自2031和生物体的9643763个蛋白质
Supertarget用于分析DTI和药物副作用
BioSNAPDTI
HUMANDTI
TTD(Therapeutic Target Database)提供了有关已知和探索中的therapeutic protein和nucleic acid targets,靶向疾病、通路信息以及针对每个target的相应药物信息
AOPEDF从DrugBank,TTD,PharmKGB收集物理DTI,并利用生物活性数据从chembl,bindingdb提取DTI,从DrugBANK中提取每种药物的SMIES格式的化学结构。

上述都是数据库,数据集还要自己造,或者看看别的论文的数据集开源没

数据集

datasetcontentssource
BindingDB药物序列,蛋白质序列,label(0/1)DrugBAN-github
BioSNAP药物序列,蛋白质序列,label(0/1)DrugBAN-github
HUMAN药物序列,蛋白质序列,label(0/1)DrugBAN-github

Representation Learning

Sequence-based

在这里插入图片描述

Drug representations(对于分子化合物).

(a) One-hot representation[67] of SMILES string. 1d表示是SMILES(simpified Molecular input Line Entry System)基于化学键规则的拓扑信息的文本符号

(b) Two-dimensional(2D) representation of molecular graph where each substructure was associated with a predefined bitvector.化学指纹,如圆形指纹,是分子的2D表示,它循环搜索每个原子周围的部分结构,然后使用哈希函数将分子转换为二进制向量。然而,由于生成的向量不仅高维稀疏,而且由于哈希函数,它们可能包含“比特碰撞”。

© Graph Neural network (GNN) was adopted to transfer a molecular graph to a vector where the atoms and bonds were denoted by nodes and edges, respectively.

此外,Mol2vec被提出并被认为是最具代表性的方法,将分子子结构视为“词”,化合物视为“句子”,并使用Word2Vec生成原子标识符的嵌入。尽管这些方法取得了很好的性能,但这种一维或二维表示的明显缺点是键长和三维构象的信息会丢失,这对于药物靶标的结合细节可能很重要。因此,3D 表示将在未来引起更多的关注。

在这里插入图片描述

Target representations.

(a) One-hot representation ofamino acids sequences.其中每个氨基酸可以简单地通过 one-hot 编码进行编码

(b) Contactmap was a kind of two-dimensional (2D)representation of the protein.蛋白质也可以用二维(2D)距离图来表示,该距离图计算三维蛋白质结构中所有可能的氨基酸残基对之间的距离。

© Graph convolutionalnetwork was used to learnthe representation of the three-dimensional (3D) protein graph withnodesrepresenting the various constituent non-hydrogen atoms.

同样,蛋白质序列通常由 20 个标准氨基酸组成。受NLP嵌入技术的启发,进一步开发了ProtVec和doc2vec,从蛋白质序列生成非重叠的3-gram子序列,并使用word2vec技术基于skip-gram模型预训练它们的分布式表示。然而,这些模型通常专注于学习与上下文无关的表示。与 k-gram 不同,UniRep旨在应用 RNN 从未标记的氨基酸序列中学习蛋白质的统计表示,这些氨基酸序列在语义上丰富且结构丰富、进化和生物物理基础。

Strodthoff等人提出了一种通用深度序列模型,该模型在未标记的蛋白质序列上进行了预训练,可以在下游分类任务上进行微调。然而,上面提到的蛋白质表示仅使用由 20 个不同的字符组成的蛋白质序列的特殊顺序提供的信息,而忽略了蛋白质的物理、化学和生物学特性。Rifaioglu等人提出了一种新的特征化方法,根据蛋白质序列的物理、化学和生物学特性,将蛋白质序列表示为数字矩阵。MDeePred与化合物类似,基于序列的表示方法没有考虑更多关于蛋白质三维结构的信息。

Network/graph-based representation learning

RDKit可以很容易地将SMILES字符串转换为分子图,对于分子,我们可以将原子和键表示为12条边连接的顶点(drug图c)。

对于蛋白质,表示蛋白质分子的一种更自然的方法是用代表蛋白质中各种组成非氢原子的节点对蛋白质图进行编码,是构建旋转不变的呈现。ProteinGCN有效地利用了原子间方向和距离,并通过图卷积公式捕获了局部结构信息(target图c)。与那些主要保留一阶或二阶邻近性的 GNN 相比,另一种有前途的技术,称为网络嵌入,用于学习全局特征。具体来说,它通常将节点、边及其特征映射到一个向量,它最大限度地保留了全局属性(例如结构信息)。[84]一旦获得节点表示,深度学习模型就可以应用于基于网络的任务,包括节点分类、[85]节点聚类[86]和链接预测。[87]另一个重要的基于图的深度学习方法,称为概率图,结合了各种神经生成模型、基于梯度的优化和神经推理技术。此外,在生物序列上训练的变分自动编码器 (VAE)[88] 已被证明可以学习有利于各种下游任务的生物学意义表示。简而言之,VAE是自动编码器的变体,它在输入空间和潜在空间之间提供随机映射。该映射在训练期间被正则化,以确保其潜在空间有能力生成一些新的数据。在蛋白质建模领域应用 VAE 的一个例子是学习细菌荧光素酶的表示。[89] 由此产生的连续实值表示可用于生成luxA 细菌荧光素酶的新功能变体。

深度学习模型(target-centered)

药物再利用工具通常旨在预测未知的drug-target或drug-disease相互作用,可分为“以靶点为中心”或“以疾病为中心的”方法。

Modeldrugtarget(pr)architecturetypeyear
DeepAffintiySMILESProtein SPS(Structural property sequence)RNN,CNN,Attention MechanismDTA2019
Rifaioglu et al.SMILESProtein sequence structural,evolutionary and physicochemical propertiesCNNDTA2020
GraphDTAMolecular graphProtein sequenceGCN,DNNDTA2019
DeepConv-DTIFingerprintProtein sequenceCNN,DNNDTI2019
MCPINNECFP&Mol2Vec&SMILESAmino acid sequence & ProtVecDNNCPI2019
Gao et alMolecular graphAmino acid sequenceGCN,LSTM,two-way attention mechanismDTI2018
TransformerCPIMolecular graphProtein sequenceTransformerCPI2020
Tsubaki et al.Molecular graphAmino acid sequenceGCN,CNN,attention mechanismCPI2019
TrimodelBiomedical knoledge graphs about drug and target-Knowledge Graph EmbeddingDTI2019
MOVE
MultiDTI
MolTrans
Yang li et al.
MIRACLE
ImageMol
DrugBANMolecular graphProtein sequenceGCN,CNN,biattentionDTI2023
CLOOME

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1105740.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

美国绿氢项目开发商NovoHydrogen完成2000万美元融资

来源:猛兽财经 作者:猛兽财经 猛兽财经获悉,总部位于美国科罗拉多州戈尔登的绿氢项目开发商NovoHydrogen今日宣布已完成2000万美元融资。 本轮融资由现代能源公司领投。 该公司打算利用这笔资金进一步扩大其团队,并将其绿氢项目的…

页面路由跳转 - 文件 File对象数据传递

目录 需求主要问题点问题点2.1 演示问题点2.2 演示及解决页面B 处理1 - 有问题页面B 处理2 - 没有问题 - 最终解决办法 【补充】 file 对象转为 base64 文件(即 将 file 对象转为 DataURL) 需求 页面A填写完信息(填写的信息中有上传的文件&am…

操作系统 —— 处理机调度与死锁

(一)简答题 1.高级调度与低级调度的主要任务是什么?为什么要引人中级调度? 参考答案: ①高级调度的对象是作业。它的主要任务是根据某种算法,决定 将外存上处于后备队列中的哪几个作业调入内存&#xff0c…

SW中的面部曲线命令

今天学习老王的画图教程中看到在使用面部曲线命令,找了变天没有,于是开始四处查找模式,终于在一个视频中看到了,原来不是在曲面命令中,而是在草图命令中,老王为了迷惑学员,把这个面部曲线命令放…

vite+vue3.0 使用tailwindcss

参考资料: 安装 - TailwindCSS中文文档 | TailwindCSS中文网 npm install -D tailwindcss npm install postcss npm install autoprefixer npx tailwindcss init -p 生成/src/tailwind.config.js和/src/postcss.config.js配置文件 在/src/tailwind.config.js配置文件…

【广州华锐互动】VR建筑安全培训体验为建筑行业人才培养提供有力支持

随着建筑行业的快速发展,建筑施工安全问题日益受到广泛关注。然而,传统的安全培训方式往往缺乏实践性和真实性,难以让员工真正掌握安全操作技能。近年来,虚拟现实(VR)技术的广泛应用为建筑施工安全培训提供了新的机遇。 虚拟现实技…

私有化部署助力企业信息安全,WorkPlus助您完美替代企微、钉钉、飞书!

在企业通讯领域,企业微信、钉钉和飞书等平台早已成为众多企业的首选。然而,对于一些企业来说,依赖公有云平台带来的数据安全和隐私问题仍然是一个隐患。因此,越来越多的企业开始关注私有化部署的解决方案。而在这个领域&#xff0…

JAVA转GO

GO 环境配置 go环境 下载go并安装(win下),环境变量他自己要配置上 https://dl.google.com/go/go1.21.3.windows-amd64.msi 验证是否安装成功: //打开cmd go versionVSCODE环境 下载VSCODE…略 配置VSCODE的环境 下载插件 go开发工具包 打开cmd,或者VSCODE自带的终端,…

OFDM基本原理

一、OFDM简述 OFDM 的全称是 Orthogonal Frequency Divisition Multiplexing,是一种多载波调制技术,其能有效对抗频率选择性衰落,克服信号符号间干扰。OFDM的技术的核心思想是将宽频率载波划分成多个带宽较小的正交子载波,并使用这…

2020年亚太杯APMCM数学建模大赛B题美国总统的经济影响分析求解全过程文档及程序

2020年亚太杯APMCM数学建模大赛 B题 美国总统的经济影响分析 原题再现: 美国总统选举每四年举行一次。 2020年是美国总统大选年,共和党候选人唐纳德特朗普和民主党对手乔拜登竞选总统。 甲乙双方候选人在金融贸易,经济金融治理,…

【嵌入式开发问答】不是普通的嵌入式八股

1. 进程、线程、堆栈、溢出 【问:】 进程的堆栈的物理内存是什么时候分配的? 堆栈的大小限制是多大?这个限制可以调整吗? 当堆栈发生溢出后应用程序会发生什么? 【答:】

七个开发者不可不知的VS Code小技巧

本文就来分享 7 个极大提高开发效率的 VS Code 技巧! 目录 1.固定滚动(Sticky Scroll) 2.命令面板(Command Palette) 3.自定义代码片段(Custom Snippets) 4.文件查找(File Finde…

软件测试方法分类

软件测试方法种类繁多,有白盒测试、黑盒测试、静态测试、动态测试、集成测试等等,记忆起来容易混乱,傻傻分不清楚,如果把软件测试方法进行分类, 就会清晰很多。现在小峰把常用的软件测试方法列出来,让大家更容易区分记…

百度发布文心大模型4.0,百度搜索实现重构;AI报告2023

🦉 AI新闻 🚀 百度发布文心大模型4.0,百度搜索实现重构 摘要:10月17日,百度创始人李彦宏在百度世界2023上发布了文心大模型4.0,并开启邀请测试。这是迄今为止最强大的文心大模型,提升了理解、…

vue 自定义指令 -- 指令的值

vue 自定义指令 – 指令的值 **创建 工程: H:\java_work\java_springboot\vue_study ctrl按住不放 右键 悬着 powershell H:\java_work\java_springboot\js_study\Vue2_3入门到实战-配套资料\01-随堂代码素材\day05\准备代码\05-自定义指令-指令的值 vue --vers…

HarmonyOS 语言基础类库开发指南上线啦!

语言基础类库提供哪些功能?多线程并发如何实现?TaskPool(任务池)和 Worker 在实现和使用场景上有何不同? 针对开发者关注的并发等语言基础类库的相关能力,我们在新推出的语言基础类库开发指南中提供了详细的…

pip报failed to create process

使用pip命令的时候报failed to create process 1、错误提示窗口如下图 2、报这个错误的原因,是因为你改动了python的目录名称或位置。因为,我的电脑是安装了anaconda2和anaconda3的,我想让python2和python3共存,就将anaconda2和a…

一些前端面试思考

回流和重绘 先牢记这句话,回流必将引起重绘,而重绘不一定会引起回流。回流的代价要远大于重绘。 当你给一个元素更换颜色,这样的行为是不会影响页面布局的,DOM树不会变化,但颜色变了,渲染树得重新渲染页面&…

可以充当销售的高品质画册是怎么制作的?

一本优秀的宣传画册就如同一个销售员,具有卓越的灵魂,可以让人达到赏心悦目的视觉效果。如何做出这种高品质的宣传画册呢? 其实很简单,FLBOOK里面汇集了各种各样的宣传画册模板 ,只需一键套用模板制作,你也…

算法通过村第十五关-超大规模|白银笔记|经典问题

文章目录 前言从40个亿中产生一个不存在的整数位图存储数据的原理使用10MB来存储如何确定分块的区间 用2GB内存在20亿的整数中找到出现次数最多的数从100亿个URL中查找的问题40亿个非负整数中找出两次的数。总结 前言 提示:人生之中总有空白,但有时&…