Rdkit|化学指纹(fingerprint)

news2024/11/23 4:56:14


github:地址

文章目录

  • Rdkit|化学指纹(fingerprint)
  • 化学指纹(fingerprint)
    • RDKFingerprint
    • Morgan指纹
      • 提供的指纹信息存储在字典中
    • MACCS指纹
    • AtomPair指纹
    • TopologicalTorsion指纹
    • 参考

Rdkit|化学指纹(fingerprint)

化学指纹(fingerprint)

RDKit中还有许多其他类型的分子指纹可供选择,以下是其中几个常见的分子指纹类型:

  • Morgan指纹(Circular fingerprints):基于分子的拓扑结构和半径参数生成的二进制指纹,可以用于描述分子的结构和相似性。
  • MACCS指纹(MACCS keys):基于分子的结构和功能团片段生成的二进制指纹,可以用于进行药物相似性和虚拟筛选。
  • AtomPair指纹(Atom pairs):基于分子中原子对之间的距离和化学性质生成的二进制指纹,可以用于描述分子的空间和化学特征。
  • TopologicalTorsion指纹(Topological torsions):基于分子中四元环的拓扑结构和旋转角度生成的二进制指纹,可以用于描述分子的立体化学和相互作用。

这些分子指纹可以使用RDKit中的不同函数来计算,具体取决于所需的指纹类型和参数

from rdkit import Chem
from rdkit.Chem import AllChem

RDKFingerprint

RDKFingerprint是RDKit中一种常用的分子指纹类型,可以用于进行药物相似性和虚拟筛选

# 创建一个SMILES字符串表示的分子对象
mol = Chem.MolFromSmiles("CCO")
fp = Chem.RDKFingerprint(mol)
print(fp.ToBitString())

Morgan指纹

Morgan指纹是RDKit中一种常用的分子指纹类型,可以用于描述分子的结构和相似性。它基于分子的拓扑结构和半径参数生成,具有以下特点:

  • 生成的指纹是一个固定长度的二进制向量,每个位表示一个子结构的存在或缺失。
  • 指纹的长度和半径参数可以根据需要进行调整,以平衡指纹的信息量和计算效率。
  • 可以使用不同的哈希函数来生成指纹,以增加指纹的多样性和鲁棒性。

rdkit.Chem.AllChem.GetMorganFingerprint 函数来计算分子的Morgan指纹:

# 创建一个SMILES字符串表示的分子对象
mol = Chem.MolFromSmiles("CCO")

# 计算分子的Morgan指纹
fp = AllChem.GetMorganFingerprint(mol, 2)

# 输出结果
print('分子的Morgan指纹为:', fp)
# 将Morgan指纹转换为字符串形式
fp_str = fp.ToBinary()

# 输出结果
print('分子的Morgan指纹(字符串形式)为:', fp_str)
# Morgan指纹像原子对和拓扑扭转一样,默认情况系按使用计数,但有也可以将他们计算为位向量

fp = AllChem.GetMorganFingerprintAsBitVect(mol, 2, nBits=1024)
print(fp.ToBitString())
## 也可以将常量用于不变式,产生指纹分子比较拓扑
m1 = Chem.MolFromSmiles('Cc1ccccc1')
m2 = Chem.MolFromSmiles('Cc1ncncn1')
fp1 = AllChem.GetMorganFingerprint(m1, 2, invariants=[1]*m1.GetNumAtoms())
fp2 = AllChem.GetMorganFingerprint(m2, 2, invariants=[1]*m2.GetNumAtoms())
print(fp1 == fp2)  # True

提供的指纹信息存储在字典中

通过bitinfo参数获取Morgan指纹中特定位有贡献的原子信息。所提供的指纹信息存储在字典中。
每条信息是一个条目,键是位id,值是(原子索引,半径)元祖列表。

m = Chem.MolFromSmiles('c1cccnc1C')
info = {}
fp = AllChem.GetMorganFingerprint(m, 2, bitInfo=info)
# GetNonzeroElements()返回非零元素的字典
print(len(fp.GetNonzeroElements()))  # 16
print(info)

#16
#{98513984: ((1, 1), (2, 1)), 422715066: ((6, 1),), 951226070: ((0, 1),), 1100037548: ((4, 1),), 1207774339: ((2, 2),), 1235524787: ((0, 2),), 1751362425: ((4, 2),), 2041434490: ((4, 0),), 2246728737: ((6, 0),), 2614860224: ((3, 2),), 3217380708: ((5, 0),), 3218693969: ((0, 0), (1, 0), (2, 0), (3, 0)), 3776905034: ((3, 1),), 3999906991: ((1, 2),), 4036277955: ((5, 1),), 4048591891: ((5, 2),)}

由上述输出内容可知:
98513984位设置了两次:一次由原子1设置,一次由原子2设置,每个半径为1。
4048591891位被原子5设置一次,半径为2。

根据第4048591891位的信息,我们可以获取到原子5的2层电荷内的所有子原子

env = Chem.FindAtomEnvironmentOfRadiusN(m, 2, 5)
amap = {}
submol = Chem.PathToSubmol(m, env, atomMap=amap)
submol_num = submol.GetNumAtoms()
print('子原子数', submol_num)  # 子原子数 6
print(amap)  # {0: 0, 1: 1, 3: 2, 4: 3, 5: 4, 6: 5}

或者可以使用下面的方法(由其对于大量分子而言,速度更快)

atoms = set()
for bidx in env:
    atoms.add(m.GetBondWithIdx(bidx).GetBeginAtomIdx())
    atoms.add(m.GetBondWithIdx(bidx).GetEndAtomIdx())

smi = Chem.MolFragmentToSmiles(m, atomsToUse=list(
    atoms), bondsToUse=env, rootedAtAtom=5)
print(smi)  # c(C)(cc)nc

MACCS指纹

MACCS (Molecular ACCess System) 分子指纹是一种用于表示分子结构信息的二进制指纹。MACCS分子指纹是基于分子中是否含有特定的亚结构来定义的,共包含166个不同的分子特征。每个特征都对应于一个特定的化学子结构,例如,一个羟基、一个苯环或一个氮原子等。如果分子中存在这个特征,则该特征对应的二进制位上的值为1,否则为0。MACCS分子指纹的长度为166位,它可以用于分子相似性比较、分子分类、分子聚类、分子筛选等许多领域中的化学信息学研究。

rdkit.Chem.MACCSkeys.GenMACCSKeys 函数来计算分子的MACCS指纹:

from rdkit.Chem import MACCSkeys
# 创建一个SMILES字符串表示的分子对象
mol = Chem.MolFromSmiles("CCO")
fp = MACCSkeys.GenMACCSKeys(mol)
print(fp)
print(fp.ToBitString())

rdkit.Chem.rdMolDescriptors.GetMACCSKeysFingerprint 函数来计算分子的MACCS指纹:

from rdkit import Chem
from rdkit.Chem import rdMolDescriptors

# 创建一个SMILES字符串表示的分子对象
mol = Chem.MolFromSmiles('CCO')

# 计算分子的MACCS指纹
fp = rdMolDescriptors.GetMACCSKeysFingerprint(mol)

# 输出结果
print('分子的MACCS指纹为:', fp)

其中,rdMolDescriptors.GetMACCSKeysFingerprint 函数的参数是一个RDKit分子对象。在上面的示例中,将SMILES字符串表示的分子对象转换为RDKit分子对象。

可以使用 ToBitString 方法将MACCS指纹转换为字符串形式:

# 将MACCS指纹转换为字符串形式
fp_str = fp.ToBitString()

# 输出结果
print('分子的MACCS指纹(字符串形式)为:', fp_str)

AtomPair指纹

AtomPair指纹是RDKit中一种常用的分子指纹类型,可以用于描述分子的空间和化学特征。它基于分子中原子对之间的距离和化学性质生成,具有以下特点:

  • 生成的指纹是一个固定长度的二进制向量,每个位表示一个原子对的存在或缺失。
  • 指纹的长度和参数可以根据需要进行调整,以平衡指纹的信息量和计算效率。
  • 可以使用不同的哈希函数来生成指纹,以增加指纹的多样性和鲁棒性。

以下是一个示例代码,演示如何使用 rdkit.Chem.AtomPairs.Pairs.GetAtomPairFingerprint 函数来计算分子的AtomPair指纹:

from rdkit import Chem
from rdkit.Chem.AtomPairs import Pairs

# 创建一个SMILES字符串表示的分子对象
mol = Chem.MolFromSmiles('CCO')

# 计算分子的AtomPair指纹
fp = Pairs.GetAtomPairFingerprint(mol)

# 输出结果
print('分子的AtomPair指纹为:', fp)

# 由于包含在原子对指纹中的位空间很大,因此他们以稀疏的方式存储为字典形式
d = fp.GetNonzeroElements()
print(d)

## 位描述也可以像如下所示展示
de = Pairs.ExplainPairScore(558113)
print(de)  # (('C', 1, 0), 3, ('C', 2, 0))

TopologicalTorsion指纹

Topological (path-based) fingerprints. 化学拓扑性质来源于化学图,数学上表示为,其中,是节点(原子)集合,为边(化学键)集合。2D分子结构通常基于其拓扑性质表示,例如2D连接表,它是MOL和SDF的化合物格式的基本单元(图2)。化合物的常见拓扑性质包括:(1) 原子类型;(2) 每个非氢原子(邻接矩阵)的连接性(或度);(3) 每对原子的拓扑距离(距离矩阵);(4) 原子离心率(atom eccentricity);(4) 通过特定方法确定的化学键和原子的重量(weights of bonds and atoms by specified custom approaches)。化合物的片段(或子结构)和物理化学性质是分类和预测生物活性的重要基础。

from rdkit.Chem.AtomPairs import Torsions
# 创建一个SMILES字符串表示的分子对象
mol = Chem.MolFromSmiles('CCO')
fp = Torsions.GetTopologicalTorsionFingerprintAsIntVect(mol)
print(fp.ToBinary())

参考

https://www.codenong.com/cs107013965/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/746059.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用楔形步进体模进行X射线骨密度测定

来源:投稿 作者:洪棋 编辑:学姐 骨密度(BMD)被广泛应用于骨折风险的预测和骨质疏松症的常规识别。双能x线骨密度仪(DXA)在临床上广泛用于测量脊柱、髋关节和前臂的骨密度(aBMD)。放射学骨密度测定法(Radiographic absorpometry, RA)是最早的骨…

最全Linux Shell详细教程

一、环境准备 我们在这里就在本地测试学习,因此我在这里先不建议大家这么着急去买服务器来学,这样比较费钱,等我们学好这些基础之后,再去上手服务器,那将是手到擒来。 本地学习工具:虚拟机 如果你没有该工…

ES6~ES13新特性(一)

1 ECMA新描述概念 2 let、const的使用 3 let、const和var区别 4 块级作用域的使用 5 模板字符串的详解 6 ES6函数的增强用法 一个执行上下文关联两个环境。词法环境和变量环境。 词法环境是由let和const创建;变量环境是由var创建的。 let-const的基本使用、不能…

网络安全现状,一个黑客真实的收入

前言 上次带大家了解了什么是黑客,黑客是干嘛的,今天就来看看黑客的收入和方向怎么样。 一个黑客年薪是多少呢? 外界普遍认为黑客是高收入群体,那么你想过黑客是怎么赚钱的吗?黑客分为白帽黑客和黑帽黑客&#xff0…

R语言实现SMOTE与SMOGN算法解决不平衡数据的回归问题

本文介绍基于R语言中的UBL包,读取.csv格式的Excel表格文件,实现SMOTE算法与SMOGN算法,对机器学习、深度学习回归中,训练数据集不平衡的情况加以解决的具体方法。 在之前的文章Python实现SMOGN算法解决不平衡数据的回归问题&#x…

源码安装 gcc遇到的问题

1、需要的工具和库的安装1 见https://gcc.gnu.org/install/preprequisites.hml 2、源码下载和依赖的工具的源码的下载 在https://gcc.gnu.org/mirrors.html中选择一个镜像源的链接打开,下边以日本的源(http://ftp.tsukuba.wide.ad.jp/software/gcc/)为例。 2.1 …

MySQL数据库的备份与还原、视图基础操作

一、备份与还原 1、使用mysqldump命令备份数据库中的所有表 mysqldump -uroot -p#$%#*#^* booksDB authorbook authors books > /backup/db/booksDB.spl 2、备份booksDB数据库中的books表 mysqldump -uroot -p*&*&……%¥#¥% booksDB books …

FreeRTOS(任务调度)

任务调度 什么是任务调度? 调度器就是使用相关的调度算法来决定当前需要执行的哪个任务。 FreeRTOS中开启任务调度的函数是 vTaskStartScheduler() ,但在 CubeMX 中被封装为 osKernelStart() 。 FreeRTOS的任务调度规则是怎样的? FreeRTOS…

QT禁用窗口【关闭】按钮的实现方法

QT禁用窗口关闭按钮的实现方法,直接在窗体类构造函数的内部写入setWindowFlags(Qt::CustomizeWindowHint | Qt::WindowMinimizeButtonHint | Qt::WindowMaximizeButtonHint)即可实现,案例如下: #include "form.h" #include "…

apache 安装配置 基础篇(三) 之 虚拟机、主服务等、默认虚拟主机、serverpath、DocumentRoot Directory

apache虚拟主机类型有两种 1、基于名称的虚拟主机 2、基于地址或IP地址的虚拟主机 基于名称的虚拟主机 但是如果不用域名(host)就没有办法区分了,而执行第一个匹配的网站了(第一个虚拟主机所处理) ## httpd-vhosts.conf 添加如下代码&…

选择合适的软件,提升工作计划效率

在快节奏的工作环境中,日程安排变得尤为重要。有许多不同的软件可用于帮助管理日程,但哪个软件最适合您的需求?在本文中,我们将介绍几种适合工作安排的软件。 1.Google Calendar Google日历是一种功能强大、易于使用且免费的日历应…

Orange pi3初调试

因为树莓派沦为理财产品1年前出手殆尽后,现在唯一一个B性能不足一直没动力调试,沦为吃灰工具。 偶然之间多多给推了个orange产品预售,看了下pi3的参数,这不和赚了差价的3B一个性能吗?果断定了个预售款,在差…

机器学习洞察 | 挖掘多模态数据机器学习的价值

在过去的数年里,我们见证了机器学习和计算机科学领域的很多变化。人工智能应用也愈趋广泛,正在加速融入人们的日常生活之中。机器学习作为技术核心,也在持续地发展进化,在更多领域发挥出越来越重要的作用。**机器学习会有哪些新的…

python 将 csv转excel (.xls和.xlsx)的几种方式

前言 excel 后缀有2种格式, .xls 是从 Excel 97 到 Excel 2003 的默认文件格式,而 .xlsx 是 Excel 2007 及更高版本的默认文件格式。 .xlsx和.xls格式的主要区别在于,.xls格式单个工作表最多支持65536行,256列。 .xlsx格式最多…

torch分布式训练笔记

torch分布式训练笔记 1. 数据并行(DistributedDataParallel)2. 模型并行(单机多卡)3. 混合并行(数据并行 模型并行/PipeLine并行) 1. 数据并行(DistributedDataParallel) 官方文档…

github搜索案例

目录结构 public/index.html <!DOCTYPE html> <html lang""><head><meta charset"utf-8"><!-- 针对IE浏览器的一个特殊配置&#xff0c;含义是让IE浏览器以最高的渲染级别渲染页面 --><meta http-equiv"X-UA-Comp…

海量文件高速传输解决方案(基于Rsync)

​​随着互联网的飞速发展和社会的数字化转型&#xff0c;企业信息化建设推动了数据的快速增长&#xff0c;越来越多的信息服务依赖海量数据的采集与应用。传统的FTP、网盘等工具无法满足海量数据的传输与分发&#xff0c;导致企业无法高效完成海量数据传输 。 传统的ftp传输效…

【使用驱动代码实现如下要求 应用程序通过阻塞的io模型来读取number变量的值】

驱动应用层代码 #include <stdio.h> #include <stdlib.h> #include <sys/types.h> #include <sys/stat.h> #include <fcntl.h> #include <unistd.h> #include <string.h> #include <sys/ioctl.h> #include "head.h"…

记一次JVM调优过程

文档修订记录 版本 日期 撰写人 审核人 批准人 变更摘要 & 修订位置 JVM相关理论 JVM内存 可分配内存&#xff1a; JVM可以调度使用的总的内存数&#xff0c;这个数量受操作系统进程寻址范围、系统虚…

学无止境·MySQL⑦(索引和视图)

索引和视图练习 索引练习1、建立一个utf8编码的数据库test12、建立商品表goods和栏目表category3、删除 goods 表中的 goods_desc 字段及货号字段,并增加 click_count 字段4、在 goods_name 列上加唯一性索引&#xff08;用alter table方式&#xff09;5、在 shop_price 列上加…