氨基酸在PDB文件中的原子命名规则

news2026/2/13 21:47:30

氨基酸在PDB文件中的原子命名规则

氨基和羧基上的原子都采用本名，C, N, O, H, etc.
其它原子除 H 外，所有原子命名均采用“原子名+后缀[编号]”形式。整体命名方法类似于图论中求解最大流问题时所采用的标号法。首先α-C被命名为CA。其后按照成键关系逐级递推，名字后缀依次为 B-G-D-E-Z-H-…（此为希腊字母表顺序：α(A)，β(B)，γ(G)，δ(D)，ε(E)，ζ(Z)，η(H)……）。以上图中的色氨酸为例，和CA相邻的原子是β-C，故被命名为CB。和CB相邻的原子是γ-C，命名为CG（先不考虑 H）。和CG相邻的有两个δ-C，排到了 D，此处将其命名为CD1和CD2。再向后和CD1相邻的是N原子，和CD2相邻的是两个C原子，故将它们命名为NE1、CE2和CE3。NE1再后面没有未标号的重原子了，停止；CE2和CE3后面是两个C原子，故命名为CZ2和CZ3（标号延续上一原子）。最后还剩下一个C，标为CH2。

对于氢原子，命名采用“H+所连原子后缀[编号]”形式。例如连接在CD1上的H命名为HD1，连接在CB上的H命名为HB1和HB2, etc.。对于自己构建的残基也是同样的道理，按照规则命名后，方便自行建立拓扑文件，即可进行后续的动力学模拟。

氨基酸分子结构和原子命名

PDB格式的文件是最常用于存储蛋白质构象的一种，其中也是以各个氨基酸(残基)为基本单位，在氨基酸内部对原子进行唯一性的命名。本文先通过展示各种氨基酸在蛋白质链的不同位置的结构，介绍各类氨基酸的基础构象。再通过丙氨酸和色氨酸两个案例，详细介绍了在蛋白质链的中的各种氨基酸内部的原子命名法则。需要注意的是，atom_name和atom_type是不一样的，atom_name是一个唯一的标识符，atom_type则是用于导出力场参数的重要标记。