点云预测亲和力

Last updated on Jul 6, 2023

首先使用Python和Openbabel对PDBBind数据进行处理产生点云数据
进一步提升数据处理的性能，使用C++加速点云产生
为了对比Python和C++的速度，使用了高通量分子动力学框架HTMD体素化方法、Pafnucy的预处理方法和分子描述法IFPScore和PSH(Persistent Spectral Hypergraph)
测试了PointNet、PointTransformer和不同深度卷积网络的计算时间，不同的样本数量被用于每个预测，其中Pafnucy(20)，ResAtom(5)，PointNet(5,24)，PointTransformer(5)

Python用于读文件

C语言用于体素化进程

在HTMD中网格为15、25、35埃

Pafnucy方法和其他方法作为分子描述器，均用Python编写

数据预处理：

训练集：PDBbind-2016包含4057个蛋白配体复合物。核心集作为测试集，剩余的3772条数据作为训练集和验证集为了测试模型在更大数据集中的性能，结合了精炼集和通用集作为扩展数据集

Openbabel、Pymol

预处理规则：

① 删除肽配体（590）

② 删除包含共价键配体的条目（379）

③ 删除不完整配体（481）

④ 分离测试集和训练集

⑤ 获取扩展集（11327 data）

⑥ 转换点云前，溶剂、金属、离子被剔除

不同原子贡献：

① 七种原子类型通道：氢、碳、氮、氧、磷、硫、卤素

② 原子样本从1024增加到2048

③ 精炼集和扩展集的理化性质，包含芳香性、杂原子、极性氢、非极性氢、氢键接收、氢键发出作为额外的通道进行训练

神经网络架构：

通过点云的旋转增加点云数量（24次）平台架构：Intel Xeon Gold 6248、Tesla V100S 32G双精度优化器：SGD Lr：0.001 for refined、0.003 for extended Loss Function：SmoothL1Loss PointNet和PointTransformer的测试集：CAST-2016 模型性能指标：Person相关系数、斯皮尔曼相关系数、均方根误差、均值绝对误差测试模型：Kdeep、Pafnucy、DeepAtom、APMNet、PSH-GBT、TopBP（complex）

PointTransformer特征

XGBoost：从22个模型中选择10个在验证集中表现好的模型

一个PointTransformer可以产生512条特征

总特征维数为 10（XGBoost）* 512（PointTransformer） = 10*512

重复训练30次

训练集PDBbind-2007、PDBbind-2013和PDBbind-2016分别包含110530、276430、3772*30个特征

XGBoost构建模型、sklearn’ RandomizedSearchCV寻找超参数

训练100次计算平均和标准偏差

Download this article

Bio