点云预测亲和力

screen reader text

  1. 首先使用Python和Openbabel对PDBBind数据进行处理产生点云数据
  2. 进一步提升数据处理的性能,使用C++加速点云产生
  3. 为了对比Python和C++的速度,使用了高通量分子动力学框架HTMD体素化方法、Pafnucy的预处理方法和分子描述法IFPScore和PSH(Persistent Spectral Hypergraph)
  4. 测试了PointNet、PointTransformer和不同深度卷积网络的计算时间,不同的样本数量被用于每个预测,其中Pafnucy(20),ResAtom(5),PointNet(5,24),PointTransformer(5)

Python用于读文件

C语言用于体素化进程

在HTMD中网格为15、25、35埃

Pafnucy方法和其他方法作为分子描述器,均用Python编写

数据预处理:

  1. 训练集:PDBbind-2016包含4057个蛋白配体复合物。核心集作为测试集,剩余的3772条数据作为训练集和验证集 为了测试模型在更大数据集中的性能,结合了精炼集和通用集作为扩展数据集

Openbabel、Pymol

预处理规则:

① 删除肽配体(590)

② 删除包含共价键配体的条目(379)

③ 删除不完整配体(481)

④ 分离测试集和训练集

⑤ 获取扩展集(11327 data)

⑥ 转换点云前,溶剂、金属、离子被剔除

不同原子贡献:

① 七种原子类型通道:氢、碳、氮、氧、磷、硫、卤素

② 原子样本从1024增加到2048

③ 精炼集和扩展集的理化性质,包含芳香性、杂原子、极性氢、非极性氢、氢键接收、氢键发出作为额外的通道进行训练

神经网络架构:

screen reader text

通过点云的旋转增加点云数量(24次) 平台架构:Intel Xeon Gold 6248、Tesla V100S 32G双精度 优化器:SGD Lr:0.001 for refined、0.003 for extended Loss Function:SmoothL1Loss PointNet和PointTransformer的测试集:CAST-2016 模型性能指标:Person相关系数、斯皮尔曼相关系数、均方根误差、均值绝对误差 测试模型:Kdeep、Pafnucy、DeepAtom、APMNet、PSH-GBT、TopBP(complex)

PointTransformer特征

screen reader text
XGBoost:从22个模型中选择10个在验证集中表现好的模型

一个PointTransformer可以产生512条特征

总特征维数为 10(XGBoost)* 512(PointTransformer) = 10*512

重复训练30次

训练集PDBbind-2007、PDBbind-2013和PDBbind-2016分别包含110530、276430、3772*30个特征

XGBoost构建模型、sklearn’ RandomizedSearchCV寻找超参数

训练100次计算平均和标准偏差

Download this article

Chi
Chi
Doctor of Bioengineering

My research interests include bioinformatics, deep learning and big data mining.