蛋白质3D建模

TBM:template-based methods 基于模板的方法 MSA:multiple sequence alignment 多序列比对 MD:Molecule Dynamics 分子动力学 MC:Monte Carlo 蒙特卡洛 GA:Genetic Algriothm 遗传算法 TFM:template-free modeling 无模板建模 虽然TBM通常能得到准确的模型,但对于理解蛋白质折叠的物理化学原理起不到帮助作用。 MSA能够帮助同源建模获得更多的准确性和效率,同源建模往往选用序列一致性高于25%的蛋白。

同源建模流程: 1.输入序列

2.模板搜索 该步骤将输入序列与已知数据库序列进行比对(使用BLAST或者FASTA等)

3.模板选择

4.目标模板比对 分为两部分:一部分为与模板对齐良好,另一部分为与模板没有对齐。

5.建模 与模板对齐的区域,使用模板的3D结构信息构建结构。 (1) 使用对齐区域模板拼接建模(COMPOSER、3D-JIGSAW、SWISS-MODEL) (2) 为目标生成基于对齐模板区域的约束,该约束包含立体化学约束(MODELLER) (3) 以碳原子Ca为例的原子坐标子集被当作指导位置,首先通过搜索,然后从已知蛋白质结构中拟合出最适合的片段 当某一区域的结构信息缺失时, (1) 片段搜索库。通过长度、二级结构和其他几何约束,并使用RMSD和刚体碰撞数作为评价适合度的指标 (2) 在所有的可能片段构象中进行构象搜索。方法包含MD模拟、MC模拟、GA算法

6.侧链添加 从有限的侧链构象中补全蛋白质结构

7.细化 用于提升由建模方法得到的模型质量

8.质量评估

当很难找到对齐模板时,通过迭代比较建模并不再出现提升时为止。 当没有蛋白质同源结构时,采用基于片段的方法构建

方法之一: 根据螺旋和链含量的百分比,可以将蛋白质分为五种结构类: 1.全alpha蛋白 2.全beta蛋白 3.alpha+beta蛋白 4.alpha/beta蛋白 5.不规则蛋白 SCOP和CATH是用于结构类注释的两个数据库 Jad等人假设为:在目标位置选择片段时,如果来自蛋白质结构的片段属于目标预测的相同结构类,则能够提供更好的片段。如果不属于任何的结构类,则使用蛋白质二级结构字典(DSSP)进行近似

基于片段的方法需要回答的问题: 1.序列中某个位置的片段代表数 2.这些片段的长度 3.片段库创建所用的评分策略 4.库中蛋白片段的表示 5.数据库选择策略

使用同源建模时,序列中的未对齐的模板使用基于片段的方法构建

Chi
Chi
Doctor of Bioengineering

My research interests include bioinformatics, deep learning and big data mining.