在科学研究中,常常存在大问题和小问题之分。大问题能够更新我们对世界的认知,具有深远影响,也易于获得较多的关注和研究投入;而小问题往往因为缺乏轰动效应,解决难度却不见得小,常常处于悬而未决的状态。但从科学假说到应用落地,其间需要跨越一条漫长且深邃的转化研究沟壑,其中大小问题相互交织、彼此转化。小问题的研究有可能为解决大问题提供关键线索,反之,大问题的解决也可能带来对小问题的全新理解。因此,每一个小问题的解决都是科学进步和技术落地不可或缺的一部分。
在计算化学领域,“小分子构象采样”便是这样一个看似不起眼的小问题,甚至被部分从业人员认为是“已解决的科学问题”。在过去的十数年间,基于结构的虚拟筛选已被广泛应用于药物筛选的早期阶段。通过分子对接这种方式,可以快速高效地评估配体-受体的相互作用,处理规模高达 10⁹ 的化学分子库,对于发现潜在的结构多样的先导化合物具有重要意义。其中,小分子构象采样为评估化学小分子与受体的相互作用赋予了必要的柔性,对虚拟筛选的成功率有着显著影响。目前,已有多种构象采样方法在“晶体结构构象再现”任务中表现优异,并获得了广泛认可。但这些方法的多样性和准确性在实际应用中,尤其是“虚拟筛选分子对接”任务中,缺乏系统的测试和比较,这一情况限制了研究人员对这些方法的选择和使用,成为一个亟待解决的“小问题”。
近日,北京生命科学研究所/清华大学生物医学交叉研究院黄牛实验室在计算化学主流期刊 Journal of Computational Chemistry 上发表了题为 “Assessing Small Molecule Conformational Sampling Methods in Molecular Docking” 的研究论文。黄牛团队借助分子对接软件 UCSF DOCK3.7,对七种基于不同算法的小分子构象采样方法进行了公平比较,深入分析了构象采样方法在分子对接任务中的表现,阐明了小分子构象采样对于对接结果的影响。研究发现,采样方法的采样能力与其在对接任务中的对接性能之间存在显著差距,并且不同采样方法在不同场景中的对接效果和筛选能力也各有差异。基于测试结果,作者为分子对接过程中小分子构象采样方法的选择提供了建议,为进一步提升构象采样的性能提出新的技术方案。
为了在 DOCK3.7 中对不同构象采样方法进行公平比较,作者设计了 db2_converter 工作流程。通过统一采样数量等参数设定,并引入 PoseBusters 测试套件以过滤不合理构象,该流程能够生成数量相当且适用于对接的合理构象集。随后,作者在类药小分子-蛋白复合物晶体结构数据集 Platinum Diverse Dataset 上,将采样构象集、对接结果和晶体结构进行对比,评估了采样方法的采样能力及其与 DOCK3.7 结合后的对接性能。结果表明,各采样方法的对接性能相比采样能力均显著下降。例如,表现最佳的 CCDC Conformer Generator 的采样能力为 0.98,而其对接能力则为 0.59。进一步系统分析对接结果后,作者发现不同采样方法之间的性能差异主要来源于对采样自由度,尤其是二面角的覆盖程度不同。而采样能力和对接能力的差异则与采样能力评估标准的局限性有关——该标准将采样构象与晶体构象间的 RMSD 小于 2 Å 作为符合标准的判据,但这种评估未能充分涵盖形成关键相互作用的子结构翻转情况。一些满足该标准的构象在关键子结构上发生了翻转,因此在分子对接中缺乏必要的相互作用,导致评分较低,难以被筛选出。此外,对接能力相较于采样能力的大幅下降,还可以部分归因于分子对接过程中的刚性受体处理。一些可能有效的对接构象由于分子间的碰撞被过滤,从而减少了对接的成功率。
不同构象采样方法的采样能力和对应的对接能力
作者还在 DUDE-Z 数据集上测试了各采样方法在分子对接中的回顾性筛选能力。DUDE-Z 数据集包含 43 个已知蛋白靶标,每个靶标下有数十个已知活性小分子,每个活性小分子对应 50 个物理性质相似但结构不同的诱饵分子。筛选能力反映了对接软件从化合物库中富集活性小分子的能力。整体来看,ConfGenX 展现了较优的回顾性筛选能力,其 LogAUC 和 EF1 的中位数分别为 19.07 和 8.71。由于不同靶点的活性分子化学结构各异,且结合口袋的性质不同,采样方法在各靶点上的筛选能力表现出较大差异。具有不同采样偏好的方法在不同靶点上各自展现出最佳的筛选能力。
不同构象采样方法对应的虚拟筛选能力
基于这一结论,作者推测不同采样方法的结果可能具有互补性。为验证这一点,作者尝试将采样方法进行两两组合,以考察组合采样方法对上述分子对接任务的影响。结果表明,在对接能力和筛选能力上,组合采样方法能够进一步提升分子对接的整体表现。
构象采样方法的组合能够进一步提升对接能力和筛选能力
综上所述,作者将六种传统采样方法(Omega、BCL::Conf、CCDC Conformer Generator、ConfGenX、Conformator、RDKit ETKDGv3)和一种基于深度学习的构象生成模型(Torsional Diffusion)与分子对接软件 UCSF DOCK3.7 结合,系统评估了多种采样方法在分子对接任务中的对接能力和筛选能力。结果显示,尽管采样方法在整体采样上表现优异,但在分子对接任务中的表现差异明显,这主要归因于不同方法在可旋转键的二面角采样范围上的独特偏好,对进一步发展构象采样方法提供了清晰的方案。研究指出,在分子对接中,除了关注打分函数的精度,还需重视小分子构象采样的数量和质量。结合多种采样方法的优势有望进一步提升对接表现。
黄牛实验室的博士研究生夏前程为本文第一作者,黄牛博士为通讯作者。其他作者包括黄牛实验室的付秋禹,沈成,以及挪威卑尔根大学的Ruth Brenk博士。该研究工作还得到了美国加利福尼亚大学旧金山分校的彭士明博士和John Irwin博士的帮助。该研究由北京市科委(Z221100007022004)和清华大学共同资助。