近年来,机器学习(包括深度学习)打分函数被广泛用于预测蛋白-小分子结合自由能,并且在某些benchmark数据集上表现出优异的预测能力。但如果测试集含有与训练集相似的蛋白-小分子复合体,那么机器学习可能仅通过“学习”训练集的特定分布,就能在类似分布的测试集上取得优异表现。但这只是一种表面现象,因为这类模型往往在异分布的数据集上表现不理想,即不具备泛化能力(Generalization ability)。
Posted by Luyao Ma on November 19, 2022
Posted in news
近年来,机器学习(包括深度学习)打分函数被广泛用于预测蛋白-小分子结合自由能,并且在某些benchmark数据集上表现出优异的预测能力。但如果测试集含有与训练集相似的蛋白-小分子复合体,那么机器学习可能仅通过“学习”训练集的特定分布,就能在类似分布的测试集上取得优异表现。但这只是一种表面现象,因为这类模型往往在异分布的数据集上表现不理想,即不具备泛化能力(Generalization ability)。
Posted by Luyao Ma on July 10, 2022
Posted in news
Posted by Luyao Ma on October 31, 2021
Posted in news
Posted by Luyao Ma on May 11, 2020
Posted in news
2020 年 2 月 25 日,北京生命科学研究所/清华大学生物医学交叉研究院黄牛实验室在《Frontiers in Pharmacology》杂志发表题为“Predicting or Pretending: Artificial Intelligence for Protein-Ligand Interactions Lack of Sufficiently Large and Unbiased Datasets”的文章,发现 AI 用于预测蛋白-配体相互作用时,常用的训练集(PDBbind和DUD-E)对AI模型训练存在严重数据偏向(data bias),导致 AI 模型表现虚高,预测缺乏泛化能力和鲁棒性,误导本领域的方法发展和实际应用,并基于此提出了如何客观评估 AI 模型的观点和建议。