2020 年 2 月 25 日,北京生命科学研究所/清华大学生物医学交叉研究院黄牛实验室在《Frontiers in Pharmacology》杂志发表题为“Predicting or Pretending: Artificial Intelligence for Protein-Ligand Interactions Lack of Sufficiently Large and Unbiased Datasets”的文章,发现 AI 用于预测蛋白-配体相互作用时,常用的训练集(PDBbind和DUD-E)对AI模型训练存在严重数据偏向(data bias),导致 AI 模型表现虚高,预测缺乏泛化能力和鲁棒性,误导本领域的方法发展和实际应用,并基于此提出了如何客观评估 AI 模型的观点和建议。