AI 通过“DeepGO-SE”彻底改变蛋白质功能预测

在《自然机器智能》杂志上最近发表的一项研究中，研究人员开发了“DeepGO-SE”，这是一种使用大型预训练蛋白质语言模型根据蛋白质序列预测基因本体（GO）功能的方法。

尽管蛋白质结构预测多年来变得越来越准确，但由于已知功能的数量有限，而且它们的相互作用和复杂性，蛋白质功能预测仍然具有挑战性。GO 用于描述蛋白质功能。GO 包括三个子本体，描述蛋白质的分子功能 (MFO)、它们在生物过程中的作用 (BPO) 以及它们活跃的细胞成分 (CCO)。

几种功能预测方法的一个显着局限性是它们对序列相似性的依赖。虽然这种方法对于具有相似序列和明确功能的蛋白质有效，但对于那些没有或很少有序列相似性的蛋白质来说不太可靠。此外，蛋白质功能主要取决于其结构，具有相似结构的蛋白质可能具有不同的序列。

可以通过机器学习模型利用 GO 公理中包含的背景知识来改进预测。只有少数方法利用了 GO 中的形式公理。DeePred、TALE、DeepGO 和 GOStruct2 等分层分类方法使用包含公理，但忽略其他可用于限制搜索空间和增强预测的公理。

研究和结果

在本研究中，研究人员使用大型预训练蛋白质语言模型开发了一种蛋白质功能预测方法 DeepGO-SE。DeepGO-SE通过语义蕴涵分三步实现了知识增强学习。首先，使用 ELEmbeddings 生成一个近似模型，该模型基于由 GO 公理（背景知识）和有关蛋白质的断言（例如“蛋白质具有功能 C”）组成的逻辑理论。

接下来，单个蛋白质由进化规模模型 2 (ESM2) 嵌入表示，并用作近似模型中的实例，以最大化断言的真实性作为优化目标。最后，重复这个过程生成k个近似模型；蕴涵被定义为所有模型中的真值，并且利用k个模型进行近似语义蕴涵。

研究人员使用 UniProtKB/Swiss-Prot 数据集将他们的方法与五种基线方法进行了比较。基线方法是朴素方法、多层感知器 (MLP)、DeepGraphGO、DeepGoZero 和 DeepGOCNN。GO子本体被单独训练和评估。DeepGO-SE 显着优于基线方法。

在MFO中，DeepGO-SE的最大F度量（F max）为0.554，比DeepGoZero和MLP方法大7%。在BPO中，其F max (0.432)比DeepGraphGO高8%。在 CCO 中，DeepGO-SE的F max 达到 0.721。接下来，该团队修改了蛋白质嵌入，以编码有关蛋白质组及其相互作用的附加信息。

为此，改变了 DeepGO-SE 的输入向量，并进行了三个实验。首先，ESM2 嵌入被用作 DeepGOGAT-SE 中每种蛋白质的输入。接下来，蛋白质对分子功能的实验注释被用作 DeepGOGATMF-SE 的输入。最后，DeepGO-SE 模型衍生的分子功能预测分数被用作 DeepGOGATMF-SE-Pred 的输入。

在 DeepGOGAT-SE 中结合 ESM2 嵌入和蛋白质-蛋白质相互作用 (PPIs) 降低了 MFO 预测的性能 ( F max: 0.525)，但略微提高了最小语义距离 ( S min)。此外，BPO 预测也得到了改进（F max：0.435）。值得注意的是，DeepGOGATMF-SE 的 BPO 性能最佳（F max：0.448），其次是 DeepGOGATMF-SE-Pred（F max：0.444）。将 PPI 集成到 DeepGO-SE 中，CCO 的F max 增加到 0.736。

该团队还使用 neXtPro 数据集（手动预测的蛋白质功能）评估了他们的基线方法。他们发现 DeepGO-SE 达到了最好的F max (0.386)。DeepGOGAT-SE 在 BPO 方面表现最好，F max 为 0.35。该团队无法评估 DeepGOGATMF-SE-Pred 方法，因为许多蛋白质缺乏手动分子功能。

最后，进行了消融研究以评估模型各个组成部分的贡献。针对每个模型删除了 ELEmbeddings 公理损失函数，并对函数预测损失进行了优化。从 DeepGO-SE 中消除公理损失会降低 MFO 性能，但不会影响 BPO 和 CCO 性能。

在 DeepGOGAT-SE 中，删除公理和语义蕴涵模块稍微提高了 MFO 的性能，但降低了 BPO 和 CCO 的性能。当在使用分子函数和 PPI 作为特征的模型中删除公理和语义蕴涵时，BPO 和 CCO 的性能会更好。