一种新的人工智能工具可以根据酶的氨基酸序列预测酶的功能,即使酶未经研究或知之甚少。研究人员表示,这款名为CLEAN的人工智能工具在准确性、可靠性和灵敏度方面优于领先的最先进工具。更好地了解酶及其功能将有利于基因组学、化学、工业材料、医学、制药等领域的研究。
“就像ChatGPT使用书面语言的数据来创建预测文本一样,我们正在利用蛋白质的语言来预测它们的活动,”研究负责人、诺伊大学香槟分校化学和生物分子工程教授赵慧敏说。“几乎每个研究人员在处理新的蛋白质序列时,都想立即知道蛋白质的作用。此外,在为任何应用(生物学、医学、工业)制造化学品时,该工具将帮助研究人员快速确定所需的正确酶用于合成化学品和材料。”
研究人员将在《科学》杂志上发表他们的发现,并于3月31日在线提供CLEAN。
诺伊州CarlR.Woese基因组生物学研究所的成员Zhao说,随着基因组学的进步,许多酶已被鉴定和测序,但科学家们对这些酶的作用知之甚少或一无所知。
其他计算工具试图预测酶的功能。通常,他们试图通过将查询的序列与已知酶的目录进行比较并找到相似的序列,来分配一个酶委托编号——一个ID代码,指示酶催化的反应类型。然而,这些工具不适用于研究较少或未表征的酶,或执行多项工作的酶,Zhao说。
“我们不是第一个使用AI工具来预测酶佣金数量的人,但我们是第一个使用这种称为对比学习的新深度学习算法来预测酶功能的人。我们发现这种算法比AI效果更好其他人使用的工具,”赵说。“我们不能保证每个人的产品都会被正确预测,但我们可以获得比其他两种或其他三种方法更高的准确率。”
研究人员通过计算和体外实验验证了他们的工具。他们发现,该工具不仅可以预测以前未表征的酶的功能,还可以纠正被领先软件错误标记的酶,并正确识别具有两种或多种功能的酶。
Zhao的团队正在为寻求表征酶或确定酶是否可以催化所需反应的其他研究人员提供在线访问CLEAN的途径。
“我们希望这个工具能被广大研究界广泛使用,”赵说。“通过网络界面,研究人员只需在搜索框中输入序列,就像搜索引擎一样,就可以看到结果。”
赵说,该小组计划扩展CLEAN背后的AI,以表征其他蛋白质,例如结合蛋白。该团队还希望进一步开发机器学习算法,以便用户可以搜索所需的反应,而AI会指出适合该工作的酶。
“有很多未表征的结合蛋白,例如受体和转录因子。我们也想预测它们的功能,”赵说。“我们想要预测所有蛋白质的功能,以便我们能够了解细胞所具有的所有蛋白质,并更好地研究或设计整个细胞,用于生物技术或生物医学应用。”
Zhao还是诺伊大学卡尔诺伊医学院生物工程、化学、生物医学和转化科学教授。
这篇论文的标题是“使用对比学习进行酶功能预测”。