一种识别小分子的新机器学习工具为诊断、药物发现和基础研究提供了好处。一种新的机器学习模型将帮助科学家识别小分子,并将其应用于医学、药物发现和环境化学。该模型由阿尔托大学和卢森堡大学的研究人员开发,经过数十个实验室的数据训练,成为识别小分子最准确的工具之一。
数以千计的不同小分子(称为代谢物)在整个人体中传输能量和传递细胞信息。由于它们非常小,因此在血液样本分析中很难将代谢物彼此区分开来——但识别这些分子对于了解运动、营养、饮酒和代谢紊乱如何影响健康非常重要。
代谢物通常通过使用称为液相色谱的分离技术分析其质量和保留时间,然后进行质谱分析来鉴定。该技术首先通过柱子运行样品来分离代谢物,这会导致通过测量设备的不同流速或保留时间。
然后使用质谱法根据代谢物的质量对代谢物进行分类,从而微调识别过程。研究人员还可以将代谢物分解成更小的片段,以使用串联质谱法分析它们的成分。
“如果不对候选分子做出一些额外的假设,即使是最好的方法也无法识别样品中超过40%的分子,”阿尔托大学的JuhoRousu教授说。
Rousu的团队现已开发出一种新颖的机器学习模型来识别小分子。它最近发表在NatureMachineIntelligence上。
“这种新的开源模型为整个研究界提供了对小分子的丰富看法。这将有助于研究识别代谢紊乱的方法,例如糖尿病甚至癌症,”Rousu说。
新方法优雅地回避了传统方法面临的挑战之一。由于分子的保留时间因实验室而异,因此无法在实验室之间比较数据。阿尔托的博士生埃里克·巴赫(EricBach)在他的博士研究期间设计了一个替代方案,解决了这个问题。
“我们的研究表明,虽然绝对保留时间可能会有所不同,但保留顺序在不同实验室的测量中是稳定的,”巴赫解释道。“这使我们能够有史以来第一次合并所有公开可用的代谢物数据,并将其输入到我们的机器学习模型中。”
通过整合来自全球数十个实验室的数据,机器学习模型足够准确,可以区分镜像分子,即立体化学变体。到目前为止,识别工具还不能区分立体化学变异体,而这种新能力有望在药物设计和其他领域开辟新的途径。
卢森堡大学卢森堡系统生物医学中心(LCSB)副教授EmmaSchymanski说:“使用立体化学提高鉴定性能这一事实对所有代谢物鉴定方法的开发人员来说都是一个启示。”“这种方法还可以帮助识别和追踪环境中的微污染物或表征植物细胞中的新代谢物。”