电子低温断层扫描(cryo-ET)正在成为一种强大的技术,可提供细胞环境和封闭生物分子的详细3D图像。然而,该方法的挑战之一是识别图像中的蛋白质分子以进行进一步处理。由ThorstenWagner领导的多特蒙德分子生理学MPI主任StefanRaunser周围的一个研究团队开发了一种软件,可以在拥挤的细胞体积中挑选蛋白质。名为TomoTwin的新开源工具基于深度度量学习,使科学家能够以高精度和高通量定位多种蛋白质,而无需每次手动创建或重新训练网络。
在冷冻ET实验中,科学家使用透射电子显微镜获取包含复杂生物分子的细胞体积的3D图像,称为断层图。为了获得每种不同蛋白质的更详细图像,他们将尽可能多的副本平均化——类似于摄影师以不同曝光拍摄同一张照片,然后将它们组合成完美曝光的图像。至关重要的是,在对它们进行平均之前,必须正确识别和定位图片中的不同蛋白质。“科学家们每天可以获得数百张断层照片,但我们缺乏工具来完全识别其中的分子,”赖斯说。
人工采摘
到目前为止,研究人员使用基于已知分子结构模板的算法来搜索断层图中的匹配项,但这些算法往往容易出错。手动识别分子是另一种选择,它可以确保高质量的挑选,但每个数据集需要几天到几周的时间。
另一种可能性是使用一种有监督的机器学习形式。这些工具可以非常准确,但目前缺乏可用性,因为它们需要手动标记数千个示例来为每种新蛋白质训练软件,这对于拥挤的细胞环境中的小生物分子来说几乎是不可能完成的任务。
TomoTwin
新开发的软件TomoTwin克服了其中的许多障碍:它学会在断层图中挑选形状相似的分子并将它们映射到几何空间——系统会因将相似的蛋白质彼此靠近而受到奖励,否则会受到惩罚。在新地图中,研究人员可以分离并准确识别不同的蛋白质,并使用它来定位它们在细胞内的位置。“TomoTwin的一个优势是我们提供了一个预训练的采摘模型,”Rice说。通过删除训练步骤,该软件甚至可以在本地计算机上运行——处理一张断层图通常需要60-90分钟,MPI超级计算机Raven上的运行时间减少到每张断层图15分钟。
TomoTwin允许研究人员在手动选择单个断层照片所需的时间内选择数十张断层照片,从而提高数据吞吐量和平均速率以获得更好的图像。该软件目前可以在细胞中定位大于150道尔顿的球状蛋白质或蛋白质复合物;未来,Raunser小组的目标是包括膜蛋白、丝状蛋白和更小尺寸的蛋白质。