您的位置:首页 >精选知识 >

使用机器学习识别无法诊断的癌症

为癌症患者选择合适的治疗方法的第一步是确定他们的特定癌症类型,包括确定原发部位 - 癌症开始的器官或身体部位。

在极少数情况下,即使进行广泛的测试,也无法确定癌症的起源。虽然这些原发性未知的癌症往往具有侵袭性,但肿瘤学家必须用非靶向治疗来治疗它们,这些治疗通常具有严重的毒性并导致低存活率。

麻省理工学院科赫综合癌症研究所和马萨诸塞州总医院(MGH)的研究人员开发的一种新的深度学习方法可能有助于通过仔细研究与早期细胞发育和分化相关的基因表达程序来对未知原发性癌症进行分类。

“有时你可以应用病理学家提供的所有工具,但你仍然没有答案,”萨利尔·加格(Salil Garg)说,他是查尔斯W.(1955)和詹妮弗·约翰逊临床研究员,也是MGH的病理学家。“像这样的机器学习工具可以使肿瘤学家选择更有效的治疗方法,并为他们的病人提供更多指导。

Garg是一项新研究的资深作者,该研究于8月30日发表在《癌症发现》杂志上。人工智能工具能够以高度的灵敏度和准确性识别癌症类型。Garg是该研究的资深作者,麻省理工学院博士后恩里科·莫伊索是主要作者。

开发中的机器学习

解析不同种类原发性未知肿瘤间基因表达的差异,是机器学习解决的理想问题。癌细胞的外观和行为与正常细胞完全不同,部分原因是其基因表达方式的广泛改变。由于单细胞分析的进步以及对细胞图谱中不同细胞表达模式进行编目的努力,有大量的数据 - 如果,对人眼来说,是压倒性的 - 包含不同癌症如何以及从哪里起源的线索。

然而,将利用健康细胞和正常细胞之间的差异以及不同类型癌症之间的差异构建成诊断工具的机器学习模型是一种平衡行为。如果一个模型太复杂,并且解释了癌症基因表达的太多特征,那么该模型可能看起来可以完美地学习训练数据,但是当它遇到新数据时就会动摇。但是,通过缩小特征数量来简化模型,模型可能会错过导致癌症类型准确分类的信息类型。

为了在减少特征数量和仍然提取最相关的信息之间取得平衡,该团队将模型的重点放在癌细胞发育途径改变的迹象上。随着胚胎的发育和未分化的细胞专门化成各种器官,许多途径指导细胞如何分裂,生长,改变形状和迁移。随着肿瘤的发展,癌细胞失去了成熟细胞的许多特化特征。同时,它们开始在某些方面类似于胚胎细胞,因为它们获得了增殖,转化和转移到新组织的能力。已知许多驱动胚胎发生的基因表达程序在癌细胞中被重新激活或失调。

研究人员比较了两个大型细胞图谱,确定了肿瘤和胚胎细胞之间的相关性:癌症基因组图谱(TCGA),其中包含33种肿瘤类型的基因表达数据,以及小鼠器官发生细胞图谱(MOCA),它描绘了胚胎细胞发育和分化的56个独立轨迹。

“单细胞分辨率工具极大地改变了我们研究癌症生物学的方式,但我们如何使这场革命对患者产生影响是另一个问题,”Moiso解释说。“随着发育细胞图谱的出现,特别是那些专注于MOCA等器官发生早期阶段的图谱,我们可以将我们的工具扩展到组织学和基因组信息之外,并为分析和识别肿瘤以及开发新疗法的新方法打开大门。

然后将肿瘤和胚胎细胞中发育基因表达模式之间的相关性图转换为机器学习模型。研究人员将TCGA中肿瘤样本的基因表达分解为对应于发育轨迹中特定时间点的单个组分,并为这些组分中的每个组分分配一个数学值。然后,研究人员建立了一个机器学习模型,称为发育多层感知器(D-MLP),该模型对肿瘤的发育成分进行评分,然后预测其起源。

肿瘤分类

经过培训后,D-MLP被应用于52个特别具有挑战性的未知原发性癌症的新样本,这些癌症无法使用可用的工具进行诊断。这些病例代表了MGH从2017年开始的四年内最具挑战性的病例。令人兴奋的是,该模型将肿瘤分为四类,并产生了可以指导这些患者诊断和治疗的预测和其他信息。

例如,一个样本来自一名有乳腺癌病史的患者,他在腹部周围的液体空间中显示出侵袭性癌症的迹象。肿瘤学家最初无法找到肿瘤肿块,也无法使用他们当时拥有的工具对癌细胞进行分类。然而,D-MLP强烈预测卵巢癌。患者首次就诊六个月后,终于在卵巢中发现了一个肿块,该肿块被证明是肿瘤的起源。

此外,该研究对肿瘤和胚胎细胞的系统比较揭示了对特定肿瘤类型的基因表达谱的有希望的,有时令人惊讶的见解。例如,在胚胎发育的早期阶段,形成一个基本的肠管,肺部和其他附近器官来自前肠,大部分消化道从中肠和后肠形成。研究表明,肺源性肿瘤细胞不仅与预期的前肠有很强的相似性,而且与中肠和后肠衍生的发育轨迹非常相似。像这样的发现表明,有朝一日,发育计划的差异可以被利用,就像基因突变通常用于设计个性化或靶向癌症治疗一样。

虽然该研究提出了一种对肿瘤进行分类的强大方法,但它有一些局限性。在未来的工作中,研究人员计划通过整合其他类型的数据来提高其模型的预测能力,特别是从放射学,显微镜和其他类型的肿瘤成像中收集的信息。

“发育基因表达仅代表可用于诊断和治疗癌症的所有因素中的一小部分,”Garg说。“将放射学,病理学和基因表达信息整合在一起是癌症患者个性化医疗的真正下一步。

这项研究部分由国家癌症研究所和国家癌症研究所的科赫研究所支持(核心)赠款资助。

免责声明:本文由用户上传,如有侵权请联系删除!