使用机器学习来识别无法诊断的癌症
为癌症患者选择适当的治疗方法的第一步是确定其特定类型的癌症,包括确定主要部位(癌症开始的器官或身体的一部分)。
在极少数情况下,即使经过广泛的测试,也无法确定癌症的起源。尽管这些未知主要的癌症往往是侵略性的,但肿瘤学家必须使用非靶向疗法治疗它们,这些疗法经常具有严重的毒性,并导致生存率较低。
MIT和马萨诸塞州综合癌症研究所的研究人员开发了一种新的深度学习方法基因表达与早期细胞开发和分化有关的程序。
“有时您可以运用病理学家必须提供的所有工具,而且您仍然没有答案,” Charles W. Salil Garg(1955年)和Koch研究所的Jennifer C. Johnson C. Johnson临床研究员和病理学家MGH。“这样的机器学习工具可以使肿瘤学家能够选择更有效的治疗方法,并为患者提供更多的指导。”
Garg是8月30日发表的一项新研究的高级作者癌症发现。人工智能工具能够鉴定具有高度敏感性和准确性的癌症类型。Garg是该研究的高级作者,麻省理工学院博士后Enrico Moiso是主要作者。
开发机器学习
解析未知主要的不同类型肿瘤之间基因表达的差异是机器学习解决的理想问题。癌细胞的外观和行为与正常细胞的表现截然不同,部分原因是其基因表达方式的广泛改变。得益于单细胞分析的进步和对细胞图谱中不同细胞表达模式进行分类的努力,有大量的(如果是人眼,压倒性的话),其中包含有关如何以及从不同癌症起源的方法和从哪里开始的线索。
但是,建造一个机器学习模型利用健康和正常细胞之间以及不同种类的癌症之间的差异为诊断工具是一种平衡行为。如果模型太复杂,并且说明了癌症基因表达的特征太多,则该模型似乎可以学习培训数据完美,但在遇到新数据时步履蹒跚。但是,通过通过缩小功能数量来简化模型,该模型可能会错过导致癌症类型准确分类的信息的种类。
为了在减少特征数量的同时提取最相关的信息之间取得平衡,团队将模型集中在癌细胞中改变的发育途径的迹象上。随着胚胎发育和未分化的细胞专用于各种器官,许多途径都指导细胞如何分裂,成长,改变形状和迁移。随着肿瘤的发展,癌细胞失去了成熟细胞的许多专业特征。同时,它们开始以某种方式与胚胎细胞相似,因为它们获得了增殖,转化和转移到新组织的能力。已知许多驱动胚胎发生的基因表达程序在癌细胞中被重新激活或失调。
研究人员比较了两个大细胞图谱,鉴定了肿瘤与胚胎细胞之间的相关性:癌症基因组图集(TCGA),其中包含33种肿瘤类型的基因表达数据,以及小鼠器官发生细胞(MOCA),谱图56个单独的轨迹胚胎细胞在发育和分化时。
Moiso解释说:“单细胞分辨率工具已大大改变了我们研究癌症的生物学的方式,但是我们如何使这场革命对患者产生影响是另一个问题。”“随着发育细胞地图集的出现,尤其是关注MOCA等器官发生的早期阶段的图书馆,我们可以将工具扩展到组织学和基因选信息之外,并为新的分析和识别肿瘤和开发新疗法的新方法敞开大门。”
然后将肿瘤和胚胎细胞中发育基因表达模式之间的相关性图转换为机器学习模型。研究人员将TCGA的肿瘤样品的基因表达分解为与发育轨迹中特定时间点相对应的单个成分,并将这些成分中的每一个分配为数学值。然后,研究人员建立了一个机器学习模型,称为发育多层感知器(D-MLP),该模型为其发育成分评分肿瘤,然后预测其起源。
分类肿瘤
训练后,将D-MLP应用于52个新样本,这些样本特别具有挑战性的未知主要癌症无法使用可用工具诊断出来。这些病例是2017年从四年开始的MGH中最具挑战性的案例。令人兴奋的是,该模型将肿瘤分为四类,并产生了可以指导这些患者诊断和治疗的预测和其他信息。
例如,一个样本来自患有乳腺癌病史的患者,该患者在腹部周围的流体空间中表现出侵袭性癌症的迹象。肿瘤学家最初找不到肿瘤质量,无法分类癌细胞使用当时拥有的工具。但是,D-MLP强烈预测卵巢癌。患者首次出现六个月后,在卵巢中最终发现了肿块,该肿块被证明是肿瘤的起源。
此外,该研究在肿瘤和胚胎细胞揭示了对特定肿瘤类型的基因表达谱的有希望的,有时令人惊讶的。例如,在胚胎发育的早期阶段,形成了基本的肠管,肺部和附近的其他器官是由前肢产生的,以及来自中部和后肠形成的大部分消化道。该研究表明,肺衍生的肿瘤细胞不仅表现出与前肢的强烈相似性,而且对中端和后肠衍生的发育轨迹表现出很强的相似性。这样的发现表明,开发计划中的差异可能有一天被利用,就像遗传突变通常用于设计个性化或有针对性的癌症治疗一样。
尽管该研究提出了对肿瘤进行分类的有力方法,但它有一些局限性。在未来的工作中,研究人员计划通过合并其他类型的数据来提高其模型的预测能力,特别是从放射学,显微镜和其他类型的信息中收集的信息瘤成像。
Garg说:“发育基因表达仅代表所有可用于诊断和治疗癌症的因素的一小部分。”“将放射学,病理学和基因表达信息整合在一起是癌症患者个性化医学的真正下一步。”
该故事由麻省理工学院新闻(MIT News)重新发布(web.mit.edu/newsoffice/),一个受欢迎的网站,涵盖有关麻省理工学院研究,创新和教学的新闻。