多个数据集的集成使得信息基因集的提取更加稳健。A、B ikarus工作流。Ikarus是细胞分类的两步程序。在第一步,整合多个专家标记的数据集,使提取稳健的基因标记成为可能。然后将基因标记用于由逻辑回归和网络传播组成的复合分类器中。C签名推导和模型选择的交叉验证精度比较。在验证集上选择最小的平衡精度作为选择的度量(即,在测试集上的性能更差)。仅在一个数据集上训练的模型比在两个数据集上训练的模型获得了较低的平衡精度(由双面Wilcoxon检验给出的p值为0.063)。Lee等人的结直肠癌和Laughney等人的肺癌的组合达到了最高的最小平衡精度,为0.97。D激光微解剖胃癌资料中基因标记评分的比较。 The normal gene list shows lower signature scores in cancer samples (p value 0.052, N = 8, Mood's median test), when compared to the cancer-associated normal tissue. The tumor gene signature is significantly higher for cancer samples than the normal tissue (p value 0.003, N = 8, Mood's median test). E Primary cells and cancer cell lines have significantly different gene signature distributions. The normal-cell gene signature shows a gradual reduction in gene signature score distribution when compared in primary cells, cell lines, and tumor cell lines. The gene signature shows the complete opposite effect. Cancer cell lines have the higher gene signature score distribution, followed by cell lines, and primary cells. Distributions were compared using pairwise Wilcoxon tests with BH-FDR correction. All adjusted p values were lower than 0.01. F Patient-derived xenografts (PDX) show significantly higher tumor gene signature score, than the normal gene signature score. The same pattern is observed in multiple cancer types. Normal and tumor signature distributions were compared using Wilcoxon tests, for each cancer type, followed by BH-FDR correction. All adjusted p values were lower than 0.01. Credit:基因组生物学 (2022)。DOI: 10.1186 / s13059 022量02683量1
癌细胞与健康细胞有何不同?MDC生物信息学家Altuna Akalin领导的团队在杂志上报道,一种名为“ikarus”的新机器学习算法知道答案基因组生物学 .该人工智能程序发现了肿瘤的基因特征。
在识别海量数据中的模式方面,人类不是人工智能(AI)的对手。特别是人工智能的一个分支叫做机器学习 通常用于在数据集中寻找规律——无论是股票市场分析、图像和语音识别,还是单元格分类。可靠的区分癌症细胞 从健康的细胞 目前,由Helmholtz协会(MDC) Max Delbrück分子医学中心生物信息学和组学数据科学平台负责人Altuna Akalin博士领导的团队开发了一个名为“ikarus”的机器学习程序。
该项目在不同类型的肿瘤细胞中发现了一种共同的模式癌症 由基因的特征组合组成。根据该团队发表在杂志上的论文基因组生物学 在美国,该算法还检测到了以前从未明确与癌症相关的基因类型。
机器学习本质上意味着一个算法使用训练数据来学习如何自己回答某些问题。它通过在数据中搜索模式来帮助它解决问题。在训练阶段结束后,系统可以从它所学习到的知识中进行归纳,以便对未知数据进行评估。该论文的第一作者Jan Dohmen说:“在专家已经清楚地区分了‘健康’和‘癌变’细胞的情况下,获得合适的训练数据是一个重大挑战。”
成功率高得惊人
此外,单细胞测序数据集往往噪声较大。这意味着它们所包含的关于单个细胞分子特征的信息并不十分精确——也许是因为在每个细胞中检测到的基因数量不同,或者是因为样本并不总是以相同的方式处理。正如Dohmen和他的同事Vedran Franke博士(该研究的联合负责人)报告的那样,他们筛选了无数的出版物,联系了相当多的研究小组,以获得足够的数据集。该团队最终使用了肺癌和结直肠癌细胞的数据来训练算法,然后将其应用于数据集 其他种类的肿瘤。
在训练阶段,ikarus必须找到一个特征基因列表,然后用来对细胞进行分类。“我们尝试并改进了各种方法,”Dohmen说。正如三位科学家所说,这是一项耗时的工作。弗兰克解释说:“关键是ikarus最终使用了两个列表:一个是癌症基因,另一个是来自其他细胞的基因。”在学习阶段之后,该算法能够可靠地区分其他类型癌症中的健康细胞和肿瘤细胞,比如癌症细胞组织样本 肝癌或成神经细胞瘤患者。它的成功率往往非常高,这甚至让研究小组都感到惊讶。“我们没想到会有一个共同的特征,可以如此精确地定义不同类型癌症的肿瘤细胞,”Akalin说。“但我们仍然不能说这种方法是否适用于所有类型的癌症,”Dohmen补充道。为了将ikarus变成一种可靠的癌症诊断工具,研究人员现在想在其他种类的肿瘤上进行测试。
人工智能作为全自动的诊断工具
该项目旨在远远超越“健康”与“癌变”细胞的分类。在最初的测试中,ikarus已经证明,该方法也可以区分其他类型(和某些子类型)的细胞 从肿瘤细胞 .阿卡林说:“我们希望使这种方法更加全面,进一步发展它,以便能在活组织检查中区分所有可能的细胞类型。”
在医院里,病理学家往往只在显微镜下检查肿瘤组织样本,以便识别各种细胞类型。这是一项费时费力的工作。有了ikarus,这一步有一天可能会变成完全自动化的过程。此外,Akalin指出,这些数据可以用来得出关于肿瘤直接环境的结论。这可以帮助医生选择最好的治疗方法。因为肿瘤组织的组成和微环境往往表明某种治疗或药物是否有效。此外,人工智能可能也有助于开发新的药物。Akalin说:“Ikarus让我们能够识别潜在的癌症驱动基因。”新的治疗药物可以用来靶向这些分子结构。
该出版物的一个显著方面是,它完全是在COVID大流行期间编写的。所有参与研究的人都不在柏林医疗系统生物学研究所(BIMSB)平常的办公桌前,该研究所是民主变革运动的一部分。相反,他们在家庭办公室里,彼此之间只进行数字交流。因此,在弗兰克看来,“该项目表明,在这些条件下,可以创建一个数字结构来促进科学工作。”
引用 :人工智能识别癌细胞(2022年,6月10日)从//www.puressens.com/news/2022-06-ai-cancer-cells.html检索到2022年6月11日
本文件受版权保护。除用于个人学习或研究的公平交易外,未经书面许可,不得转载任何部分。内容仅供参考之用。