机器学习识别常见的DNA结构
HSE大学的研究人员使用机器学习,发现这两个最普遍的DNA结构 - 茎环和四边形导致导致癌症的基因组突变。研究结果发表于此BMC癌症。
在2000年代初期,研究人员发明了一种新方法,以获得DNA和RNA的核苷酸序列,称为下一代测序(NGS)。该技术允许同时读数数百万基因组与早期测序方法不可能的区域。现在人类基因组可以记录在3.2 GB文本文件中。
“癌症是一种基因组疾病”,解释了生物信息学的HSE实验室和一项研究的作者之一。“当我们在肿瘤组织中序列该基因组时,我们看到了一种不同的突变。可能存在点或大规模突变。例如,在点突变中,一个核苷酸消失并被另一个核苷酸取代。我们看起来很大在不同的地方删除,反转,复制和插入基因组的部分(从数百万核苷酸)的刻度突变。由于这些重排,出现了基因组断点。
使用机器学习HSE大学研究人员研究了两种类型的DNA二次结构 - 茎环和四边形对基因组断裂点的影响。作者分析了超过2,000种基因组的半百万个断点癌症。研究人员寻找基因组热点,考虑断点热点是具有频繁和反重排列的区域 - 换句话说,风险区域。它似乎茎循环的模型最能解释血液,脑,肝和前列腺癌断点热点型材,而基于四分道的模型对骨骼,乳房,卵巢,胰腺癌和皮肤癌的性能具有更高的性能。
断点的出现不能通过DNA二级结构的影响来解释,但它们的贡献至少为20-30%。该分析表明,茎环和四翻转对断点进化的影响取决于组织的类型,其由表观遗传因素决定。
“这些是区分不同种类在基因组上的标记,”Maria Poptsova说。“我们正在积极研究二次DNA结构与表观遗传痕迹之间的相关性。英国研究人员已经看着DNA二级结构和表观遗传标记对点的影响突变。我们专注于断点热点,是第一个确定两个最普遍的基因组结构 - 茎环和四翻来的贡献。“
根据研究的作者,在未来,四边形可能是治疗目标。如果药物治疗使它们更稳定,端粒酶酶将无法在癌细胞中工作,并且它们将变得脆弱。
进一步探索
用户评论