研究人员使用机器学习来证明DNA影响癌症风险
生活方式——或者换句话说,“坏习惯”——是解释为什么有些人患癌症的风险较高的教科书之一。我们经常听说,吸烟会增加我们患肺癌的风险,或者高脂肪饮食会增加我们患肠癌的风险,但并不是所有吸烟者都会患肺癌,也不是所有吃芝士汉堡的人都会患肠癌。“其他因素”肯定在起作用。
现在,卡尔加里大学的新研究德文王博士,博士,博士在那些“其他因素”上脱落。王已经发现了七个定义的DNA指纹或模式癌症风险。该研究发表在科学的进步。
“这一发现改写了教科书上的解释,即癌症的发生是由于人类行为加上一些坏运气,包括一个人的基因组成,”王说。“我们相信,一个婴儿出生时就带有种系基因组模式,它不会改变,而这种模式与更高或更低的比例有关。癌症的风险”。
这项研究为多代疾病风险提供了新的见解,因为生殖细胞代表决定我们孩子的细胞,以及从父母传给孩子的DNA。这是科学家第一次描述这些高度专门化的生物模式适用于癌症风险。
王,癌症系统生物学家和大数据科学家持有艾伯塔省的癌症基因组学的创新椅。他假设每个人都适合这些风险类别,使其更加倾向于癌症,就像滑块一样。王先生医学院Alberta儿童医院研究所(Achri)和Arnie Charbonneau癌症研究所的成员,发现DNA指纹可以分为具有明显的生存率的亚组。七种种种线之一提供了显影癌症的保护,另外六种种族旅油患癌症的风险更大。
“有趣的是,其中一个种系列是对发展癌症的保护性,并且在我们对基因组的分析中常常出现,”CSM的生物化学系和分子生物学系教授王说。“我们知道有些人可以吸烟,有一个不健康的生活方式,但永远不会得到癌症,这个发现可以解释这种现象。”
为了这项研究,王对超过26000个个体的种系基因组进行了大规模的系统分析,其中约10000人患有癌症,其余的人没有。他的团队分析了来自癌症患者at the National Cancer Institute—data collected by the National Institute of Health for the Cancer Genome Atlas, part of the National Institutes of Health in the U.S. The samples include 22 distinct cancers, including lung, pancreatic, bladder, breast, brain, stomach, thyroid, and bone and a dozen more. The control group of people without cancer included genomic-sequenced groups from Sweden, England and Canada.
大量的数据只能用机器学习来处理。王的实验室配备了通过UCalgary超高速网络处理数据的设备。这项研究需要大量的计算机存储:一千万兆兆字节。为了帮助理解这个卷,1tb可以存储250部电影。
王说:“即使是在高速运行的情况下,在两条信息流全天候运行的情况下,我们的实验室仅仅下载每个基因组中包含数十亿核苷酸的生物信息就需要连续三个月的时间。”
王指出,5%到10%的癌症是由特定的基因突变引起的。想想乳腺癌和遗传基因BRCA1和BRCA2,这是演员安吉丽娜·朱莉(Angelina Jolie)广为人知的基因突变。Wang一直怀疑这些遗传性癌症只代表少数关联,并通过先进的基因组能力进行了更深入的研究,以产生更多关联。
“我们想调查基因组中的基因组模式或大幅反复发生的顺序剖面是否可以作为对癌症遗传易感性的有望测量,”王说。
“我们发现,一个dna指纹在癌症患者的种系基因组中富集了几十到几百倍,这表明它是一种编码癌症风险的普遍遗传特征。”该研究还发现,在同时吸烟的癌症患者身上,另一种dna指纹也高度富集,这表明携带这种dna指纹的吸烟者患癌症的风险更高。
基因组医学使疾病诊断更有效、更具成本效益,并可以帮助人们在一生中做出健康决定。王的研究为帮助癌症专家和家庭医生指导患者的工具奠定了基础。“我希望能进行进一步的研究来扩展这项工作,这样它最终可以付诸实践,让临床医生告知患者他们的癌症风险,以及如何采取预防措施来确保健康的生活。”
进一步探索
用户评论