表观基因组图谱揭示了30000个人类疾病区域的通路
20年前的这个月,人类基因组的第一份草案被公开发布。该项目的一个重大惊喜是发现人类基因组中只有1.5%是由编码蛋白质的基因组成的。
在过去的二十年里,这些最初被认为是“垃圾DNA”的非编码DNA片段在发育和发育中起着至关重要的作用,这一点已经变得很明显基因调控。在今天发表的一项新研究中,麻省理工学院的一组研究人员发布了迄今为止最全面的非编码DNA图谱。
这张图提供了表观基因组标记的深入注释-修饰表明基因在833种组织和细胞类型中开启或关闭不同类型的细胞,比之前的研究有了显著的增长。研究人员还确定了控制特定生物程序的调节元件组,并发现了与540种特定性状相关的约3万个遗传变异的候选作用机制。
“我们传递的实际上是人类基因组的电路。20年后,我们不仅有了基因,我们不仅有了非编码注释,而且我们有了模块,上游调控器,下游目标,疾病变异,以及对这些疾病变异的解释,”计算机科学教授Manolis Kellis说,他是麻省理工学院计算机科学和人工智能实验室的成员,也是麻省理工学院和哈佛大学博德研究所的成员,也是这项新研究的资深作者。
麻省理工学院的研究生Carles Boix是这篇论文的主要作者自然。该论文的其他作者是麻省理工学院的研究生Benjamin James和前麻省理工学院博士后yong - jin Park和Wouter Meuleman,他们现在分别是英属哥伦比亚大学和Altius生物医学科学研究所的首席研究员。研究人员已经将他们所有的数据公开,供更广泛的科学界使用。
外遗传性控制
在人类基因组上分层的核苷酸序列构成了遗传密码——表观基因组。表观基因组由化学标记组成,帮助确定哪些基因在不同的时间和不同的细胞中表达。这些标记包括组蛋白修饰,DNA甲基化,以及给定DNA长度的可获得性。
“表观基因组学直接读取我们的细胞使用的标记,以记住在我们身体的每一种细胞类型和每一个组织中,什么可以打开,什么可以关闭。”它们的作用就像便利贴、荧光笔和下划线。”“表观基因组学让我们得以窥视每种细胞类型中被标记为重要的细胞,从而了解基因组实际上是如何运作的。”
绘制这些表观基因组注释可以揭示遗传控制元素,以及不同元素活跃的细胞类型。这些控制元素可以分组成集群或模块,一起发挥作用,以控制特定的生物功能。其中一些元件是增强子,它们与激活基因表达的蛋白质结合,而另一些元件是抑制子,关闭基因。
新的图谱EpiMap (Epigenome Integration across Multiple Annotation Projects)建立并结合了多个大型绘图联盟的数据,包括ENCODE、Roadmap Epigenomics和Genomics of Gene Regulation。
研究人员总共收集了833个生物样本,代表不同的组织和细胞类型,每一个样本都有不同的表观基因组标记子集,这使得全面整合多个组织的数据变得困难。然后,他们通过结合相似标记和生物样本的可用数据,填补了缺失的数据集,并使用833个生物样本的10000个标记的结果概要来研究基因调控和人类疾病。
研究人员注释了超过200万个增强子位点,仅覆盖每个生物样本的0.8%,总共占基因组的13%。他们根据它们的活动模式将它们分成300个模块,并将它们与它们控制的生物过程、控制它们的调节因子以及调节这种控制的短序列基序联系起来。研究人员还根据控制元件和目标基因之间的协同活动模式预测了330万个连接,这代表了迄今为止人类基因组中最完整的回路。
疾病的链接
自定稿以来人类基因组该研究于2003年完成,研究人员进行了数千项全基因组关联研究(GWAS),揭示了使携带者易患某种特定特征或疾病的常见遗传变异。
这些研究已经产生了大约12万个变异,但其中只有7%位于编码蛋白质的基因中,剩下93%位于非编码DNA的区域。
然而,由于许多原因,非编码变体的行为是极其难以解决的。首先,遗传变异是成组遗传的,这使得很难在每个疾病相关区域的数十种变异中精确定位病因变异。此外,非编码变异可以在很远的地方发挥作用,有时在数百万个核苷酸之外,这使得很难找到它们的作用目标基因。它们也非常动态,因此很难知道它们在哪个组织中起作用。最后,了解上游监管机构仍然是一个未解决的问题。
在这项研究中,研究人员能够解决这些问题,并为3万多个非编码GWAS变体提供了候选机制的见解。研究人员发现,与同一特征相关的变异倾向于在生物学上与该特征相关的特定组织中富集。例如,与智力相关的基因变异被发现存在于大脑中活跃的非编码区域,而与胆固醇水平相关的基因变异则存在于肝脏中活跃的区域。
研究人员还表明,一些性状或疾病受到许多不同组织类型中活性增强子的影响。例如,他们发现基因变异与冠心病(CAD)在脂肪组织、冠状动脉、肝脏和其他许多组织中都很活跃。
在这些全基因组预测的指导下,凯利斯的实验室正在与不同的合作者合作,以寻求他们在特定疾病方面的领先地位。他们正在分析冠状动脉疾病患者的心脏组织,老年痴呆症患者的小胶质细胞,以及肥胖患者的肌肉、脂肪和血液,这些都是基于当前的论文和他的实验室之前的工作预测的这些疾病的介质。
许多其他实验室已经在使用EpiMap的数据对各种疾病进行研究。凯利斯说:“我们希望我们的预测将广泛应用于工业和学术界,以帮助阐明遗传变异及其作用机制,帮助靶向治疗最有希望的目标,并帮助加速许多疾病的药物开发。”
进一步探索
用户评论