研究人员强调了一种更公平的方法来分析来自未被研究群体的DNA数据

研究人员强调了一种更公平的方法来分析来自未被研究群体的DNA数据
图形抽象。信贷:美国人类遗传学杂志(2022)。DOI: 10.1016 / j.ajhg.2022.03.005

通过使用分析DNA数据和医疗记录的新方法,布朗大学的研究人员正在帮助提高对复杂特征的理解,这将有助于发现更多与非白人、非欧洲血统群体相关的发现。

在5月5日出版的一项研究中美国人类遗传学杂志,研究人员举例说明了性状决定因素或相似模式之间的强大关联,同时研究了来自7个不同人类祖先的60多万人的25个性状。有了这些相似之处,关于疾病或疾病的性质及其对潜在治疗的反应的发现与更大的人群——包括以前被忽视或研究不足的人群——更加相关。

该研究的作者、布朗大学计算分子生物学中心和数据科学计划的生物学和计算机科学教授Sohini Ramachandran解释说,遗传学家常用的全基因组关联(GWA)数据集是基于个体基因突变决定性状遗传基础的假设。我们的想法是,关于这些突变的发现将与一系列不同的人有关因此,如果这一发现被用于开发遗传疾病的治疗方法,它将适用于所有患有这种疾病的人。

然而,最近的研究表明,从自我认同的欧洲个体估计的GWA结果不能转移到非欧洲个体。正因为如此,来自数据集的见解在很大程度上偏向于取样具有欧洲血统的个体。Ramachandran说,GWA框架下的统计假设具有不公平的限制性。

因此,研究人员使用了一种新的“富集分析”方法,该方法以前由Ramachandran和布朗大学生物统计学助理教授Lorin Crawford合作开发,以解决偏见和代表性不足的问题。

拉马钱德兰说:“在这篇论文中,我们对多个生物库的大量数据进行了非常仔细的分析,我们表明,仅通过非常特定的GWA镜头来看的数据可能看起来完全不同,而且不可调和。”“然而,从更公平的角度来看,用更广泛的方法,它在生物学上变得统一、可解释,而且重要的是,是可操作的。”

Ramachandran对这个话题的兴趣始于她了解到一项研究表明,患有糖尿病的儿童对标准治疗方案有不同的反应取决于他们的祖先群体-例如,非白人儿童更容易复发,预后更差。作为一个作为人口遗传学家,Ramachandran开始考虑在疾病和病症的“个性化”治疗开发中越来越依赖GWA研究。

她说:“关于这些研究的结果在多大程度上直接适用于所有祖先,并没有很多讨论。”“根据群体遗传学和理论,这似乎不太可能以一种公平的方式得到解决。”

重新审视这些数据

拉玛钱德兰和其他布朗大学的研究人员一起,包括克劳福德和塞缪尔·帕提略·史密斯,开始致力于开发统计技术,超越个体突变,将基因和途径包括在内。

这并不是说这些信息不存在;在过去的20年里,世界各地的资助机构和生物银行进行了巨大的投资,以生成来自不同人类祖先的基因型、外显子和全基因组序列的大规模数据集,然后将这些数据集与人类祖先进行合并以及定量特质测量。然而,研究人员解释说,对这些数据集的分析通常仅限于假设突变和性状之间直接相关的GWA关联分析。

研究人员研究了来自英国生物银行和日本生物银行七个不同的自我识别人类祖先的566,786个人的25个特征,以及来自PAGE联盟的44,348个人,包括非洲裔美国人、西班牙裔和拉丁美洲人、夏威夷原住民和美国印第安人/阿拉斯加原住民的队列。他们的表现25个数量性状在突变、基因和通路水平上的相关性。

他们确定了这25个性状中至少在两个祖先群体中具有全基因组显著性的1000个基因水平关联,以及欧洲、东亚和夏威夷土著群体中的途径关联。研究人员说,其中大多数仅使用GWA是无法识别的。

Ramachandran实验室的计算生物学博士候选人Pattillo Smith说:“我们不再专注于单一突变统计测试——gwa——我们基本上正在开放一个更大的测试,可以在基因水平或生物学注释通路水平上寻找模式。”“长期以来,科学家们一直如此专注于个体突变的影响,以至于在GWA研究中,许多有价值的信息被忽略了,或者在最终的出版物中没有报道——特别是在队列较小的祖先人群中,因为突变水平的测试对许多混杂因素非常敏感。将突变聚集到一个区域或基因水平的好处之一是,你可以在某种程度上平滑这些事情,并在检测基因组与性状的关系时更加强大。”

拉马钱德兰说,研究人员的目标是所谓的“生物可解释性”,即我们如何部署这些方法,以充分分析生物库,并利用它们所提供的所有信息。

将无偏方法学应用于有偏数据集

布朗大学计算分子生物学中心生物统计学助理教授Crawford指出,在这篇论文中,研究人员讨论了生物库是如何严重倾向于自认为有欧洲血统的人的。克劳福德说,这项新研究的一个隐藏的宝藏是,它展示了发展复杂的统计方法如何有助于克服诸如非欧洲血统群体的代表性不足样本等限制。

克劳福德说:“你不必等到来自其他血统群体的人数与自认为是欧洲人的人数相等。”“事实上,即使产生了更多的数据,同样的不平衡可能会持续下去。与此同时,在更高尺度的基因和途径上的统计方法仍然可以帮助我们深入了解基因结构,从而以一种有益的方式应用于这些代表性不足的祖先群体。这种方法可以帮助我们现在更公平地使用数据。”

拉玛钱德兰说,在基因组学这样的领域,风险很高。

“对我们来说,更好地理解特征结构非常重要,这样我们就可以为每个祖先群体的每个人提供有效的治疗方法。”


进一步探索

多基因风险评分可以识别出欧洲和亚洲血统的高风险个体,但在非洲血统中则较少

更多信息:Samuel Pattillo Smith等人,富集分析在来自7个不同祖先的60多万人中确定了25个数量性状的共同关联,美国人类遗传学杂志(2022)。DOI: 10.1016 / j.ajhg.2022.03.005
所提供的布朗大学
引用:研究人员强调了更公平的方法来分析来自未充分研究群体的DNA数据(2022年5月4日),检索自2022年10月11日//www.puressens.com/news/2022-05-highlight-equitable-dna-understudied-groups.html
这份文件受版权保护。除为私人学习或研究目的而进行的公平交易外,未经书面许可,不得转载任何部分。内容仅供参考之用。
18股票

对编辑的反馈