在罕见疾病研究中解锁大数据“数字游戏”的工具
圣裘德儿童研究医院的计算科学家们发明了一种工具,可以找到使人们容易患上罕见疾病的基因和遗传变异。在使用大型公共数据集时,由于引入了混杂因素,很难找到导致罕见疾病的基因和遗传变异。该工具提供了一种解决方案来解释混杂因素并确定统计上显著的结果。证据今天发表在自然通讯.
确定导致罕见疾病可能会增加对疾病发展的了解,并为治疗提供潜在的新途径。研究人员利用来自不断改进的测序方法的大量数据来寻找这些联系。缺乏一种系统的方法来寻找统计上可靠的结果,这使得寻找具有挑战性罕见的疾病相关的基因.
“这完全是一个数字游戏,”通讯作者、圣裘德应用生物信息学中心主任吴刚博士说。“传统上,如果你有一个20到50个患有非常罕见疾病的不相关个体的小队列研究,你几乎没有办法找到一个新的基因变体在没有事先了解候选基因的情况下,它对疾病的贡献达到了统计意义。现在我们有了一种方法,可能有助于发现新的疾病易感性基因。”
"对于像肌萎缩性侧索硬化症(渐冻症)或小儿脑瘤,我们可能知道高达20%的患者可以用这种疾病的种系易感性来解释,”他说。“我们的工具将帮助找到剩余的无法解释的遗传性,这些遗传性可能会导致这些疾病。”
CoCoRV:驯服不受控数据
为了解决这些问题,科学家们创造了一个工具称为基于一致汇总计数的罕见变异负荷试验(CoCoRV)。该团队能够证明CoCoRV可以发现导致多种罕见疾病的已知遗传变异,包括多种癌症和渐冻症。此外,对于每一种疾病,研究人员都确定了以前未知的遗传变异,这些变异可能代表了这种疾病的易感性。
“CoCoRV是建立在我们在圣犹大处理许多组测序数据的经验之上的,”应用生物信息学中心的第一作者陈文安博士说。“我们经常判断某个东西是真正的信号还是技术产物。当你有大量的数据时,你可以使用这些知识来推导规则,系统地分类哪些是真实的信号,哪些是其他数据集中质量不好的信号。我们将这种体验构建成一种工具,对其他人使用有帮助。”
稀有性导致了统计上的不稳定性
罕见病就其本质而言并不常见。相应的,关于个人的数据很少。此外,很少有研究从健康个体身上收集到足够多的数据,这些数据与患有罕见疾病的患者群体足够相似统计显著性这个概念被称为达到统计力量。
缺乏匹配的健康对照,给科学家寻找与罕见疾病相关的遗传变异带来了挑战。通过使用公开的人类基因组数据库,科学家可以使用先进的统计方法来创建“合成对照组”。然后,这些小组可以突出显示许多健康个体的基因与患有特定疾病的一小群人的基因之间的对比,以达到统计效果。
但是,公共数据库通常是用不同的方法组装起来的,以不同的方式呈现信息,并且难以相互比较。该领域缺乏一种方法来持续整合来自公共数据库的信息,并计算这些高级统计数据来创建合成对照组。圣犹达的科学家们创造了CoCoRV作为解决方案。
“我们的工具提供了一种一致和系统的方法来最大化分析的力量,并将发现假阳性的风险降至最低。因此,用户可以自信地扫描潜在的致病变异,或者尝试识别罕见疾病的风险基因。”