在丛林中:GA4GH基因组数据共享和无缝的全球基础设施
在过去的十年里,生物医学领域发生了爆炸的体积和多种基因和与健康有关的数据。一方面,这是一个令人难以置信的有利于促进人类健康;为我们的健康和疾病的遗传学知识的增长,所以研究人员有更多的机会去做显著的收益在疾病预防、诊断和治疗。
爆炸,但是,也带来了巨大的挑战。数据集分布在研究中心、大学、卫生保健系统,政府机构,和更多,通常存储在系统不能直接相互交谈或格式不能容易翻译从一个到另一个。有一个缺乏基础设施,使得研究人员很难分享和分析这些数据,把它们变成知识可以使患者受益。
2013年推出应对这一挑战,全球联盟基因组学和健康(GA4GH)是一个社区的650个组织和来自90多个国家的1000个成员致力于创建标准,政策,和方法,促进有效的和负责任的基因组与健康有关的数据共享。GA4GH是建筑常见的管道、语言和规则,所以研究人员可以共享和分析基因组以一致的方式和临床数据。
在最近的一份杂志的特刊细胞基因组学,GA4GH成员发表了一组10篇论文描述了组织的目标、原则、和工作到目前为止,包括建议联合国际数据访问和数据访问和监管标准。在一起,这些评论和技术论文提供GA4GH的历史和它的工作将如何成长和发展路线图在未来几年。
我们坐下来与四大成员扮演关键角色GA4GH社区软件工程师和GA4GH变体表示标准(工具)项目副主管劳伦斯·巴伯;软件产品经理和GA4GH数据使用乔纳森·劳森率领;广泛的首席数据官埃里克·施密特和温迪中心主任,和安东尼Philippakis GA4GH指导委员会成员;协会成员和GA4GH副海蒂Rehm-to讨论组织的发展和未来。
临床基因组学数据共享环境有什么变化在过去的十年?
杰:显然在2000年代末的基因组研究变得越来越普遍,这大型数据库中存储的数据可能与患者。这些担忧提高数据访问控制的必要性。带来的好处是这强烈的数据管理。问题是,许多机构继续做自己的事情,导致不同过程的扩散数据访问。
在高级别上,我们现在看到的是一个渴望放下一些清晰的途径,研究人员可以导航,丛林的流程和控制的方式访问数据。这是一个领域GA4GH真的加大,通过帮助使数据访问授予和如何建立一致性。可互操作的东西可以越多,越容易将是对研究员想要或需要的所有数据回答科学问题并最终产生创新的科学成果,积极影响人类健康。
人力资源:目前全球认可,我们不能支持临床基因组学没有广泛的基因组和健康数据的共享,以及策划的知识。自愿的知识共享的成功在NCBI ClinVar和广泛使用联合平台像媒婆交换显示美国临床实验室和罕见的疾病社区的概念,我们必须共同努力,理解因果变异和应用基因组学与罕见的疾病病人的护理。
你认为最重要的一些挑战将基因组数据到诊所?
磅:获得,我们可以可靠地代表基因发现和知识与临床精密必要告知病人护理将需要进行大量的工作。这是开始发生在各个领域,但目前仍没有一个共同的基础领域的每个人都可以可靠地使用这些宝贵的数据构建方法。我们需要标准、工具和资源,医疗系统需要水平。
杰:我们仍然需要解决的主要问题是什么数据,我们怎么能分享它,以及我们如何分析它。政府、基金会和公司已经花费了数百万美元来生成基因组数据,通常为一个单一的研究项目。最初的项目后这些数据本质上是把后面的仓库货架,甚至没人知道他们有或如何使用他们。所有的数据可能是非常有用的,我们需要发现正确的激励机制,鼓励数据所有者参与这个问题。
美联社:我们正处于一个关键时刻,基因组学开始转变从一个纯粹的研究活动日益受到临床护理。虽然已经有一个真正的接受患者的立场在基础研究数据共享,这是更清晰的在诊所。例如,患者的立场癌症基因组数据量生成通过肿瘤保健小矮人所生成的研究背景。我们为什么不分享基因组和临床数据每一个癌症患者,这样我们可以学习的结果我们给予的治疗?我们需要扩展的数据共享是现在常见的临床研究中设置。
我们还需要构建证据基础表明知道个人的基因组结构改善的结果。例如,患者应该多基因风险评分高(PRS)对癌症进行更激进的筛查?我们应该开始为冠状动脉疾病那些高PRS早在他汀类药物?为了使基因组学成为标准治疗,我们需要做的研究,将解决这些问题。
人力资源:仍有大量的数据隐私和安全的担忧在协作和共享跨越国际边界。我们需要参与和社区教育基因组学的风险和收益分享基因组数据,允许个人,而不是监管机构,驱动决策,同时应用最先进的方法和深思熟虑的政策来保护个人的隐私权和安全的数据。
如何GA4GH自推出以来已经改变了吗?最大的成功是什么?
磅:我一直参与GA4GH五年左右。在那个时候,GA4GH大大磨练其组织,这样就可以解决关键领域,太大或太复杂,任何一个组织,分割他们的努力工作溪流和依赖与现实世界的司机合作项目构建开放的解决方案。GA4GH领导的口号——“大致共识运行代码”可以帮助司机项目产生和分享在常见问题的解决方案。
杰:社区领导的模式非常成功,更比我所希望的是当我第一次在2017年加入GA4GH。这是有趣的,看看真的需要管理一个社区标准。最终需要有权威,但通常是明显的共识需要做什么和如何去做。
GA4GH是给了我们一个理由的桥梁和框架来解决数据共享和数据访问问题在全球范围内。如果你不协调在全球范围内,你注定只有解决这些问题才在美国,或者只是在一个有限的机构网络。我跟同事在新加坡和南非和澳大利亚和巴西和英国,我可能永远不会使用的人在我的日常工作,但我可以一起专注于这些问题。这是巨大的。
记者:在过去的十年中,GA4GH开发了一套优秀的过程看到标准的创建。这个美妙的集合在细胞基因组学的论文表明,进步。
人力资源:我们已经成功说服国家资助者和组织发展中共同标准的重要性和框架基因组和健康数据共享。我们已经从一个分布式基层努力well-powered操作已经想出如何跨越全球社区。
这些细胞基因组学论文代表了大量的工作。你能描述的一些关键的意见吗?
杰:我看到一个著名的和数据共享和数据访问的反复出现的主题。论文着重于数据共享角度来看,这是一个主要目标在GA4GH,我们所做的一切。我认为这是因为数据共享是基因组的力量倍增器的发现。GA4GH参与者可以提高数据存储和分析国内机构,但构建联合和标准化系统向大家保证数据更容易分享和access-making分析的结果更强大和更快速地实现。
美联社:它们是一个明确的指示标准的力量在推动进步。例如,自动数据使用的监管方法。如果你问任何想把大基因组数据的研究人员用他们最大的难点,几乎所有人都认为这是获取数据的过程。数据使用本体和数据使用监管系统可以显著简化这个过程通过自动化的许多步骤验证研究的目的是否符合给定数据集的知情同意的条款。
人力资源:一个常见的主题是长和许多人作者列表,机构和国家代表,展示社会共识的重要性和广泛参与推动GA4GH的工作。
另一个是承认我们需要广泛参与,以确保我们的工作是根据关键项目和视角,并最终通过整个社区。我们的司机项目的参与是我们做到这一点的一种方式。另一个是通过我们的基因组学在健康论坛,实现我们在2020年推出,使大规模的基因数据措施,如英国澳大利亚基因组学和基因组学在一起共享资源和知识,并支持我们的工作的实现。
GA4GH接下来是什么?
磅:我们致力于“轻触”的过程改进的努力,确保质量,一致性和传播我们的工作。我们引进的贡献额外的组织有兴趣参与这个庞大但至关重要的工作。
我们也继续团结组织创建和支持方法,了解遗传变异可以被捕获,以一个标准的、可互操作的方式传播,并与医生和病人分享实验结果和他们的解释以一种有意义的方式。这是一个构建块将基因组学更直接纳入医保。
杰:在数据使用方面,我认为我们从防守到进攻。我们变得更加积极主动,谈论创造新事物,而不只是解决老问题。我们创新能构建,将开启很多潜力?联合会的主题:创建标准,如果我是一个研究员,每次我联系一个新数据库或新机构我不用一遍又一遍地重复相同的过程。
这个舞蹈的政策发展和技术发展;他们必须在协调行动。通过GA4GH广泛能够帮助从事大量的政策倡导与监管机构在美国和欧洲。除此之外,我们还能够构建软件,适合一个新崛起的政策,或证明了我们提出的政策实际上是可行的和精炼它给我们反馈。
人力资源:我们开始更多地关注已获批准的实施标准。我们希望与我们的司机项目和更广泛的社区压力测试标准和策略,证明他们是适合的目的,以及整合多个标准支持端到端工作流。我认为广泛的优雅继续导致GA4GH的工作,实现GA4GH标准,并帮助展示了我们可以在我们的领域来实现的。
Adrian Thorogood et al,基因组医学数据库使用GA4GH标准,国际联合会细胞基因组学(2021)。DOI: 10.1016 / j.xgen.2021.100032
乔纳森•劳森等数据使用本体来简化负责访问人类生物医学数据集,细胞基因组学(2021)。DOI: 10.1016 / j.xgen.2021.100028
亚历克斯·h·瓦格纳等GA4GH变异表示规格:变化计算框架表示和联合识别、细胞基因组学(2021)。DOI: 10.1016 / j.xgen.2021.100027
莫兰n Cabili et al,实证验证的自动化数据使用的监管方法,细胞基因组学(2021)。DOI: 10.1016 / j.xgen.2021.100031