新的信息学软件有助于识别罕见的基因变异
印第安纳大学医学院的一组研究人员开发了专门的生物信息学软件,旨在识别全基因组测序研究中的罕见遗传变异。李子霖博士,生物统计学和健康数据科学助理教授,是最近发表在自然方法它详细描述了使用注释信息管道(或STAARpipeline)框架的关联变体集测试。
“尽管有数亿人罕见的基因变异在美国,它们的研究一直具有挑战性,因为没有方便、可扩展和强大的管道来进行全面的稀有变异分析,这需要评估变体集而不是单个变体,”李说。
STAARpipeline允许研究人员评估一组罕见的非编码遗传变异,这将有助于实现遗传研究。非编码遗传变异是基因组中不编码氨基酸的部分,氨基酸是结合形成蛋白质的分子。超过98%的人的DNA是非编码的。
“在99%的人群中观察到罕见的变异人类基因组并且是复杂性状和疾病缺失遗传性的主要来源,”李说。
为了使用STAARpipeline,研究人员输入基因型(遗传密码)和表型(复杂性状或疾病代码)数据输入程序。该软件分析这些数据并识别出罕见的变异,在以基因为中心的分析中将这些变异分组为八个功能类别,在非以基因为中心的分析中将这些变异分组为固定大小的滑动窗口和新提出的数据自适应动态窗口。基因中心分析侧重于基因内或基因附近的变异,而非基因中心分析则侧重于基因间区域的变异,即位于基因之间的DNA片段。然后,该程序为每个变量集合并多个变量函数注释,以进一步提高分析能力,并为用户总结结果。
研究团队已经在大样本量上测试了STAARpipeline,其中包括来自国家心肺血液研究所(NHLBI)跨组学精确医学项目的40,000个样本。在分析过程中,STAARpipeline在以基因为中心的非编码分析中发现了49个显著关联,其中35个是基于6个新提出的非编码类别发现的。此外,数据自适应大小动态窗口分析在非编码基因组中检测到43个不重叠的显著关联,比经典的固定大小滑动窗口程序多19.4%。
STAARpipeline建立在STAAR的基础上,STAAR是李和他的同事建立的另一个基因程序变体-设置通过使用注释信息来查找连接和关联的测试。
“我们相信STAARpipeline可以扩展到分析数亿个全基因组测序数据的变异,”李说。“由于99%的人类基因组中都发现了罕见的变异,这个项目填补了信息分析中的一个重要空白。”