新的系统发育工具可以处理SARS-CoV-2的数据负载
加州大学圣地亚哥分校的研究人员与加州大学圣克鲁兹分校合作,开发了一种新的软件工具,用于追踪和绘制SARS-CoV-2病毒的进化过程,该软件能够处理快速进化的病原体产生的空前数量的遗传数据。该软件被用来高效、准确地跟踪这种病毒的新变种,这种变种被称为系统发育树:生物体基因变化和随时间和地理变化的可视化历史或地图。使用这种名为matoptimization的新优化工具,研究人员现在能够更准确地跟踪SARS-CoV-2的病毒基因组,在新变体发展的过程中将其绘制到系统发育树上,并跟踪病毒的进化和传播动态。
该工具在杂志中有描述生物信息学加州大学圣地亚哥分校(UC San Diego)的计算机工程本科生程晔(Cheng Ye)是第一作者。在这篇问答中,你可以听到更多关于叶建超作为一名本科生的研究之旅,以及他在这样一个及时的项目中工作的经历。
在加州大学圣地亚哥分校电气和计算机工程教授Yatish Turakhia的指导下,研究人员在论文中写道:“由于目前已有超过1000万个SARS-CoV-2基因组序列,用现有软件对所有可用的SARS-CoV-2序列保持精确、全面的系统发育树变得不可实现,但对于获得病毒进化和传播的详细图像至关重要。”
目前,用于SARS-CoV-2系统发育的程序被称为UShER:在现有树上的超快速样本放置。UShER是由加州大学圣克鲁斯分校的博士后研究员Turakhia开发的,由加州大学圣克鲁斯分校使用,以维持SARS-CoV-2的系统发育。它可以在-上公开查看https://taxonium.org/?backend=https://api.cov2tree.org.
大流行的几个月后,UShER面临着在树上添加新的基因序列的挑战;该团队将逐步添加序列,一次一个,但当遗传序列输入不正确或含糊不清时,系统将失去准确性。
“亚瑟会做一个猜测:一个有根据的猜测,但仍然是一个猜测,”图拉基亚说。
因此,这些序列偶尔会被次优化放置在树上,产生错误的突变。为了细化这些位置,需要一种树形优化方法。然而,现有的树优化器无法跟上新冠病毒基因数据的生成量,目前每天映射1000万个序列,并增加多达10万个序列。
当时Turakhia与Ye和他实验室的其他学生一起合作,挑战创造更好的树优化器。叶在2021年1月通过电气和计算机工程暑期研究实习计划(rip)加入了图拉基亚的实验室。当图拉基亚发现叶在数据结构、并行算法、编程和生物信息学方面的基础知识相当强大时,他委托叶在这项任务中担任领导角色。
叶说:“我最初被分配的工作是在图形处理单元上加速序列比对,但我认为SARS-COV-2系统发育项目可能更令人兴奋,它确实是。”
Turakhia说:“在那些日子里,程成为了树优化方面的专家。
现有的许多树优化器都是闭源的,因此Ye被迫利用文献中可用的内容来设计数据挑战的解决方案。经过几个月的研究,叶开发了matOptimize,这是目前唯一能够跟上快速进化的SARS-CoV-2数量的工具基因数据.
为了实现这一点,Ye创建了一个真正的并行软件,处理分布在几个cpu上,并且显著降低了内存需求。这使得它可以扩展到SARS-CoV-2系统发育所需的数据级别。
今天,UShER作为种系发生树软件和matoptimization作为树优化方法,一起用于描述新冠病毒的系统发育。现在有一个完整的基因序列目录,从系统发育推断,被强调为更危险或传播序列,加州大学圣地亚哥分校和加州大学圣克鲁兹分校的科学家继续跟踪。
下一步,图拉基亚的团队正在利用这一信息研究SARS-CoV-2的重组,这一现象可能会导致更新的、危险的变种。
Turakhia说:“在与加州大学圣克鲁兹分校的Russell Corbett-Detig教授的团队合作中,Cheng和我开发了一种名为waves的软件,它可以在1000倍大的数据集中敏感地检测重组。”“该软件将有助于监测新的SARS-CoV-2重组体的出现,并可能在未来应用于其他病原体。”
进一步探索