计算机模型预测主要SARS-CoV-2变体
麻省理工和哈佛大学的科学家们和马萨诸塞大学医学院已经开发出一种机器学习模型,可以分析数百万SARS-CoV-2基因组和预测病毒变异可能会占主导地位,导致COVID-19激增的情况。模型,称为PyR0(发音“pie-are-nought”),可以帮助研究人员识别病毒基因组的哪些部分将不太可能变异,因此疫苗将是好的目标对未来的变体。该发现发表在今天科学。
研究人员培训机器学习模型使用600万SARS-CoV-2基因组GISAID数据库2022年1月。他们展示了他们的工具也可以估计遗传的影响突变病毒的fitness-its通过人口繁殖和传播的能力。当团队在病毒基因组测试了他们的模型数据从2022年1月,它预测BA.2变体的崛起,2022年3月成为了许多国家的主导。PyR0会也确定了α变体(B.1.1.7)到2020年11月底,一个月前世界卫生组织把它列为关注的一个变体。
研究小组包括第一作者弗里茨•欧,一个机器学习Broad研究所研究员在研究开始的时候,和高级作者雅各Lemieux,教官的哈佛医学院和马萨诸塞州总医院和当然喽Sabeti,协会成员广泛,系统生物学中心教授、机体和哈佛大学进化生物学和免疫学教授哈佛t·h·陈和传染病公共卫生学院。Sabeti也是霍华德·休斯医学研究所研究员。
PyR0基于机器学习框架称为烟花,最初是由一个团队开发的超级人工智能实验室。2020年,三名成员的团队包括欧博迈亚和马丁Jankowiak,这项研究的第二作者,加入了广泛的生物学研究所,开始应用框架。
“这项工作是生物学家和遗传学家聚在一起的结果软件工程师和计算机科学家,”Lemieux说。“我们能够解决一些非常具有挑战性的公共卫生问题,没有一个学科的方法可能会对自己的回答。”
“这种基于机器学习的方法,看着所有的数据,结合成一个单一的预测非常有价值,“Sabeti说。“这给了我们一个腿上识别新兴的和可能是一个潜在的威胁。”
SARS-CoV-2的未来
世界各地的研究人员一直在努力预测不同的健身SARS-CoV-2早在大流行性流感病毒变异。但是以前的模型不能比较同时变异,或把天处理只有几千的基因组。
相比之下,PyR0可以分析成千上万的基因的公开SARS-CoV-2数据输入大约一个小时。它通过分组相似的序列,然后定义“集群”他们分享的基因组突变的星座。通过专注于突变,可以出现在多个变种,PyR0统计力量比模型,关注病毒变体。
接下来,该模型确定哪些突变越来越普遍,估计每个突变可以导致病毒传播速度。也估计速度不同变体的病例数将增加基于他们的基因组成。
通过识别哪些突变是重要的健康的特殊变体,该模型还提供了生物学见解COVID-19如何传播和发展。例如,知道关键突变可以帮助科学家预测新的变种是否更多的传染性或逃避中和抗体,也可以帮助他们决定哪些突变进行更详细的研究。
“SARS-CoV-2基因组现在积累了许多突变,所以它变成了极具挑战性询问所有的突变组合,“Jankowiak说,机器学习研究员广泛。“这种分析的优势是,它着眼于整个基因组整体,并可能点突变或变体在实验室得到的关注更少。”
早期预警
研究人员说他们的研究表明,当前增加病毒健康源于病毒逃避免疫反应的能力。他们补充说,公共卫生官员,与先进的预警变量序列的特点,可以实现具体措施来管理情况。和了解突变是导致变体的生存和因此不可能改变可以帮助研究人员挑选更好的目标,未来的疫苗。
这或相似模型的新版本可能会进一步提高预测考虑突变之间的相互作用。研究人员说,在进一步的工作,他们的模型可以帮助监测其他病毒有足够的基因数据。
”的数据量,结合我们开发的方法,使我们能够获得一个病毒进化的实时视图,在世界不同的地方,是不可能在以前的流行,“欧博迈亚说。“在1917年,人们只知道如果他们有流感,或者他们没有。现在,我们有一个非常精确的视图SARS-CoV-2个亚系成千上万的不同。这是惊人的。”