研究团队创建了预测COVID-19耐药性的统计模型
约翰·霍普金斯医学院和约翰·霍普金斯大学的研究人员创建并初步测试了一个模型,他们认为这可能是首批模型之一,可以预测谁在暴露于导致COVID-19的SARS-CoV-2病毒的情况下,最有可能对COVID-19产生抗药性。
这项研究发表在今天的杂志网络版上《公共科学图书馆•综合》.
该研究的主要作者、约翰霍普金斯大学转化信息学研究与创新实验室生物医学工程研究生Karen (Kai-Wen) Yang说:“如果我们能确定哪些人天生能够避免感染SARS-CoV-2,除了社会和行为因素外,我们也许还能了解哪些遗传和环境差异会影响他们对病毒的防御。”“这一见解可能会导致新的预防措施和更有针对性的治疗。”
在这项研究中,研究小组着手确定a机器学习统计模型可以使用健康特征存储在电子健康记录提供患者数据如合并症(其他医疗条件)和处方药——作为一种手段,来确定那些有天然能力避免SARS-CoV-2感染的人。杨说,这样就可以对这些人进行研究,以更好地了解导致他们抵抗的因素。
机器学习模型是一种计算机程序或系统,它使用数学算法来寻找统计模式,然后继续应用这些模式。这使得这种系统能够模仿人类的思维和推理,与大脑类似,随着时间的推移而学习。
“使用机器学习系统来识别复杂的模式对大量COVID-19患者的研究使约翰·霍普金斯大学医学研究人员的另一个团队在2021年预测了单个患者的病情发展过程,并确定其变得严重的可能性,”联合高级研究作者、医学博士斯图尔特·雷(Stuart Ray)说数据完整性他是约翰霍普金斯大学医学院的医学教授。“基于他们的成功,我们的团队想知道,同样的方法是否也可以应用于预测谁可能在近距离接触SARS-CoV-2而不会被感染。”
为了证明该模型预测COVID-19耐药性的能力,研究人员首先从约翰霍普金斯大学COVID-19精确医学分析平台注册中心(JH-CROWN)获得了数据。该注册表包含在约翰·霍普金斯卫生系统内被怀疑或确认感染SARS-CoV-2的患者的信息。
在他们的耐药性研究中,研究人员只包括了在2020年6月10日至2020年12月15日期间接受了COVID-19检测的人,并将“可能接触到病毒”作为检测原因。
结束日期是美国开始大规模COVID-19疫苗接种工作的日期。研究人员说,选择这个日期使他们能够避免疫苗预防感染而不是自然抵抗力的影响。
8536名研究参与者报告了接触COVID-19是他们接受COVID-19检测的原因,他们被分为两组:一组与任何COVID-19患者没有共同住所(在本研究中称为“家庭”),或住所有10名或更多患者;以及与10人或更少的人住在一起,其中至少有一人是COVID-19患者。第一组有8476名参与者,被指定为训练和测试集,而第二组被称为家庭指数(HHI)集,有60名成员,被用作单独的测试集。
研究人员说,将家庭人数控制在10人或更少,排除了居住在公寓大楼、宿舍和其他密度更高、多单元生活区域的人,在这些区域,接触特定的SARS-CoV-2阳性患者的强度会较低。
为了识别模式和聚类参与者,使那些对SARS-CoV-2天然抗性的参与者脱颖而出,使用最大频繁全置信模式选择基于模式的聚类(MASPC)算法分析了这两个研究集。MASPC是专门为电子健康记录数据分析而设计的,该数据分析结合了患者人口统计信息(年龄、性别和种族)、与每个病例相关的国际疾病和相关健康问题统计分类(ICD)医疗诊断代码、门诊用药单和目前共病(其他疾病)的数量。
Ray说:“我们假设,MASPC将使我们能够将数据中模式相似的患者聚类,将他们定义为对SARS-CoV-2有抗性和无抗性,并希望算法能够在每次分析中学习如何提高未来任务的准确性和可靠性。”“这项使用JH-CROWN数据的初步研究是为了实现这一假设,这是我们的概念验证试验统计模型这表明,根据患者的临床和人口统计资料,对COVID-19的耐药性可能是可预测的。”
Yang说:“在训练和测试集中,我们确定了56种ICD编码模式,分为两组:与耐药性相关或不相关。”“对这些模式区分耐药性和非耐药性的统计分析得出了五种模式,这些模式对我们小规模和局部的(巴尔的摩-华盛顿特区大都市)研究人群来说是最好的,可以确定谁最有可能接触到SARS-CoV-2。”
雷说:“在HHI组(最有可能近距离接触SARS-CoV-2的个体)中寻找这些模式,然后对结果进行统计分析,我们的模型的最佳表现是0.61。”Ray说:“由于0.5分表示预测与现实之间仅存在偶然性关联,1分表示100%关联,这表明该模型有希望成为识别具有COVID-19耐药性的人的工具,可以进一步研究。”
Ray说,这项研究的局限性包括参与者自我报告的COVID-19暴露可能存在偏差,HHI组的参与者人数较少,参与者使用家庭试剂盒或在约翰·霍普金斯大学系统之外的设施检测SARS-CoV-2的可能性(因此,JH-CROWN数据库中没有记录这些测试),以及研究本身的时间跨度短。他补充说,未来需要使用全国患者数据进行试验,以验证该模型的能力。
除了Yang和Ray,来自约翰·霍普金斯医学院和约翰·霍普金斯大学的研究团队成员还有研究生和本科生Yijia Chen, Jacob Desman, Kevin Gorman, Chloé Paris, Ilia Rattsev, Tony Wei和Rebecca Yoo;以及资深教员约瑟夫·格林斯坦和凯西·奥弗比·泰勒。
更多信息:使用大规模病历数据和机器学习发现SARS-CoV-2感染耐药性的相关因素,《公共科学图书馆•综合》(2023)。DOI: 10.1371 / journal.pone.0278466