机器学习模型预测COVID-19影响在较小的城市
根据一个健壮的机器学习模型,可以预测流行影响甚至在小城市,与75%的人口在首都地区剩余的在家里,在纽约COVID-19大流行将在下半年可能达到顶峰。如果人们呆在家里的利率下降到50%,这将在6月初达到顶峰。伦斯勒理工学院研究员Malik Magdon-Ismail定制的模型正在开发使用稀疏数据点,像那些在早期阶段可用在大流行或在较小的城市,这通常使趋势识别困难。
“没有简单,健壮的、通用的工具,例如,官员在奥尔巴尼可以使用预测,“Magdon-Ismail说,计算机科学的教授和专家机器学习,数据挖掘和模式识别。“这些模型表明,从一个预测千差万别城市到另一个地方。这些知识可以减轻一些在发展中政策的不确定性。”
使用县数据可以通过纽约州卫生部和精神卫生,Magdon-Ismail发展模型,可以预测当地的各个方面流感大流行如感染的速度随着时间的推移,大流行的传染力,轻微的感染变得严重,估计无症状感染。正在进行的工作和研究模型,考虑到工作时间敏感的特性,早期版本已经发布在arXiv放缓但不是同行评议。
资本实行他的模型包含数据从奥尔巴尼,伦斯勒理工学院,萨拉和斯克内克塔迪县,855000年4月10使用总高危人口估计每日确认感染于6月8日将在1490年达到顶峰50%的呆在家里,或750年5月28日以75%的呆在家里。感染的数量将达到58000年或29000年。证实感染截至1000年4月10日大约和模型估计14000例无症状的病例。
建模与机器学习是一个挑战,小城市几乎没有什么可用的数据点和更新经常低于国家作为一个整体的图片或者是像纽约城市中心。通用机器学习操作这些数据可能会产生不准确的预测。补偿,Magdon-Ismail专注于简单的模型和使用“健壮”算法,将解决方案之外的数学理想。
“这台机器给你模型最适合的数据,但事实证明最好的通常是一个非常脆弱的原则。有很多不同的模型,不同的解释本质上是一样好,”Magdon-Ismail说。“为了使输出强劲,我们考虑的集合模型,算法与数据一致性水平。我找到一个适合的各种模型的数据,然后使用这些模型来预测”。
Magdon-Ismail说生产类似的模型对于其他小城市在纽约州一样容易”运行数字。”
在前面的努力,也发表在arXiv Magdon-Ismail测试的方法在数据从一开始在美国流行。很少感染从1月20日到3月14日报道,早期的数据同样一样稀疏的小城市。早期的数据提供了另一个洞察力,它提供了一个观察病毒如果不加以控制。
“早期数据捕获的类比:如果你想了解一只狮子,你不观察动物园里的狮子,你必须观察大草原上的狮子,“Madgon-Ismail说。”,基本上这意味着早期的大流行动态。没有人知道发生了什么,没有人真正知道是否严重,所以没人真正做过什么。这就是你看到它会真正的行为。”