机器学习显示与传统风险预测模型类似的性能
一些主张机器学习技术有可能改变医疗保健系统,而是一项研究BMJ.发现机器学习模型对传统统计模型具有类似的性能,并在为个体患者进行风险预测方面享有类似的不确定性。
NHS已经投资250万英镑(323米; 275亿欧元),以嵌入医疗保健机器学习,但研究人员表示,在习惯为个别患者做出治疗决策之前,应评估模型内和之间的一致性(稳定性)的水平。
风险预言模型广泛使用临床实践。他们使用统计技术与关于他们的年龄和种族的人的信息一起,以确定高风险发展疾病的人,并决定他们的护理。
以往的研究发现,传统的风险预测模型如QRISK3在总体水平上具有很好的模型性能,但在个体风险预测方面具有相当大的不确定性。
一些研究声称,机器学习模型可以优于传统模式,而其他人则认为他们不能在他们的预测背后提供可解释的原因,可能导致不恰当的行动。
更重要的是,机器学习模型经常忽略审查 - 当在研究期间患者丢失(误差或通过错误或无法到达)并且模型假定它们是疾病免费,导致偏见预测。
为了进一步探索这些问题,英国、中国和荷兰的研究人员开始评估机器学习和统计技术在预测个体水平和人口水平心血管疾病风险方面的一致性,以及审查对风险预测的影响。
他们通过391年在1998年至2018年间英格兰在英国的391个一般实践中注册的390万患者的数据评估了19份不同的预测技术(12台机器学习模型和七种统计模型)。
来自一般实践、住院和死亡记录的数据被用来测试每个模型与实际事件的性能。
所有19个模型都得出了类似的结果人口水平的性能。然而,相同患者的心血管疾病风险预测在不同的模型之间有很大的差异,特别是在高风险患者中。
例如,传统QRISK3模型预测的心血管疾病风险为9.5-10.5%的患者,其他模型预测的心血管疾病风险为2.9-9.2%和2.4-7.2%。
忽略审查(包括常用机器学习模型)的模型基本上低估了心血管疾病的风险。
在223,815名患有QRISK3(考虑审查的模型)的心血管疾病风险高于7.5%的患者中,57.8%在使用另一种类型的模型时将重新分类7.5%,解释研究人员。
研究人员承认,在比较不同的模型时存在一些局限性,比如可以考虑更多的预测因素。然而,他们指出,经过更详细的分析后,他们的结果仍然相似,这表明他们经得起仔细审查。
他们写道:“尽管模型的表现相似,但各种模型对同一患者的风险预测非常不同。”“因此,可以通过任意选择另一种建模技术来做出不同的治疗决定。”
因此,他们建议这些模型“不应直接应用于长期风险的预测,而不考虑审查”,在模型内和之间的一致性水平应该经常评估,然后在临床决策之前经常评估。“
进一步探索
用户评论