自杀脆弱性指数,机器学习模型有助于预测县的自杀风险
据宾夕法尼亚州立大学的研究人员称,自杀是美国人死亡的主要原因,但用于预测自杀率的模型对风险因素进行了同等的权衡,并依赖于大地理区域的数据,这限制了预测的准确性。现在,研究人员开发了一种基于机器学习的模型,使用他们新开发的自杀脆弱性指数,该指数衡量了风险因素,以确定美国县级的风险社区。
该方法最近发表在心理健康研究.
“我们的目标是在基于机器学习的自杀预测模型的帮助下,为美国县开发一种新的自杀脆弱性指数,”论文合著者Soundar Kumara, Allen E. Pearce和Allen M. Pearce宾夕法尼亚州立大学工业工程教授说,他也隶属于信息科学与技术学院。“通过确定自杀率上升风险较高的县,该模型可以帮助促进有针对性的干预计划。”
研究人员分析了2010-19年美国3140个县的县级数据,这是疾病控制和预防中心数据库中可用的最小的地理分类。他们确定了17个用来预测自杀率的特征,这些特征可以分为人口统计学、社会统计学和社会统计学经济因素和健康。研究人员怀疑,这17个特征中的一些会比其他特征更能影响自杀率,他们开始确定哪些因素会影响自杀率,影响程度有多大。
为了确定每个因素的影响,研究人员使用了SHapley加法解释(SHAP),这是一种基于博弈论的方法,解释了每个变量如何对模型的预测做出贡献。
论文的合著者Kristin Sznajder说:“SHAP值通过比较有和没有该特征的预测结果来探索每个特征的影响。”Kristin Sznajder是宾夕法尼亚州立医学院公共卫生科学助理教授,他也隶属于哈克生命科学研究所和人口研究所。使用SHAP值,预测模型训练集中使用的所有17个特征的重要性都被识别出来。通过从我们的分析中识别和分离出前五个重要特征,我们开发了自杀脆弱性指数。在早期的工作中,这样的索引是通过包含所有变量而不考虑它们对输出的影响来创建的。”
导致自杀预测结果的前五个县级特征是人口,非裔美国人的人口百分比白人,中位数年龄和女性人口百分比,人口,白人人口百分比和中位数年龄与自杀率的增加相关,而非裔美国人人口百分比和女性人口百分比较高人口减少了自杀率.
宾夕法尼亚州立大学工业与制造工程研究生、论文第一作者Vishnu Kumar强调,SHAP价值观将其区分了出来机器学习基于先前模型的预测模型。
“有几个学科正在广泛使用机器学习来解决数据密集型问题,”他说。“机器学习模型通常被称为‘黑盒’,因为我们不知道模型内部发生了什么,也不知道模型计算结果背后的逻辑,尽管它们的结果非常准确。在这种情况下,SHAP价值观提供了一种非常方便的方式来解释机器学习模型,并帮助我们做出强大、公平和准确的解释和决策。”
研究人员说,他们希望他们的工作将为针对和实施自杀干预项目奠定基础。
“未来工作的一个令人兴奋的机会是研究使用机器学习技术的可能性,以深入了解公共卫生政策的变化如何影响癌症发病率自杀斯纳德说。“也许我们的模型可以在地方和州一级实施 ,以创建能够影响政策和资源分配的早期预警系统。”
进一步探索