不平衡健康数据的倾斜模型
非对称统计模型更适合于具有罕见“阳性”的不平衡数据,例如纵向健康数据集。
有时候,越复杂反而越复杂精确的模型当标准的现成模型不能满足需求时,就需要它。这是来自KAUST统计项目研究人员的信息。
一个有趣的例子是包含罕见疾病发生情况的大型健康数据集。特别是在纵向研究他们追踪了很多病人很多年,找出了一些疾病在一个大的数据集对标准的统计方法提出了挑战。
“在纵向研究中,我们可能想要找到某种疾病和几个潜在影响因素之间的关系,”Raphael Huser的博士生张忠伟说。“为了做到这一点,我们可能会随着时间的推移从数百个受试者中收集数据。由此产生的反应数据将是二元的——要么有疾病,要么没有疾病——对同一受试者的反应是相关的,因为它们是从同一个人身上收集的。”
对于这种相关的二元响应数据,最先进的模型是多元probit模型。然而,当数据不对称分布或不平衡时,这个模型可能不适合,因为正数和负数大致相同。
“多元probit模型可能并不总是最适合高度不平衡的数据,因为这种对称的链接模型,可能会导致平均响应估计的巨大偏差,”Zhang解释道。“有必要为这类数据开发灵活的非对称链接模型。在这项研究中,我们开发了一个新的多元斜椭圆链接模型,可以更好地解释数据。”
斜椭圆链接模型是一种灵活的模型,能够捕捉到数据中的不平衡,例如当大多数结果为零,但一小部分显著部分等于1的情况。由于将多元probit模型作为特殊情况嵌入其中,该模型的数学灵活性允许它用于平衡和不平衡数据。
张勇与KAUST教授Marc Genton和Huser共同开发的新模型被证明能更好地适应美国加利福尼亚州一个地区高度不平衡的COVID-19数据集。
张说:“在灵活和节俭之间通常需要权衡。”“如果你正在寻找具有高效推理的易于解释的模型,那么就选择手头的简约模型。但如果你要根据某些标准寻找性能最佳的模型,可能会有更复杂的模型更适合你。”
这项研究发表在生物识别技术.