分享这个!
13
1
分享
电子邮件

2022年11月8日

不平衡健康数据的倾斜模型

通过阿卜杜拉国王科技大学

不平衡健康数据的倾斜模型 — 描述KAUST科学家开发的解决健康数据不平衡问题的非对称模型的插图。信贷:KAUST;泽维尔皮塔饼

非对称统计模型更适合于具有罕见“阳性”的不平衡数据，例如纵向健康数据集。

有时候，越复杂反而越复杂精确的模型当标准的现成模型不能满足需求时，就需要它。这是来自KAUST统计项目研究人员的信息。

一个有趣的例子是包含罕见疾病发生情况的大型健康数据集。特别是在纵向研究他们追踪了很多病人很多年，找出了一些疾病在一个大的数据集对标准的统计方法提出了挑战。

“在纵向研究中，我们可能想要找到某种疾病和几个潜在影响因素之间的关系，”Raphael Huser的博士生张忠伟说。“为了做到这一点，我们可能会随着时间的推移从数百个受试者中收集数据。由此产生的反应数据将是二元的——要么有疾病，要么没有疾病——对同一受试者的反应是相关的，因为它们是从同一个人身上收集的。”

对于这种相关的二元响应数据，最先进的模型是多元probit模型。然而，当数据不对称分布或不平衡时，这个模型可能不适合，因为正数和负数大致相同。

“多元probit模型可能并不总是最适合高度不平衡的数据，因为这种对称的链接模型，可能会导致平均响应估计的巨大偏差，”Zhang解释道。“有必要为这类数据开发灵活的非对称链接模型。在这项研究中，我们开发了一个新的多元斜椭圆链接模型，可以更好地解释数据。”

斜椭圆链接模型是一种灵活的模型，能够捕捉到数据中的不平衡，例如当大多数结果为零，但一小部分显著部分等于1的情况。由于将多元probit模型作为特殊情况嵌入其中，该模型的数学灵活性允许它用于平衡和不平衡数据。

张勇与KAUST教授Marc Genton和Huser共同开发的新模型被证明能更好地适应美国加利福尼亚州一个地区高度不平衡的COVID-19数据集。

张说:“在灵活和节俭之间通常需要权衡。”“如果你正在寻找具有高效推理的易于解释的模型，那么就选择手头的简约模型。但如果你要根据某些标准寻找性能最佳的模型，可能会有更复杂的模型更适合你。”

这项研究发表在生物识别技术．

更多信息:张忠伟等，相关二进制数据的斜椭圆链接模型的可处理贝叶斯，生物识别技术(2022)。DOI: 10.1111 / biom.13731

所提供的阿卜杜拉国王科技大学

引用:不平衡健康数据的倾斜模型(2022,11月8日)检索于2022年12月24日从//www.puressens.com/news/2022-11-skewed-imbalanced-health.html

这份文件受版权保护。除为私人学习或研究目的而进行的公平交易外，未经书面许可，不得转载任何部分。内容仅供参考之用。

进一步探索

一个更好的环境数据统计模型

14股票

对编辑的反馈

治疗肺癌的新细菌疗法

11小时前

研究确定了维持哺乳动物正常体温的关键神经元

2022年12月23日

当身体的B细胞训练场在下班后继续开放时

2022年12月23日

肿瘤氨水平抑制T细胞生长，影响免疫治疗:研究

2022年12月23日

音乐和死藤水在治疗男性物质使用障碍中的作用

2022年12月23日

大脑如何存储远程恐惧记忆

2022年12月23日

人工智能工具的开发，帮助在手术中进行实时诊断

2022年12月23日

研究人员发现，身体的音调和动作会扭曲感知

2022年12月23日

肺动脉高压是无法治愈的，但动物模型研究表明，一种实验性药物可能有效

2022年12月23日

揭示了高热量食物引发肥胖的遗传机制

2022年12月23日

加载注释(0)