合成数据模拟实际保健数据而无需患者隐私问题

数据
信用:未提出/ CC0公共领域

Covid-19大流行加速了快速了解如何最好地对抗病毒的需求,但它也会提出启动涉及实际患者的研究的挑战,例如当患者批判性病或招募可能不愿意离开他们的患者时获得同意家。

但是,如果可以使用模仿真实患者群体的合成数据集,但不带有披露受保护的健康信息的风险,那么怎么试?这就是华盛顿大学医学院在圣路易斯的信息学院倡议的旨在。该研究所正在制作合成数据集更广泛地利用大学研究人员,其目标是加快拯救生命的研究。

该研究所表明,可以准确地生产软件,称为MDClone基于电子健康记录中的真实患者数据。

在最近发表的一项研究中美国医学信息学协会杂志:开放,信息学研究所的研究人员表明,合成数据准确地模仿了使用真实患者数据集进行的临床研究的结果。

而不是采取传统措施隐瞒数据集中真实患者的身份,而是软件改为生产一组新的模拟患者,在聚集体中,重新创建真实患者的特征,如体重指数,血压和血压等措施肾功能。这些模拟患者在真实数据中没有直接对应物,因此真正的患者的身份和隐私受到保护。

“我们已经意识到合成数据的力量,以加速询问和回答涉及真实患者数据的问题的过程,”高级作者菲利普·罗基Payne,Janet和Bernard Becker教授和华盛顿大学信息学研究所主任。“而不是需要数周和几个月,我们能够实时与数据进行交互,同时也保持最高水平的隐私和数据安全性。

“我们希望确保华盛顿大学的每个调查员都可以访问这些相同的能力,以推进各种疾病,条件和人口的研究和发现,”他说。“我们正在努力接触我们的研究社区,并帮助他们访问这种新功能,并期待未来使用该软件的未来成为评估涉及临床数据的假设的标准。”

该大学与MDClone合作,该公司提供该软件进行研究使用。公司软件生成合成数据的方法以及使用软件的计算和网络环境,旨在符合最严格的耐心隐私和机密性要求。因此,没有办法将任何合成数据绑在一起,回到真实的人和他们的身份。但是,调查人员确实完成了培训课程,并签署了数据使用协议,确保这种合成数据负责任地使用并仅用于科学研究目的。

研究人员可以运行询问的查询,例如,哪些住院治疗的Covid-19患者处于最高的死亡风险,或者哪些药物与Covid-19患者的更好的结果相关。

“通过这个系统,研究人员可以在几分钟或时间内在几分钟或几小时内建立自己的疑问并下载合成数据集,”人口健康信息学中心医学副教授和主任。“它真的加速了研究过程。通常需要几个月可以做的一天,有时在几分钟内,合成数据。”

最近的研究比较了三个不同数据集的分析结果。第一个数据集用于分析儿科创伤患者死亡风险。第二被利用预测哪些住院患者最有可能发育脓毒症,危及生命的对感染的健康反应。第三个用于在一年中,在圣路易斯地区的邮政编码生产衣原体感染率的地图。

研究人员发现,合成数据分析的结果与实际数据的分析统计上类似,使用任一类型的数据绘制相同的结论。在一个以上的情况下,结果是相同的,并且在真实和合成数据集之间只发现了罕见的情况。

“我们的三个分析表明,合成数据相对于原始数据进行了良好,但我们仍在测试合成数据可以做的外部限制,”Foraker表示。“这不是一种保证,在每个场景中,合成数据将完全模仿原始数据。我们鼓励研究人员运行自己的验证研究。如果研究人员想要在合成数据上运行查询,请在请求访问之前获得一些初步结果或生成一些假设对于真实的数据,这将是一个很好的使用这个平台。它也是学生获得与现实世界患者数据合作的机会的优秀资源。“


进一步探索

合成数据的真正承诺

更多信息:Randi E foraker等人,发现差异:比较真实患者数据和合成衍生物的分析结果,杰米开放(2020)。DOI:10.1093 / JAMIAOPEN / OOAA060
引文:合成数据模拟实际保健数据没有患者隐私问题(2021,6月4日)从HTTPS://MedicalXpress.com/news/2021-06-synethetic- -real-health-care-patient检索2021年6月2021年6月5日-Privacy.html.
本文件受版权保护。除了私人学习或研究目的的任何公平交易外,没有书面许可,没有任何部分。内容仅供参考。
5.分享

反馈到编辑

用户评论