是否适当地评估医疗AI设备?
就在过去的两年里,人工智能已经嵌入到数十种医疗设备中,为急诊室医生、心脏病专家、肿瘤专家和无数其他医疗保健提供者提供建议。
美国食品和药物管理局(Food and Drug Administration,简称fda)批准了至少130种人工智能医疗设备,其中一半是在去年一年批准的,未来几年这个数字肯定会大幅上升。
几个AI设备旨在发现和警告医生在肺中疑似血栓。一些分析乳腺癌和超声图像的乳腺癌迹象,而其他人会检查脑扫描出血的迹象。心脏AI设备现在可以标记各种隐藏的心脏问题。
但监管机构或医生真正了解这些工具的准确性多少钱?
由斯坦福的研究人员领导的一项新的研究,其中一些人自己是开发的设备,表明证据并不像它应该是全面的,也可能错过一些特殊的挑战人工智能。
许多设备仅仅是根据病史和可能过时的病人数据进行测试。在实际的临床环境中,医生会将自己的评估结果与人工智能推荐结果进行比较。许多设备只在一两个站点进行了测试,这限制了患者的种族和人口多样性,并产生了意想不到的偏见。
“非常令人惊讶的是,很多AI算法没有非常彻底地评估,”这位研究的合作者是斯坦福大学的生物医学数据科学助理教授,“詹姆斯邹说,”詹姆斯邹说,斯坦福大学的助理教授,以及斯坦福大学的教师以人为本的人工智能研究所(HAI)。
在研究中,刚刚发表自然医学斯坦福大学的研究人员分析了每个人工智能提交的证据医疗设备FDA于2015年至2020年批准的。
除邹外,该研究是由埃里克吴和凯文吴,博士进行的。斯坦福的候选人;Roxana Daneshjou,皮肤科的临床学者和生物医学数据科学的博士后研究员;洛杉矶Cedars-Sinai医院的心脏病专家David Ouyang;和斯坦福州斯坦福和斯坦福海岸副主任的法律教授兼丹尼尔·何。
测试挑战,偏见数据
与新药物所需的广泛临床试验鲜明对比,研究人员发现,大多数基于AI的医疗器械都针对“回顾性”数据来进行测试,以至于他们的预测和建议未经考验,他们评估了实时患者的程度在真实的情况下,而是在历史案件中使用的情况下它们如何表现。
Zou说,这种方法的一个大问题是它未能捕捉如何医疗保健机构在实际临床实践中使用AI信息。预测算法主要是旨在帮助医生的工具 - 而不是替代他们的判断。但他们的有效性大量取决于医生实际使用它们的方式。
研究人员还发现,许多新的AI设备仅在一个或两个地理位置中进行了测试,这可能会严重限制它们在不同人口组中的工作程度。
邹涛说:“一种算法可能只适用于某一群体,而不适用于另一群体,这对人工智能来说是一个众所周知的挑战。”
揭示显着的差异
通过对深度学习模型进行案例研究,研究人员提供了关于这种风险的具体证据,该模型通过分析x光胸片来寻找肺萎陷的迹象。
该系统受到培训和测试的斯坦福州卫生中心的患者数据,但邹和他的同事们测试了它患者数据来自另外两个机构——位于马里兰州贝塞斯达的国家卫生研究所和位于波士顿的贝斯以色列女执事医疗中心。果然,这些算法在其他网站上的准确率几乎要低10%。此外,在波士顿,他们发现白人患者的准确率高于黑人患者。
ZOU注意,AI系统已着名易受内置种族和性别偏见的群体。例如,已发现面部和语音识别系统对于白人比颜色人民更准确。如果没有识别和纠正,这些偏差实际上可以变得更糟。
邹说,AI造成了其他没有传统医疗器械的其他新挑战。有一件事,培训AI算法的数据集很容易过时。例如,在Covid-19大流行后,美国人的健康特征可能是完全不同的。
或许更令人吃惊的是,人工智能系统往往会自行进化,因为它们会将额外的经验融入到算法中。
“人工智能和传统医疗设备最大的区别在于,它们是学习算法,而且它们会不断学习,”邹教授说。“他们也容易产生偏见。如果我们不严格监控这些设备,偏见可能会变得更糟。患者群体也可能进化。”
邹补充说:“我们对人工智能在医药领域的整体前景感到非常兴奋。”事实上,他的研究小组正在开发自己的人工智能医疗算法。“我们不希望事情被过度监管。同时,我们要确保有严格的评估,特别是对高风险的医疗应用。你要确保你服用的药物经过了彻底的审查。这里也是一样。”
进一步探索
用户评论