用于训练人工智能识别皮肤癌的数据不足,而且缺乏深色皮肤的图片
根据NCRI节上发表的一项研究,用于训练人工智能(AI)发现皮肤癌的图像和相关数据是不够的,而且很少有深色皮肤的图像《柳叶刀》数字健康.
人工智能在医学上的应用越来越多,因为它可以诊断疾病皮肤癌症更快更有效。然而,人工智能需要通过查看大量已经确定诊断的患者的数据和图像来进行“训练”,因此人工智能程序在很大程度上依赖于它所训练的信息。
研究人员表示,迫切需要更好的数据集皮肤癌以及其他皮肤病变,其中包含数据集中代表的人的信息。
这项研究是由英国牛津大学的David Wen博士提出的。他说:“人工智能程序在诊断皮肤癌方面很有潜力,因为它可以查看图片,快速且经济有效地评估皮肤上任何令人担忧的斑点。然而,了解用于开发程序的图像和患者是很重要的,因为这些会影响程序在现实生活中对哪些人群最有效。研究表明,只对浅肤色人群的图像进行训练的程序对深肤色人群的图像可能不那么准确,反之亦然。”
温博士和他的同事们首次对所有可免费获取的数据进行了回顾皮肤损伤世界各地。他们发现了21组,包括10万多张照片。
皮肤癌的诊断通常需要一张令人担忧的病变的照片以及一份诊断报告图片使用一种特殊的手持放大镜(称为皮肤病镜)拍摄的图像,但21个数据集中只有两个包含使用这两种方法拍摄的图像。这些数据集还缺少其他重要信息,比如如何选择图像纳入,以及伦理批准或患者同意的证据。
21个数据集中有14个提供了他们来自哪个国家的信息,其中9个包含来自欧洲国家的图像。只有一小部分图像附有患者的肤色或种族信息。在注明肤色的图片中(2436张),只有10张是棕色皮肤,只有1张是深棕色或黑色皮肤。在有种族说明的照片中(1585张),没有一张来自非洲人、非洲-加勒比人或南亚背景的人。
温博士补充说:“我们发现,对于大多数数据集,这些数据集中关于图像和患者的许多重要信息没有被报告。关于这些照片是由谁、如何以及为什么拍摄的信息有限。这对由此开发的程序有影响图片因为它们在不同人群中的表现不确定,尤其是在那些在数据集中没有很好表现的人群中,比如那些皮肤较黑的人。这可能会导致这些群体被排除在人工智能技术之外,甚至受到伤害。
“尽管皮肤较黑的人更少患皮肤癌,但有证据表明,那些患了皮肤癌的人可能病情更严重,或更有可能死于这种疾病。导致这种情况的一个因素可能是皮肤癌被诊断得太晚了。”
为了防止这种情况,温博士和他的同事们希望为人工智能开发中使用的健康数据制定质量标准。这将包括关于数据集中应代表谁以及应记录哪些患者特征的信息。
Neil Steven博士是NCRI皮肤小组的成员,英国伯明翰大学医院NHS基金会信托医学肿瘤学荣誉顾问,没有参与这项研究。他说:“仅在英国,每年就有超过20万人患皮肤癌。有些类型的皮肤癌比其他类型的更具侵略性,因此快速诊断和治疗至关重要。
“我们已经知道,在我们用来培训医生的教科书中,没有足够多的黑人和亚洲人的照片。这篇综述的发现——皮肤较黑的人的照片在数据集中表现不足——引发了人们对人工智能辅助皮肤的能力的担忧癌症诊断,特别是在全球范围内。
“我希望这项工作将继续下去,并帮助确保我们在医学中使用人工智能所取得的进展将有益于所有患者,认识到人类肤色是高度多样化的。”