培训皮肤科多样性方面的医生和算法
![DDI dataset and algorithm performance. Row 1: Performance of all three AI models and the majority vote of an ensemble of dermatologists on the entire DDI dataset (A), FST I–II (B), and FST V–VI (C). Row 2: Performance across the DDI common diseases dataset with the performance of all algorithms and ensemble of dermatologists on the entire DDI common diseases dataset (D), FST I–II (E), and FST V–VI (F). Row 3: Example images from the entire DDI dataset for all skin tones (G), FST I–II (H), and FST V–VI (I). Photo Credit: DDI dataset, Stanford School of Medicine. Credit: <i>Science Advances</i> (2022). DOI: 10.1126/sciadv.abq6147 培训皮肤科多样性方面的医生和算法](https://scx1.b-cdn.net/csz/news/800a/2022/training-physicians-an.jpg)
皮肤学面临着一个长期存在的挑战:教科书、数据库、期刊和讲座大都缺少以深色皮肤为特色的图片。
它们的缺失可能会导致临床专业知识和诊断方面的差距,因为一种疾病的症状在所有人身上不一定表现相同皮肤音调。训练过在浅色皮肤上识别疾病迹象的医生可能会忽略肤色较深的人的疾病迹象,而训练过大量米色图片的算法在评估棕色皮肤患者的图像时可能会遗漏疾病迹象。
斯坦福医学院生物医学数据科学助理教授、机器学习专家James Zou博士说:“算法的好坏取决于它们所基于的数据。”“一个巨大的,开放的数据库对有色人种的皮肤图像进行编目,可以帮助医生评估这些算法是否对所有肤色的人都有效。”
他和斯坦福大学的其他人多年来一直在编制这样一个数据库。
利用该数据库的初步版本,邹;Roxana Daneshjou,医学博士,斯坦福医学院执业皮肤科医生;研究生Kailas Vodrahalli;和其他人进行了一项研究,发表在8月12日的科学的进步,以评估皮肤病学中使用的算法。
该小组通过提取之前描述的算法,并在不同的皮肤图像上测试它们的准确性,来挖掘潜在的偏见。结果在某种程度上是可以预测的:训练在同质浅肤色图像上的算法准确地检测出该肤色下的皮肤病。但深色调的人就不那么喜欢了。
好消息吗?Daneshjou, Zou和皮肤科临床副教授Albert Chiou医学博士,他与Zou共同参与了这项研究,他们设计了一种方法来纠正有偏见的算法的错误。
“从事算法开发的人需要意识到这个问题,并确保他们在测试自己的算法算法对各种不同肤色都有影响,”该研究的主要作者Daneshjou说。“这只是强调了拥有多元化团队的重要性,团队中既有医生,也有机器学习专家不同背景的涉及。”
一个不同肤色的数据库
由于更多的数据可用性,在过去几年里,新的临床相关算法的数量急剧上升。但可用性和多样性并不是一回事——大多数皮肤图像数据库仍然以米色为主。
“例如,红斑或发红是一种疾病的特征,在深色皮肤和浅色皮肤上表现不同,”Daneshjou说。“这就是为什么对医生和算法来说,了解他们所寻找的东西的差异是很重要的。”
由Daneshjou和斯坦福医学与成像人工智能中心的其他人创建的新的、更多样化的数据库包括一个广泛的未被识别的病人的医疗图像库。
当他们在数据库上测试各种已发布算法的准确性时,他们发现算法在黑人和棕色皮肤图像上的表现要差得多。Daneshjou说:“但当我们从不同的数据中选取一个子集,并对算法进行微调时,我们能够缩小在性能上的差距。”
Daneshjou和Zou已经将多样化的数据库提供给那些想要使用他们的数据来微调算法或测试偏差的科学家。邹还说,该数据库对公众有帮助。
他说:“通常情况下,人们会发现一些事情,比如一个内鬼,并想在网上查找以前的案件。”“对于那些无法找到与自己相似的皮肤图像的患者来说,这可能是一个有价值的资源。”
进一步探索