本文综述了科学根据X编辑过程政策编辑器强调了以下属性同时确保内容的可信度:

核查事实的

同行评议的出版物

可信的源

校对

基准测试AI回答医学问题的能力

基准测试AI回答医学问题的能力
Flan-PaLM 540 b模型超过前面的最先进的性能(SOTA) MedQA(四个选项),MedMCQA PubMedQA数据集。前最先进的结果来自Galactica20 (MedMCQA) PubMedGPT19 (MedQA)和BioGPT21 (PubMedQA)。准确性所示每一列的百分比。信贷:自然(2023)。DOI: 10.1038 / s41586 - 023 - 06291 - 2

基准评估如何大型语言模型(llm)可以回答医疗问题发表的论文中提出自然。从谷歌的研究,这项研究还介绍Med-PaLM, LLM专门用于医学领域。然而,作者指出,许多限制之前必须克服llm可以成为临床应用的可行性。

人工智能(AI)模型在医学上有潜在用途,包括知识检索和临床决策支持。例如,然而,现有的模型可能产生幻觉令人信服的医疗错误或偏见,可能会加剧健康差异。因此,评估他们的临床知识是非常必要的。不过,这些评估通常依靠自动化评估基准有限,个人医疗测试得分等可能不会转化为现实的可靠性或价值。

llm编码表现进行评估的临床知识,卡兰辛格尔Shekoofeh阿齐兹,道你,艾伦•Karthikesalingam Vivek Natarajan和他的同事们认为这些模型回答医学问题的能力。

称为MultiMedQA作者提供一个基准,结合现有六个问答数据集生成专业的医学研究和消费者查询,和HealthSearchQA, 3173年一个新的数据集医疗问题通常在线搜索。

作者然后评估棕榈(5400亿参数LLM)的性能及其变种,Flan-PaLM。他们发现Flan-PaLM实现先进的性能的几个。MedQA数据集包括美国医疗许可试题风格问题,FLAN-PaLM超过之前的最先进的llm 17%以上。然而,尽管FLAN-PaLM表现良好在多项选择题,人类评估显示空白的长篇消费者医疗问题的答案。

来解决这个问题,作者使用了一种叫做指令及时调整进一步Flan-PaLM适应医疗领域。指令提示优化介绍作为一个有效的方法调整多面手llm新的专业领域。

他们产生的模型、Med-PaLM表现令人鼓舞的是飞行员的评价。例如,一组临床医生判断只有61.9%的Flan-PaLM长篇的答案是一致的,相比之下,92.6% Med-PaLM答案,与clinician-generated答案(92.9%)。同样,29.7%的Flan-PaLM答案被认为可能导致有害的结果,为Med-PaLM 5.8%相比,比得上clinician-generated答案(6.5%)。

作者指出,虽然他们的研究结果是有前途的,进一步的评估是必要的。

更多信息:卡兰Singhal et al,大型语言模型编码的临床知识,自然(2023)。DOI: 10.1038 / s41586 - 023 - 06291 - 2

期刊信息: 自然

所提供的自然出版集团
引用AI:基准测试的能力回答医疗问题(2023年7月14日)2023年7月14日从//www.puressens.com/news/2023-07-benchmarking-ai-ability-medical.html检索
本文档版权。除了任何公平交易私人学习或研究的目的,没有书面许可,不得部分复制。内容只提供信息的目的。

进一步探索

谷歌AI卫生chatbot通过美国医学考试:研究

3股票

反馈给编辑