2023年7月14日

基准测试AI回答医学问题的能力

基准评估如何大型语言模型(llm)可以回答医疗问题发表的论文中提出自然。从谷歌的研究,这项研究还介绍Med-PaLM, LLM专门用于医学领域。然而,作者指出,许多限制之前必须克服llm可以成为临床应用的可行性。

人工智能(AI)模型在医学上有潜在用途,包括知识检索和临床决策支持。例如,然而,现有的模型可能产生幻觉令人信服的医疗错误或偏见,可能会加剧健康差异。因此,评估他们的临床知识是非常必要的。不过,这些评估通常依靠自动化评估基准有限,个人医疗测试得分等可能不会转化为现实的可靠性或价值。

llm编码表现进行评估的临床知识,卡兰辛格尔Shekoofeh阿齐兹,道你,艾伦•Karthikesalingam Vivek Natarajan和他的同事们认为这些模型回答医学问题的能力。

称为MultiMedQA作者提供一个基准,结合现有六个问答数据集生成专业的医学研究和消费者查询,和HealthSearchQA, 3173年一个新的数据集医疗问题通常在线搜索。

作者然后评估棕榈(5400亿参数LLM)的性能及其变种,Flan-PaLM。他们发现Flan-PaLM实现先进的性能的几个数据集。MedQA数据集包括美国医疗许可试题风格问题,FLAN-PaLM超过之前的最先进的llm 17%以上。然而,尽管FLAN-PaLM表现良好在多项选择题,人类评估显示空白的长篇消费者医疗问题的答案。

来解决这个问题,作者使用了一种叫做指令及时调整进一步Flan-PaLM适应医疗领域。指令提示优化介绍作为一个有效的方法调整多面手llm新的专业领域。

他们产生的模型、Med-PaLM表现令人鼓舞的是飞行员的评价。例如,一组临床医生判断只有61.9%的Flan-PaLM长篇的答案是一致的科学共识,相比之下,92.6% Med-PaLM答案,与clinician-generated答案(92.9%)。同样,29.7%的Flan-PaLM答案被认为可能导致有害的结果,为Med-PaLM 5.8%相比,比得上clinician-generated答案(6.5%)。

作者指出,虽然他们的研究结果是有前途的,进一步的评估是必要的。

更多信息:卡兰Singhal et al,大型语言模型编码的临床知识,自然(2023)。DOI: 10.1038 / s41586 - 023 - 06291 - 2

期刊信息: 自然

所提供的自然出版集团

引用AI:基准测试的能力回答医疗问题(2023年7月14日)2023年7月14日从//www.puressens.com/news/2023-07-benchmarking-ai-ability-medical.html检索

本文档版权。除了任何公平交易私人学习或研究的目的,没有书面许可,不得部分复制。内容只提供信息的目的。

进一步探索

谷歌AI卫生chatbot通过美国医学考试:研究

3股票

反馈给编辑

加载评论(0)

基准测试AI回答医学问题的能力

研究人员解决immune-evading艾滋病毒蛋白质复合体的结构

新证据的链接看到输给痴呆

科学家地图单细胞空间分布图集的猕猴皮层

男人之前使用抗抑郁药明显更可能需要一个孩子之后,发现研究

网络疗法是有效的针对青少年自残

研究人员识别分子,激活细胞周期提高心脏移植组织生产

研究评估NIH贡献临床新药的开发

社区种族隔离与短寿命

有条件现金转移支付计划阻止了739919儿童死亡在拉丁美洲:研究

研究人员研究了使用多个社会媒体渠道对幸福感的影响

谷歌AI卫生chatbot通过美国医学考试:研究

为泌尿科医师ChatGPT大刀阔斧的自我评估测试

问答:ChatGPT回答常见病人结肠镜检查的问题

ChatGPT需要强硬的美国医学执照考试

问答:ChatGPT和医学三个问题

亚马逊带来palm-swiping科技红色岩石的音乐厅

研究人员研究了使用多个社会媒体渠道对幸福感的影响

社区种族隔离与短寿命

有条件现金转移支付计划阻止了739919儿童死亡在拉丁美洲:研究

研究显示惊人的低使用COVID抗病毒治疗在疗养院

人工智能溶酶体储存疾病患者带来希望

你的邻居可能会增加从COVID-19而住院治疗的风险

Phys.org

科技伊克斯托

科学X

基准测试AI回答医学问题的能力

研究人员解决immune-evading艾滋病毒蛋白质复合体的结构

新证据的链接看到输给痴呆

科学家地图单细胞空间分布图集的猕猴皮层

男人之前使用抗抑郁药明显更可能需要一个孩子之后,发现研究

网络疗法是有效的针对青少年自残

研究人员识别分子,激活细胞周期提高心脏移植组织生产

研究评估NIH贡献临床新药的开发

社区种族隔离与短寿命

有条件现金转移支付计划阻止了739919儿童死亡在拉丁美洲:研究

研究人员研究了使用多个社会媒体渠道对幸福感的影响

有关的故事

谷歌AI卫生chatbot通过美国医学考试:研究

为泌尿科医师ChatGPT大刀阔斧的自我评估测试

问答:ChatGPT回答常见病人结肠镜检查的问题

ChatGPT需要强硬的美国医学执照考试

问答:ChatGPT和医学三个问题

亚马逊带来palm-swiping科技红色岩石的音乐厅

推荐给你

研究人员研究了使用多个社会媒体渠道对幸福感的影响

社区种族隔离与短寿命

有条件现金转移支付计划阻止了739919儿童死亡在拉丁美洲:研究

研究显示惊人的低使用COVID抗病毒治疗在疗养院

人工智能溶酶体储存疾病患者带来希望

你的邻居可能会增加从COVID-19而住院治疗的风险

通讯报名

捐赠和享受一个没有广告的经验

你的隐私