Workflow
Med3R
icon
搜索文档
ICML2025|清华医工平台提出大模型「全周期」医学能力评测框架MultiCogEval
机器之心· 2025-07-23 01:04
大语言模型在医疗领域的应用与挑战 - 大语言模型(LLMs)技术正在深刻重塑医疗行业,具备强大的文本理解与生成能力,能够快速读取医学文献、解读病历记录,甚至生成初步诊断建议,有效辅助医生提升诊断准确性与效率 [2][3] - 当前主流大语言模型在MedQA等医疗问答基准数据集上已取得90%以上的准确率,但临床一线反馈显示其在真实医疗场景中仍存在"高分低能"问题 [4] - 医疗领域正成为大语言模型技术的"新战场",该技术有望在缓解医生工作负担、提升就诊效率、优化医疗管理水平等方面发挥重要作用 [2][3] MultiCogEval评测框架的核心设计 - MultiCogEval框架首次提出从医学知识掌握到临床问题解决的"全周期"大语言模型医学能力评测,覆盖基础知识掌握、综合知识应用和场景问题求解三大认知层次 [5][6][12] - 框架设计受医学生培养流程启发,采用多项选择题评测基础知识掌握,设计三种任务评测综合知识应用,并通过模拟诊断任务考察场景问题求解能力 [14] - 该框架实现了跨认知层次的评估可比性与结果可解释性,解决了现有评测集任务设计单一、缺乏明确认知层次对应关系的问题 [9][10] 主流大语言模型的医学能力表现 - 实验显示GPT-4o、DeepSeek-V3和Llama3-70B等SOTA模型在低阶任务(基础知识掌握)准确率超过60%,但在中阶任务(综合知识应用)性能下降约20%,高阶任务(场景问题求解)表现最好的DeepSeek-V3全链条诊断准确率仅19.4% [16][17] - 医学领域SFT可提升模型低阶与中阶临床能力最高达15%,但对高阶任务性能提升有限,部分模型表现甚至不如基座模型 [17][19] - 推理增强模型在所有认知层级上均优于指令微调模型,中阶任务提升显著(如DeepSeek-R1提升23.1%),但仍未完全解决高阶任务 [19][20] 行业技术发展现状与未来方向 - 当前大语言模型在医学知识记忆与理解方面表现较强,但在复杂临床场景下的主动信息获取与推理决策能力仍显不足 [21][22] - 研究团队曾研发首个通过国家临床执业医师资格考试(456分)的AI引擎Med3R,并在全国400多个区县服务基层医疗 [1] - 行业需进一步解决医学知识覆盖不充分、临床应用能力缺乏以及复杂场景推理决策短板等问题,以推动"可信赖的AI医生"落地 [5][21]