Workflow
EHRStruct基准
icon
搜索文档
医疗AI迎来大考,南洋理工发布首个LLM电子病历处理评测
36氪· 2025-12-16 03:05
研究概述 - 南洋理工大学研究人员构建了首个全面评测大型语言模型处理结构化电子病历能力的综合基准EHRStruct [1] - 该基准由计算机科学家与医学专家共同构建,包含11项核心任务,共计2,200个标准化样本 [1] - 基于该基准,研究团队对20个主流大型语言模型与11种先进的增强方法进行了全面评测,并提出了代码增强框架EHRMaster [2] - 研究成果已被AAAI 2026 Main Technical Track录取为Oral论文,并同步发布了EHRStruct 2026挑战赛 [2] 基准设计与构建 - EHRStruct基准的任务体系沿三条轴线组织:临床场景(数据驱动 vs 知识驱动)、认知层级(理解 vs 推理)以及六类功能类别 [4][9] - 基准构建过程包括四个主要阶段:任务合成、任务体系构建、任务样本抽取与评测流程搭建 [5] - 任务样本基于两个互补数据源构建:Synthea提供合成结构化病历,eICU Collaborative Research Database提供真实ICU环境下的结构化表格 [10] - 对于11项任务共生成2,200条带标注样本,每个样本的问答对由GPT-4o生成 [10] 任务体系与评测方法 - 基准涵盖的11项任务分为数据驱动和知识驱动两大类 [3] - 数据驱动任务包括:基于条件的数据过滤、数值聚合、数值趋势算术推理 [3] - 知识驱动任务包括:临床代码识别、死亡率预测、疾病预测、药物推荐 [3] - 评测涵盖20个大型语言模型,每个任务采用200份问答样本进行评测 [11] - 所有样本均用四种典型的格式转换方法进行输入转换:平铺文本、特殊字符分隔表示、图结构表示和自然语言描述 [11] - 基准还复现并比较了11种结构化数据推理方法,包括8种非医疗领域方法与3种临床方法 [11] 核心研究发现 - 在结构化电子病历任务上,通用大型语言模型整体表现明显优于医学领域模型,其中闭源商业模型(特别是Gemini系列)取得了最佳结果 [8][14] - 大型语言模型在数据驱动类任务上的表现更为稳定和优秀,而知识驱动类任务,特别是诊断评估与治疗规划,仍对现有模型构成显著挑战 [8][15] - 输入格式显著影响模型性能:自然语言描述更有利于数据驱动的推理任务,而图结构表示更适用于数据驱动的理解任务 [8] - 少样本示例能够总体提升大型语言模型表现,其中1-shot和3-shot设置通常优于5-shot [8] - 多任务微调带来的性能增益显著优于单任务微调 [8] - 增强方法具有情境依赖性:非医疗领域的增强方法在知识驱动任务上表现不佳,而医疗专用方法在数据驱动任务中同样存在局限 [8][17] 性能表现与对比 - 通用大模型在绝大多数任务中明显优于医学专用模型,尤其是在知识驱动类任务上,医学模型往往无法生成有效输出 [14] - 以Gemini系列为代表的闭源商业模型整体排名领先,展现出对结构化电子病历任务更强的泛化能力 [14] - 在零样本测试中,通用模型如Gemini 2.5在部分数据驱动任务上表现优异,而许多医学模型在多项任务上无法生成有效输出 [13] - 复现的11种代表性先进方法显示出性能割裂:通用方法擅长数据驱动的逻辑与数值推理,但在临床知识任务上表现平平;医疗方法精通知识驱动任务,却难以泛化至通用数据场景 [17][18] 提出的解决方案 - 研究团队提出了一种全新的代码增强框架EHRMaster,用于帮助大型语言模型处理结构化医疗任务 [12] - EHRMaster与Gemini系列模型联合后,在基准测试中表现强劲,能有效改善数据驱动任务,并对具有挑战性的知识驱动任务也有一定幅度的性能提升 [19][20] - 具体而言,EHRMaster搭配Gemini 1.5在多项数据驱动任务上达到100%准确率,在知识驱动任务上也有提升,例如K-U1任务的AUC从57%提升至89% [19] - EHRMaster搭配Gemini 2.5在数据驱动任务上表现卓越,并在知识驱动任务K-R3上取得69.2%的AUC,超越先前61.2%的最佳水平 [19]