核心观点 - 夸克健康大模型通过中国12门核心学科主任医师笔试评测,成为国内首个完成此项专业考核的AI大模型[1] - 该模型采用自建整套流程化系统,明确模型学习路径,提高可解释度和信任度,直接支持搜索业务一线及智能体夸克健康助手等产品[3] - 通过两条平行数据产线(可验证与不可验证)和多阶段训练方法,构建具备高水平推理能力的医疗健康大模型[6][17] 技术路径 数据架构 - 采用三元组形式(问题-思考过程-最终答案)构建"问思答"整组数据,要求过程合乎医学逻辑且可解释[8] - 问题(Question)需含健康医疗背景与结构化标签体系,基于千万日活搜索日志和百万级医学知识图谱构建[9][10] - 思考(CoT)引入"思考行动体系"拆解推理步骤,区分难度等级以提升模型能力[12] - 最终答案(Answer)分为可验证类(医学实体/判断)和不可验证类(医疗建议/科普),采用不同验证方式[14] 数据产线设计 可验证数据产线 - 冷启动阶段由专业医生精准标注,避免早期污染,采用"空白"预训练模型保持多样性[19][20] - 强化学习阶段按病药术检五类任务划分,每题生成50个候选回答以拓展解空间[24][25] - 通过百万次探索筛选高难度数据,以数据质量提升逼近模型能力上限[26] 不可验证数据产线 - 通过SOTA模型数据蒸馏获取原始思考数据,保障表达多样性与推理复杂度均衡[29] - 采用多维度偏好奖励模型(正确性/有用性等)筛选长文本答案,解决标准答案不唯一问题[29][30] 质量评估体系 - 针对"多解多路径"问题设计三类相似度指标(路径/图结构/术语)验证医学一致性[33][34] - 构建X Clinical Judge奖励系统,覆盖有答案标签和无标签问题,输出正确性与全面性评分[35] - 过程奖励模型通过人工提炼思维模式训练,评估思考过程合理性[37][38] - 引入一致性验证器防止思维与结果逻辑断裂,GRPO算法优化推理链条生成[39] 工程实践 - 基础设施包括百万级医学知识图谱、ICD编码术语集和定制化数据产线[6] - 采用端到端强化学习,产线同步产出高质量数据与模型[6][17] - 多阶段训练方法:从冷启动微调→强化学习→数据蒸馏→偏好对齐,防止能力遗忘[46][47] - 对抗模型作弊手段(快答/重复/虚构疾病),通过人工标注负面案例迭代验证器[40][42]
夸克健康大模型万字调研报告流出:国内首个!透视主任医师级「AI大脑」背后的深度工程化
机器之心·2025-07-23 08:57