Workflow
让OpenAI只领先5天,百川发布推理新模型,掀翻医疗垂域开源天花板
量子位·2025-08-11 07:48

模型性能与评测 - 百川开源医疗推理大模型Baichuan-M2-32B在OpenAI HealthBench评测集上超越所有开源模型及多数闭源模型,包括参数规模4倍的gpt-oss-120b [1][19][21] - 在HealthBench Hard困难测试集上,Baichuan-M2以34.7分成为全球唯二超过32分的模型,仅次于GPT-5的46.2分 [24][25][26] - 模型参数量32B但性能超越更大规模模型,支持RTX4090单卡部署,成本比DeepSeek-R1降低57倍 [13][35][56] 技术架构创新 - 首创患者模拟器和Verifier系统,通过动态奖励机制提升临床决策质量,模拟数百万次诊疗过程 [40][44][45] - 采用改进版GRPO算法,优化KL约束、Clip-higher等训练策略,提升训练效率和稳定性 [53][55] - 引入中期训练(Mid-Training)和多阶段强化学习策略,平衡通用能力与医疗专业性 [48][51][52] 本土化与落地优势 - 在中国临床诊疗场景评测中表现优于国际模型,更贴合国内指南如肝癌治疗推荐R0切除而非TACE [30][33] - 量化后模型精度接近无损,支持单卡部署显著降低医疗机构私有化部署门槛 [4][35][64] - 已与北京儿童医院等机构合作落地儿科大模型等应用 [66] 行业趋势与定位 - AI医疗成为大模型落地最受关注领域,获OpenAI等顶尖公司重点投入 [5][7][68] - 百川是国内首个All in AI医疗的大模型公司,通过开源策略推动行业进展 [8][70][71] - 模型在数学、写作等通用能力上超越Qwen3-32B,保持多领域应用潜力 [37][38][39]