蚂蚁专用模型超越o3！仅用2K训练样本刷新医疗AI榜单纪录

MedResearcher-R1团队投稿量子位 | 公众号 QbitAI 不卷参数的专业模型，会不会被通用大模型取代？在医疗领域，这个疑问正在被打破。蚂蚁集团联合研究团队发布的《MedResearcher-R1: Expert-Level Medical Deep Researcher》技术报告，证明了一条关键路径：专业开源模型只要做好领域化设计，有机会在垂直赛道上"以小博大"，反超通用大模型。团队发布的医学AI智能体 MedResearcher-R1 ，靠2100条（约2K规模）训练样本，在权威医疗基准测试MedBrowseComp上，将复杂医疗研究任务的准确回答数量提升至 27.5 。刷新该榜单纪录的同时，超过o3、Gemini 2.5 Pro等领先通用大模型，突破了此前 25.5 的业界准确回答"卡点"。让AI学会像医学专家那样思考 1. 缺"专业储备"：通用模型没有密集的医疗知识，面对罕见病、多病症关联等场景，支撑不了临床推理； 2. 缺"精准工具"：依赖公开网页搜索的通用工具，要么找不到权威医疗数据，要么被错误信息干扰，无法保障推理严谨性。据此，蚂蚁团队提出了知识指引下 ...