蚂蚁专用模型超越o3!仅用2K训练样本刷新医疗AI榜单纪录
量子位·2025-08-29 04:21
MedResearcher-R1团队 投稿 量子位 | 公众号 QbitAI 不卷参数的专业模型,会不会被通用大模型取代? 在 医疗领域 ,这个疑问正在被打破。 蚂蚁集团联合研究团队发布的《MedResearcher-R1: Expert-Level Medical Deep Researcher》技术报告,证明了一条关键路径:专业 开 源 模型只要做好领域化设计,有机会在垂直赛道上"以小博大",反超通用大模型。 团队发布的医学AI智能体 MedResearcher-R1 ,靠2100条(约2K规模)训练样本,在权威医疗基准测试MedBrowseComp上,将复杂医疗 研究任务的准确回答数量提升至 27.5 。 刷新该榜单纪录的同时,超过o3、Gemini 2.5 Pro等领先通用大模型,突破了此前 25.5 的业界准确回答"卡点"。 让AI学会像医学专家那样思考 1. 缺"专业储备":通用模型没有密集的医疗知识,面对罕见病、多病症关联等场景,支撑不了临床推理; 2. 缺"精准工具":依赖公开网页搜索的通用工具,要么找不到权威医疗数据,要么被错误信息干扰,无法保障推理严谨性。 据此,蚂蚁团队提出了 知识指引下 ...