Workflow
科研智能体「漫游指南」—助你构建领域专属科研智能体
机器之心·2025-09-01 02:49

科研智能体综述核心观点 - 基于大语言模型的智能体构建推动AI4S迅猛发展 催生一系列科研智能体构建与应用[2] - 人工智能与自然科学研究之间存在认知论与方法论偏差 对系统设计、训练及验证产生较大阻碍[2] - 综述提供科研智能体"漫游指南" 涵盖分级策略、构建方案、基线评估及未来方向[2] 科研智能体分级策略 - 三级分级系统根据构建策略与能力边界划分:Agent as Assistant、Agent as Partner、Agent as Avatar[4][8] - Agent as Assistant使用小模型经后训练或微调完成 局限于特定领域单一任务[8] - Agent as Partner集成各类工具实现能力跃迁 采用闭源大型模型结合上下文信息优化[8] - Agent as Avatar具备强大推理能力、深度记忆和强协作能力 能跨学科解决科研难题[8] 构建方案与能力增强 - 从头构建工作流包含知识组织、知识注入和工具集成三部分[12] - 知识组织涵盖非结构化序列、结构化数据、指令及知识图谱四种形式[14] - 知识注入通过显式或隐式方法实现 显式注入直接整合知识到提示中 隐式注入涉及微调模型或强化学习[14] - 工具集成通过外部工具扩展功能 包括专业知识获取、执行模拟、分析及可视化[14] - 能力增强包含记忆增强、推理增强和协作增强三个维度[19] 基准评估体系 - 基准分为知识密集型任务和实验驱动型任务两类[17][18] - 知识密集型任务侧重文献挖掘、假设生成、实验设计等需要深厚专业知识的领域[17] - 实验驱动型任务评估智能体在科学探究中使用工具的能力 强调自主实验设计和验证[18] - 基准覆盖生物学、化学、医学、计算机科学等多个领域 包含True/False、Open-ended、Choices等多种题型[20] 应用案例与模型配置 - 汇总超过80个科研智能体案例 涵盖天文学、生物学、化学、医学等15个学科领域[10] - 基础模型包括LLaMA系列(7B/13B)、GPT系列(GPT-3/4/4o)、Qwen系列(2.5-72B)等[10] - 应用阶段覆盖知识问答、假设生成、实验设计、分子设计、临床分析等科研全生命周期[10] 未来研究方向 - 需确保科学实验设计的实证准确性和理性 整合验证工具和反馈机制[23] - 需要灵活连贯的框架适应特定研究领域 克服复杂领域系统局限性[23] - 需融入自我反思和持续迭代机制 平衡情景记忆和参数记忆[23] - 需优化智能体与人类研究人员交互 整合通用和专用模型促进跨学科合作[23] - 需通过跨学科知识转移增强专业知识 提高相关领域执行能力[23] - 需创新评估方法确保遵循可证伪性和可重复性等核心科学原则[23]