从物竞天择到智能进化，首篇自进化智能体综述的ASI之路

自进化智能体综述核心框架 - 普林斯顿大学联合多所顶尖机构发布首个系统性自进化智能体综述，旨在建立统一理论框架并为实现通用人工智能（AGI）和人工超级智能（ASI）铺平道路 [2] - 提出围绕"What、When、How、Where"四个维度的完整分析框架，系统梳理前沿技术 [8] - 将智能体系统解构为四大核心组成部分：架构（Γ）、模型（{ψi}）、上下文（{Ci}）和工具集（{Wi}） [9] - 自进化策略被形式化为转换函数f，输入当前智能体系统（Π）、轨迹（τ）和反馈（r），输出演化后的新系统（Π'），即Π' = f(Π, τ, r) [9] - 终极目标是构建最优自进化策略f，使智能体在连续任务上的累积效用最大化 [9] 演化内容（What to Evolve） - 模型演化包括决策策略优化（如通过自我生成挑战性任务SCA或自然语言反馈在线微调SELF、TextGrad）和经验积累学习（如Reflexion自我反思机制、RAGEN强化学习框架） [13] - 上下文演化涵盖记忆动态管理（如Mem0框架的ADD/MERGE/DELETE机制、Expel提炼可泛化规则）和指令提示自动化优化（如APE候选提示生成、DSPy可微分程序联合优化、MASS多智能体通信优化） [13] - 工具演化分为自主创造新工具（如Voyager探索式学习、Alita响应式代码生成）、已有工具精通（如LearnAct自我纠错循环）以及管理与选择（如ToolGen工具调用生成问题、AgentSquare元学习优化组件配置） [13] - 架构演化针对单智能体（如TextGrad优化工作流节点、Darwin Gödel Machine重写自身源代码）和多智能体系统（如AFlow蒙特卡洛树搜索协作流程优化、ReMA多智能体强化学习协同策略） [14] 演化时机（When to Evolve） - 测试时自进化发生在任务执行期间，例如AdaPlanner通过ICL动态修正计划、利用"self-edits"指令触发即时SFT更新模型权重、LADDER框架通过RL实现即时技能获取 [20] - 测试间自进化发生在任务执行之后，例如STaR和SiriuS通过SFT从成功或失败推理链生成训练数据实现自举式提升、RAGEN和WebRL利用RL在任务间歇期优化策略 [20] 演化方法（How to Evolve） - 基于奖励的演化利用文本反馈（如Reflexion提供自然语言改进建议）、内部奖励（如CISC利用模型置信度自我评估）、外部奖励（如工具执行成功/失败）和隐式奖励（如从模型logits提取内生奖励函数） [21] - 模仿与演示学习通过自我生成演示（如STaR）、跨智能体演示（如共享经验库学习）或混合方式学习高质量范例 [21] - 基于种群的演化方法维护多个智能体变体或团队，通过选择、变异和竞争机制探索解空间，例如Darwin Gödel Machine的开放式代码进化、EvoMAC的文本反向传播机制 [22] 应用场域（Where to Evolve） - 通用领域演化通过记忆机制（如总结历史经验形成可复用知识）、模型-智能体协同进化（如奖励模型与世界模型相互促进）和课程驱动训练（如WebRL自适应生成难度任务）拓展广泛任务能力 [25] - 特定领域演化在垂直领域深耕，例如编码领域SICA自主修改代码库、GUI领域通过真实交互学习界面操控、金融领域QuantAgent优化量化策略、医疗领域Agent Hospital提升诊断能力、教育领域PACE个性化调整教学策略 [25] 评估范式 - 提出五大评估目标：适应性（Adaptivity）、知识保留（Retention）、泛化性（Generalization）、效率（Efficiency）和安全性（Safety） [28] - 评估模式分为静态评估、短时程自适应评估和长时程终身学习评估 [28] - 适应性通过迭代步骤成功率（如65、29、247项研究）和适应速度（如Voyager）衡量；知识保留通过遗忘率（FGT）和反向迁移（BWT）衡量；效率通过Token消耗、时间支出和工具生产率衡量；安全性通过安全评分、危害评分和泄漏率等衡量 [29] - 代表性基准测试包括ScienceAgentBench（102项科学数据分析任务）、SWE-bench（2,294项软件工程任务）、OSWorld（GUI任务）、LifelongAgentBench（1,396项长时程任务）和AgentBench（1,360项通用任务） [31]