Workflow
李飞飞的答案:大模型之后,Agent 向何处去?
创业邦·2025-09-05 11:12

论文核心观点 - 李飞飞领衔的80页综述论文《Agent AI: Surveying the Horizons of Multimodal Interaction》为AI智能体领域建立统一框架 提出从感知到行动的认知闭环架构 并前瞻性预测行业技术演进路径 [5][6][9] - 论文定义Agent AI五大核心模块(环境感知、认知、行动、学习、记忆) 构成动态迭代的智能体体系 被视为实现AGI的系统性蓝图 [12][18] - 大模型(LLM/VLM)是驱动Agent的核心引擎 但需通过环境交互解决幻觉与偏见问题 需建立伦理安全机制 [5][20][21] - 应用潜力覆盖游戏、机器人和医疗三大领域 包括游戏NPC动态交互、机器人自主物理操作、医疗智能问诊与健康管理 [5][24][30] 技术架构 - 环境与感知模块:智能体主动从物理/虚拟世界获取多模态信息(视觉、听觉、文本) 并具备任务规划与技能观察能力 [13] - 认知模块:由LLM/VLM驱动 负责复杂推理、策略制定及上下文理解 是智能体的核心处理中枢 [14] - 行动模块:将决策转化为具体操作指令 包括机器人控制命令或API调用 通过控制器改变环境状态 [15] - 学习模块:支持预训练、零样本/少样本学习、强化学习及模仿学习 通过环境反馈实现持续优化 [16] - 记忆模块:存储知识、逻辑与推理结果 形成长期记忆体系 支持经验复用与举一反三 [17][18] 大模型驱动机制 - LLM/VLM提供零样本规划能力 例如将"热午餐"指令分解为具体子任务序列 显著降低规则编写成本 [20] - 环境交互是关键锚点:通过真实/模拟环境反馈校准模型输出 减少幻觉(如机器人操作错误)并对齐现实世界 [21] - 需解决数据偏见问题:通过多元化训练数据、偏见检测机制及道德指导方针确保包容性 [21] - 隐私与安全挑战:需建立数据使用监管框架 通过提示工程或人类监督层确保敏感领域(如医疗)安全可控 [22] 行业应用场景 - 游戏领域:变革传统NPC脚本模式 实现动态对话、行为调整及社会关系构建 支持自然语言交互与AI辅助内容生成 [25][26] - 机器人领域:实现自然语言指令解析(如"收拾桌子") 结合GPT-4V理解人类演示视频 并通过模拟训练与多模态融合提升物理操作鲁棒性 [28] - 医疗领域:智能问诊机器人提升初级诊疗效率 连接实时医学数据库进行事实核查 支持慢性病监控与个性化健康管理 [30][32] 行业发展与挑战 - 2025年被普遍视为Agent元年 谷歌、OpenAI和微软等巨头技术布局均遵循论文能力栈框架 [5][9] - 当前需突破多模态深度融合、跨领域通用化及标准化评测(如CuisineWorld、VideoAnalytica基准)等核心挑战 [33]