Agent AI核心架构 - 提出由环境与感知、认知、行动、学习与记忆五大模块构成的完整认知闭环架构 实现从感知到行动的动态迭代智能体系[5][10] - 感知模块主动从物理或虚拟世界获取多模态信息 并内嵌任务规划与技能观察能力实现有目的的信息理解[7][8] - 认知模块作为处理中枢 由大语言模型(LLM)和视觉语言模型(VLM)驱动 负责解释信息、多步推理和策略制定[8] - 行动模块生成具体操作指令 通过控制器执行物理世界交互或虚拟世界API调用[8] - 学习模块支持预训练、零样本/少样本学习、强化学习和模仿学习等多种机制 通过环境反馈实现持续优化[9] - 记忆模块突破传统上下文窗口限制 形成持久化结构系统存储知识、逻辑和推理结果[10] 大模型驱动机制 - LLM和VLM通过海量数据预训练内化世界常识 为Agent提供强大的零样本规划能力 显著降低任务规则编写成本[11][12] - 环境交互成为解决大模型幻觉问题的关键锚点 通过真实或模拟环境的物理反馈倒逼模型实现知识与现实对齐[13] - 需通过多元化数据训练和偏见检测机制解决基础模型继承的社会偏见问题 将包容性作为核心设计原则[13] - 在医疗等敏感领域需建立明确法规框架 通过提示工程和人类监督层确保数据隐私与行为安全[13] 应用场景实践 - 游戏领域彻底改变NPC行为模式 基于LLM的Agent可拥有独立记忆情感 实现动态行为调整和自然语言交互 提升沉浸感与开发效率[14][15] - 机器人领域实现自然语言指令驱动 通过GPT-4V理解人类演示视频并转化为可执行任务 结合多模态感知实现精细物理操作[17] - 医疗健康领域应用包括智能问诊聊天机器人 连接实时医学数据库进行事实核查 以及慢性病监控与预警系统提升诊疗效率[19][21] 行业影响与验证 - 论文框架已获谷歌 OpenAI和微软等主流厂商实际验证 其核心打法均遵循论文提出的能力栈推进[1][4] - 尽管发表仅半年 该综述已成为AI领域纲领性著作 为碎片化的Agent研究提供系统化框架与发展地图[4][22] - 行业面临多模态深度融合、跨领域通用化及标准化评测体系建立等核心挑战 需突破现有技术局限[22]
李飞飞的答案:大模型之后,Agent 向何处去?
36氪·2025-09-04 08:28