李飞飞的答案：大模型之后，Agent向何处去？

Agent AI核心框架 - 提出由环境与感知、认知、行动、学习、记忆五大模块构成的智能体认知闭环架构这代表对未来通用人工智能发展路径的前瞻性思考[10][12][17] - 感知模块具备多模态信息接收能力和任务规划与技能观察功能使智能体能主动从物理或虚拟世界获取信息[12] - 认知模块作为处理中枢由大语言模型和视觉语言模型提供世界知识、逻辑推理和上下文理解能力[14] - 行动模块通过控制器生成物理世界交互指令或虚拟世界API调用[15] - 学习模块支持预训练、零样本/少样本学习、强化学习和模仿学习等机制实现持续自我进化[16] - 记忆模块采用持久化结构化系统存储知识、逻辑和推理结果支持长期经验积累[17] 大模型驱动机制 - 大型基础模型特别是LLM和VLM的成熟是Agent AI框架的根本驱动力为智能体提供零样本规划能力[20] - 大模型存在的"幻觉"问题可通过环境交互机制解决环境反馈能迫使模型内部知识与外部现实对齐[21] - 基础模型存在社会偏见风险需通过多元化数据训练和偏见检测机制确保包容性[22] - 个人数据隐私保护需建立明确法规框架通过提示工程和人类监督层确保安全可控[22] 游戏领域应用 - 彻底改变传统NPC由固定脚本驱动的模式实现基于记忆、目标和情感的动态行为调整[25] - 支持玩家用自然语言与游戏世界互动为开放世界游戏带来前所未有的沉浸感和自由度[25] - 可作为创作者副驾驶根据指令自动生成游戏关卡、道具和完整3D场景大幅提升开发效率[25] 机器人领域应用 - 用户可用日常语言下达指令机器人自主规划执行复杂物理操作如GPT-4V可将人类演示视频转化为可执行任务序列[27] - 通过领域随机化技术在模拟训练中引入变化增强对真实世界差异的鲁棒性[27] - 融合视觉、语言、触觉等多模态信息理解环境实现更精准的物理交互[27] 医疗健康应用 - 作为医疗聊天机器人进行初步问诊和病史收集基于医学知识库提供诊断建议提升初级诊疗覆盖率[29] - 连接实时更新的医学数据库在生成诊断时同步进行事实核查和来源引用抑制模型幻觉[29] - 处理分流患者信息并监控慢性病患者生命体征实现高效个性化健康管理[31] 发展挑战与方向 - 需解决视觉、语言、听觉、动作等多模态深度融合问题而非浅层拼接[32] - 需训练能跨游戏、机器人和医疗等不同领域工作的通用智能体而非定制化模型[32] - 建立科学评测体系至关重要研究团队已提出CuisineWorld多智能体协作基准和VideoAnalytica视频理解基准[32]