Workflow
李飞飞的答案:大模型之后,Agent向何处去?
虎嗅APP·2025-09-07 02:51

Agent AI核心框架 - 提出由环境与感知、认知、行动、学习、记忆五大模块构成的智能体认知闭环架构 这代表对未来通用人工智能发展路径的前瞻性思考[10][12][17] - 感知模块具备多模态信息接收能力和任务规划与技能观察功能 使智能体能主动从物理或虚拟世界获取信息[12] - 认知模块作为处理中枢 由大语言模型和视觉语言模型提供世界知识、逻辑推理和上下文理解能力[14] - 行动模块通过控制器生成物理世界交互指令或虚拟世界API调用[15] - 学习模块支持预训练、零样本/少样本学习、强化学习和模仿学习等机制 实现持续自我进化[16] - 记忆模块采用持久化结构化系统存储知识、逻辑和推理结果 支持长期经验积累[17] 大模型驱动机制 - 大型基础模型特别是LLM和VLM的成熟是Agent AI框架的根本驱动力 为智能体提供零样本规划能力[20] - 大模型存在的"幻觉"问题可通过环境交互机制解决 环境反馈能迫使模型内部知识与外部现实对齐[21] - 基础模型存在社会偏见风险 需通过多元化数据训练和偏见检测机制确保包容性[22] - 个人数据隐私保护需建立明确法规框架 通过提示工程和人类监督层确保安全可控[22] 游戏领域应用 - 彻底改变传统NPC由固定脚本驱动的模式 实现基于记忆、目标和情感的动态行为调整[25] - 支持玩家用自然语言与游戏世界互动 为开放世界游戏带来前所未有的沉浸感和自由度[25] - 可作为创作者副驾驶 根据指令自动生成游戏关卡、道具和完整3D场景 大幅提升开发效率[25] 机器人领域应用 - 用户可用日常语言下达指令 机器人自主规划执行复杂物理操作 如GPT-4V可将人类演示视频转化为可执行任务序列[27] - 通过领域随机化技术在模拟训练中引入变化 增强对真实世界差异的鲁棒性[27] - 融合视觉、语言、触觉等多模态信息理解环境 实现更精准的物理交互[27] 医疗健康应用 - 作为医疗聊天机器人进行初步问诊和病史收集 基于医学知识库提供诊断建议 提升初级诊疗覆盖率[29] - 连接实时更新的医学数据库 在生成诊断时同步进行事实核查和来源引用 抑制模型幻觉[29] - 处理分流患者信息并监控慢性病患者生命体征 实现高效个性化健康管理[31] 发展挑战与方向 - 需解决视觉、语言、听觉、动作等多模态深度融合问题 而非浅层拼接[32] - 需训练能跨游戏、机器人和医疗等不同领域工作的通用智能体 而非定制化模型[32] - 建立科学评测体系至关重要 研究团队已提出CuisineWorld多智能体协作基准和VideoAnalytica视频理解基准[32]