工作记忆

搜索文档
MemoryVLA:给机器人装上海马体,助力长时序机器人操作任务
具身智能之心· 2025-09-03 00:03
当前VLA模型局限性 - 主流视觉-语言-动作模型忽略时序context导致长周期任务表现不佳[2] - 机器人操作任务本质具有非马尔可夫性需依赖时序信息[2] - 现有模型决策过度依赖当前观测缺乏长期记忆机制[7] MemoryVLA框架设计 - 受人类工作记忆与海马体系统启发构建认知-记忆-动作框架[3] - 预训练VLM将观测编码为感知token与认知token形成工作记忆[3] - 感知-认知记忆库存储低层级细节与高层级语义实现信息巩固[3] - 工作记忆从记忆库检索决策相关条目并与当前token自适应融合[3] - 记忆条件化扩散动作专家生成时序感知动作序列[3] 技术实现机制 - 记忆库通过合并冗余条目实现动态更新[3] - 框架同时保留逐字细节与语义要点形成多层次记忆[3] - 检索机制增强模型对长周期时序依赖任务的适应性[3] 应用价值 - 解决长周期机器人操作任务中的时序依赖问题[2][7] - 为具身智能系统构建类生物记忆的认知架构[3][7] - 推动视觉-语言-动作模型向更接近人类决策机制演进[3][7]
AI记忆伪装被戳穿!GPT、DeepSeek等17款主流大模型根本记不住数字
机器之心· 2025-06-15 04:40
工作记忆的定义与重要性 - 工作记忆是人类大脑负责临时存储和处理信息的能力,持续时间从几秒到几十秒,支撑推理、计算和连贯对话等复杂操作 [7] - 大模型常被类比为"会说话的大脑",但缺乏真正的工作记忆能力意味着它们距离通用人工智能仍有关键差距 [8] 传统评估方法的局限性 - 人类工作记忆常用N-Back Task评估,要求受试者判断当前刺激与N步前的匹配性,但该方法不适合直接测试LLM [9] - LLM输入窗口包含全部历史token,使得"回看N步"变成文本匹配而非真正的记忆调用 [10] 实验1:数字猜谜游戏 - 测试17个模型在1-10数字猜谜中的表现,要求模型在心中预设数字并回答提问,理想情况下10个数字中应有1个"Yes"回答 [13][14] - 结果显示仅GPT-4o-2024-08-06(概率和1.085)和LLaMA-3.1-8B(0.98)接近人类表现,其他模型普遍无法在"脑内"存储数字 [17][18][19] - 模型对数字7/17/37存在明显偏好,表现出类似人类的数字迷信特征 [22] 实验2:是非问答游戏 - 测试模型在心中预设物体后,通过250次Yes/No比较回答保持逻辑一致性的能力 [22] - GPT-4o在200次测试中仅27次通过,多数模型在20-40题后出现"比汽车大又比足球小"等矛盾回答 [25][26] - 长上下文模型表现略优但本质仍是依赖文本回溯而非工作记忆 [26] 实验3:数学魔术测试 - 要求模型记忆4个随机数并完成10步心算操作,最终应得到2个相同数字 [27] - 17个模型中DeepSeek-R1以39%正确率最高,LLaMA-3.1-8B表现突出但整体准确率仍远低于及格线 [28][29] - 加入思维链(CoT)提示未能显著提升效果,显示模型缺乏内部运算能力 [29] 核心研究发现 - 测试覆盖GPT/o1-4/LLaMA/Qwen/DeepSeek等主流模型家族,无一通过三项工作记忆测试 [30] - 模型体量与表现无必然关联,部分升级版本反而出现性能倒退 [32] - 当前对话真实性依赖上下文窗口而非内部记忆,长链推理实质是外部化"草稿"而非脑内运算 [30][31] 技术启示 - 需开发新型记忆机制如可读写"内存格",或通过强化学习训练模型操纵隐变量 [32] - LLaMA-3.1-8B在数字猜谜最接近人类(0.98),DeepSeek-R1在数学魔术领先(39.3%)但仍有巨大改进空间 [32]