记忆机制

搜索文档
从上下文工程到 AI Memory,本质上都是在「拟合」人类的认知方式
Founder Park· 2025-09-20 06:39
以下文章来源于Sentrum Okern ,作者la Vela Sentrum Okern . "真的存在上下吗" "没有重力就没有上下" 哦时间和空间也是。 本文作者是一名 AI 语音产品的创业者。这篇文章是她近期对于如何构建多智能体的一个思 考总结,包括从 Context Engineering 到 AI Memory 的技术实践与哲学思考。 文中,引入了哲学家胡塞尔的现象学视角,通过刨析了人类与 AI 在记忆机制上的本质差异 和联系。作者发现,当前 AI 的许多工程化设计,本质上都是在"拟合"人类的认知与存在方 式,最终都要回到人类自身。 人类的记忆不仅仅是信息的存储与检索,它更是存在的方式。当我们说"我记得"时,我们不只是在 陈述一个认知功能,而是在指向一种存在状态—— 我作为一个连续的、有意义的主体而存在 。正 如胡塞尔所说,意识总是时间性的意识,而时间性的构造离不开记忆的综合活动。 无论是对人类还是对 AI Agent,记忆与从过往经验中学习并适应新信息的能力,是智能的基础。 单一的 LLM 对话框虽然在处理即时输入方面功能强大,但它不记得"你是谁",也没有从历史数据 中进行学习的能力。这种局限性 ...
转身世界就变样?WorldMem用记忆让AI生成的世界拥有了一致性
机器之心· 2025-05-11 03:20
研究背景 - 基于视频生成模型的可交互世界生成近期受到广泛关注,但长时序一致性仍是未解决的挑战[1][5] - 谷歌Genie 2、阿里The Matrix、Meta Navigation World Models等现有方法在生成质量与交互性上有进展,但长时一致性问题突出[5] - 传统方法在视角转换时场景内容会显著变化,缺乏连续性[6][7] 模型创新 - WorldMem通过引入记忆机制(记忆库+贪心检索+融合模块)实现长时序一致生成[8][18][19] - 记忆库持续存储关键历史信息(图像帧+位姿/时间戳),采用贪心匹配算法高效检索[18][21] - 记忆融合模块通过跨注意力机制动态关联历史与当前帧,增强空间一致性[20][22] - 状态嵌入设计(位姿Plücker坐标+时间MLP映射)提升时空表达精度[25] 技术实现 - 基于Oasis和Conditional DiT构建生成主干,采用Diffusion Forcing训练策略[17] - 记忆读写模块支持历史信息存取,记忆融合模块引导当前生成[15][19] - 相对嵌入机制和帧独立检索策略优化信息利用效率[22][25] 性能表现 - 在Minecraft数据集上: - 短时生成PSNR达27.01,超越Diffusion Forcing的26.56[24] - 长时生成(300帧)PSNR保持25.32,显著优于基线方法的18.04[24][26] - rFID指标降至15.37,远低于基线51.28[24] - 支持动态交互(如雪地放置南瓜灯融化积雪、种植作物生长过程)[13][31] - 真实场景验证显示记忆机制增强一致性[33] 行业应用 - 视频生成模型(如WAN 2.1、Hunyuan)展示出复杂环境仿真潜力[36] - 交互式视频生成模型有望成为虚拟仿真、交互智能领域的核心技术[37][38] - WorldMem为构建持久、交互式虚拟世界提供关键技术路径[38]