视觉-语言模型（VLM）

搜索文档

券商中国· 2025-09-29 11:16

刚刚，DeepSeek放大招！今日，DeepSeek宣布，官方App、网页端、小程序均已同步更新为DeepSeek-V3.2-Exp。DeepSeek介绍，得益于新模型服务成本的大幅降低，官方API价格也相应下调，新价格即刻生效。在新的价格政策下，开发者调用DeepSeek API的成本将降低50%以上。在 DeepSeek-V3.2发布前夕，有消息称，智谱新模型GLM-4.6也将于近日发布，目前已可通过API接口调用。在Z.ai官网可以看到，GLM-4.5已被标识为上一代旗舰模型。 DeepSeek-V3.2-Exp发布 9月29日，DeepSeek-V3.2-Exp模型正式在Hugging Face平台发布并开源。该版本作为迈向下一代架构的重要中间步骤，在 V3.1-Terminus 的基础上引入了团队自研的 DeepSeek Sparse Attention (DSA) 稀疏注意力机制，旨在对长文本的训练和推理效率进行探索性优化与验证。这种架构能够降低计算资源消耗并提升模型推理效率。目前，华为云已完成对DeepSeek-V3.2-Exp模型的适配工作，最大可支持160K长序列上下文长度。 ...

视觉-语言模型（VLM）

通用人工智能（AGI）

Artificial Intelligence

Artificial Intelligence

DeepSeek-V3.2-Exp

GLM-4.6

GLM-4.5

具身智能之心· 2025-08-15 00:05

核心观点 - 提出GeoVLA框架通过整合3D几何信息显著提升视觉-语言-动作模型的空间感知和操作能力 [3][9] - 在模拟和真实世界环境中实现卓越性能包括LIBERO基准测试97.7%平均成功率和ManiSkill2基准测试77%成功率 [3][24][27] - 采用端到端架构设计包含点嵌入网络和3D增强动作专家有效融合多模态特征 [9][12][15] 领域背景 - 当前VLA模型主要依赖2D视觉输入缺乏对3D几何信息的利用限制空间感知能力 [3][7] - 现有3D整合方法存在局限性：LLaVA3D等方案破坏视觉编码器与语言模型对齐需大规模微调数据集 PointVLA等方案冻结动作专家阻碍模态适应 [8] - 机器人操作需同时处理智能交互和精确运动控制 VLA模型通过视觉-语言基础结合动作生成设计实现指令跟随 [7] 方法设计 - 点嵌入网络采用双路径架构：几何特征路径使用CNN提取patch级token 位置编码路径通过旋转位置编码增强空间信息 [17] - 空间锚设计聚焦末端执行器区域提升特征提取效率并明确建模空间关系 [18] - 3D增强动作专家采用扩散transformer与混合专家架构通过静态路由策略平衡多模态特征处理 [19][20] - 端到端训练框架同步处理视觉语言特征和点云几何特征输出连续动作序列 [12][13] 性能表现 - LIBERO基准测试中全面领先：空间任务98.4% 物体任务99.0% 目标任务96.6% 长视野任务96.6% 90任务97.7% [24][27] - ManiSkill2基准测试表现优异：PickCube任务90% StackCube任务90% PickSingleYCB任务75% PickClutterYCB任务45% [24][27] - 真实世界任务平均成功率86.3% 较CogACT提升10个百分点在3D感知任务中达77.5%成功率 [31][36] 技术优势 - 几何感知能力突出：点云输入提供精确深度线索增强空间理解和对视角变化的鲁棒性 [3][38] - 泛化能力强：在篮子高度变化、玩偶尺寸缩放、相机视角偏移等未见场景中保持稳定性能 [35][38] - 架构创新有效：点嵌入网络较MLP和PointNet编码器提升2-2.5个百分点旋转位置编码较1D位置编码提升2.3个百分点 [29][30]