视觉-语言模型(VLM)

搜索文档
DeepSeek,重大突发!
券商中国· 2025-09-29 11:16
刚刚,DeepSeek放大招! 今日,DeepSeek宣布,官方App、网页端、小程序均已同步更新为DeepSeek-V3.2-Exp。DeepSeek介绍,得益于新模 型服务成本的大幅降低,官方API价格也相应下调,新价格即刻生效。在新的价格政策下,开发者调用DeepSeek API的成 本将降低50%以上。 在 DeepSeek-V3.2发布前夕,有消息称,智谱新模型GLM-4.6也将于近日发布,目前已可通过API接口调用。在Z.ai官 网可以看到,GLM-4.5已被标识为上一代旗舰模型。 DeepSeek-V3.2-Exp发布 9月29日,DeepSeek-V3.2-Exp模型正式在Hugging Face平台发布并开源。 该版本作为迈向下一代架构的重要中间步骤,在 V3.1-Terminus 的基础上引入了团队自研的 DeepSeek Sparse Attention (DSA) 稀疏注意力机制,旨在对长文本的训练和推理效率进行探索性优化与验证。这种架构能够降低计算资源 消耗并提升模型推理效率。 目前,华为云已完成对DeepSeek-V3.2-Exp模型的适配工作,最大可支持160K长序列上下文长度。 ...
天大&清华最新!GeoVLA:增强VLA模型的3D特征提取能力,鲁棒提升明显(SOTA)
具身智能之心· 2025-08-15 00:05
核心观点 - 提出GeoVLA框架 通过整合3D几何信息显著提升视觉-语言-动作模型的空间感知和操作能力 [3][9] - 在模拟和真实世界环境中实现卓越性能 包括LIBERO基准测试97.7%平均成功率和ManiSkill2基准测试77%成功率 [3][24][27] - 采用端到端架构设计 包含点嵌入网络和3D增强动作专家 有效融合多模态特征 [9][12][15] 领域背景 - 当前VLA模型主要依赖2D视觉输入 缺乏对3D几何信息的利用 限制空间感知能力 [3][7] - 现有3D整合方法存在局限性:LLaVA3D等方案破坏视觉编码器与语言模型对齐 需大规模微调数据集 PointVLA等方案冻结动作专家阻碍模态适应 [8] - 机器人操作需同时处理智能交互和精确运动控制 VLA模型通过视觉-语言基础结合动作生成设计实现指令跟随 [7] 方法设计 - 点嵌入网络采用双路径架构:几何特征路径使用CNN提取patch级token 位置编码路径通过旋转位置编码增强空间信息 [17] - 空间锚设计聚焦末端执行器区域 提升特征提取效率并明确建模空间关系 [18] - 3D增强动作专家采用扩散transformer与混合专家架构 通过静态路由策略平衡多模态特征处理 [19][20] - 端到端训练框架同步处理视觉语言特征和点云几何特征 输出连续动作序列 [12][13] 性能表现 - LIBERO基准测试中全面领先:空间任务98.4% 物体任务99.0% 目标任务96.6% 长视野任务96.6% 90任务97.7% [24][27] - ManiSkill2基准测试表现优异:PickCube任务90% StackCube任务90% PickSingleYCB任务75% PickClutterYCB任务45% [24][27] - 真实世界任务平均成功率86.3% 较CogACT提升10个百分点 在3D感知任务中达77.5%成功率 [31][36] 技术优势 - 几何感知能力突出:点云输入提供精确深度线索 增强空间理解和对视角变化的鲁棒性 [3][38] - 泛化能力强:在篮子高度变化、玩偶尺寸缩放、相机视角偏移等未见场景中保持稳定性能 [35][38] - 架构创新有效:点嵌入网络较MLP和PointNet编码器提升2-2.5个百分点 旋转位置编码较1D位置编码提升2.3个百分点 [29][30]