思维链推理机制
搜索文档
Nano Banana,OpenAI你学不会
虎嗅APP· 2025-11-24 13:21
文章核心观点 - 谷歌新发布的Nano Banana Pro图像生成模型在技术路径上实现了对物理世界的模拟,通过引入思维链推理机制,在逻辑准确性和物理真实性上对OpenAI的GPT-4o构成了显著优势 [4][10] - 技术差异源于两家公司不同的发展路径:谷歌采用“原生多模态”架构,而OpenAI采用“模块化拼接”架构,这导致了两者在模型能力上的根本区别 [27][28][29] - OpenAI在图像生成领域面临压力,其CEO萨姆·奥特曼已内部承认谷歌正在缩短差距,并带来了不小的压力 [4] 技术路径差异 - GPT-4o的生成机制基于统计学相关性,通过在海量训练数据中检索视觉特征并进行概率匹配,未真正理解数量概念或构建物理模型 [10] - Nano Banana Pro引入了思维链机制,将图像生成过程升级为逻辑推演,在生成像素前先在潜空间进行符号化规划,实现从语义理解到执行生成的全链路闭环 [10] - OpenAI体系存在“文本信息瓶颈”,用户指令需经GPT改写为详尽Prompt再传递给图像模型,此过程易导致关键约束信息丢失 [16] - Nano Banana Pro采用原生多模态架构,用户输入直接映射为包含语义、空间及物理属性的高维向量,无需文本-图像转译中介,实现端到端映射 [21] 模型能力对比 - 在处理“三个苹果”的生成任务时,GPT-4o生成的图像在细节上暴露出概率生成的缺陷,如水珠排布不符合客观规律,腐烂状态过于刻意 [6] - Nano Banana Pro输出的图像数量精确,每个对象属性严格对应,能精准还原咬痕缺口、水珠折射光感、氧化纹理等细节 [8] - 在涉及物理规律的复杂场景中,GPT-4o生成的光影关系存在物理矛盾,而Nano Banana Pro会先行计算光源向量、阴影投射方向及液体折射率 [12][14] - Nano Banana Pro在文字渲染上具有碾压性优势,能精准控制文字元素,而GPT-4o长期存在汉字书写“乱码”问题 [16][19] - Nano Banana Pro通过类似代码的提示词实现精确控制,能清晰区分不同对象属性归属,避免属性泄露问题,但提示词门槛较高 [24][25][26] 公司战略与资源禀赋 - 谷歌选择原生多模态路径,从模型训练第一天起就将文本、图像、视频、音频数据混合训练,使模型能直接理解多模态信息 [28] - OpenAI走模块化拼接路线,让不同专业模块各司其职,再通过API连接,其策略强调快速迭代和产品市场契合度 [29][38] - 谷歌拥有YouTube这一全球最大视频库,内含几十亿小时包含时间序列和因果关系的动态数据,为模型理解物理世界运行逻辑提供了独特优势 [31] - 谷歌通过几十年OCR技术积累,拥有全球最大的图片-文字对齐数据库,这直接支撑了其在文字渲染上的优势 [33] - OpenAI起家于文本,其视觉能力是后期添加,训练数据主要来自网络抓取的静态图片,缺乏时间维度和物理过程信息 [33][34] 训练方式与产品理念 - OpenAI采用RLHF路线,雇佣人类标注员对生成图片打分,导致模型被训练成“讨好型人格”,倾向于生成色彩鲜艳、构图完美但牺牲物理真实感的图像 [35] - 谷歌的训练更注重“真实”而非“美”,其目标是实现“Grounding”,即模型的输出更接地气和真实 [35][36] - 谷歌为实现质的提升,不惜增加计算成本,在图像生成过程中引入思考步骤,通过思维链让模型先理解再生成 [36][37] - OpenAI将最强推理能力集中在o1系列模型上,对于图像生成,其判断是GPT-4o的“直觉式”生成已足够维持市场领先,无需继续提升 [38] - OpenAI的“胶水科技”市场策略导致积累了大量技术债,未来若想转向原生多模态将面临巨大挑战 [39]
TACTILE-VLA:激活VLA模型的物理知识以实现触觉泛化(清华大学最新)
自动驾驶之心· 2025-07-16 04:05
核心观点 - 视觉-语言-动作模型(VLA)在接触密集型任务中存在触觉感知缺失的短板,难以实现精细力控制 [2] - Tactile-VLA通过深度融合视觉、语言、动作与触觉感知,激活VLA模型中隐含的物理知识,解决接触密集型任务的力控制与泛化问题 [2][6] - 研究发现视觉-语言模型(VLM)的先验知识中已包含对物理交互的语义理解,通过少量演示即可激活该知识实现零样本泛化 [6] 核心创新与研究目标 关键发现 - VLM的先验知识包含物理交互语义理解,通过触觉传感器连接可激活该知识实现零样本泛化 [6] 主要创新点 - Tactile-VLA框架:首次将触觉感知作为原生模态引入VLA模型,构建多模态深度融合架构 [6] - 混合位置-力控制器:将力目标转化为位置调整指令,解决位置与力控制的协同难题 [6][11] - Tactile-VLA-CoT变体:引入思维链推理机制,基于触觉反馈自主调整策略提升稳健性 [6][15] 主要解决的问题 - 触觉感知的指令遵循:理解"轻柔地""用力地"等力相关语言修饰词 [6] - 触觉相关常识运用:基于物体属性自主调整交互力 [6] - 触觉参与的自适应推理:通过触觉反馈诊断失败并制定纠正策略 [6] Tactile-VLA框架 整体架构 - 多模态深度融合架构包含视觉、语言、触觉和本体感觉输入的统一token表示 [9][11] - 通过非因果注意力机制实现视觉、语言和触觉token的自由交互 [9] 混合位置-力控制机制 - 控制逻辑:以位置控制为主,力误差超过阈值时引入力反馈调整 [11][12] - 双通道分离:外部净力与内部抓取力分离实现精细化调节 [13] 思维链推理机制 - 触发机制:固定间隔评估任务进展,检测失败时启动推理 [18] - 推理流程:判定任务成功与否、分析失败原因、生成纠正指令 [18] 数据收集方法 - 硬件平台:基于通用操作接口(UMI)配备双高分辨率触觉传感器 [19] - 同步机制:100Hz触觉信号与20Hz视觉数据时间对齐 [19] - 标注方式:人类操作员结合触觉反馈提供演示并记录语言指令 [19] 实验验证与结果分析 触觉感知的指令遵循实验 - 任务A(USB插拔):Tactile-VLA成功率达35%,充电器任务中达90% [22][23] - 力控制精度:USB任务中"轻柔地"施加0.51N力,"用力地"施加2.57N力 [23] 触觉相关常识的运用实验 - 域内物体抓取成功率:90%-100%,域外物体达80%-100% [30] - 力调节策略:根据物体属性自主调整力度,如对易碎物体用轻力 [30] 触觉参与的自适应推理实验 - 黑板擦拭任务:Tactile-VLA-CoT成功率达80%,基线模型为0 [28][32] - 推理过程:首次尝试失败后自主增加剪切力并成功完成任务 [32]
智谱GLM-4.1V-Thinking登顶HuggingFace Trending全球第一:同尺寸效果最好
IPO早知道· 2025-07-09 10:01
模型性能与突破 - GLM-4.1V-9B-Thinking凭借9B模型尺寸登顶HuggingFace Trending第一 [2] - 该模型在28项权威评测中23项达成10B级模型最佳成绩,其中18项持平或超越72B的Qwen-2.5-VL [4] - 采用"思维链推理机制"和"课程采样强化学习策略",系统性提升跨模态因果推理能力与稳定性 [3] 多模态能力 - 支持视频理解,可解析最长两小时内容并分析时间、人物、事件和逻辑关系 [4] - 具备图像问答能力,能深入分析图像内容并解答,逻辑能力和世界知识较强 [4] - 支持学科解题,包括数学、物理、生物、化学等学科的看图解题并给出详细思考过程 [4] 应用场景 - 文字识别:准确抽取图片和视频中的文字及图表内容并结构化输出 [5] - 文档解读:对金融、政务、教育等领域文档进行原生理解、抽取、提炼和问答 [5] - GUI Agent:识别网页、电脑和手机屏幕的交互界面元素,支持点击、滑动等指令执行 [5] 技术特点 - 轻量版模型参数控制在10B级别,兼顾部署效率与性能突破 [4] - 融合丰富多模态能力,包括代码生成(基于图片文字内容自动编写前端代码) [5] - 支持Grounding功能,识别图片特定区域并抽取坐标位置 [5]
9B“小”模型干了票“大”的:性能超8倍参数模型,拿下23项SOTA | 智谱开源
量子位· 2025-07-02 04:46
模型性能与突破 - GLM-4.1V-9B-Thinking在28项评测中拿下23个SOTA,成为10B参数级别效果最好的视觉语言模型(VLM)[3] - 在18项评测中,该模型性能可与8倍参数量的Qwen-2.5-VL-72B竞争甚至超越[3] - 核心突破在于引入思维链(Chain-of-Thought)推理机制和课程采样强化学习(RLCS)[4] 实际应用表现 - 成功解析西班牙超现实主义画家达利的《记忆的永恒》,识别画作中违背物理规律的视觉符号[11] - 准确解答高考数学真题,在多个大模型易翻车的题目中给出简洁精准答案[12][15] - 处理看时钟和日期问题时表现接近人类水平(时间判断存在1分钟偏差)[16][19] - 具备看手相等生活场景应用能力[20][22] 技术架构创新 - 视觉编码器采用AIMv2-Huge架构,使用三维卷积处理视频,静态图片通过复制模拟视频输入[26] - 新增二维旋转位置编码,支持宽高比超200:1的画面和4K以上分辨率[27] - 语言解码器升级为三维旋转位置编码,增强空间关系理解能力[28] - 多层感知机适配器作为视觉与语言模块的桥梁[28] 训练方法论 - 预训练阶段采用双通道并行,12万步训练,批量大小1536,输入长度8192,覆盖图文混合/OCR/定位等多类型数据[31] - 监督微调阶段使用高质量思维链数据,输入长度扩展至32768,批量32,强化复杂因果关系推理[36] - 课程采样强化学习(RLCS)结合RLVR和RLHF,采用由简至难的课程学习策略[40] 商业化进展 - 获得浦东创投集团和张江集团10亿元投资,近期将完成首次交割[5] - 模型已在Github/ModelScope/Hugging Face开源,同步上线MaaS平台API接口[41][42] 核心能力清单 - 超长视频解析(2小时时长分析)[32] - 智能读图问答与理科解题(数学/物理)[32] - 图文识别转换(OCR/表格结构化)[32] - 专业文档处理(金融/政务关键信息提取)[32] - 图像定位标注与GUI界面操作[32] - 看图写代码(前端网页自动生成)[32]