Workflow
视觉推理
icon
搜索文档
NeurIPS'25 Spotlight!自驾新范式FSDrive: VLA + 世界模型双管齐下(阿里&西交)
自动驾驶之心· 2025-09-21 23:32
视觉语言模型(VLMs)因其强大的推理能力,在自动驾驶领域受到日益广泛的关注。然而,现有VLMs通常采用针对特定场景设计的离散文本思维链(Chain-of-Thought, CoT),这种表征本质上是对视觉信息的高度抽象和符号化压缩,可能导致空间-时间关系模糊以及细粒度信息丢失。自动驾驶是否更适合通过真实世界模拟与想象建模, 而非纯粹依赖符号逻辑?本文提出一种时空思维链(spatio-temporal CoT)推理方法,使模型可视化地思考。 首先VLM作为世界模型生成统一图像帧以预测未来世界状态:其中感知结果(如车道分隔线和3D检测)表征未来的空间关系,普通未来帧则表征时间演化的动态关系。 该时空思维链作为中间推理步骤,使VLM能够充当逆动力学模型,基于当前观测和未来预测进行轨迹规划。为实现VLM的视觉生成能力,提出了统一视觉生成与理解的 预训练范式,并设计渐进式生成过程增强自回归图像生成方法。大量实验结果验证了该方法的有效性,推动自动驾驶迈向视觉推理。 项目链接:https://miv-xjtu.github.io/FSDrive.github.io/ 论文链接:https://arxiv.org/abs/ ...
当AI成“视觉神探”,准确性如何?隐私暴露风险如何抵御?
21世纪经济报道· 2025-08-21 07:18
行业技术发展动态 - 智谱AI推出全球100B级视觉推理模型GLM-4.5V 具备不依赖搜索工具精准识别图像细节及推测拍摄地点的能力 [1] - 视觉推理成为大模型竞争焦点 OpenAI、谷歌、豆包、通义千问等国内外企业均推出多模态视觉推理模型 [1][5] - 豆包APP在实测中实现100%地理位置识别准确率 智谱GLM-4.5V准确率为60% 通义千问QVQ-Max准确率为20% [2][3] - 典型地标(如国家跳台滑雪中心、杭州西湖)识别准确率最高 模糊信息场景下模型表现出现显著差异 [3][4] - 联网功能显著提升识别准确度 豆包通过联网搜索比对实现100%准确率 [4] 技术能力细节 - 模型优先依据地标、人物、文字等关键元素进行推理 在包含明确文字信息的图片中表现更优 [3][4] - 智谱GLM-4.5V在"图寻游戏"全球积分赛中击败99%人类玩家 体现其超越人类的速度与精度 [6] - 豆包支持图片放大、裁剪及搜索功能 通义千问支持图像解析与视频分析 技术功能持续升级 [5] 应用与风险关注 - 多模态大语言模型可大幅降低非专业人员从社交媒体图像提取用户位置数据的门槛 [6] - 具备视觉推理能力的大模型目前均可免费使用 且未对敏感信息识别请求进行限制 [7] - 研究显示11个先进多模态模型在地理位置推断方面始终优于非专业人士 构成潜在隐私威胁 [6]
当AI成”视觉神探“,准确性如何?隐私暴露风险如何抵御?
21世纪经济报道· 2025-08-21 07:09
视觉推理技术发展现状 - 智谱AI推出全球100B级视觉推理模型GLM-4.5V 具备精准图像细节识别和地理位置推理能力 [1] - OpenAI、谷歌、豆包、通义千问等国内外公司竞相推出具备视觉推理能力的大模型 强调多模态水平 [1] - 视觉推理能力成为大模型性能发力点 技术发展迅速 新模型不断涌现 [6] 多模态模型实测表现 - 豆包APP在5张测试图片中准确率达100% 表现最优 [2] - 智谱GLM-4.5V准确率为60% 通义千问QVQ-Max准确率为20% [2] - 地标照片识别准确率最高 如国家跳台滑雪中心和杭州西湖均被三个模型准确识别 [3][4] - 豆包凭借联网搜索能力显著提升准确率 在识别人民大学校训石时通过联网比对得出正确答案 [4][5] 技术应用与隐私风险 - 多模态大语言模型在地理位置推断方面优于非专业人士 大幅降低从社交媒体图像提取用户位置数据的门槛 [7] - 智谱GLM-4.5V在"图寻游戏"中击败99%人类玩家 体现其超越人类的速度与精度 [7] - 实测显示三个大模型均可免费使用 在看图定位时未限制使用范围 且未拒绝识别人物身份的敏感指令 [8] - 研究表明确位置推断能力可能构成严重的隐私威胁 [7]
是「福尔摩斯」,也是「列文虎克」,智谱把OpenAI藏着掖着的视觉推理能力开源了
机器之心· 2025-08-12 03:10
模型能力 - GLM-4.5V在「图寻」游戏全球积分赛中击败了99.99%的人类玩家,展现出超强视觉推理能力[9] - 模型能通过建筑风格、植被类型、道路标识等环境信息进行精准定位,甚至给出精确经纬度[20][21] - 在视觉错觉测试中,模型快速识别出穿蓝色上衣和白色裤子的人与穿紫色衣服的人[16] - 模型能准确读取模糊光线下的时钟时间,克服了AI系统读取时钟准确率仅38.7%的行业难题[38][41] - 对相似场景如慕田峪与八达岭长城,模型能根据墙体完整度和游客数量等细节精准区分[44][47] 技术架构 - GLM-4.5V采用106B总参数、12B激活参数的架构,支持64K多模态长上下文[127] - 视觉编码器采用AIMv2-Huge,通过三维卷积提升视频处理效率[127] - 引入二维旋转位置编码和双三次插值机制,增强高分辨率图像适应性[127] - 语言解码器采用3D-RoPE位置编码,提升多模态空间理解能力[127] - 训练采用三阶段策略:预训练、监督微调和强化学习,在41个公开视觉多模态榜单达到开源SOTA水平[128][129] 应用场景 - 在安防监控领域,模型能处理含视觉错觉和遮挡的图片,具备高准确率识别能力[19] - 前端开发中,模型可根据截图或视频复刻网页布局,实现可交互功能[87][91][93] - 教育领域能总结10分钟英文演讲视频,准确提取人物、地点和事件等关键信息[61][65] - 本地文档处理方面,模型能解读论文图表并理解数据逻辑关系[101][103] - 在景区寻人等场景,模型可精准识别特定特征的人员或宠物[112][113] 行业影响 - 模型开源策略推动行业从性能竞赛转向实用价值创造,提升开发者定制灵活性[132] - 在GUI Agent领域展现核心能力,如准确定位电商商品和PPT操作按钮[121][123] - 视觉推理能力覆盖复杂图表、多图长文本等实际任务,拓展多模态应用边界[10] - 相比闭源模型,开源方案提供更高透明度,促进AI技术在各行业落地[132] - 模型实战表现优于benchmark成绩,反映行业向真实场景效果评估的转变趋势[131]
豆包悄悄上线的这个新功能,也能用眼睛推理全世界了。
数字生命卡兹克· 2025-08-07 01:05
豆包AI功能更新 - 豆包在手机场景下使用频率较高,尤其在未开启魔法上网时体验优于ChatGPT [1] - 新增深度思考模式下的视觉推理功能,可对上传图片展开思维链式分析 [4][5][21] - 视觉推理能力与OpenAI O3相当但完全免费,实现技术平权 [21][22] 视觉推理应用案例 - 识别ChinaJoy展会中暴雪展台泰瑞尔形象并准确反馈 [3][16] - 通过视频截图定位深圳旺吉利海鲜大排档,验证结果与大众点评商家动态一致 [24][27][29] - 解析德爷刷盘子的牛杂店细节,在文字信息不全时通过图像补充得出正确答案 [35][37] - 识别表情包出处,准确关联太太乐鸡精和双汇火腿肠广告形象 [39][41][43] - 对奥特曼形象(爱迪、盖亚)及《甄嬛传》名场面实现精确到集的识别 [45][49] 专业场景测试表现 - 正确解答公务员行测题中对称图形问题,完成复杂题型推理 [51][52] - 快速定位考眼力题目中的目标字母F [53] - 识别宗庆后全家福成员身份,包括宗馥莉等关键人物 [55] 技术局限性 - 存在手指数量误判等典型大模型幻觉问题 [57] - 对非公众人物照片识别准确率较低,曾将用户误判为电竞选手或导演 [62] 跨领域知识串联 - 通过电影《浪浪山小妖怪》场景关联黑神话中佛光寺地点,实现文化IP联动 [66][68][73] - 体现AI在知识整合方面的潜力,能快速串联分散线索形成认知闭环 [76][77]
o3出圈玩法“看图猜位置”,豆包也安排上了!还是人人免费用那种
量子位· 2025-07-30 06:06
豆包APP视觉推理功能升级 - 核心功能升级为视觉推理,支持图片深度思考,通过开启深度思考模式可拍照或上传图片进行分析[4][5] - 分析过程结合以图搜图、图片分析工具(放大/裁剪/旋转)等多步骤,例如识别上海东方明珠年份为1999年左右[1][7][8] - 支持AI识别AI生成图片,通过放大细节识别右图西红柿蒂部不自然卷曲判定为AI生成[10][11][13] 实测场景表现 - 复杂图像处理:在熊猫群像中精准定位足球,采用"初步识别→放大区域→空间定位"三步骤[17][22][25] - 小众知识检索:识别鄂温克族口弦琴、云南翅果藤等冷门内容,结合图片检索+文字检索双重验证[29][34][35] - 学术与工作辅助:解答IMO数学题(经ChatGPT验证答案正确),一键提取财报数据并保持准确性[40][43][46][49] 技术模式创新 - 采用"边想边搜"动态推理机制,区别于传统AI"先搜后想",支持多轮搜索与工具调用[50][52][53] - 实现图搜文能力,例如通过技术截图反向定位OpenAI论文原文及图表出处[62][64][65] - 多模态融合:Transformer架构统一处理文字/图像/音频,支撑工业检测、医疗分析等场景需求[72][75] 行业趋势 - 视觉推理成为大模型技术新门槛,OpenAI的o3/o4-mini推动多模态深度理解范式[68][69][70] - 技术成熟度与行业需求(工业/医疗)形成共振,促进行业竞速发展[71][74][76] - 豆包APP将高阶视觉推理功能免费开放,降低用户使用门槛[76][77]
智谱再获10亿融资,推出会看“苏超”的开源新模型
观察者网· 2025-07-03 10:30
核心观点 - 智谱发布新一代通用视觉语言模型GLM-4.1V-Thinking,突破多模态推理能力,并在多项评测中超越更大参数模型 [1][7][10] - 公司获得10亿元战略融资,联合上海国资打造"算电模"一体化基础设施,建设万卡集群 [3][5] - 大模型商业化加速,API调用量同比增长30倍,价格大幅下调80%-90% [12][14] - Agent平台和智能硬件成为商业化落地重点方向 [15][18][19] 技术突破 - GLM-4.1V-Thinking支持图像/视频/文档输入,引入思维链推理机制和课程采样强化学习策略 [7] - 轻量版GLM-4.1V-9B-Thinking在28项评测中23项领先10B级模型,18项持平72B的Qwen-2.5-VL [7][8] - 模型实现动态视频理解能力,可完成足球解说、GUI操作等复杂任务 [9][10] - 90亿参数模型性能超越GPT-4o,接近720亿参数的Qwen-2.5-VL [10] 资本与生态 - 年内完成5轮融资,最新10亿元融资由浦东创投和张江集团联合投资 [3][5] - 与上海仪电、浦发集团共建"算电模"设施,利用绿电直连支撑万卡集群 [5] - "模力社区"已聚集近70家垂类大模型企业,25家完成安全备案 [3] 商业化进展 - API日均Token调用量同比增30倍,消耗金额增52% [12] - GLM-4-Plus等API价格降幅达90%,推动应用普及 [14] - 推出Agent聚合平台"应用空间",启动数亿元专项扶持计划 [1][15] - 教育、医疗、企服等领域Agent落地周期有望提前 [17] 行业趋势 - 上海将发展AGI作为战略任务,重点突破算力、语料、基础模型 [6] - AI向自主智能体演进,可能催生全新商业模式 [17] - 端侧算力提升推动AI能力嵌入汽车、眼镜等智能硬件 [18][19]
大模型角力视觉推理,推理AI新时代来临
21世纪经济报道· 2025-07-03 05:11
多模态大模型技术突破 - 智谱发布并开源视觉语言大模型GLM-4.1V-Thinking,支持图像、视频、文档等多模态输入,具备复杂认知任务处理能力 [1] - 模型通过预训练构造视觉理解模型,监督微调提升推理能力,首次实现推理与视觉理解的有机结合 [1] - 2023年视觉推理成为行业竞争焦点,OpenAI、字节跳动、阿里等企业相继推出具备视觉推理能力的模型 [1] 视觉推理能力应用场景 - 多模态模型可解析PDF中的图片、图表、表格布局,理解页面结构,提升结构化信息提取效率 [3] - GLM-4.1V-Thinking支持图片理解(如看图买菜)、数学与科学推理(如几何题解)、视频时序分析与事件逻辑建模 [3] - 视觉推理能力可应用于GUI与网页智能体任务,实现交互操作,提升人机交互可控性 [4] - 模型能与Python数据分析、网络搜索等工具协同,解决复杂问题,提供多模态Agent体验 [4] 商业化落地路径 - 面向B端客户提供Agent应用空间,降低企业接入门槛,实现成熟、安全、可控的Agent能力 [6] - Agent类型包括任务型、交互型、自主型、协作型,目标为替代基础性、重复性工作以提升效率 [6] - 视觉推理与工具调用深度融合,加速教育、医疗、企服等垂直场景的Agent商业化进程 [6] - 生成式AI向"自主智能体"演进,可能催生全新商业模式 [7] 智能硬件与端侧部署 - 早期模型依赖云端推理,现通过端侧算力提升实现端云结合,部署于汽车、AI眼镜等硬件 [8] - 未来机器人、汽车、眼镜等设备均将接入AI能力,形成更广泛的应用生态 [9]
OpenAI深夜上线o3满血版和o4 mini - 依旧领先。
数字生命卡兹克· 2025-04-16 20:34
模型发布与更新 - OpenAI发布o3和o4-mini模型,取代原有的o1、o3-mini和o3-mini-high模型,ChatGPT Plus、Pro和Team用户可立即使用[1] - o3 Pro版本需等待几周后才提供[2] - o3和o4-mini是o系列最新视觉推理模型,首次实现思维链中图像思考能力[2] 模型性能提升 - o3在AIME数学赛准确率从裸模91.6%提升至调用Python后的95.2%,o4-mini从93.4%提升至98.7%[5] - 在跨学科PhD级科学题(GPQA Diamond)上,o3以83.3%领先o4-mini的81.4%[5] - 专家级综合测试(Humanity's Last Exam)中,o3从20.3%提升至24.9%,o4-mini从14.3%提升至17.7%[5] - 多模态能力显著提升:o3在MMMU数据集从77.6%提升至82.9%,MathVista从71.8%提升至87.5%,CharXiv-Reasoning从55.1%提升至75.4%[8] 工具与代码能力 - o3首次实现满血版工具使用能力[2] - 在SWE-Lancer自由职业软件工程任务中表现突出[11] - 浏览器任务能力接近DeepResearch水平[14] - 函数调用能力(Tau-bench)相比o1未明显提升[14] - o3准确率0.59高于o4-mini的0.36,但幻觉率0.33也高于o4-mini的0.48和o1的0.16[15][16] 定价策略 - o3定价$10/$40(输入/输出),比o1的$15/$60便宜三分之一[17] - o4-mini保持$1.1/$4.4价格不变[17] - 所有新模型支持20万token上下文窗口和10万token最大输出[17] 视觉推理突破 - o3首次实现真正意义上的视觉推理能力,能像人类一样分析图像[18] - 成功识别北京门头沟109国道妙峰山段的具体位置[21][22][24] - 具备专业场景观察力潜力,可能改变安全监控、设计审稿、医疗影像等行业[30] 其他更新 - 开源AI编程工具Codex[31][33] - 视觉推理能力被视为范式级跃迁,可能带来行业变革[30][33]