Workflow
多模态推理
icon
搜索文档
智谱推出全球100B级最强开源多模态模型GLM-4.5V:获41个榜单SOTA
IPO早知道· 2025-08-12 01:52
智谱GLM-4.5V模型发布 - 公司于8月11日正式推出全球100B级效果最佳的开源视觉推理模型GLM-4.5V(总参数106B,激活参数12B),并在魔搭社区与Hugging Face开源 [3] - 该模型基于新一代旗舰文本基座模型GLM-4.5-Air,延续GLM-4.1V-Thinking技术路线,在41个公开视觉多模态榜单中综合效果达到同级别开源模型SOTA性能 [4] - 模型具备全场景视觉推理能力,包括图像推理、视频理解、GUI任务、复杂图表与长文档解析以及Grounding能力 [5] 技术架构与性能表现 - 模型由视觉编码器、MLP适配器和语言解码器三部分组成,支持64K多模态长上下文,采用三维卷积提升视频处理效率 [6] - 引入双三次插值机制增强高分辨率图像处理能力,采用三维旋转位置编码(3D-RoPE)强化多模态信息的三维空间关系感知 [6] - 在多项基准测试中表现优异,如MMBench v1.1得分88.2、MMMU (val)得分75.4、MathVista得分84.6、OCRBench得分86.5等 [5] 训练方法与开发支持 - 采用三阶段训练策略:预训练阶段强化复杂图文及视频处理能力,SFT阶段引入显式"思维链"格式训练样本,RL阶段通过多领域奖励系统进行全面优化 [8] - 同步开源桌面助手应用,可实时截屏、录屏获取屏幕信息,处理多种视觉推理任务 [8] - 公司希望通过模型开源和API服务赋能开发者,基于多模态基座模型开发创新应用 [9] 行业影响与定位 - 多模态推理被视为通向AGI的关键能力之一,视觉-语言模型(VLM)是实现多模态推理的核心基础 [3] - 此前7月发布的GLM-4.1V-9B-Thinking模型曾登上Hugging Face Trending榜首,累计获得超过13万次下载 [3] - 本次发布标志着公司在通向通用人工智能(AGI)道路上的又一探索性成果 [3]
智谱宣布开源视觉推理模型GLM-4.5V正式上线并开源
凤凰网· 2025-08-11 14:14
公司动态 - 智谱AI推出全球100B级效果最佳的开源视觉推理模型GLM-4.5V 总参数106B 激活参数12B [1] - 模型同步在魔搭社区与Hugging Face开源 API调用价格低至输入2元/M tokens 输出6元/M tokens [1] - GLM-4.5V基于新一代旗舰文本基座模型GLM-4.5-Air 延续GLM-4.1V-Thinking技术路线 [1] 技术性能 - 在41个公开视觉多模态榜单中综合效果达到同级别开源模型SOTA性能 [1] - 涵盖图像 视频 文档理解以及GUI Agent等常见任务 [1] - 能够根据用户提问精准识别 分析 定位目标物体并输出坐标框 [1] 行业意义 - 多模态推理被视为通向通用人工智能AGI的关键能力之一 [1] - 视觉-语言模型VLM是实现多模态推理的核心基础 [1]
gpt5
小熊跑的快· 2025-08-07 22:41
GPT-5核心升级 - 新一代AI系统在智力层面实现重大飞跃,在编码、数学、写作、健康、视觉感知等领域达到最先进性能 [1] - 采用统一系统架构,能动态调整响应速度与思考深度以提供专家级答案 [1] - 模型架构未出现代际突破,验证ASIC硬件路径正确性,利好推理成本下降 [1] 技术架构创新 - 引入三级模型体系:基础智能模型处理常规问题,GPT-5思维模块解决复杂问题,实时路由器动态分配任务 [2] - 路由器通过用户切换行为、响应偏好等真实信号持续优化,未来计划整合为单一模型 [2] - 达到使用限制后自动切换至GPT-5 mini模型维持服务 [2] 核心能力提升 编码性能 - 复杂前端生成与大型代码库调试能力显著提升,单提示即可生成响应式网站/应用/游戏 [3] - 设计审美优化,对排版、间距等视觉元素理解更精准 [3] 健康应用 - HealthBench评估得分显著超越前代,在真实医疗场景中表现更可靠 [4] - 新增主动风险提示功能,能根据用户背景知识提供个性化健康建议 [4] - 强调AI作为医疗辅助工具定位,不替代专业医疗人员 [4] 多模态与事实性 - 视觉/视频/空间推理能力全面提升,图表解析准确率大幅提高 [11] - 启用网络搜索时,事实错误率较GPT-4o降低45%,思考模式下比OpenAI o3降低80% [11] - LongFact和FActScore基准测试显示"GPT-5思维"幻觉率下降6倍 [11] 响应诚实度 - 对无法完成任务的情境识别准确率从o3的86.7%提升至91% [13] - 在真实对话场景中欺骗率从4.8%降至2.1% [13] 商业化部署 - 即时向Plus/Pro/Team/Free用户开放,企业/教育版一周内上线 [14] - Pro用户可无限制访问GPT-5 Pro版本,团队用户可设为默认工作模型 [14] - 免费用户达到限额后自动降级至GPT-5 mini模型 [14]
量子位智库:2025上半年AI核心成果及趋势报告
搜狐财经· 2025-08-02 23:06
应用趋势 - 通用类Agent深度整合工具使用,可完成多样深度研究任务,视觉操作为核心的CUA推向市场,两者正走向融合 [1][11] - 垂类Agent在旅行、设计等场景涌现,自然语言操控成为工作流一部分,例如飞猪推出"问一问"功能实现多Agent协同 [1][15] - AI编程成核心垂类,头部应用如Cursor年收入突破5亿美元,产品演化经历代码补全、单文件编辑、多文件编辑到端到端交付四阶段 [16][17] - 模型上下文协议MCP受关注但未规模化落地,可为大模型提供标准化接口,目前支持20-30个调用且生态技术侧尚未成熟 [19][21] 模型趋势 - 推理能力显著提升,数理类问题准确率+7%,代码类竞赛排名+23%,GPQA钻石级问题+43% [24] - 大模型走向Agentic,工具使用能力增强,Humanity's Last Exam榜单表现+81% [26] - 多模态推理融合视觉与文本,图像生成能力全面提升,可遵循16个细节指令并实现多轮连续编辑 [27][29] - 小模型加速普及,智能密度提高,模型评估向动态、实用任务方向发展 [1][25] 技术趋势 - 训练资源向后训练和强化学习倾斜,强化学习重要性提升,未来算力消耗或超预训练 [1][10] - 多智能体系统成前沿范式,在线学习成核心突破方向,Transformer架构快速迭代并涌现混合架构 [1][27] - 代码验证成AI编程自动化提升关键方向,系统提示词对用户体验影响显著 [1][18] 行业趋势 - 头部玩家模型层差距缩小,OpenAI领先优势弱化,谷歌和xAI迎头赶上 [2][8] - 中美大模型竞争差距缩小,中国在多模态等领域表现突出 [2][8] - AI编程成必争之地,海内外头部玩家密集布局,国内大模型创业公司路线分化 [2][16]
什么是真正好用的推理模型?阶跃Step 3:开源的,多模态的,低成本的,国产芯片适配的
量子位· 2025-07-27 11:57
行业趋势与市场现状 - 推理模型和具身智能成为2024年WAIC最受关注的领域,分别代表当前AI话语权和下一代有形技术[1] - 行业进入推理时代后,多模态模型涌现,推理能力成为焦点,开源成为厂商和用户首选考量[10] - 模型评估标准从单一性能指标转向综合考察效率、成本、部署友好性等维度[11] Step 3核心特性 - 总参数321B的MoE架构,视觉编码器5B参数+语言模型316B参数,激活参数38B[5][17] - 多模态能力突出:在MMMU等榜单取得开源多模态推理模型新SOTA,支持跨领域复杂知识理解与视觉信息交叉分析[6][19] - 成本效率优势:推理解码成本为DeepSeek的1/3,国产芯片推理效率达DeepSeek-R1的300%[8] - 开源策略:7月31日开源,打破"强模型不开源"局面,GitHub未发布已获107星[24][25][26] 技术创新与架构设计 - AFD分布式推理系统:将Attention与FNN拆解至独立子系统,解码效率优于DeepSeek EP方案[32][34] - MFA注意力机制:硬件感知低秩设计,KV缓存小于DeepSeek-V3,算术强度128平衡内存与算力[36][37][39] - 系统协同优化:32张Hopper GPU实现4039 tokens/GPU/s吞吐量,对比DeepSeek-V3(128张GPU)的2324 tokens/GPU/s[41] 商业化落地进展 - 终端智能Agent覆盖汽车、手机、IoT等领域: - 智能座舱实现人机共驾,吉利银河M9首发搭载端到端语音大模型[64][66] - 国内Top10手机厂商过半接入多模态能力,OPPO/荣耀/中兴旗舰机型已部署[69] - 2025年预计收入近10亿人民币,形成清晰商业化路径[74] 产业链协同生态 - 国产芯片适配:完整支持华为昇腾、沐曦、天数智芯等国产芯片运行[51][52] - 发起"模芯生态创新联盟":联合10家芯片及Infra厂商构建技术链路,成员包括华为昇腾、寒武纪等[54][55] - 模型-硬件协同设计:通过架构创新降低API依赖,推动可持续成本优化[50][58] 产品定位与市场策略 - "多开好省"四字诀:多模态、开源、高性能、低成本,重新定义推理模型价值标准[13][45] - 差异化竞争:避开参数竞赛,聚焦终端部署与产业落地,形成收入规模[73][76] - 长期主义定位:通过技术工程化能力构建产业线长跑优势,区别于短期SOTA追逐者[77][79]
Zebra-CoT:开创性视觉思维链数据集问世,多模态推理准确率提升13%
具身智能之心· 2025-07-24 09:53
背景 - 人类解决复杂问题时借助图表、草图等视觉辅助工具,训练多模态模型实现类似能力面临两大挑战:现有视觉思维链性能欠佳且缺乏高质量训练数据[3] - 前沿多模态模型在视觉思维链方面主要通过代理管道利用外部工具实现视觉编程,但具备交替生成文本和图像能力的模型存在生成无效推理辅助工具或缺乏多模态生成训练的问题[3] - 专门模型在特定场景展示视觉思维链能力,但通用高质量视觉思维链基础模型缺失,主因缺乏大规模多样化交替文本-图像推理训练数据集[3] 核心创新点 - 提出Zebra-CoT数据集,包含182,384个逻辑连贯的交替文本-图像推理轨迹样本,覆盖科学问题、2D/3D视觉推理、视觉逻辑与策略游戏四大类别[6] - 突破现有数据集单一任务限制和语义对齐弱的问题,按高质量文本推理数据集标准构建[6] 数据集构建 覆盖范围 - 科学推理:几何、物理、化学、算法问题等[9] - 2D视觉推理:视觉搜索、视觉拼图等[9] - 3D视觉推理:3D多跳目标计数、具身思维链、机器人规划[9] - 视觉逻辑与策略游戏:国际象棋、迷宫、俄罗斯方块等[9] 数据来源与处理 - 真实世界数据:从数学、物理、编程等领域在线资源获取并清洗含多模态的原始推理轨迹[10] - 合成数据:通过生成图像结合推理模板创建示例,利用视觉语言模型填充模板占位符增强推理轨迹多样性[10] 规模与分布 - 总量182,384样本,视觉逻辑与策略游戏占比最高达36.7%,2D视觉推理占28.5%,3D视觉推理占21.7%,科学推理占13.2%[12] - 子类别中国际象棋样本量最大(20,483,占11.2%),迷宫(20,000,11.0%)和俄罗斯方块(10,000,5.5%)次之[13] 模型微调与性能 - Anole-Zebra-CoT模型在分布内测试集准确率从4.2%提升至16.9%,相对提升4倍[14] - 在7个视觉推理基准测试中平均提升4.9%,视觉逻辑基准最高提升13.1%[14] - Bagel-Zebra-CoT模型微调后实现原生无法生成的交替文本-图像输出能力[15] 局限 - 合成数据依赖模板生成,文本推理多样性和表达性可能受限[18] - 部分子任务样本量小(几何0.6%、竞争编程0.7%),影响模型专项能力[18] - 模型在部分子任务上性能提升不显著甚至下降(如EMMA物理子任务)[18]
美团提出多模态推理新范式:RL+SFT非传统顺序组合突破传统训练瓶颈
量子位· 2025-07-21 04:23
多模态推理框架Metis-RISE - 美团研究者提出Metis-RISE混合训练框架,通过非传统顺序结合强化学习(RL)和监督微调(SFT)提升多模态大语言模型(MLLMs)推理能力 [1][2] - 框架核心策略:先通过RL激励模型探索潜在推理路径,再通过SFT针对性补足能力短板,最终生成7B和72B参数模型 [3] - 72B参数模型在OpenCompass多模态推理榜单平均得分56.6,整体排名第四,验证框架可扩展性和有效性 [3][13] 技术突破与创新 - 突破传统训练范式:省略冷启动SFT阶段,直接采用改进版GRPO算法进行RL训练,通过非对称裁剪和动态数据过滤避免无效探索 [4][6][7] - 两阶段训练机制: 1) RL阶段取消KL散度约束,采用token级策略损失和软过长惩罚,增强训练稳定性 [6] 2) SFT阶段通过自我蒸馏推理轨迹和专家增强知识注入,强化模型薄弱环节 [8] 模型性能表现 - 7B模型在≤10B参数类别中平均得分46.4,超越同类最优VLAA-Thinker-7B(42.5)和InternVL3-8B(41.4) [12] - 72B模型平均得分56.6,优于>10B参数类别的InternVL3-78B(51.0)和Qwen2.5-VL-72B(50.3),并超越部分专有模型如ChatGPT-4o(54.8) [13] - 消融实验显示RL阶段使7B模型平均分提升4.8(39.2→44.0),混合SFT进一步带来2.4分增益 [15][16] 技术细节与优化 - RL阶段准确率奖励与响应长度呈正相关,表明模型思维链逐渐清晰 [17] - SFT数据策略: - 对推理不一致的prompt采用自我蒸馏轨迹(正确性得分0-1) [8] - 对完全失败的prompt(得分0)引入外部专家生成解决方案 [8] - 基于Qwen2.5-VL系列开发,采用VLMEvalKit和OpenCompass进行基准测试 [9][10]
感知错误率降低30.5%:隐式感知损失让模型主动“睁大眼睛” | UIUC&阿里通义
量子位· 2025-07-11 04:00
多模态推理算法PAPO的核心创新 - 提出专注于多模态推理的强化学习算法PAPO,通过隐式感知损失设计解决感知与推理脱节问题 [1][3] - 系统错误分析显示67%多模态推理错误源于视觉感知问题,而非逻辑推理能力 [6][7][9] - 在几何推理任务中,PAPO准确识别关键视觉特征(如30度角对应边),传统GRPO则关联错误 [14][15] 技术实现细节 - 创新隐式感知损失函数:要求模型在原始/损坏图像上输出显著差异分布 [18] - 采用KL散度最大化和感知信息增益比设计,目标函数J_PAPO=J_GRPO+γ·KL_prcp [19][20][21] - 随机遮盖补丁策略优于语义感知遮盖,遮盖比例0.6-0.8时效果最佳 [24][38] 性能提升表现 - 8个基准测试显示整体平均提升4.4%,高视觉依赖任务提升8.0%,感知错误减少30.5% [26] - 3B模型在LogicVista任务从38.14%提升至39.84%,7B模型在Counting任务从73.94%跃升至82.38% [26] - 训练动态更优:25步即显现提升,避免奖励不稳定问题,改进效果持续增强 [28][29] 技术优化与挑战 - 双重熵损失设计有效防止KL_prcp Hacking现象(γ>0.02时易发生崩溃) [45][46][47] - 与移除ReferenceKL约束的组合实现协同效应,7B模型在高视觉任务再提升7.96% [33][34] - 视觉依赖性分级验证:高依赖任务改进最显著(近8%),低依赖任务仍保持稳定提升 [53][54] 实际应用案例 - 几何计算:PAPO准确识别三角形短边关系(GRPO错误关联60度角边) [14][57] - 物体计数:PAPO正确区分并统计多类物体(GRPO感知错误) [8][64] - 多图推理:PAPO精准识别子图特征并完成逻辑推导(GRPO视觉推理错误) [63] 资源开放 - 模型、数据及代码已在GitHub、HuggingFace等平台开源 [5][65]
告别数据「噪音」,UCSD大模型推理新方法DreamPRM充当「信号放大器」,登顶MathVista测评榜
机器之心· 2025-07-10 10:49
技术突破 - DreamPRM由加州大学圣地亚哥分校团队开发,在MathVista数学推理测评中排名第一,核心成员包括Qi Cao和Pengtao Xie等[1] - 采用双层优化框架动态调整数据域权重,抑制低质量数据影响,强化高信息密度数据域贡献,实现数据质量与覆盖率平衡[2] - 解决了多模态场景下分布偏移远超纯文本的问题,通过可学习参数优化数据域权重分布[4] 方法创新 - 构建可微分双层优化问题,下层在15个训练域上进行PRM参数训练,上层使用覆盖30学科183子领域的元数据集评估泛化能力[12][13] - 形成自适应正反馈循环:高质量推理数据域权重提升(如M3CoT达1.49),简单样本域权重下降(如AI2D小于0.8)[14][20] - 蒙特卡洛监督信号计算中间推理步骤质量概率估计,使用域加权MSE损失更新模型参数[13] 性能表现 - 在MathVista测试中DreamPRM+o4-mini(8 CoTs)准确率达85.2%,显著超越人类基准60.3%和其他模型[6][16] - 五项基准测试全面领先:MathVista(57.4)、WeMath(68.9)、MathVision(22.1)、MMVET(61.4)、MMSTAR(62.3)[16] - 使80亿参数InternVL模型超越GPT-4v和Gemini-1.5等大型闭源模型,小模型实现大模型性能[16] 应用优势 - 通用框架可与任何多模态大语言模型集成,在o4-mini模型上准确率从80.6%提升至85.2%[6][17] - 候选推理链数量增加带来持续性能提升,从k=1到k=8准确率增长3.6个百分点[17][19] - 细粒度过程监督机制超越自洽性校验等传统方法,验证逐步评分的关键作用[16] 研究成果 - 论文标题为《DreamPRM: Domain-Reweighted Process Reward Model for Multimodal Reasoning》,已在arXiv发布[7] - 代码开源在GitHub平台,项目地址为github.com/coder-qicao/DreamPRM[7] - 方法平均提升基础模型性能4%,在高难度数学推理任务表现尤为突出[22]
只训练数学,却在物理化学生物战胜o1!新强化学习算法带来显著性能提升,还缓解训练崩溃问题
量子位· 2025-06-23 04:45
核心观点 - 上海创智学院与上海AI Lab提出的CPGD算法显著提升多模态模型的推理能力与训练稳定性,在数学、物理、化学、生物等学科表现优异 [1][2][14] - MM-Eureka系列工作开源了模型、代码、数据集及过程奖励模型,推动多模态强化学习领域发展 [3][25] - 强化学习在跨学科泛化能力上优于监督微调(SFT),但无法替代知识本身的缺失 [22][23] 算法与技术突破 CPGD算法 - 通过策略比值对数化和策略漂移项设计,解决传统强化学习(GRPO/RLOO)训练崩溃问题,性能提升11% [8][11] - 在7B/32B模型上验证:MMK12测试集平均提升21.8%,MathVista/MathVision分别提升8.5%/11.4% [1][14] - 新型KL估计器减少梯度方差,细粒度token级损失函数优化训练效率 [9][10] 多模态强化学习框架 - 基于OpenRLHF支持Qwen-VL/InternVL等模型,可扩展至32B-38B规模 [4][5] - 训练稳定性突破:双边裁剪、online filter等技术提升资源效率 [6][7] 模型性能表现 7B模型对比 - MM-Eureka-CPGD-7B在MMK12上超越QwenVL2.5-7B基准21.8%,Overall评分1.11 [13][14] - 对比GRPO算法(提升6%),CPGD将整体提升幅度扩大至11% [1][14] 32B模型对比 - MM-Eureka-CPGD-32B在MMK12测试集超越o1模型,物理/化学/生物学科表现突出 [2][15] - 接近闭源模型水平,Overall评分1.10(以QwenVL2.5-32B为基准) [15] 数据集与工具 MMK12数据集 - 覆盖K12阶段15k多模态数学题,含几何/函数/图形推理题型,额外提供2k跨学科选择题 [16][17] - 下载量超1700次,成为多模态推理基准 [17] MM-PRM过程奖励模型 - 通过500万数据训练+70万自动标注,提升推理路径严谨性,MMK12准确率提升9% [18][19][21] - 支持全自动过程监督,无需人工标注 [21] 行业影响与开源生态 - 模型下载超1万次,代码库获1000+ star,论文引用近100次 [3] - 完整开源技术方案包括训练框架、数据集、模型权重及技术报告 [25]