多模态推理
搜索文档
突发,Meta刚从OpenAI挖走了清华校友宋飏
36氪· 2025-09-25 11:56
人事任命核心信息 - 前OpenAI高层研究员宋飏正式加入Meta Superintelligence Labs,担任研究负责人 [1] - 宋飏将直接向MSL首席科学家赵晟佳汇报 [4] - 宋飏是扩散模型领域的核心人物,也是DALL·E 2技术路径的早期奠基者 [1][21] 团队构建与战略意义 - 赵晟佳与宋飏的组合标志着MSL从“顶级个体”迈向“协同作战”的团队形态,形成“双核”格局 [13] - 赵晟佳主导过ChatGPT、GPT-4等核心研发,宋飏则长期关注跨模态模型架构,两人在技术专长上形成互补 [13] - 宋飏的加入进一步巩固了团队组合,使科研分工更具结构感 [13] 行业人才流动趋势 - Meta的招人节奏高频,今夏以来已有超过11位来自OpenAI、Google、Anthropic等机构的研究者加入MSL [14] - 顶级AI实验室之间人员流动节奏加快,例如Aurko Roy在Meta工作不到五个月后离职加入Microsoft AI [14][15] - 项目匹配度、团队氛围和技术方向的贴合程度,正逐渐成为影响人才选择的核心因素 [17] 技术发展方向 - 宋飏的研究方向与MSL整体战略紧密贴合,多模态推理或将成为MSL的主打方向 [18] - 宋飏专注于构建能理解图像、语言、音频等多种数据形式的通用模型,以提升模型与真实世界互动的广度与深度 [18] - 赵晟佳主导统一的训练范式和推理堆栈,与宋飏的研究相结合,正加速从输入到输出的完整技术闭环成形 [18] 个人背景与能力 - 宋飏在学术界以扩散模型研究闻名,其论文《Score-Based Generative Modeling through Stochastic Differential Equations》被引用8748次 [21][22] - 他拥有丰富的工业与理论背景,曾在谷歌大脑、Uber ATG、微软研究院等机构实习 [24] - 他不仅做方法创新,也擅长将研究成果转化为平台能力,能直接推动从理论到系统实现的完整链路 [28]
阿里开源Qwen3-VL系列旗舰模型 包含两个版本
第一财经· 2025-09-25 06:08
公司产品发布 - 公司推出全新升级的Qwen3-VL系列视觉理解模型,这是Qwen系列中最强大的版本[1] - 此次率先开源的旗舰模型为Qwen3-VL-235B-A22B,同时包含Instruct与Thinking两个版本[1] 产品性能表现 - Instruct版本在多项主流视觉感知评测中,性能达到甚至超过Gemini 2.5 Pro[1] - Thinking版本在众多多模态推理的评测基准下取得了SOTA(State-of-the-Art)的表现[1]
紫东太初4.0发布 国产大模型迈向“边看、边识、边思”新阶段
第一财经· 2025-09-19 16:08
模型核心能力与技术创新 - 首款全栈国产化深度推理大模型"紫东太初"4.0发布,具备"边看、边识、边思"的类人多模态推理认知能力 [1] - 在带图思考多模态复杂推理和工具调用能力上全面超过GPT5 [1][4] - 模型完成了从纯文本思考到细粒度多模态语义思考的三重跃迁,引入了类人交叉注意力机制,实现从全局到局部再到上下文交互式的思考过程 [3] - 具备视觉注意力机制,可进行平移、放大、旋转等操作模仿人类探索过程,从被动分析迈入主动思考新阶段 [3] - 在视频多模态应用上能实现180分钟长视频深度理解,在视频问答等6项任务中达到SOTA性能 [4] - 具备三大核心技术创新:低成本高覆盖的真实事件数据合成、批判式多轮反思学习、难度敏感的自适应强化学习 [5][6] - 相较3.0版本,整体推理性能显著提升约15% [4][6] 产业应用与性能提升 - 模型将以更高性能赋能实体经济,包括工业智能、具身智能、医疗智能等领域 [4] - 与华工科技合作的高精度激光焊接技术具备更强空间交互能力,推理速度提升约15%,有望再次提升当前每43秒完成一辆新能源汽车车身焊接的速度 [4] - 多模态推理、逻辑思维和智能体能力全面对标GPT4.1nano和GPT4O等先进模型 [4] 平台建设与产业生态 - 同步发布"紫东太初云"平台,是国内首个多模态大模型原生协同云及全栈国产化万卡智算云 [6] - 平台涵盖算力服务、大模型训推、应用开发、具身智能四大核心板块,提供全链路能力 [6] - 与四川并济科技等5家企业共同启动"十万卡多模态大模型异构智能训练平台",为大模型技术加速迭代提供支持 [6] - 中国已进入算力经济时代,算力与数据、算法共同构成数字经济关键资源,经济拉动效应显著 [6]
紫东太初4.0发布,国产大模型迈向“边看、边识、边思”新阶段
第一财经· 2025-09-19 11:21
紫东太初4.0技术能力 - 首款全栈国产化深度推理大模型,具备边看、边识、边思的类人多模态推理认知能力[1] - 在带图思考多模态复杂推理和工具调用能力上全面超过GPT5[1][4] - 实现从纯文本思考、简单操作带图思考到细粒度多模态语义思考的三重跃迁[3] - 能够对180分钟长视频进行深度理解、细腻度片段定位和内容自动分析,在视频问答等6项任务中达到SOTA性能[4] - 通过引入类人交叉注意力机制,实现从全局到局部再到上下文交互式的思考过程[3] - 具备低成本高覆盖真实事件数据合成、批判式多轮反思学习、难度敏感自适应强化学习三大核心技术创新[5] 性能提升与应用实例 - 相比3.0版本,紫东太初4.0推理速度约提升15%[4] - 与华工科技合作的高精度激光焊接技术,使新能源汽车车身激光焊接速度有望在43秒基础上再次提升[4] - 三大技术创新保证训练效率和推理性能显著提升,整体较3.0版本提升约15%[5] - 以推理斯洛克比赛为例,模型可通过定位球的位置并进行复杂推理和数学计算,得出需要5杆才能赢得比赛[3] 产业化平台与生态建设 - 同步发布紫东太初云平台,是国内首个多模态大模型原生协同云和首个全栈国产化万卡智算云[5] - 平台涵盖算力服务、大模型训推、应用开发、具身智能四大核心板块,提供全链路能力[5] - 将赋能工业智能、具身智能、医疗智能等实体经济领域[4] - 与四川并济科技等5家企业共同启动十万卡多模态大模型异构智能训练平台[6] - 中国已进入算力经济时代,算力与数据、算法共同构成数字经济时代的关键资源[6]
登顶多模态推理榜MMMU,UCSD新方法超越GPT-5、Gemini
36氪· 2025-09-19 06:58
技术突破与核心创新 - DreamPRM-1.5在数学推理权威测评MMMU上获得第一名,其核心创新在于将过程奖励模型的监督机制从文本推理扩展至多模态场景 [1] - 该框架通过双层优化设计,将数据样本的权重作为可学习参数,动态调整不同样本在训练中的影响,以抑制噪声样本的负面影响并充分利用高质量样本 [1][7][11] - 研究团队提出了两种互补的实例级重加权实现方案:Instance Table为每个样本设独立权重参数,适合小规模数据;Instance Net使用小型MLP网络预测权重,参数量固定且更适合大规模训练 [8][10] 性能表现与基准测试 - 在MMMU基准测试中,以InternVL3-1B为基础模型的DreamPRM-15(Instance Table版本)取得了84.6%的整体准确率,显著超越基线GPT-5-mini w/ thinking的80.0%,提升幅度达4.6个百分点 [15][16] - DreamPRM-1.5的性能超过了GPT-5 w/ thinking(84.2%)和Gemini 2.5 Pro Deep-Think(84.0%)等顶级闭源模型,展现出其技术优势 [3][18] - 对比实验显示,不使用重加权的VanillaPRM方法准确率仅为79.1%,而经典的Self-consistency方法为81.4%,均低于DreamPRM-1.5,验证了实例加权策略的有效性 [15][16] 方法细节与实现 - 模型采用生成式奖励机制,对推理过程的每一步输出“+”或“-”标记来评估合理性,并通过softmax计算置信度,最终对整条推理链的步骤分数进行聚合 [12][17] - 训练流程包括冷启动阶段(使用20k样本进行有监督微调)和后续的100k步双层优化迭代,整个训练在单张NVIDIA A100上耗时约72小时完成 [13][14] - 元数据集采用MMMU-Pro的标准分割,使用其测试集数据生成候选推理链作为元数据集,用于指导上层优化中的权重更新 [13]
ICCV 2025 | ECD:高质量合成图表数据集,提升开源MLLM图表理解能力
机器之心· 2025-08-21 13:08
数据集核心创新 - 提出ECD合成图表数据集 包含10,000+图表和321.5k问答对 规模与多样性超越同类数据集[6][10][12] - 采用模块化五阶段数据合成流水线 涵盖单图生成、多子图组合、视觉多样化等环节 确保数据真实性与复杂性[15][16] - 实现252种子图组合和29种图表类型 覆盖经济学/天文学/医学等25个学科主题 为当前最广覆盖范围[12] 性能表现 - 在6个测试集评估中 ECD训练使开源MLLM模型性能显著提升:LLaVA-Next推理准确率从4.74%升至16.50% Phi-3-Vision平均准确率从31.41%提升至44.40%[17][23] - ECDBench基准测试显示 GPT-4o mini达到最高平均准确率67.24% 显著优于Claude-3.5-Sonnet(55.07%)和GPT-4o(52.90%)[22][23] - 合成数据质量指标突出:最低FID得分表明与真实图表分布最接近 最高像素熵反映更高信息复杂度[13] 技术优势 - 问答对由GPT-4o自动生成并经过置信度过滤 包含描述类与推理类问题 例如差异比较问题(如"数字广告收入差异300M")[10][11] - 多子图组合采用条件顺序生成机制 保证语义一致性 支持2行3列/3行3列等复杂布局[12][16] - 视觉多样化引入Seaborn绘图库 添加注释/阴影/Zoom-in视窗等元素 提升视觉丰富度[16] 行业应用价值 - 解决现有合成数据集风格单一/缺乏真实性/数据模式受限三大痛点 为科研/新闻报道领域提供高真实性图表数据[4] - ECDBench基准包含1,224张图表和2,448对QA 为多模态推理和科学AI助手提供标准化评估体系[21][24] - 显著提升开源MLLM在ChartQA/ReachQA/ChartX等基准测试表现 推动图表自动化生成技术发展[17][25]
当一家成立11年的AI公司投身具身智能战场
36氪· 2025-08-19 10:12
公司战略转型 - 宇泛智能宣布全面拥抱具身智能时代 推出空间认知大模型Manas和四足机器狗两款产品 并采取"智能+硬件"全栈自研战略 [1][3][5] - 公司具备11年视觉AI技术积累 拥有软硬件协同开发经验 曾基于端侧芯片性能重构算法实现端到端性能优化 [1][20] - 创始团队2014年就以机器人Demo获得天使投资 现技术条件成熟后重启智能机器人梦想 [10] 产品技术布局 - 空间认知大模型Manas为多模态语言模型 在VSI-Bench和SQA3D数据集上取得SOTA成绩 专门强化空间理解能力 [3][14] - 四足机器狗完全自研机械结构 电机和运动控制平台 目前已迭代至第三代产品 [4][17] - 技术演进路径包括:自研多模态推理架构UUMM 创新图像分割集成方案HiMTok 以及强化学习提升多模态输出能力 [16] 行业发展趋势 - 2024年被称为具身智能元年 机器视觉与多模态大模型融合推动机器人向具备自主决策能力进化 [1][6] - 视觉能力成为机器理解物理世界的核心入口 计算机视觉派系成为具身智能领域重要力量 [7][10] - 行业技术路线尚未收敛 存在VLA模型 大小脑架构和世界模型等多种方案 [11] 竞争优势 - 具备软硬件协同开发能力 曾通过算法整形计算和硬件适配实现端到端优化 [20] - 拥有11年智能硬件落地经验 积累丰富渠道 供应链和量产能力 [23] - 全栈自研战略确保大脑 小脑与本体之间的系统配合 提升产品质量控制效果 [18] 技术突破方向 - 多模态视觉-语言模型需实现跨模态对齐 将像素 3D结构和文字映射到同一向量空间 [11] - 机器人大脑需融合语言模型与空间感知能力 同时具备语义理解和空间推理功能 [13] - 宇泛Manas模型在目标计数 绝对/相对距离 物理尺寸等空间理解基准测试中表现优异 [17]
4o-mini华人领队也离职了,这次不怪小扎
量子位· 2025-08-19 01:17
核心人才流动 - OpenAI核心研究员Kevin Lu离职 加入Thinking Machine Lab [1][2][3] - Kevin Lu曾领导OpenAI 4o-mini项目开发 并参与o1-mini和o3模型研发 [7][9] - Thinking Machine Lab已集结多位OpenAI前核心成员 包括John Schulman、Barrett Zoph等 [4][22] 技术研究方向 - Kevin Lu专长强化学习和小模型 其论文《决策Transformer》引用量达2254次 [10][11] - 研究观点认为互联网数据比Transformer架构更重要 强调序列数据预测价值 [13][14] - 提出强化学习未来方向在于新数据源和奖励机制创新 [15] 初创公司动态 - Thinking Machine Lab完成20亿美元种子轮融资 估值达120亿美元 [17][19] - 公司由OpenAI前CTO Mira Murati创立 团队覆盖AI主要研究方向 [18][22] - 在硅谷人才争夺中保持团队稳定 拒绝10亿美元薪酬挖角 [20] 产品与技术成果 - 4o-mini为多模态推理小模型 支持图文输入和长上下文 具有高效低成本特点 [7] - Kevin Lu参与开发的o1-mini和o3模型体现其小模型专长 [9] - Thinking Machine Lab尚未公开技术成果 引发行业期待 [21]
全球多模态推理新标杆 智谱视觉推理模型GLM-4.5V正式上线并开源
证券日报网· 2025-08-12 08:46
产品发布 - 公司推出全球100B级效果最佳的开源视觉推理模型GLM-4.5V 总参数106B 激活参数12B 并在魔搭社区与HuggingFace开源[1] - 模型基于新一代旗舰文本基座模型GLM-4.5-Air 延续GLM-4.1V-Thinking技术路线[2] - 在41个公开视觉多模态榜单中综合效果达到同级别开源模型SOTA性能 涵盖图像 视频 文档理解及GUI Agent等任务[2] 性能表现 - 在通用VQA任务中 MMBench v1.1得分88.2 MMBench v1.1中文版得分88.3 MMStar得分75.3 BLINK验证集得分65.3[3] - 在STEM领域 MMMU验证集得分75.4 MMMU Pro得分65.2 MathVista得分84.6 MathVision得分65.6[3] - 在GUI Agent任务中 OSWorld得分35.8 AndroidWorld得分57.0 WebVoyagerSom得分84.4[3] - 视频理解方面 VideoMME无字幕版得分74.6 有字幕版得分80.7 MMVU得分68.7 VideoMMMU得分72.4[3] 技术特性 - 模型具备全场景视觉推理能力 包括图像推理 视频理解 GUI任务 复杂图表与长文档解析及Grounding能力[5] - 新增思考模式开关 用户可选择快速响应或深度推理[5] - 支持64K多模态长上下文 通过三维卷积提升视频处理效率 采用双三次插值机制增强高分辨率图像处理能力[6] - 引入三维旋转位置编码3D-RoPE 强化多模态信息的三维空间关系感知能力[6] - 采用三阶段训练策略 预训练阶段使用大规模图文交错多模态语料 监督微调阶段引入显式思维链格式训练 强化学习阶段采用全领域多模态课程[6] 商业化应用 - API调用价格低至输入2元每百万tokens 输出6元每百万tokens 为企业与开发者提供高性价比多模态AI解决方案[5] - 模型在保持高精度的同时兼顾推理速度与部署成本[5] 行业地位 - 多模态推理被视为通向通用人工智能的关键能力 视觉-语言模型是实现多模态推理的核心基础[7] - 公司7月发布的GLM-4.1V-9B-Thinking模型曾登上HuggingFace Trending榜首 累计获得超过13万次下载[7]
智谱推出全球100B级最强开源多模态模型GLM-4.5V:获41个榜单SOTA
IPO早知道· 2025-08-12 01:52
智谱GLM-4.5V模型发布 - 公司于8月11日正式推出全球100B级效果最佳的开源视觉推理模型GLM-4.5V(总参数106B,激活参数12B),并在魔搭社区与Hugging Face开源 [3] - 该模型基于新一代旗舰文本基座模型GLM-4.5-Air,延续GLM-4.1V-Thinking技术路线,在41个公开视觉多模态榜单中综合效果达到同级别开源模型SOTA性能 [4] - 模型具备全场景视觉推理能力,包括图像推理、视频理解、GUI任务、复杂图表与长文档解析以及Grounding能力 [5] 技术架构与性能表现 - 模型由视觉编码器、MLP适配器和语言解码器三部分组成,支持64K多模态长上下文,采用三维卷积提升视频处理效率 [6] - 引入双三次插值机制增强高分辨率图像处理能力,采用三维旋转位置编码(3D-RoPE)强化多模态信息的三维空间关系感知 [6] - 在多项基准测试中表现优异,如MMBench v1.1得分88.2、MMMU (val)得分75.4、MathVista得分84.6、OCRBench得分86.5等 [5] 训练方法与开发支持 - 采用三阶段训练策略:预训练阶段强化复杂图文及视频处理能力,SFT阶段引入显式"思维链"格式训练样本,RL阶段通过多领域奖励系统进行全面优化 [8] - 同步开源桌面助手应用,可实时截屏、录屏获取屏幕信息,处理多种视觉推理任务 [8] - 公司希望通过模型开源和API服务赋能开发者,基于多模态基座模型开发创新应用 [9] 行业影响与定位 - 多模态推理被视为通向AGI的关键能力之一,视觉-语言模型(VLM)是实现多模态推理的核心基础 [3] - 此前7月发布的GLM-4.1V-9B-Thinking模型曾登上Hugging Face Trending榜首,累计获得超过13万次下载 [3] - 本次发布标志着公司在通向通用人工智能(AGI)道路上的又一探索性成果 [3]