Workflow
多模态推理
icon
搜索文档
Meta刚从OpenAI挖走了清华校友宋飏
36氪· 2025-09-26 13:35
宋飏,扩散模型领域的核心人物, DALL·E 2技术路径的早期奠基者。 编辑 | 艾伦 来源| 新智元(ID:AI_era) 封面来源 | Unsplash 就在不久前,OpenAI前高层研究员宋飏已正式加盟Meta Superintelligence Labs(MSL),担任研究负责人(Research Principal)。 他将直接向MSL首席科学家赵晟佳(Shengjia Zhao)汇报。 左:宋飏;右: 赵晟佳 对于这个突发消息,很多名人网友都对此感到震惊: 也有人并不看好本次「转会」,认为打造最强战队并不只是把世界最强的选手都买过来就能万事大吉了的。 赵晟佳主导过ChatGPT、GPT-4及其后续版本的多个核心研发。 本次人事流动背后,或许透露出Meta在AI竞赛中释放的三重信号。 MSL的人才拼图更完整了 赵晟佳与宋飏的组合,或许标志着MSL逐渐从「顶级个体」迈向「协同作战」的团队形态。 两人有不少交集:本科都在清华,博士在斯坦福同门,曾先后就职于OpenAI,分别在大模型系统与生成建模领域有深厚积累。 而宋飏长期关注跨模态模型架构与可扩展生成技术,其研究影响了OpenAI的DALL·E 2。 ...
突发,Meta刚从OpenAI挖走了清华校友宋飏
36氪· 2025-09-25 11:56
刚刚,Meta又从OpenAI挖来一员猛将——宋飏,扩散模型领域的核心人物,DALL·E 2技术路径的早期奠基者。他已正式加入Meta Superintelligence Labs,担任研究负责人,直接向他的师兄赵晟佳汇报。 就在刚刚,OpenAI前高层研究员宋飏已正式加盟Meta Superintelligence Labs(MSL),担任研究负责人(Research Principal)。 他将直接向MSL首席科学家赵晟佳(Shengjia Zhao)汇报。 左:宋飏;右:赵晟佳 对于这个突发消息,很多名人网友都对此感到震惊: 也有人并不看好本次「转会」,认为打造最强战队并不只是把世界最强的选手都买过来就能万事大吉了的。 本次人事流动背后,或许透露出Meta在AI竞赛中释放的三重信号。 MSL的人才拼图更完整了 赵晟佳与宋飏的组合,或许标志着MSL逐渐从「顶级个体」迈向「协同作战」的团队形态。 两人有不少交集:本科都在清华,博士在斯坦福同门,曾先后就职于OpenAI,分别在大模型系统与生成建模领域有深厚积累。 赵晟佳主导过ChatGPT、GPT-4及其后续版本的多个核心研发。 而宋飏长期关注跨模态模型架构 ...
阿里开源Qwen3-VL系列旗舰模型 包含两个版本
第一财经· 2025-09-25 06:08
据通义千问Qwen公众号消息,阿里推出全新升级的Qwen3-VL系列,这是迄今为止Qwen系列中最强大 的视觉理解模型。此次率先开源的是该系列的旗舰模型——Qwen3-VL-235B-A22B,同时包含Instruct与 Thinking两个版本。据介绍,Instruct版本在多项主流视觉感知评测中,性能达到甚至超过Gemini 2.5 Pro;而Thinking版本则在众多多模态推理的评测基准下取得了SOTA的表现。 (文章来源:第一财经) ...
紫东太初4.0发布 国产大模型迈向“边看、边识、边思”新阶段
第一财经· 2025-09-19 16:08
9月19日,首款全栈国产化深度推理大模型"紫东太初"4.0在武汉发布,具备"边看、边识、边思"的类人多模态推理认知能力,特别是在带图思考多模态复杂 推理和工具调用的能力上,全面超过了GPT5。 2024年图灵奖得主理查德·萨顿表示,人类数据正在迅速接近极限,智能体将越来越多通过与世界交互而获得持续学习的能力,潜力远超以往。 中国科学院自动化研究所副总工程师、武汉人工智能研究院院长王金桥在接受第一财经记者采访时介绍,从3.0原生的多模态统一框架到4.0多模态细腻度的 复杂思考,紫东太初完成了国产大模型从"纯文本思考""简单操作带图思考"到"细粒度多模态语义思考"的三重跃迁。 以推理"赢得一场斯诺克需要几步"为例,"紫东太初"4.0通过输入的图片可先定位白球、粉球和红球的位置,再通过台上不同球的得分进行复杂的推理和数 学计算,进一步告诉大家他要做5杆斯洛克才能赢得这场球。 "紫东太初4.0从理解能力、模态推理、动态推理三大能力引入了类人的交叉注意力机制,使大模型能够像人一样,实现对世界的理解从全局到局部再到上下 文交互式的思考过程。"王金桥说,通过视觉注意力关注到某一个区域,然后进行平移、放大、旋转、增强等一系列 ...
紫东太初4.0发布,国产大模型迈向“边看、边识、边思”新阶段
第一财经· 2025-09-19 11:21
为推动紫东太初4.0的技术优势转化为实际产业价值,"紫东太初云"平台同步发布。 9月19日,首款全栈国产化深度推理大模型"紫东太初"4.0在武汉发布,具备"边看、边识、边思"的类人多模态推理认知能力,特别是在带图思考多模态复杂 推理和工具调用的能力上,全面超过了GPT5。 2024年图灵奖得主理查德·萨顿表示,人类数据正在迅速接近极限,智能体将越来越多通过与世界交互而获得持续学习的能力,潜力远超以往。 中国科学院自动化研究所副总工程师、武汉人工智能研究院院长王金桥在接受第一财经记者采访时介绍,从3.0原生的多模态统一框架到4.0多模态细腻度的 复杂思考,紫东太初完成了国产大模型从"纯文本思考""简单操作带图思考"到"细粒度多模态语义思考"的三重跃迁。 以推理"赢得一场斯洛克需要几步"为例,"紫东太初"4.0通过输入的图片可先定位白球、粉球和红球的位置,再通过台上不同球的得分进行复杂的推理和数 学计算,进一步告诉大家他要做5杆斯洛克才能赢得这场球。 在视频多模态2AG应用上,"紫东太初"4.0能够实现180分钟长视频的深度理解,细腻度片段定位和内容自动分析、总结,在视频问答、细腻度检索和文档检 索等6项任务中达 ...
登顶多模态推理榜MMMU,UCSD新方法超越GPT-5、Gemini
36氪· 2025-09-19 06:58
【导读】DreamPRM由加州大学圣地亚哥分校的研究团队开发,在数学推理权威测评榜MMMU上获得了第一名。 近年来,大语言模型(LLM)在推理能力上的进展显著,其中过程奖励模型(Process Reward Model, PRM)的提出,使 得模型能够在推理链条的中间步骤获得监督,从而更稳健地选择合理的解题路径。 这类方法在文本推理任务中已经取得了良好效果,但在扩展至多模态场景 时,仍然面临两个突出挑战: 因此,如何在多模态推理中有效利用高质量样本,抑制噪声样本的负面影响,成为亟需解决的问题。 针对于此,研究人员设计了新的训练框架,通过双层优化框架,将数据样本的权重(Instance Weights)作为可学习参数, 动态改变数据样本的在训练中的影响。 论文地址:https://arxiv.org/abs/2509.05542 代码地址:https://github.com/coder-qicao/DreamPRM-1.5 | Reset | | | MMMU-Pro | MMMU(Val) | | --- | --- | --- | --- | --- | | Name | Size | Date | Ov ...
ICCV 2025 | ECD:高质量合成图表数据集,提升开源MLLM图表理解能力
机器之心· 2025-08-21 13:08
数据集核心创新 - 提出ECD合成图表数据集 包含10,000+图表和321.5k问答对 规模与多样性超越同类数据集[6][10][12] - 采用模块化五阶段数据合成流水线 涵盖单图生成、多子图组合、视觉多样化等环节 确保数据真实性与复杂性[15][16] - 实现252种子图组合和29种图表类型 覆盖经济学/天文学/医学等25个学科主题 为当前最广覆盖范围[12] 性能表现 - 在6个测试集评估中 ECD训练使开源MLLM模型性能显著提升:LLaVA-Next推理准确率从4.74%升至16.50% Phi-3-Vision平均准确率从31.41%提升至44.40%[17][23] - ECDBench基准测试显示 GPT-4o mini达到最高平均准确率67.24% 显著优于Claude-3.5-Sonnet(55.07%)和GPT-4o(52.90%)[22][23] - 合成数据质量指标突出:最低FID得分表明与真实图表分布最接近 最高像素熵反映更高信息复杂度[13] 技术优势 - 问答对由GPT-4o自动生成并经过置信度过滤 包含描述类与推理类问题 例如差异比较问题(如"数字广告收入差异300M")[10][11] - 多子图组合采用条件顺序生成机制 保证语义一致性 支持2行3列/3行3列等复杂布局[12][16] - 视觉多样化引入Seaborn绘图库 添加注释/阴影/Zoom-in视窗等元素 提升视觉丰富度[16] 行业应用价值 - 解决现有合成数据集风格单一/缺乏真实性/数据模式受限三大痛点 为科研/新闻报道领域提供高真实性图表数据[4] - ECDBench基准包含1,224张图表和2,448对QA 为多模态推理和科学AI助手提供标准化评估体系[21][24] - 显著提升开源MLLM在ChartQA/ReachQA/ChartX等基准测试表现 推动图表自动化生成技术发展[17][25]
当一家成立11年的AI公司投身具身智能战场
36氪· 2025-08-19 10:12
公司战略转型 - 宇泛智能宣布全面拥抱具身智能时代 推出空间认知大模型Manas和四足机器狗两款产品 并采取"智能+硬件"全栈自研战略 [1][3][5] - 公司具备11年视觉AI技术积累 拥有软硬件协同开发经验 曾基于端侧芯片性能重构算法实现端到端性能优化 [1][20] - 创始团队2014年就以机器人Demo获得天使投资 现技术条件成熟后重启智能机器人梦想 [10] 产品技术布局 - 空间认知大模型Manas为多模态语言模型 在VSI-Bench和SQA3D数据集上取得SOTA成绩 专门强化空间理解能力 [3][14] - 四足机器狗完全自研机械结构 电机和运动控制平台 目前已迭代至第三代产品 [4][17] - 技术演进路径包括:自研多模态推理架构UUMM 创新图像分割集成方案HiMTok 以及强化学习提升多模态输出能力 [16] 行业发展趋势 - 2024年被称为具身智能元年 机器视觉与多模态大模型融合推动机器人向具备自主决策能力进化 [1][6] - 视觉能力成为机器理解物理世界的核心入口 计算机视觉派系成为具身智能领域重要力量 [7][10] - 行业技术路线尚未收敛 存在VLA模型 大小脑架构和世界模型等多种方案 [11] 竞争优势 - 具备软硬件协同开发能力 曾通过算法整形计算和硬件适配实现端到端优化 [20] - 拥有11年智能硬件落地经验 积累丰富渠道 供应链和量产能力 [23] - 全栈自研战略确保大脑 小脑与本体之间的系统配合 提升产品质量控制效果 [18] 技术突破方向 - 多模态视觉-语言模型需实现跨模态对齐 将像素 3D结构和文字映射到同一向量空间 [11] - 机器人大脑需融合语言模型与空间感知能力 同时具备语义理解和空间推理功能 [13] - 宇泛Manas模型在目标计数 绝对/相对距离 物理尺寸等空间理解基准测试中表现优异 [17]
4o-mini华人领队也离职了,这次不怪小扎
量子位· 2025-08-19 01:17
核心人才流动 - OpenAI核心研究员Kevin Lu离职 加入Thinking Machine Lab [1][2][3] - Kevin Lu曾领导OpenAI 4o-mini项目开发 并参与o1-mini和o3模型研发 [7][9] - Thinking Machine Lab已集结多位OpenAI前核心成员 包括John Schulman、Barrett Zoph等 [4][22] 技术研究方向 - Kevin Lu专长强化学习和小模型 其论文《决策Transformer》引用量达2254次 [10][11] - 研究观点认为互联网数据比Transformer架构更重要 强调序列数据预测价值 [13][14] - 提出强化学习未来方向在于新数据源和奖励机制创新 [15] 初创公司动态 - Thinking Machine Lab完成20亿美元种子轮融资 估值达120亿美元 [17][19] - 公司由OpenAI前CTO Mira Murati创立 团队覆盖AI主要研究方向 [18][22] - 在硅谷人才争夺中保持团队稳定 拒绝10亿美元薪酬挖角 [20] 产品与技术成果 - 4o-mini为多模态推理小模型 支持图文输入和长上下文 具有高效低成本特点 [7] - Kevin Lu参与开发的o1-mini和o3模型体现其小模型专长 [9] - Thinking Machine Lab尚未公开技术成果 引发行业期待 [21]
全球多模态推理新标杆 智谱视觉推理模型GLM-4.5V正式上线并开源
证券日报网· 2025-08-12 08:46
产品发布 - 公司推出全球100B级效果最佳的开源视觉推理模型GLM-4.5V 总参数106B 激活参数12B 并在魔搭社区与HuggingFace开源[1] - 模型基于新一代旗舰文本基座模型GLM-4.5-Air 延续GLM-4.1V-Thinking技术路线[2] - 在41个公开视觉多模态榜单中综合效果达到同级别开源模型SOTA性能 涵盖图像 视频 文档理解及GUI Agent等任务[2] 性能表现 - 在通用VQA任务中 MMBench v1.1得分88.2 MMBench v1.1中文版得分88.3 MMStar得分75.3 BLINK验证集得分65.3[3] - 在STEM领域 MMMU验证集得分75.4 MMMU Pro得分65.2 MathVista得分84.6 MathVision得分65.6[3] - 在GUI Agent任务中 OSWorld得分35.8 AndroidWorld得分57.0 WebVoyagerSom得分84.4[3] - 视频理解方面 VideoMME无字幕版得分74.6 有字幕版得分80.7 MMVU得分68.7 VideoMMMU得分72.4[3] 技术特性 - 模型具备全场景视觉推理能力 包括图像推理 视频理解 GUI任务 复杂图表与长文档解析及Grounding能力[5] - 新增思考模式开关 用户可选择快速响应或深度推理[5] - 支持64K多模态长上下文 通过三维卷积提升视频处理效率 采用双三次插值机制增强高分辨率图像处理能力[6] - 引入三维旋转位置编码3D-RoPE 强化多模态信息的三维空间关系感知能力[6] - 采用三阶段训练策略 预训练阶段使用大规模图文交错多模态语料 监督微调阶段引入显式思维链格式训练 强化学习阶段采用全领域多模态课程[6] 商业化应用 - API调用价格低至输入2元每百万tokens 输出6元每百万tokens 为企业与开发者提供高性价比多模态AI解决方案[5] - 模型在保持高精度的同时兼顾推理速度与部署成本[5] 行业地位 - 多模态推理被视为通向通用人工智能的关键能力 视觉-语言模型是实现多模态推理的核心基础[7] - 公司7月发布的GLM-4.1V-9B-Thinking模型曾登上HuggingFace Trending榜首 累计获得超过13万次下载[7]