Molmo
搜索文档
LLaVA-OneVision-1.5全流程开源,8B模型预训练只需4天、1.6万美元
机器之心· 2025-10-13 06:37
LLaVA系列技术演进 - LLaVA于2023年提出,通过低成本对齐高效连接开源视觉编码器与大语言模型,实现了“看图-理解-对话”的多模态能力普及,显著缩小了与顶级闭源模型的差距,是开源多模态范式的重要里程碑[2] - LLaVA-1.5通过更大更干净的数据与高分辨率输入强化理解能力,LLaVA-NeXT进一步拓展了OCR、数理与多场景任务处理能力[5] - 系列后续分支发展为LLaVA-NeXT-Video处理时序视频和多帧推理,LLaVA-NeXT-Interleave支持交替多图文与跨图联合推理,最终在LLaVA-OneVision汇聚为统一接口,覆盖图像、文档、图表、多图、视频等多种模态[5] LLaVA-OneVision-1.5框架创新 - 引入RICE-ViT视觉主干支持原生分辨率与区域级细粒度语义建模,强化图表、文档、结构化场景的理解能力[7] - 延续紧凑的三阶段训练范式,避免冗长的课程学习,构建并强调“质量-覆盖-均衡”的85M预训练集与22M指令集[7] - 实现全链条透明开放,包括数据、训练与打包工具链、配置脚本、日志与可复现评测命令等细节,确保社区低成本复现与可验证拓展[7] 数据构建策略 - 预训练数据集规模达85M,融合COYO-700M、Obelics、DataComp-1B、LAION-CN、ImageNet-21K等8大异构来源,形成约2000万中文与6500万英文图文对[12] - 采用特征驱动的“概念均衡”策略,利用MetaCLIP编码器将图像与50万规模概念词嵌入共享向量空间,通过逆频加权重采样平坦化长尾分布[12] - 指令微调数据集规模22M,覆盖Caption、Chart & Table、Code & Math、Domain-specific等八大类别,通过多源聚合、格式统一、指令重写等流程保持类别与难度分布均衡[13] 训练优化技术 - 视觉编码器采用自研RICE-ViT,在4.5亿图像与24亿候选区域上训练,引入Region Cluster Discrimination机制显式建模局部实体与上下文关系[17] - 采用三阶段学习流程:Stage-1进行语言-图像对齐,Stage-1.5在85M数据上进行高质量知识中期预训练,Stage-2基于22M指令数据进行视觉指令对齐[20] - 实施离线并行数据打包技术,在85M规模预训练样本上实现最高约11倍的padding有效压缩,大幅提升有效token利用率[21][22] 性能与效率表现 - 在128张A800 GPU集群上,8B规模模型的Stage-1.5预训练仅需约3.7天完成,总预算控制在1.6万美元,体现高效训练能力[6][24] - 实验结果显示,LLaVA-OneVision在多项公开多模态基准上较Qwen2.5-VL展现出竞争性乃至更优性能[7] - 技术方案证明8B规模即可在更低token与算力成本下,对标乃至部分超越主流开源与部分闭源多模态模型,体现“高质量结构化数据+系统效率协同”的优势[25]
年仅24岁、博士退学、项目平平,却签下2.5亿美元天价Offer?Meta的这波操作,全网看懵了
AI前线· 2025-08-15 06:57
Meta高薪聘请AI研究员事件 - Meta为24岁AI研究员Matt Deitke开出四年总价值2.5亿美元薪酬包,刷新行业纪录,第一年可能兑现1亿美元 [2][3][17] - Deitke最初拒绝1.25亿美元报价,经扎克伯格亲自会面后接受加码方案 [2][3] Deitke背景与研究成果 - Deitke从华盛顿大学计算机科学博士项目辍学,曾主导开发多模态聊天机器人Molmo,其训练数据集PixMo包含创新性二维指点数据 [6][8][9] - 其初创公司Vercept专注于AI Agent开发,规模约10人,已获1650万美元融资,投资方包括前Google CEO埃里克·施密特 [11] 行业对高薪的争议 - 部分业内人士质疑Deitke学术背景普通(博士肄业),认为其项目工程层面缺乏独特性,与大厂资深研究员100-200万美元薪酬上限存在显著差距 [6][13][14] - 支持观点认为多模态AI系统是Meta等巨头的核心投入方向,Molmo项目处于热门赛道且工程扎实 [11] AI人才市场竞争态势 - Deitke薪酬远超历史科学家:奥本海默1943年薪折算现19.1万美元(仅为Deitke年薪1/300),IBM前CEO折算收入1180万美元(不及Deitke年薪1/4) [15] - AI人才议价能力持续提升,年轻研究员薪酬进入九位数范围,并采用"球员经纪人模式"比对报价 [16][17] - 科技巨头无工资帽限制,Meta等公司通过制定人才清单(需具备AI博士学位、顶尖实验室经验及突破性研究贡献)激烈竞抢 [17] 巨头战略与行业影响 - Meta坚信超级智能将重塑业务能力并成为"个人助手",因此持续重金投入人才争夺 [18] - OpenAI被迫调整薪酬结构并采取反向报价策略,但未匹配Meta级报价,强调员工需认同公司未来价值 [18] - 行业共识认为巨头争夺的是未来科技格局掌控权,高薪反映对潜在价值的预期而非当前成果 [24][25]
15亿美元Offer遭拒,小扎用2.5亿改挖00后辍学博士,马斯克嘲讽:我不开天价也能挖你的人
36氪· 2025-08-04 10:35
Meta的AI人才争夺策略 - Meta为吸引AI人才开出天价薪酬包,包括向Andrew Tulloch提供为期6年、总价值高达15亿美元的报价,以及向Matt Deitke提供总额2.5亿美元的录用通知 [1] - 在收购Thinking Machines Lab公司被拒后,Meta转而尝试挖角其约50名员工中的十几位,并由首席执行官亲自接触,但最终无一人离职 [3] - 为组建超级智能研究团队,Meta已投入超过10亿美元,试图打造来自OpenAI、Anthropic、苹果、谷歌等公司的全明星阵容,据称已接触超过100名OpenAI员工,并成功挖角至少10人 [14] 关键人才Andrew Tulloch的背景与动向 - Andrew Tulloch是OpenAI前首席技术官联合创立的Thinking Machines Lab公司的联合创始人,拥有在Meta工作11年的资深经历,并曾深度参与GPT-4o、GPT-4.5的开发 [2][7] - 其学术与专业背景雄厚,包括以优异成绩毕业于悉尼大学数学专业,在剑桥大学获得数学统计硕士学位,论文总引用次数达7534次,并与多位AI领域知名专家合作发表论文 [6][7][8] - 尽管Meta开出巨额薪酬,Tulloch仍选择拒绝并留在其初创公司,该公司当前估值已达120亿美元 [1][8][9] 年轻AI研究员Matt Deitke的招募案例 - Matt Deitke年仅24岁且为博士辍学,但因其在AI2研究所参与开发的Molmo项目以及在NeurIPS顶会上获得杰出论文奖而受到关注 [10][12] - 在最初拒绝Meta为期4年、总值1.25亿美元的工作邀请后,经首席执行官亲自沟通,Meta将报价翻倍至总额约2.5亿美元,其中第一年可能支付1亿美元,最终成功招募 [1][12][13] - 在加入Meta前,Deitke共同创立了专注于自主行动AI系统的初创公司Vercept,该公司规模仅10人但获得了1650万美元融资 [12] AI人才市场竞争的行业影响 - Meta的激进招聘策略显著推高了AI工程师的薪酬水平,其支付给AI工程师的薪酬范围在18.6万至320万美元之间,高于OpenAI的21.2万至250万美元 [14] - 此类挖角行为引发行业争议,OpenAI首席研究官内部表示不满,公司甚至一度暂停工作一周以应对士气波动;同时,xAI公司声称其估值长期有望超越Meta,并已吸引Meta多名高级工程师加入 [15] - 行业观点认为,在AI军备竞赛中,巨额资金投入并不直接等同于成功,尤其在公司战略方向尚不明确的情况下 [16]
年仅24岁、博士退学、项目平平,却签下2.5亿美元天价Offer?Meta的这波操作,全网看懵了
36氪· 2025-08-04 08:32
Meta高薪招募AI研究员事件 - Meta公司为24岁的AI研究员Matt Deitke开出为期四年总价值2.5亿美元的薪酬方案,第一年可能兑现1亿美元,刷新行业纪录 [1] - 首席执行官马克·扎克伯格亲自参与招募,最初报价为1.25亿美元,被婉拒后加码至2.5亿美元成功招募 [1] - Deitke已离开其联合创办的初创公司Vercept,正式加入Meta的"人工超级智能"团队 [3] 研究员背景与成就 - Matt Deitke曾就读于华盛顿大学计算机科学专业,GPA为3.82/4.0,后从博士项目退学 [5] - 在艾伦人工智能研究所工作期间主导开发多模态聊天机器人Molmo,该机器人能融合文本、图像和语音信息完成复杂推理任务 [5] - Molmo项目的核心创新是PixMo数据集,包含人类通过语音描述的图像数据和非语言指点数据,所有数据集已公开发布 [6] - 其研究成果包括CVPR 2023发表的Objaverse数据集和Phone2Proc方法,后者将机器人模拟训练的真实环境适应性从35%提升至71% [5] AI人才市场竞争态势 - 科技巨头如Meta、OpenAI和Google没有工资帽限制,竞价无上限,导致AI人才薪酬水平急剧上升 [12] - 二十出头的AI研究员薪酬轻松迈入九位数,并出现类似体育明星的"球员经纪人模式",通过社交平台互通报价信息 [11][12] - OpenAI已调整薪酬结构并采取反向报价策略,但未匹配Meta的报价水平 [12] - 扎克伯格表示公司将继续重金投入AI人才,因为相信超级智能将重塑所有业务并开启"个体赋能"时代 [13] 历史薪酬对比与行业影响 - Deitke的薪酬是曼哈顿计划负责人奥本海默1943年收入的300多倍,也远超1941年IBM首席执行官的收入水平 [10] - 与职业体育相比,Deitke的2.5亿美元合约比NBA球星斯蒂芬·库里的四年合同高出3500万美元 [12] - 2012年多伦多大学三位学者以4400万美元加盟Google,2014年顶级深度学习专家身价已与NFL四分卫相当 [11] - 经济学家指出计算机科学家获得职业运动员级别薪资标志着"书呆子复仇记"达到高潮 [11] 技术方向与战略价值 - Meta看重Deitke在多模态AI系统方面的专长,这类能同时理解图像、语音和文本的技术是科技巨头重点投入方向 [8] - 巨头公司争夺的不仅是现有成果,更是未来科技格局的掌控权,将年轻研究员视为AI下一个时代的"种子选手" [15] - 2.5亿美元报价反映的是对潜在价值的预期,而非当前成果的等价交换 [16]
Meta dishes out $250M to lure 24-year-old AI whiz kid: ‘We have reached the climax of ‘Revenge of the Nerds'
New York Post· 2025-08-01 21:38
人才竞争与薪酬 - Meta向24岁AI研究员Matt Deitke提供总额达2.5亿美元的薪酬方案,创下企业史上最高薪酬记录之一,初始报价1.25亿美元被拒后CEO扎克伯格亲自将报价翻倍[1][2] - 该薪酬包含首年可能支付的1亿美元,凸显AI顶尖人才的稀缺性[2][4] - Meta为组建AI精英团队已支付超10亿美元,包括以超2亿美元薪酬从苹果挖角AI模型团队前负责人Ruoming Pang[9][15] 技术背景与行业动态 - Deitke曾主导开发多模态AI系统Molmo,能处理图像、声音和文本,与Meta技术方向高度契合[5] - 其研究成果包括3D数据集、具身AI环境和多模态模型,获NeurIPS 2022杰出论文奖(获奖率约0.1%)[7] - 离职博士项目后创立AI代理公司Vercept,获1650万美元融资,投资者含谷歌前CEO埃里克·施密特[6] 公司战略与资本投入 - Meta宣布2025年资本支出将增至720亿美元,同比增加约300亿美元[10] - 扎克伯格明确表示将"不惜代价"争夺50-70名顶级研究人员,强调"人才密度"战略[16] - 公司正建设千兆瓦级计算集群,硬件投入与人才招募形成协同效应[16] 行业影响与社会争议 - MIT经济学家David Autor指出"程序员薪酬堪比职业运动员"标志技术人才价值重估[4] - 行业出现两极分化:顶级研究者获数亿薪酬,而内容审核等岗位面临裁员且无正式员工待遇[11][13] - UCLA专家指出AI发展模式依赖底层劳动者产生的数据,但未给予相应补偿,可能加剧经济不平等[11][13][15]