Workflow
多模态推理
icon
搜索文档
让大模型“吃一堑长一智”,南理工百度等提出模型记忆新方法
量子位· 2025-12-17 09:07
文章核心观点 - 南京理工大学与百度等单位联合提出了一种名为ViLoMem的新方法,该方法通过构建视觉流与逻辑流分离的双流语义记忆,使多模态大模型能够从错误中学习,有效解决了模型“记不住教训”的问题[1] - ViLoMem是一个即插即用的框架,无需微调模型参数,即可在多模态推理基准上稳定提升模型性能,并为构建能从经验中学习的多模态智能体提供了新路径[5] 技术原理与框架 - ViLoMem的核心思想是将“看错了什么”(视觉错误)和“想错了什么”(逻辑错误)分开记忆,模仿人类的多模态整合语义记忆方式[14][16] - 框架包含记忆生成与记忆检索两个关键部分[18] - 记忆生成:当模型解题失败时,并行启动视觉分析模块与逻辑分析模块,分别生成结构化的视觉指南和逻辑规则[19][20][21] - 记忆检索:采用不同的策略。视觉记忆采用两阶段检索(图像级相似度搜索与问题语义过滤)并生成问题感知的注意力热力图;逻辑记忆则基于对题目的理解进行语义匹配检索[26][27][28][29] - 通过“增长-精炼”机制控制记忆规模,新记忆会与已有记忆进行相似度匹配,或合并为更通用的规则,或创建新记忆槽位,避免记忆无限膨胀[23][24] 性能提升效果 - 在六个多模态基准测试中,ViLoMem使GPT-4.1在MathVision上的得分提升+6.48,在MathVista上提升+2.61[2][31] - 对于小模型,Qwen3-VL-8B在MMMU基准上提升+4.38,在RealWorldQA上提升+2.74[2][31] - 从任务类型看,数学与视觉密集任务收益最大,因为双流记忆能阻断视觉错误向推理链条的级联传播[31][33] - 从模型规模看,小模型提升幅度更大[31] 知识迁移与蒸馏效应 - ViLoMem支持跨模型记忆迁移,即小模型可以直接使用大模型生成的记忆[34] - 实验显示,Qwen3-VL-8B使用大模型(Qwen3-VL-235B)的记忆后,在MMMU上的得分从69.90提升至71.26,在MathVista上从77.87提升至79.20[36] - 这提供了一种“免微调的知识蒸馏”路径,使强模型的经验能直接赋能弱模型[3][36]
Transformer作者爆料GPT-5.1内幕,OpenAI内部命名规则变乱了
36氪· 2025-12-01 01:25
AI发展现状与趋势 - AI发展并未放缓,而是一条非常平滑的指数曲线,类似于摩尔定律 [4][7] - 外界感觉“变慢”的原因是AI底层范式已从预训练转向推理模型,这是继Transformer后的关键转折 [4][7] - 预训练处于S曲线上升后期,而推理模型仍处于发展初期,进步速度会相当快 [7][10] 推理模型的技术演进 - 推理模型本质是在给出答案前进行思考(思维链),允许使用工具如浏览网页 [11] - 相比于传统梯度下降训练,推理模型更多使用强化学习,通过奖励机制推动模型获取更好答案 [11] - 模型通过强化学习学会纠正自身错误,未来将转向更复杂的强化学习,融入更多人类偏好 [11] GPT-5.1版本更新实质 - GPT-5.1并非小版本更新,而是一个巨大的稳定性迭代,改进集中在后训练阶段 [14][15] - 改进包括增加安全性、减少幻觉以及添加多种风格选择(如书签子、专业) [15] - 版本命名规则改变,以用户体验为导向,内部通过蒸馏技术整合多项目成果,缩短迭代时间 [17] 模型能力与挑战 - GPT-5能解决奥林匹克竞赛题,但在小学一年级数奇偶数题目上错误百出,忽略共享点导致误判 [19][20] - 短板在于缺乏足够多模态能力,未能将推理经验迁移到相似场景 [20] - 后续训练将强化多模态推理和上下文推理迁移能力 [20] 未来AI突破方向 - 多模态推理将成为下一个突破点,目前处于起步阶段,强化学习将助其提升 [4][13] - 家用机器人可能成为继ChatGPT后最直观的AI革命,取决于多模态能力和通用强化学习的进步 [34][36] - 硬件基础迅速成熟,将协同多模态和物理世界推理能力,实现家用机器人能力跃迁 [36] AI对工作的影响 - AI不会让人类完全失去工作,高风险、高关注度场景仍倾向于依赖人类专家经验 [32][34] - 基础工作的可替代性变高,工作内容将出现变化,但人类不会无事可做 [34] Transformer诞生与OpenAI文化 - Transformer八位共同作者从未在物理房间共同出现,但从不同角度共同构建了模型 [26] - 当时业界不认同用同一模型处理多任务的想法,但团队坚信并证实了其正确性 [26] - OpenAI组织架构灵活,根据项目自发组队,内部GPU资源有限,项目间存在资源竞争 [29]
Transformer作者爆料GPT-5.1内幕!OpenAI内部命名规则变乱了
量子位· 2025-11-30 11:30
AI发展现状与趋势 - AI发展并未放缓,而是呈现平稳的指数级增长,类似于摩尔定律,其进步由新技术、算力提升和工程优化共同驱动 [13][15][16][17] - 行业底层范式正经历从预训练模型向推理模型的静悄悄但本质性的转换,其意义不亚于Transformer的诞生 [1][2][18][19] - 外界感觉进展变慢的原因包括:预训练处于S曲线上升后期,投入产出比下降;行业重心转向更小、更便宜但质量相当的模型 [19][21] 推理模型的技术特点 - 推理模型的核心在于思维链,即在给出答案前先进行思考,并可使用工具(如浏览网页)以提升答案准确性 [23][27][28] - 训练方式从传统的梯度下降转向强化学习,通过奖励机制和细致的数据准备来优化模型,未来将应用更复杂的强化学习 [29][30] - 多模态推理是下一个突破点,目前仍处于起步阶段,强化学习将助力其进一步提升 [9][32] OpenAI模型迭代策略 - GPT-5.1并非简单的小版本迭代,而是一次巨大的稳定性迭代,改进集中于后训练阶段,如增强安全性、减少幻觉、增加风格选择 [34][36] - 版本命名规则转变为以用户体验为导向,例如GPT-5为基础模型,GPT-5.1为能力更优版本,Mini为更小更快的版本 [38] - 内部采用多项目并行(强化学习、预训练等)再通过蒸馏技术整合的灵活开发模式,大大缩短了模型迭代时间 [38] 模型能力与挑战 - 模型能力实现质的飞跃,例如ChatGPT从直接记忆答案转变为主动推理,Codex已改变程序员的工作流程 [23][24] - GPT-5.1在复杂任务(如奥林匹克竞赛题)上表现优异,但在需要多模态推理和上下文迁移的简单任务(如奇偶数判断)上仍存在明显短板 [41][42] AI未来应用展望 - AI不会让人类完全失去工作,高风险、高关注度场景仍将依赖人类专家,但基础工作的可替代性将提高,工作内容将发生变化 [10][62][65][66] - 家用机器人被视为继ChatGPT之后最直观的AI革命,其进展取决于多模态能力、通用强化学习和物理世界推理的突破 [11][67][69] Transformer与OpenAI背景 - Transformer的八位共同作者从未在同一物理房间共同工作,当时业界对单一模型处理多任务的想法普遍不理解 [50][51] - OpenAI内部组织架构灵活,根据项目自发组队,但存在GPU资源竞争,预训练消耗资源最多,其次是强化学习和视频模型 [55][56][57]
深夜,3万亿美元巨头大涨
上海证券报· 2025-11-19 15:45
公司股价表现 - 谷歌美股于19日高开后直线拉升,股价大涨超6%,最高报303.68美元/股,再创历史新高 [2] - 公司最新总市值超过3.6万亿美元 [2] - 当日股价具体表现为:开盘价287.31美元,最高价303.68美元,最低价286.63美元,收盘价302.86美元,涨幅6.54% [3] - 当日成交金额为74.00亿美元,换手率为0.43% [3] 新产品发布与技术优势 - 谷歌于当地时间11月18日推出其“迄今为止最智能的模型”——Gemini 3,公司首席执行官称其集成了Gemini系列所有强大功能 [5] - Gemini 3具备博士级别的推理能力,在多项基准测试中表现优异,并支持高达100万token的超长上下文窗口 [5][7] - 根据LMArena排行榜,Gemini 3 Pro登顶榜首,在多项关键测试中领先于其他主流模型,例如在Humanity's Last Exam测试中达到37.5%,在GPQA Diamond科学知识测试中达到91.9%,在AIME 2025数学测试中达到95.0% [2][6] - 该模型进一步突破了多模态推理边界,具备领先的推理能力、视觉与空间理解能力以及卓越的多语言表现力 [7] 用户基础与生态系统 - 公司AI Overviews每月已拥有20亿用户,Gemini App的月活跃用户突破6.5亿大关 [7] - 超过70%的云客户正在使用公司的AI服务,有1300万名开发者基于公司的生成式模型进行开发工作 [7] 行业背景与分析师观点 - 同日美股科技股大幅拉涨,纳斯达克指数涨超1.5%,博通涨超5%,英伟达涨超3%,英特尔涨超3.7% [4] - 分析师认为,谷歌通过全面布局芯片(TPU)-网络(OCS)-模型(Gemini)-应用(云计算/搜索/广告等),构筑了AI全栈优势护城河 [7] - 公司自研TPU芯片实现跨越式发展,Gemini模型能力全球领先,其算力需求的高增长以及AI硬件创新带来产业链投资机会 [7]
Gemini 3.0发布:从“工具辅助”到“主动代理”,谷歌做了这几点
钛媒体APP· 2025-11-19 00:32
产品发布与战略意义 - 谷歌发布最新人工智能模型Gemini 3,该模型被业内称为“全能型选手”,实现了对前代产品的代际级超越,并在多个核心基准测试中对标甚至超越GPT-5.1、Claude 4.5等竞品 [1] - 模型将整合进Gemini应用、AI搜索产品AI Mode和AI Overviews,以及企业级产品,自发布日起向部分订阅用户开放,并将在未来几周更大范围上线 [1] - 此次发布具有重要战略意义,可能让公司在AI竞赛中夺得领先地位,特别是在OpenAI的ChatGPT-5未能立即产生重大影响之后 [8] 核心能力突破:推理 - 在基础推理能力上,Gemini 3 Pro在GPQA Diamond测试准确率达91.9%,在Humanity's Last Exam测试中无工具状态下得分37.5%,在SimpleQA Verified测试中以72.1%的分数领跑业界 [2] - 推出Gemini 3 Deep Think增强推理模式,在Humanity's Last Exam测试中达到41.0%的成绩,在GPQA Diamond测试中获得93.8%的分数,在ARC-AGI-2测试中创下45.1%的成绩 [3] - 增强推理模式通过“思维签名”和“思考等级”两大创新将思维链技术产品化,该模式将在未来几周内向Google AI Ultra订阅用户开放 [3] 核心能力突破:多模态与长上下文 - Gemini 3 Pro支持高达100万tokens的超长上下文长度,相当于700页英文书籍或2小时的4K视频,较谷歌自身的Gemini 2提升7倍,且保持90%以上的信息保留率 [4] - 在多模态理解方面,Gemini 3 Pro在MMMU-Pro测试中获得81%的分数,在Video-MMMU测试中达到87.6%,成为“世界上最先进的多模态理解模型” [4] - 测试显示,模型在识别18世纪手写文稿方面字符错误率仅为0.56%,词错误率为1.22%,相比前代Gemini 2.5 Pro提升50%-70%,达到专家级人类水平 [7] 核心能力突破:编码与智能体 - 在代码生成领域,Gemini 3在LiveCodeBench Pro测试中以2439的Elo得分远超GPT-5.1的2243和Claude 4.5的1418,逼近专业程序员水平 [5] - 智能体能力显著跃升,在Terminal-Bench 2.0测试中以54.2%的得分展现强大工具使用能力,在Vending-Bench 2测试中通过一致决策实现更高回报,位居测试榜首 [6] - 公司同步推出全新开发平台Google Antigravity,支持在更高抽象层级上进行任务导向型编程 [6] 行业影响与公司优势 - 模型发布将倒逼竞争对手加速技术创新,推动AI行业在推理能力、多模态融合、智能体开发等领域的全面进步 [9] - 公司拥有自研专用芯片、在线搜索约90%的市场份额,以及数以百万计的Gmail、Google Docs等用户基础,这些产品正逐步被注入AI功能 [8] - 公司上月公布创纪录收入,并计划在AI建设上投入数十亿美元 [8]
Gemini3 正式发布
小熊跑的快· 2025-11-19 00:09
产品发布与定位 - 谷歌于2025年11月19日正式发布Gemini 3,定位为当前全球最强大的多模态理解模型、智能体模型及“vibe coding”模型 [1] - 公司推出了Gemini 3 Pro预览版以及增强推理模式Gemini 3 Deep Think,后者将优先提供给安全测试人员,随后面向Google AI Ultra订阅用户开放 [1] - 该产品是谷歌在推动模型智能加速方面的最新成果,并同步发布了全新的智能体开发平台Google Antigravity [8] 核心性能表现 - Gemini 3以1501 Elo得分位居LMArena排行榜首位,并在Humanity's Last Exam上取得博士水平的推理表现,得分37.5% [1] - 在数学能力上,模型在MathArena Apex取得23.4%的最新最优成绩,在AIME 2025上不使用工具得分95.0%,使用代码执行可达100% [1][3] - 在多模态推理方面,Gemini 3 Pro在MMMU-Pro上成绩为81.0%,在Video-MMMU上成绩为87.6%,重新定义了行业标准 [2][3] - 在事实准确性方面,模型在SimpleQA Verified上取得72.1%的业界领先成绩 [2][3] Deep Think模式增强 - Gemini 3 Deep Think模式进一步提升了模型性能,在Humanity's Last Exam上成绩提升至41.0%,在GPQA Diamond上达到93.8% [4] - 该模式在ARC-AGI-2上使用代码执行取得45.1%的成绩,显示出在推理与多模态理解方面的飞跃式提升 [4] 智能体与编码能力 - Gemini 3是公司最出色的vibe coding和agentic coding模型,以1487 Elo成绩登顶WebDev Arena排行榜 [8] - 在Terminal-Bench 2.0测试中模型获得54.2%的成绩,在SWE-bench Verified上达到76.2% [3][8] - 在长周期智能体任务中,Gemini 3 Pro在Vending-Bench 2测试中平均净值为5,478.16美元,显著高于竞争对手 [3] - 模型在LiveCodeBench Pro上的Elo评级达到2,439,显示出强大的竞争性编程问题解决能力 [3] 多模态与上下文能力 - Gemini 3设计用于跨文本、图像、视频、音频和代码多种模态,具备100万tokens的上下文窗口 [6] - 模型在长上下文性能测试MRCR v2 (8-needle)中,128k上下文平均成绩为77.0%,1M上下文点状成绩为26.3% [3] - 在多语言能力方面,模型在MMLU上取得91.8%的成绩,在Global PIQA上达到93.4% [3] 平台集成与应用场景 - 用户可在Google AI Studio、Vertex AI、Gemini CLI及新平台Google Antigravity中使用Gemini 3,该模型也已集成至Cursor、GitHub、JetBrains等第三方平台 [8] - Google Antigravity平台深度集成Gemini 3 Pro、Gemini 2.5 Computer Use及Nano Banana图像编辑模型,将AI提升为主动合作伙伴 [9][10] - 搜索中的AI模式现已使用Gemini 3,能根据搜索查询实时生成沉浸式视觉排版、交互式工具和模拟器 [7] - 模型具备实际任务处理能力,例如分析运动视频生成训练计划、整理邮箱、预订本地服务等复杂多步骤流程 [7][10]
Gemini 3深夜来袭:力压GPT 5.1,大模型谷歌时代来了
36氪· 2025-11-19 00:04
产品发布与市场热度 - 谷歌正式发布其最先进的多模态大模型Gemini 3,该模型被公司定义为“通往AGI的重要一步”[5][6] - 产品发布前在社交媒体平台引发极高关注度,导致平台出现服务中断,反映出市场对该模型发布的巨大期待[1][2] - 模型发布获得行业关键人物如OpenAI的Sam Altman和xAI的Elon Musk的祝贺[5] 核心性能表现 - Gemini 3 Pro在几乎所有主流AI基准测试中显著超越前代Gemini 2.5 Pro,并全面压制Claude Sonnet 4.5和GPT-5.1等主要竞品[7] - 模型以1501 Elo的突破性高分登顶LMArena Leaderboard,在Humanity's Last Exam(无工具条件下达37.5%)和GPQA Diamond(91.9%)上获得最高分,展示博士级推理能力[7] - 在多模态理解方面,模型在MMMU-Pro和Video-MMMU上分别斩获81%和87.6%的高分,在解析复杂科学图表和理解动态视频流上表现优异[7] - 在数学领域为前沿模型树立新标准,在MathArena Apex上达到23.4%的最新SOTA水平[7] - 在事实准确性上取得巨大进步,于SimpleQA Verified上取得72.1%的成绩[7] 新增功能与模式 - 推出全新的Deep Think模式,该模式在推理和多模态理解能力上有重大进步,在Humanity's Last Exam(无工具41.0%)和GPQA Diamond(93.8%)上的表现优于Gemini 3 Pro[10][13] - 引入全新的Google Antigravity智能体开发平台,将AI辅助从工具转变为积极的合作伙伴,提升开发者体验[6][24] - 模型结合先进的推理、视觉和空间理解能力、领先的多语言性能以及百万级token上下文窗口,拓展多模态推理边界[14] 开发者与编码能力 - 模型是谷歌迄今为止最佳Vibe编码和Agent编码模型,在WebDev Arena排行榜上以1487 Elo分数名列榜首[16] - 在评估终端操作计算机能力的Terminal-Bench 2.0测试中取得54.2%的成绩,在衡量编码代理性能的SWE-bench Verified测试中大幅超越2.5 Pro版本,得分为76.2%[16] - 开发者现可通过Google AI Studio、Vertex AI、Gemini CLI以及全新的Google Antigravity平台使用Gemini 3进行构建,并适用于Cursor、GitHub等第三方平台[17] 规划与商业应用能力 - 模型的规划能力在Vending-Bench 2测试中得到印证,通过长周期规划管理虚拟商业运营,在模拟售货机经营测试中登顶,实现更高投资回报[18] - 在完整模拟年度运营中,Gemini 3 Pro始终保持稳定的工具调用与决策连贯性,展现出卓越的长周期规划能力[18] 定价与可用性 - Gemini 3.0 Pro引入基于上下文长度的分级定价机制:200k tokens以下任务,输入/输出价格为每百万token $2.00/$12.00;超过200k tokens则分别为$4.00和$18.00[21] - 模型现已全面开放,普通用户和订阅用户可通过Gemini App及搜索AI模式使用,开发者与企业客户可通过AI Studio、Vertex AI等渠道接入[19] - Deep Think模式预计将在未来几周内面向Google AI Ultra订阅用户独家上线[19] 市场影响与用户基础 - 在一项关于“到2026年底哪家公司拥有最好LLM”的投票中,Google Gemini遥遥领先,显示市场信心回升[32] - 根据公司数据,AI Overviews月活跃用户已达20亿,Gemini应用月活突破6.5亿,超过70%的云客户以及1300万开发者正在使用其生成式模型[34]
2025 全球机器学习技术大会 100% 议程出炉,顶级嘉宾阵容 + 参会指南一键获取
AI科技大本营· 2025-10-14 11:14
大会核心信息 - 2025全球机器学习技术大会将于10月16-17日在北京威斯汀酒店召开 [1] - 大会由CSDN与奇点智能研究院联合主办 [1] - 会议日程为每日8:00开始签到,9:00正式开始嘉宾分享 [34][36] 参会嘉宾阵容 - 大会云集了来自OpenAI、Google、英伟达、微软、百度、阿里、腾讯、字节跳动等国内外顶尖机构与企业的技术领军人物 [1] - 核心演讲嘉宾包括OpenAI研究科学家、GPT-5、GPT-4和Transformer共同创始人Lukasz Kaiser [1][5] - 其他重要嘉宾包括奇点智能研究院院长李建忠、ISO人工智能技术委员会专家Michael Wong、前OpenAI研究员吴翼、前DeepMind研究员王佳楠等 [1][4][5][19] 主论坛核心议题 - 首日主论坛将围绕大模型、智能体工程、多模态推理等前沿议题展开 [3] - 奇点智能研究院院长李建忠将发布《奇点智能AI原生软件研发成熟度模型》报告 [4] - ISO专家Michael Wong将解析CUDA、PyTorch、ONNX、Triton等AI生态系统的成败逻辑 [4] - OpenAI科学家Lukasz Kaiser将分享推理模型的历史、现在与未来 [5] 专题分会场技术焦点 - 10月16日下午设有大语言模型技术演进、智能体工程与实践、多模态与世界模型、AI赋能软件开发等多个专题分会场 [12] - 参会企业包括字节跳动、微软、新浪微博、腾讯、小红书、理想汽车、京东、清华大学等 [13] - 10月17日专题涵盖具身智能与智能硬件、AI Infra大模型基础设施、AI赋能软件研发、大模型+行业落地实践等热门技术专题 [18] - 英伟达首席架构师将分享CUDA C++开发者工具箱,百度将介绍文心4.5开源大模型及关键训练技术 [22] 产业应用与实践案例 - 大会将展示AI技术在多个行业的落地实践,包括小红书的多模态搜索应用、理想汽车的座舱语音对话大模型、京东的开源多智能体协作框架等 [13][15][16] - 腾讯混元将分享翻译模型优化经验及3D生成大模型的研发布局与应用 [15][16] - 阿里Qoder技术专家将探讨新一代Agentic Coding平台如何推动AI Agent在软件研发中的真实应用 [16]
永别了,人类冠军,AI横扫天文奥赛,GPT-5得分远超金牌选手2.7倍
36氪· 2025-10-12 23:57
AI大模型在天文奥赛中的突破性表现 - 在国际天文与天体物理奥赛(IOAA)中,GPT-5和Gemini 2.5 Pro达到金牌水平,在理论和数据分析测试中完胜人类选手[1][3] - 这是继国际数学奥赛(IMO)和国际信息学奥赛(IOI)之后,AI再次在顶级科学奥赛中夺冠[2] - 此次表现标志着AI已能与物理学和天文学领域最顶尖的年轻头脑抗衡,涉及中子星、吸积流、磁场和轨道力学等尖端推理[13] 主要AI模型竞赛成绩详情 - 在理论考试上,Gemini 2.5 Pro总体得分85.6%,GPT-5总体得分84.2%[4] - 在数据分析考试中,GPT-5总体得分88.5%,Gemini 2.5 Pro总体得分75.7%[5] - 五大LLM参与测试,包括GPT-5、Gemini 2.5 Pro、OpenAI o3、Claude Opus 4.1和Claude Sonnet 4,几乎全线获得金牌[18][36] - 研究由俄亥俄州立大学团队完成,选取了最近四届IOAA理论考试(2022-2025)作为评估基准[20] 模型在不同难度和类别问题上的表现差异 - GPT-5在难题上的表现优于简单与中等难度题,在2024年试卷的几何与空间可视化题目上出现重大失误[24][25] - 模型在物理/数学类问题上的得分(67–91%)明显高于几何/空间类问题(49–78%),两者相差15–26个百分点[44] - 几何/空间类问题涉及天球、球面三角学等需要空间可视化的内容,而物理/数学类主要涉及计算,不要求几何可视化[45] - 在2024年几何问题主导的考试中,只有Gemini 2.5 Pro保持了相对较高的性能(74.7%),其他模型性能下降至35–59%[44] 多模态能力与错误模式分析 - GPT-5在数据分析部分表现出色(88.5%),高于其理论考试成绩(84.2%),这得益于其更强的多模态图表解读能力[31][32] - 在理论考试中,概念性错误和几何/空间可视化错误占主导地位,共同占去60-70%的总失分[51] - 在数据分析考试中,错误分布相对平衡,绘图和图表阅读是主要错误类别,特别是对于能力较弱的模型[52][64] - 所有LLM在空间和时间推理方面都存在困难,例如难以理解球面三角学、混淆时间计量系统[47][49] 与人类选手的比较及行业意义 - AI模型不仅达到金牌水平,其水平高达人类金牌得主的2.7倍,在200-300名人类参赛者中跻身前两名[6][12] - 在2022、2023、2025理论考试中,GPT-5均超过了当年的IOAA最佳学生,Gemini 2.5 Pro在2022和2023年同样力压最佳人类选手[40] - 此次评估揭示了需要更全面地评估天文学领域的LLM,以测试其超越单纯知识回忆的问题解决能力[28] - AI在奥赛中的表现预示着其将推动全部学科的进展,标志着我们已进入AI能进行宇宙级科学推理的时代[7][13]
Meta刚从OpenAI挖走了清华校友宋飏
36氪· 2025-09-26 13:35
核心人事变动 - 前OpenAI高层研究员宋飏正式加盟Meta Superintelligence Labs担任研究负责人[2][3] - 宋飏将直接向MSL首席科学家赵晟佳汇报[5] - 两人背景高度契合:本科均毕业于清华,博士同在斯坦福同门,曾先后就职于OpenAI[13] 团队架构与战略方向 - 宋飏的加入巩固了MSL的“双核”格局:赵晟佳把握整体节奏,宋飏深化关键路径[16] - 宋飏研究方向聚焦扩散模型与多模态推理,其技术是生成式AI领域重要基石[29][37] - 团队战略目标是构建能理解图像、语言、音频等多种数据形式的通用模型,提升与真实世界互动的广度与深度[31] - 赵晟佳主导统一训练范式和推理堆栈,旨在打造完整AI产品体系[32] 行业人才流动趋势 - 今夏以来已有超过11位来自OpenAI、Google、Anthropic等机构的研究者加入MSL[20] - 顶级AI实验室间人员流动节奏加快,例如Aurko Roy在Meta工作不到五个月便离职加入Microsoft AI[22][24] - 项目匹配度、团队氛围和技术方向贴合度正成为人才选择的核心因素[25] - 人才选择项目的速度在加快,项目对人的要求也在提高,研究者与实验室关系呈现“双向奔赴”特点[46][47] 技术影响与产业意义 - 宋飏在OpenAI期间带领战略探索团队,专注于提升模型处理高维复杂数据的能力[30][39] - 其研究成果不止于方法创新,更擅长转化为平台能力,影响了OpenAI图像生成产品设计路径[40] - 这类研究者能直接推动从理论、数据到系统实现的完整链路,为团队补上技术纵深与工程整合的关键环节[41] - 跨模态、完整数据链路、工具集成与推理协同能力将成为AI从业者新阶段核心竞争力[48]