Workflow
Scaling Law
icon
搜索文档
“推理模型还处于RNN的阶段”——李建忠对话GPT-5与Transformer发明者Lukasz Kaiser实录
AI科技大本营· 2025-10-10 09:52
对话一:语言对于智能到底意味着什么 - 语言在时间维度上对智能至关重要,语言模型本质是序列模型,处理时间序列是表达智能的重要组成部分 [6][7] - 语言经过人类编码压缩,在智能表征上比视觉更高效,语言边界就是世界边界 [7] - 训练语言数据非常方便,互联网有海量语言数据,用语言训练比用视频便宜得多 [8] - 语言模型会形成抽象概念,当用多种语言训练时,模型在抽象空间解决问题然后表达出来 [9] - 模型概念与人类概念可能存在差异,特别是在与物理世界紧密相关的领域 [10] 对话二:多模态与世界模型的挑战 - 现代大语言模型如GPT-4已经是多模态模型,能接收和生成图像音频,但模态间迁移水平不尽如人意 [12] - 当前多模态处理通过VQ-VAE编码器,感觉不令人满意,需要更深入融合到模型中 [13] - 语言对多模态非常重要,离开语言视觉只是像素信号,语言赋予视觉对象语义含义 [14] - 现代大语言模型在某种程度上就是世界模型,文本数学方面表现优异,但作为物理模型表现不如语言模型 [14] - 通过架构改进、更好数据将弥合世界模型与语言模型差距,Sora等模型显示正在取得重大进展 [15] 对话三:AI编程:自然语言是终极目标,还是新的"巴别塔" - Transformer发明时已考虑自动化编程,认为比处理任意对话更容易 [17] - 语言模型将覆盖大量编程工作,但数学和编程语言是比纯自然语言更好的沟通工具 [19] - 未来复杂系统级软件需要专业程序员使用Copilot模式,应用软件可由大众用户自然语言编程完成 [20] - 编程重点在于沟通和抽象,不一定需要新编程语言,可以使用现有语言但要用得非常好 [20] - 新编程语言需求来自新计算架构,而非AI编程需求 [20] 对话四:Agent的泛化困境:是方法问题,还是根本限制 - Agentic Model缺乏坚实技术实体,指推理过程中调用外部工具的推理模型 [21] - 问题在于使用未经训练工具时缺乏学习信号,效果不好 [22] - 强化学习可泛化到更大系统,但需要训练期间接触所有工具,目前难以实现 [22] - 需要更多工作让系统可训练,即使没有太多训练也可能非常有用 [23] 对话五:算力与算法:Scaling Law是信仰还是路径依赖 - 预训练Scaling Law和强化学习Scaling Law不完全是一回事,有不同限制 [25] - 预训练Scaling Law存在经济限制,离经济极限不远,可将大模型蒸馏成更小模型 [25] - 推理模型不增加参数数量,让模型运行更长时间会变得更好,但有架构限制 [27] - 推理Scaling Law与预训练Scaling Law有非常不同限制,呼唤新研究和不同架构 [28] 对话六:具身智能的挑战:是数据问题?还是比特和原子的根本性差异 - 具身智能将更接近当前LLM,物理世界数据比互联网少,但数据效率在提高 [29] - 需要从多模态模型开始,加入RL训练,允许模型在行动前进行推理 [30] - 现实障碍是推理速度太慢,需要层级式架构输出动作 [30] - 第一个版本建立在现有成果上做调整,之后会有新一代更高效模型 [31] 对话七:强化学习:是超级优化器,还是科学发现的引擎 - 推理模型看作新架构,有思维链推理过程,用强化学习方式可行 [32] - RL数据效率高得多,可从有限数据中学习,如1000道数学题 [33] - RL只得到一个奖励,没有约束,能很好优化就可以学习 [33] - 处于范式早期阶段,需要尝试发现改进才能更高效 [34] 对话八:AI的组织跃迁:如何实现大规模Agent协作 - 最大挑战是开发下一代推理模型,需要Transformer创新级别的推理模型 [35] - 需要更多并行性,不能等模型思考一周才得到奖励 [36] - 需要为并行过程提供更多信号,结合架构融入并行过程 [36] 对话九:AI记忆的瓶颈:模型离真正的"原生记忆"还有多远 - 推理模型可使用工具访问记忆,通过RL训练会学得很好 [37] - 工具方式解决记忆问题对于大多数情况足够好,模型能区分互联网记忆和自己记忆 [37] - 未来架构可能做得更好,但目前有可行解决方案 [38] 对话十:大模型如何摆脱瞬时学习,而像人类一样持续学习 - 利用上下文作为持续学习记忆是进展,但效率不高 [39] - 记忆工具正在出现,模型在推理中访问记忆 [40] - LoRA模块等经济方式修改权重已更可行,每个人可微调自己模型 [40] - 需要更优雅方式实现持续学习,涉及实践和研究考量 [41]
OpenAI奥特曼认错:我天生不适合管理公司
量子位· 2025-10-09 07:03
公司核心战略 - OpenAI确立三大核心目标:成为个人AI订阅服务、构建大规模基础设施、最终实现对人类真正有用的AGI [4] - 公司战略已转变为垂直整合模式,认为为实现AGI使命必须比原先想象中做更多事情,并引用iPhone作为成功垂直整合案例 [8][9] - 在资源分配上,当存在资源限制时,GPU将优先分配给研究而非产品支持,基于构建AGI的终极目标研究享有最高优先权 [33][34] 技术发展路径与AGI展望 - Sora项目表面与AGI不直接相关,但公司认为构建真正出色的世界模型对AGI的重要性将超出人们想象 [11] - 推出Sora的理由包括:制作优秀产品获得用户喜爱、让社会提前适应视频模型、视频比文本有更多情感共鸣、帮助推进AGI研究以及增加乐趣和喜悦 [16] - 未来人机交互界面将包括实时渲染视频的世界模型和新型环境感知硬件设备 [19] - 个人认为图灵测试的等价物是AI能够进行科学研究,并预测两年内模型将承担更多科学工作并做出重要发现 [21][22] 基础设施与行业合作 - 公司决定进行非常激进的基础设施押注,因对研究路线图和经济价值从未如此自信,需要整个行业佼佼者的支持 [29] - 公司将与众多伙伴合作,涉及从电子级别到模型分发的所有环节,未来几个月预计有更多动作 [30] - 若对模型能力发展的预测正确,规模扩展的上限离当前位置还非常遥远,但若只有今天模型则不会如此激进 [31][32] 行业宏观观点 - 能源是AI最大的瓶颈之一,历史上更便宜充足的能源是提高人类生活质量最有影响力的事情 [44] - 批评西方长期排斥核能是令人难以置信的愚蠢决定,其推广速度取决于是否具有完全压倒性的经济优势 [44] - 认为AGI的到来是连续性的过程,而非奇点大爆炸 [44] - 深度学习是一个持续给予奇迹的技术,公司能够用当前技术制造出能够找出下一个突破的东西 [24][27]
听说,大家都在梭后训练?最佳指南来了
机器之心· 2025-10-09 02:24
文章核心观点 - 大模型扩展至百亿、千亿级后,Scaling Law的边际效益开始递减,行业焦点从预训练转向后训练阶段[2] - 后训练通过RLHF、RLAIF、DPO、RLVR等方法提升模型推理能力和对齐效果,成为LLM走向高阶智能的必经之路[3][12] - OpenAI o系列、DeepSeek R1、Google Gemini等以推理为核心的模型均通过强化学习后训练提升能力[3][16] 从预训练到指令微调的演进 - 基础模型通过大规模文本和图像数据预训练,目标为预测下一个token,但该目标限制模型在实际应用中的效用[7][8] - 后训练使用规模更小但质量更高的数据,核心目标是对模型行为进行对齐并强化预训练阶段积累的能力[11] - 主流后训练技术包括监督微调和基于人类反馈的强化学习等[11] 监督微调基本原理 - SFT通过指令-回答对数据集微调预训练模型,将其转化为能遵循用户指令的模型[21] - SFT数据集规模通常为1万到10万个样本,对缺陷极为敏感,少量低质量样本可能导致模型学习错误行为[25] - SFT数据质量常见问题包括标签噪声、分布不匹配和伪推理三类,需通过过滤、验证和数据增强方法减轻风险[26][27] - SFT损失函数是在给定输入x条件下生成正确序列y的负对数似然,通过交叉熵实现[33][35] 强化学习后训练技术 - 强化学习是后训练中最复杂且最有效的微调方式之一,通过最大化奖励信号进行优化[39][40] - RLHF借助人类偏好训练奖励模型,帮助模型在日常对话中表现更优并对齐安全性与语言风格[42] - RLAIF通过LLM与书面规则结合实现监督信号自主扩展,RLVR使用可验证信号提升数学推理与代码能力[42] - 常用RL算法包括PPO、GRPO、REINFORCE和DPO,其中GRPO因去掉单独价值网络降低计算成本而更受欢迎[53][55] 后训练模型评估方法 - 后训练评估需融合自动评估和人工评估等多种方法,以覆盖模型质量各个方面[57][58] - 自动评估快速廉价,人工评估是评估模型主观质量的黄金标准但成本高且易受主观因素影响[59] - 人工评估包括专家标注、用户自评和混合模式等多种设置,适用于不同场景[60]
“大就是好”,但技术男阿里云并不执著“上头条”
观察者网· 2025-09-29 09:46
资本市场反应 - 阿里巴巴CEO吴泳铭在云栖大会发表演讲后 公司港股股价当日大涨9.16% [1] 战略方向与投入 - 大模型被视为下一代操作系统 未来全球可能仅存5-6个超级云计算平台 [3] - 阿里云在三年3800亿AI基础设施建设计划基础上追加投入 [3] - 2032年阿里云全球数据中心能耗规模将提升10倍 [3] 技术进展与模型能力 - 通义千问Qwen3-Max成为万亿参数模型 在LMArena全球文本处理能力排名第三(1430分) 是前十名中唯一中国模型 [4][5] - Qwen3-Max预训练数据量从18T提升至36T 采用拆分Instruct/Thinking双版本架构 上下文扩展至1M [6] - 下一代基础模型Qwen3-Next采用超稀疏MoE架构 总参数量80B 仅激活3B即可媲美当前235B模型效果 [6][7] - 通义大模型全球下载量突破6亿次 衍生模型超17万个 成为全球第一开源模型 [10] 市场竞争格局 - IDC报告显示2025年上半年中国公有云大模型调用量达536.7万亿tokens 火山引擎以49.2%份额居首 阿里云以27%位列第二 [16] - Omdia报告显示同期中国AI云市场阿里云占比35.8% 相当于第二至四名份额总和 [16] - 沙利文报告指出超53%财富中国500强生成式AI企业选择阿里云 [16] 商业模式与定价策略 - 火山引擎采用低价策略 其豆包1.6模型按输入长度区间定价 使用成本降至前代三分之一 [18][19] - 阿里云明确不再以亏损代价扩大营收 2024年后未再全面降价 [20][21] 基础设施与芯片布局 - 阿里自研AI芯片接近英伟达H20水平 由国内晶圆厂代工且兼容英伟达生态 [25] - 平头哥在中国联通项目中提供16384张算力卡 交付1945P算力 [25] - 新一代HPN 8.0网络实现800Gbps存储带宽与6.4Tbps GPU互联带宽 支持10万卡GPU集群 [27] 行业技术趋势 - 超节点技术限于分布式推理场景 训练环节无显著提升且存在可靠性挑战 [23] - 字节跳动与台积电合作研发两款AI芯片 预计2026年量产 [27] - 华为云收缩传统云业务转向AI算力 与采用其昇腾芯片的阿里云/火山引擎形成竞合关系 [27]
人形与具身智能产业何以叩响“Scaling Law”之门?
机器人大讲堂· 2025-09-24 11:09
行业阶段与核心矛盾 - 人形机器人行业正从主题炒作迈向产业趋势投资前期,海外及国内企业已开启小批量量产 [1] - 行业核心矛盾并非能否出货,而是能否形成可持续的产业飞轮,当前交付多集中于科研、教育等ToG领域,本体企业主要扮演硬件卖铲人角色 [1] - 行业真正转折点在于机器人大脑的Scaling Law时刻,即智能随数据量和模型规模呈非线性提升,从而突破场景泛化能力瓶颈 [1] Scaling Law的挑战与瓶颈 - 硬件端成本高且方案未定型,以特斯拉Optimus Gen1为例,当前BOM成本仍处高位,目标未来降至2万美元/台 [3] - 行业缺乏统一技术标准,行星滚柱丝杠与微型丝杠、轴向磁通电机与无框力矩电机等方案并存,延缓了规模化降本进程 [3] - 软件端缺乏机器人版ChatGPT,机器人大脑面临运动数据模态复杂、真实场景采集成本高、专用场景数据缺失等数据困境 [3] 技术路线演进 - 双系统分层VLA(大小脑架构)凭借均衡性成为当前工程落地最优解,端到端VLA被视为通用AGI的终极方向 [4][5] - Figure的Helix系统采用快慢双系统协同,7B参数慢系统处理认知任务,80M参数快系统以200Hz高频实现毫秒级实时控制 [7] - 若未来算力芯片效率提升且低成本数据生成技术突破,端到端VLA仍是终极方向,但大小脑路线将作为行业过渡桥梁 [7] 商业化路径与场景落地 - 商业化遵循从ToG到ToB再到ToC的路径,当前ToG场景已实现小规模落地,国内本体价格下探至3.99万元 [8] - ToB场景成为关键战场,服装制造业是典型案例,全球缝纫工人约6000万人,年人工开支超万亿人民币,存在刚性替代需求 [8][9] - 大模型端到端架构改变现状,无需手动编程即可通过视觉识别面料特性,杰克科技方案已能解决单层面料分离难题,拟推进批量化应用 [9] - 2030年前后人形机器人将全面进入B端装配、质检、柔性搬运环节,2035年有望在家庭场景实现护理、家务协作 [9] 资本流向与生态建设 - 行业资本从重硬件本体转向重软件大脑,谷歌、英伟达等国外科技大厂已率先布局具身智能大模型 [11] - 2024年下半年起国内具身智能大模型赛道迎来融资潮,千寻智能2025年3月完成5.28亿元Pre-A轮融资,穹彻智能累计获数亿元融资 [11] - 平台化企业开始补位行业生态短板,仙工智能等企业正以控制器为核心搭建机器人大脑开发平台,连接本体厂商与零部件企业以提升效率 [11] 未来行业展望 - 行业终极目标是复刻新能源车、智能手机的非线性增长曲线,关键在于机器人大脑的Scaling Law时刻 [13] - 若未来两年内头部企业能在简单工业场景验证智能泛化能力并形成成熟硬件方案,行业将进入规模化增长阶段 [13]
百度及AI的前途
36氪· 2025-09-24 10:53
百度AI战略与搜索业务转型 - 百度搜索正经历十年来最大变化,全面AI化,支持长文本和多模态输入,但被认为仍是一种过渡状态,未完全摆脱搜索框限制 [1] - 百度文库业务定位为“一站式AI创作平台”,已开发内容操作系统和系列创作工具,团队规模达1200人,旨在消除内容创作门槛,超越流量逻辑 [1] - 公司布局AI时间早,2013年成立深度学习研究院,2017年明确AI为公司战略,但在近期百模大战中表现不突出 [20] 信息生态演变与行业竞争格局 - 互联网生态围绕信息、人与商品(服务)三类连接展开,对应BAT三巨头,算法分发模式由字节跳动异军突起,但未替代BAT原生生态,仅威胁衍生内容和直播业务 [2][8] - 搜索引擎曾通过关键字排序赋予全网信息结构,接管信息生态,但结果受SEO污染;算法分发则强化用户成见,商业成功但社会评价稍逊 [3][8] - 算法分发将人降级为信息标签,导致内容同质化、标签极化,作者配合标签生产,平台最大化流量商业模式,引发信息过载与社会对抗性议题放大 [5][6][9][10] AI产业发展挑战与技术路径 - AI产业发展严重依赖算力堆砌的资本密集路线,英伟达市值达4万亿美元,但DeepSeek通过创新架构和算法开源,将API定价大幅降低,引发行业对算力成本控制的重视 [20][22] - AI训练语料主要依赖线上公开数据,质量普遍不高,知识专业化且存在壁垒,导致AI难以处理结构化知识,输出质量受限,发展失衡 [27][28] - AI在C端应用面临通约性挑战,长文本和多模态虽具全网通约性,但进入专业领域后增长线性化,难以实现大规模网络效应 [24][28] 百度历史战略反思与未来机遇 - 百度在移动互联网时代未触及信息生态核心,App模式导致信息孤岛,削弱搜索业务;公司投资策略保守,追逐本地服务、YY等风口但成效有限 [17][18][19] - AI被视为百度同调的机会,可解决App模式缺陷,但需面对训练数据贫瘠、应用场景专业化等挑战;公司强调“模型世界应用天下”,认为应用将统治未来 [19][28][32] - 行业建议AI发展应借鉴“中层理论”,从线下业务采集高质量数据训练垂直模型,自下而上构建知识体系,而非依赖通用大模型 [36] 概念驱动与业务支撑的行业对比 - 互联网行业高概念驱动,中国业界经历业务本土化、去硅谷概念、去概念三阶段演进,2010年后“互联网思维”标志互联网下沉和业务驱动 [29] - 中美AI发展再次合流,但硅谷依赖技术舒适区和资本驱动,缺乏业务支撑;中国有业务基础,AI提供回归创新、带动经济整体的机会 [30][31] - 当前AI概念与现实脱节,资本缺乏耐心等待长期回报,气氛类似2001年纳斯达克崩盘前夜;企业需平衡概念创新与业务落地 [29][30]
在「外滩大会·具身智能:从泛化到行动,重塑产业未来」上,这些大牛都说了什么?
机器之心· 2025-09-16 08:37
文章核心观点 - 具身智能被视为AI发展的下一站,其核心是实现从“数字认知”到“物理世界”真实生产力的转化,当前技术已将其推至产业变革的商业化临界点 [2] - 行业发展的关键挑战在于如何通过颠覆性创新赋予具身智能真正的泛化行动能力,并跨越从“技术可行”到“商业成功”的鸿沟 [2] - 实现上述目标的核心突破口在于解决数据瓶颈,训练场被多位专家视为AI时代的新型“数据工厂”,是推动产业落地的关键基础设施 [6][8][11][18] 主题演讲要点总结 孙富春:训练场与产业落地 - 具身智能的定义已从赋予机器物理身体演变为构建沉浸式感知过程,融入物理学各种视觉、触觉感知可大幅提升鲁棒性和泛化能力 [6] - 数据问题是制约行业发展的核心挑战,训练场具有降本增效、安全模拟、标准统一等核心价值,但存在分散化、重复化等“各自为战”现象,亟需制定标准以推动协同发展 [6][7] - 具身智能是结合本体、数据知识、场景和进化架构的综合体,需依赖沉浸式训练场与多模态数据采集,并结合大模型泛化推理,通过持续学习进化迈向真正智能 [7] 江磊:构建数据飞轮 - 新研发范式为“AI + 机器人”,流程是开发机器人→训练场收集数据→构建具身大模型→推向应用智能体,训练场在此范式中扮演关键角色 [10][11] - 行业技术路径尚未收敛,主要玩家涉及智能驾驶、机械臂、腿足式机器人及芯片研发,但无论何种路径均需依赖大数据集,训练场是必不可少的基础设施和关键技术 [11] - 国地共建人形机器人创新中心正聚焦数据采集与训练场建设,旨在打造低代码、可开发、可发布的具身智能领域MCP,以适用于所有机器人 [11] 许华哲:开启下一站 - 星海图发布的全身智能VLA模型G0采用100%开放真实世界数据,通过“慢思考+快执行”协同及预训练,可实现端到端模型泛化操作,并具备动作自动修正能力 [14] - 行业数据主要包括真实数据、仿真数据和互联网数据,真实数据质量好但昂贵,仿真和互联网数据便宜易得但存在Gap,即使真实数据本身也可能存在Real2real的Gap,影响模型质量 [14] - 公司通过R1 Lite平台在50个开放世界场景进行数据采集和标注,并将数据集开源,未来模型G0也将开源,旨在与业界共建生态,探索具身智能Scaling Law [14][15] 张直政:仿真合成数据驱动 - 行业重点问题是训练数据来源,真机遥操作费时费力且数据复用性有限,而实现跨行业、跨任务泛化可能需要上万亿条数据,全部采用真实数据不可行 [18] - 银河通用的技术路线分两阶段:第一阶段用大规模仿真合成数据进行预训练(“义务教育”),提供通用知识;第二阶段用少量真实数据学习技能应用(“职业教育”),强化专业知识 [18] - 公司围绕该训练范式构建了全栈团队和能力,以确保基座模型稳定性与硬件一致性 [19] 金国强:产业机遇 - 人形机器人蕴藏着下一个万亿美元的产业变革机遇 [20] 苏洋:灵巧手泛化之路 - 好的灵巧手关键在于“用得上、买得到、买得起、不怕用”,实现多技能泛化以在各种场景广泛应用,价格是影响泛化的重要因素 [24] - 当前最贵的成本是数据,合成数据因真机数据太贵而被广泛使用,但其迁移到真机的胜率很低,受限于物理约束如标准、电机、结构、磨损等差异 [24] - 降低开发成本和合成数据使用难度的关键是扩大机器人应用规模,当有100万个真实人形机器人或灵巧手运行时,每日上传数据量将超过2025年全球全年采集数据 [26] 思辨环节要点总结 技术路线与数据关键性 - 具身智能发展处于早期,技术路线未收敛,当前热门路径包括完全端到端的VLA路径(真实数据+大模型)以及仿真到现实的迁移路径 [30] - 数据是技术路线划分的关键维度(如真机、仿真、视频数据),模型侧路线包括端到端、分层及世界模型等,上海AI Lab采用Real2SIM2Real数据路线并关注端到端模型 [31][32] 形态终局与发展路径 - 当AI发展到一定程度,本体形态重要性下降,数据采集和模型训练方式对本体不敏感,人形机器人不一定是唯一载体 [33][35] - 当前技术不成熟,正从专用走向通用螺旋发展,协作臂或轮式双臂机器人是有限场景下实现局部通用的良好载体 [35] - 视角差异导致形态看法不同:科研视角充满想象(如火星改造),人形是理想形态;创业公司则需“戴着镣铐跳舞”,在资源有限下探索实际应用场景,需执行多项任务才能体现成本效益 [35] 世界模型与落地时间 - 世界模型研究意义重大,但距离具体场景实际应用还需很长时间打磨 [36][37] - 具身智能进入日常生活是渐进过程,达到保姆或管家级别可能还需5到10年,未来2-3年仍处早期,技术路线未完全收敛,未来4-5年将是人类降低期待与机器人技术打磨的双向修正过程 [38] 圆桌对话要点总结 超级助手设想 - 工业场景中,“超级助手”是能听懂自然语言、直接驱动机器行动的智能体,如同“工业现场指挥家”,为现有自动化叠加AI大脑 [43] - “超级助手”可兼具工具人和生活伙伴角色,解决家务或情感交互问题,理想状态是能进行自然、平等、主动交互的伙伴 [43] - 从投资终局看,“超级助手”具有巨大市场潜力,未来企业内除老板外所有职位都可能由机器人代替 [43] - “超级助手”需具备高度泛化能力、良好交互体验、个性化服务、自我学习能力,并确保安全可靠 [44] 困难挑战与应对策略 - 工业场景挑战包括硬件本体可靠性、精准度、一致性不成熟;模型泛化性和部署便捷性存在问题;执行具体任务时面临诸多工程化问题需细化解决 [45] - 应对策略是先垂直再通用、先落地再泛化,关注模型和数据闭环;技术未成熟时可先突破局部专用场景,降低用户期待,迎合需求 [45][46] - 行业仍处早期解决单点问题阶段,单点问题不解决则泛化无价值,需进行从基础模型到Agent能力的突破 [46] - 软件上模型泛化性和数据是主要挑战;硬件上需解决“看得清、摸得明”的问题;工业落地挑战还涉及数据治理、软硬件结合及行业know-how [46][47] 产业链协同期待 - 行业缺少具通识物理智能的基座模型,若有此类模型结合本体特点采集或生成仿真数据,可将模型准确率从80%-90%提升至99.9%以上 [48] - 合作原则不限于技术,需融合芯片、模型、音视频交互、云服务等多领域,共同开辟新品类实现更大价值 [49] - 期待行业在数据集标准化、数据共享、模型开源等方面合作,共同加速解决动作基础模型、空间智能、末端灵巧控制等重要问题 [49] - 短期生态融合不显眼,多聚焦特定领域应用;长期需更多伙伴参与推动生态向更广泛场景发展 [49]
谁说Scaling Law到头了?新研究:每一步的微小提升会带来指数级增长
36氪· 2025-09-16 07:46
Scaling Law与模型规模扩大的经济价值 - 研究发现虽然单步任务准确率提升幅度减小,但这些微小进步叠加能使模型完成任务长度实现指数级增长,这在现实中更具经济价值 [1][2] - 论文指出模型在现实世界的价值往往源于智能体能够完成任务的长度,从这个角度观察,更大的模型非但没有收益递减,反而能将单步准确率微小提升复合放大,在任务完成长度上实现指数级跃升 [2] - 人类劳动报酬按时间计算,如果智能体经济价值源于能够完成任务时长,那么单轮或短任务基准可能并非评估进一步投资大语言模型计算资源所带来收益的可靠参考 [18] 长程任务执行的挑战与突破 - 长程任务执行一直是深度学习的致命弱点,自动驾驶demo很炫酷但要真正上路跑长途用了十多年才实现,AI能生成惊艳图片但拍一段连贯一致的长视频仍是难题 [4] - 研究通过解耦推理或智能体任务中规划和执行需求来解决问题,规划涉及决定检索什么信息或使用什么工具及顺序,而执行是让规划变成现实 [6] - 实验证实即使去除规划和知识要求,长时程任务执行对LLM仍具有挑战性,即使是表现最佳模型Qwen3-32B准确率在15个轮次内也降至50%以下 [23] Self-Conditioning效应的影响 - 研究发现随着任务推进,每步错误率本身会上升,这与人类通过练习进步形成对比,推测模型以自身容易出错历史为条件会增加未来出错可能性 [8] - 实验显示随着历史中错误率升高,后续步骤准确率急剧下降,验证模型会进行self-conditioning,这种性能下降不会通过增大模型规模而得到缓解 [8][26] - 与长上下文问题不同,扩大模型规模不能缓解self-conditioning效应,即使是参数2000亿以上的前沿大型模型仍然容易受到self-conditioning作用影响 [30] 思考模型的关键作用 - 近期思考模型不会受到先前错误影响,能够修正self-conditioning限制,顺序测试时计算量显著提升模型在单轮对话中可完成任务长度 [9] - 在没有思维链情况下,前沿大语言模型如DeepSeek V3连两步执行都无法完成,而具备思考能力版本R1则能执行200步,凸显行动前进行推理的重要性 [9] - 借助思维链,模型在单轮中能够执行步骤数量显著增加,经过强化学习训练的思维模型DeepSeek R1性能显著优于其经指令微调的对应模型DeepSeek-V3 [35] 模型性能基准测试结果 - 对前沿思考模型基准测试发现GPT-5思考版本(代号Horizon)能够执行超过1000步,远超能执行432步的Claude-4-Sonnet [9] - 实验显示开源权重模型在长时程执行方面仍在追赶仅通过API提供的模型,这凸显未来研究的机遇 [35] - 研究发现在显式提供所需知识和规划后,scaling模型大小仍能显著提高模型成功执行轮次数量,说明scaling模型价值不仅体现在让模型记住更多知识或更会寻找问题解答上 [7]
马斯克周末血裁xAI 500人
搜狐财经· 2025-09-16 06:27
公司战略调整 - xAI通过内部测试裁员33% 超过500名员工被解雇[1] - 数据标注团队规模从1500人缩减至1000余人 裁员近三分之一[11] - 公司战略转向重点扩张专业数据标注员 计划将专业团队规模扩展现有基础的10倍[11] 团队结构变化 - 数据标注团队原为xAI最大团队 在Grok开发过程中发挥关键作用[3] - 团队包含专业数据标注员(负责STEM/编程/金融/法律/媒体)和通用数据标注员(负责视频/音频/写作)两类[11] - 9月初已有9名数据标注团队经理被解雇[4] 后续通过一对一谈话评估员工价值[5][6] 测试与裁员过程 - 公司通过Slack发布突袭测试 要求员工在次日早上前完成[8] - 测试内容涵盖STEM/编程/金融/医学等传统领域 以及Grok个性/段子手/安全测试等特殊方向[8] - 测试引发内部恐慌[7] 超过100名员工在Slack表示不满[9] 行业趋势转向 - 人工智能行业从通用模型转向垂直领域模型 更注重数据质量而非数量[12] - 高质量语料消耗导致Scaling Law边际效应递减 训练成本快速攀升[12] - 垂直模型在金融/医疗/法律等行业更具准确性与合规性优势[14] 管理层风格 - 强调精悍团队理念 认为小团队更具创意和效率[22] - 对低绩效者容忍度低 注重高强度工作和出色表现[22][24] - 曾在特斯拉2年内裁员7000余人[18] 在Twitter一周裁员3700人[20]
马斯克周末血裁xAI 500人
量子位· 2025-09-16 05:58
xAI裁员事件与战略调整 - xAI进行内部突袭测试 淘汰率高达33% 超过500名员工被裁[1][2] - 数据标注团队规模从1500人缩减至1000余人 裁员比例接近三分之一[18] - 被裁员工主要为通用数据标注员 负责视频标注 音频标注和写作等任务[17][18] 数据标注团队结构与成本 - 数据标注团队是xAI最大团队 在Grok开发中发挥关键作用[3] - 公司采用直接雇佣而非外包模式 以增强对模型训练的控制和隐私保护[4] - 直接雇佣模式导致成本更高[5] - 2025年2月计划招聘数千人 半年内新增约700名数据标注员[6] 战略转向与招聘计划 - 公司战略转向专业数据标注领域 计划将专业数据标注员规模扩大10倍[19] - 专业数据标注员专注于STEM 编程 金融 法律和媒体等垂直领域[18] - 此次调整反映公司从"数据数量"向"数据质量"的战略转变[21] 垂直领域AI发展背景 - 互联网高质量语料枯竭导致Scaling Law出现边际效应递减[24] - 垂直模型在金融 医疗 法律等行业更具准确性与合规性优势[25] - 行业从通用大模型向垂直场景应用发展趋势明显[25][27] 马斯克管理风格 - 马斯克偏好精悍小团队 强调性能与效率[35] - 其管理理念认为小团队更具创造力 沟通效率更高且迭代更快[36][37][38] - 历史上在特斯拉2年内裁员7000余人 在Twitter一周裁员3700人[31][34] - 实行"硬核文化"要求 要求员工长时间高强度工作[42][43] 战略影响与行业意义 - 此次裁员可能帮助Grok在垂直应用领域建立优势[28] - 过度依赖专家库可能限制数据多样性 带来模型盲点风险[22] - 行业需要重新平衡数据质量与数量的关系[23] - 若战略失败 xAI可能在Scaling Law赛道落后于OpenAI等竞争对手[29]