Workflow
Scaling Law
icon
搜索文档
Scaling Law首次在自动驾驶赛道被验证!小鹏汽车CVPR演讲详解:AI「吃」下6亿秒视频后,智能涌现
量子位· 2025-06-16 04:49
核心观点 - 小鹏汽车在CVPR 2025上首次验证了Scaling Law在自动驾驶VLA模型上的有效性,展示了其"自动驾驶基座模型"的技术突破[1][43][46] - 公司通过云端大模型+车端小模型蒸馏的技术路线,实现了AI司机的"智能涌现",在复杂场景下表现出超越传统方案的决策能力[4][7][9][11][13][14] - 新技术路线突破了传统端到端方案的局限性,构建了具备完整认知能力的"大脑+小脑"架构,为自动驾驶和具身智能的大一统奠定基础[26][27][57][60] 技术方案 - 云端部署720亿参数VLA大模型,以语言模型为骨干网络,融合视觉、语言和动作模块,实现环境理解到行为输出的闭环决策[30][33][36] - 车端部署蒸馏后的小模型,通过持续在线学习(Online Learning)实现能力迭代,G7车型搭载3颗自研图灵AI芯片,算力达2200TOPS[42][53][55] - 强化学习训练聚焦安全、效率、合规三大原则,并开发世界模型(World Model)生成高价值训练数据[37][38][39][40] 性能表现 - 在无规则代码托底情况下,基座模型直接控车完成加减速、变道绕行、转弯掉头等复杂驾驶任务,决策丝滑度显著优于传统方案[4][5][14][15] - 成功通过福州特殊路口等极端场景,展现出链式思考能力(CoT)和全局理解能力[17][18] - 模型累计训练2000多万条30秒视频片段,参数规模与数据量扩大过程中持续显现Scaling Law效应[43][46] 行业影响 - 首次从技术层面回应了"端到端只能模仿不能超越"的行业质疑,为L2与L4的技术路线融合提供新思路[27][60] - 云端算力达10 EFLOPS,集群效率超90%,全链路迭代周期5天,水平媲美顶尖AI公司[50][51] - 技术体系已实现车、机器人和飞行汽车通用,推动"AI定义汽车"向具身智能延伸[62][63][64] 产品落地 - 最新SUV G7预售价23.58万,成为量产L3级AI算力第一车,采用无激光雷达方案[2][15] - VLM作为车辆"大脑"统一舱驾交互,VLA-OL模型增强"小脑"运动规划能力[55][56] - 公司从2024年开始全面转向新技术路线,与行业主流方案形成明显差异[23][50]
AI学习机,比的是什么?
36氪· 2025-06-11 12:09
行业概况 - AI学习机市场快速增长 2024年上半年网上零售额增长136.6% [13] - 2025年学习机销量预计突破700万台 接近iPad在中国市场的800万台销量 [3] - 行业呈现三大阵营格局:教培系(学而思/猿辅导)、科技派(科大讯飞/小度)、老牌厂商(步步高/读书郎) [13][15][17] 产品特征 - 价格高端化 学而思最新款售价8299元 相当于iPhone 16 Pro Max [3][15] - 核心功能升级 支持智能语音交互/1v1个性化辅导/云端实时更新题库 [7] - 场景专一化 彻底屏蔽游戏社交软件 配合家长端APP实现学习监测 [9] 技术演进 - 采用双核架构 学而思搭载自研九章大模型与DeepSeek通用模型 [15] - 科大讯飞星火认知大模型达到国内领先水平 支持数学追根溯源功能 [15] - 老牌厂商算法依赖外部合作 难以实现动态知识图谱 [17] 竞争要素 - 题库数据为核心 需覆盖全国各省市真题/模拟题/名校试卷 [18][20] - 垂直领域内容成壁垒 艺术/音乐/编程等细分赛道积累不足 [20] - 解题准确性是关键 需优化算法减少逻辑错误和过度推理 [20] 市场需求 - "双减"政策推动需求 替代线下补习班和线上网课 [11] - 解决教育资源不均 三四线城市可获取内置名师课程 [11] - 满足碎片化学习 提供实时解题思路和灵活学习时间 [11] 产品局限性 - 非万能解药 效果取决于学生主动性和使用方法 [22] - 附加功能冗余 视频通话/家长伴读等非核心需求 [23] - 本质仍是工具 不能替代系统化学习过程 [23]
昇腾+鲲鹏双核暴击!华为打通MoE训练任督二脉再加速20%,内存省70%
雷峰网· 2025-06-04 09:31
华为MoE训练技术突破 - 公司通过昇腾与鲲鹏算力深度协同,实现训练算子计算效率和内存利用率大幅提升,MoE训练吞吐提升20%,内存占用降低70% [6][7] - MoE架构凭借独特设计成为突破大规模模型训练算力瓶颈的关键路径,支持千亿至万亿参数规模 [3][4] - 行业面临单节点训练效率挑战,包括算子计算效率低、专家路由机制导致下发中断、NPU内存不足三大难题 [10][13][16] 昇腾算子计算加速方案 - 针对占计算耗时75%的FlashAttention/MatMul/Vector三大核心算子,采用"瘦身术/均衡术/搬运术"优化策略,整体训练吞吐提升15% [19][20][21] - FlashAttention算子通过消除冗余计算和优化流水线,前/反向性能分别提升50%/30% [23][25] - MatMul算子通过双级数据流水优化,Cube计算单元利用率提升10% [26][28] - Vector算子融合细粒度小算子并减少数据搬运,性能提升3倍以上 [30][32] 昇腾-鲲鹏协同优化 - 通过Host-Device协同实现算子下发"零等待"(free时间占比<2%),训练吞吐额外提升4% [34][44] - 采用重排下发序技术使单次Host-Bound时间从2.1ms降至0.6ms,降幅超70% [39] - 自定义粗粒度绑核策略(每NPU绑24核)完全消除系统型Host-Bound瓶颈 [43] 内存优化技术创新 - Selective R/S技术实现多维度内存解剖,节省70%激活值内存 [46] - 建立细粒度重计算与Swap策略库,涵盖MLA/RmsNorm/Permute等模块的定制化优化 [50][52] - 采用贪心算法和Swap带宽竞争分析实现自适应内存优化管理,平衡内存节省与额外耗时 [56] 行业影响与成果 - 该方案为Pangu Ultra MoE 718B模型训练扫清障碍,展现公司在AI算力领域的技术积累 [58] - 技术突破包括集群通信优化、算子加速、内存节省三大维度,形成完整解决方案 [17][21][46] - 成果为行业大规模MoE训练提供参考路径,推动AI模型参数规模持续扩展 [4][59]
全球“All in AI” 中国科技巨头生态“攻守”
21世纪经济报道· 2025-05-29 14:12
中国互联网巨头AI布局与云计算发展 核心观点 - AI成为互联网巨头生态攻防的核心战场,2025年将开启军备竞赛[2] - 云计算是AI发展的底层基础,阿里云通过"双十一"脉冲场景积累算力冗余并实现商业化[4][5] - 各大厂商AI战略与其原有生态高度协同:华为侧重政企全栈自主,腾讯聚焦C端社交生态[9][10] - 2024年一季度资本开支显示巨头对AI投入趋于谨慎,主要受开源模型冲击和商业模式闭环难题影响[12][13] 算力基建发展 - 阿里云2013年成为全球首家提供5K云计算服务的企业,2024年以65.13亿美元营收领跑中国市场[4][7] - 云计算商业模式起源于阿里应对"双十一"交易峰值产生的算力冗余[4] - 阿里云已完成智算升级,支持GPU虚拟化等AI基础能力,服务全球400万客户[5][7] 巨头生态差异化布局 - 华为云依托全栈自主技术(昇腾/鲲鹏)和政企经验,重点布局工业、医疗等垂直领域[9][10] - 腾讯云基于社交生态链接麦当劳等国际企业,快速接入DeepSeek并主推微信AI智能体生态[9][10] - 阿里云中小客户占比达80%,通义千问成为性能最强的国产AI模型之一[7][8] 当前AI发展瓶颈 - 一季度腾讯AI资本开支275亿元,环比下降25%,阿里246亿元同比增120%但环比降30%[12] - DeepSeek开源导致训练算力需求减弱,C端免费模式与订阅收费存在根本冲突[13] - 行业尚未建立"用户-模型-算力"的商业闭环,资本回报周期难以测算[13]
Now, Scaling What?
机器之心· 2025-05-24 14:12
Scaling What的阶段性探索 - 自2024年起Scaling范式发生转移,预训练环节的Scaling Law边际效益递减且文本数据受限,行业开始探索「Scaling What」的新目标[3] - 业界对「预训练Scaling Law收益递减」达成共识,OpenAI、Anthropic等团队仍保持乐观但转向寻找正确的Scaling对象[4] - 新研究方向包括Densing Law、「50%任务完成时间」等替代性评估指标,以及Self-Play RL+LLM、Post-Training Scaling Law等技术路线[4] 推理阶段计算优化(TTS)的兴起 - 谷歌DeepMind 2024年8月首次提出通过增加推理时计算提升模型输出质量,OpenAI o1模型和DeepSeek-R1的GRPO技术进一步验证该方向[4][5] - 2025年5月学术综述将此类技术统称为TTS(Test-Time Scaling),提出What-How-Where-How Well四轴分类框架,显示研究重点从预训练转向推理优化[6] - TTS应用范围从数学推理扩展到开放式问答,方法从重复采样演进为混合扩展和内部扩展策略[6][7] 四大Scaling技术路线 - Parallel Scaling:通过并行生成多个输出并聚合答案,依赖覆盖度和聚合质量,实现方式包括多模型采样和输入调整[9] - Sequential Scaling:模拟人类系统2思维,通过逐步更新中间状态分步骤解决问题[9] - Hybrid Scaling:结合并行生成与序贯筛选,先迭代候选解再通过选择函数聚合[9] - Internal Scaling:模型自主分配推理计算资源,如OpenAI-o1模仿人类长推理链[10] 后训练技术的范式重构 - 传统观点认为预训练奠定基础能力,微调(指令微调/SFT/RLHF)负责领域适应[11] - 当前趋势显示微调与推理优化(TTS)在后训练阶段具有同等重要性,共同塑造模型最终性能[6][11] 注:原文中未提供具体财务数据或公司运营细节,故未包含相关分析
2024年中国人工智能产业研究报告
艾瑞咨询· 2025-05-23 09:42
人工智能产业宏观环境 - 2024年国家将人工智能纳入战略重点,各地政府推进科研创新与算力基建,因地制宜出台特色政策 [4] - GDP增速放缓背景下,AI作为新质生产力在效率提升和产业升级方面展现潜力,政府支持提供强劲动能 [4] - 资本市场聚焦语言/多模态模型应用、芯片、算力服务等领域,基础层与应用层协同完善产业生态 [4][12] - 生成式AI普及提升公众接受度,但就业替代和隐私问题引发焦虑 [4] 技术发展与创新 - Transformer架构仍主导大模型发展,研发侧通过强化学习、思维链优化提升推理能力,加速跨模态融合 [4][16] - Scaling Law面临高质量数据与资源限制挑战,厂商转向后训练思维链优化和强化学习推理优化 [18] - DeepSeek开源模型通过多令牌预测(MTP)、多头潜在注意力机制(MLA)等技术降低训练/推理成本达50%以上 [31][83] - 端到端语音大模型架构(如GPT-4o)提升交互流畅度,但级联式架构仍保持可控性优势 [50] 市场规模与商业化 - 2024年中国AI产业规模2697亿元,增速26.2%低于预期,主因大模型场景落地成本高且处于探索阶段 [6][24] - 预计2025-2029年CAGR达32.1%,2029年规模破万亿,DeepSeek开源推动2025年加速增长 [25] - B端以项目制为主(政务、教科、通信、能源领域占60%),C端采用"免费+订阅制" [6][37][39] - 价格战激烈:字节大模型降价99%,阿里云通义千问降价97%,百度部分模型免费 [34] 产业动态与竞争格局 - 算力需求向推理侧转移,开源模型推动智算中心利用率提升 [6] - 分布式框架(DeepSpeed、Colossal-AI)、LLMOps平台及一体机产品降低企业应用门槛 [28] - 大厂主导C端生态(如kimi、豆包),创业公司聚焦垂类B端市场 [66] - 出海集中在图像/视频(占40%)和社交/情感陪伴(占35%)赛道,字节、阿里云、Minimax为主要厂商 [71][73] 产品创新方向 - AI Agent从对话问答向复杂任务代理演进,智谱AutoGLM支持超长任务规划 [45][76] - 具身智能成为战略高地,需解决硬件加速与跨行业协作挑战 [80] - AI硬件端侧落地加速:华为、荣耀等手机集成大模型,豆包推出AI耳机 [47] - 多模态模型分化为生成向(DiT架构)与理解向(MLLM架构),技术融合是未来关键 [63] 技术普惠与生态建设 - DeepSeek开源策略降低中小开发者使用门槛,带动沐曦、阿里云等产业链合作 [7][37][83] - MCP协议连接1100+工具服务,推动Agent生态标准化 [77] - 视觉生成产品商业化提速,Sora验证DiT架构在视频生成的优势 [56][63]
博士宿舍激情脑暴,革新了Scaling Law?Qwen和浙大联手推出新定律,直接干掉95.5%推理内存!
AI前线· 2025-05-21 10:04
核心观点 - 阿里巴巴与浙江大学合作提出并行计算缩放定律(ParScale),通过增加模型并行计算而非参数数量提升大模型能力,内存增加量仅为参数缩放法的4.5%(1/22),延迟增加量16.7%(1/6)[1] - ParScale可通过后训练少量token将预训练模型转为并行缩放模型,降低训练成本,适用于任何模型结构、优化过程或任务[1][7] - 该方法在数学、编程等强推理任务中表现突出,P=8时编码任务提升4.3%,数学任务提升7.3%,GSM8K准确率提高10%[15][16] 技术实现 - **并行流机制**:输入通过多样化前缀生成多视角版本,并行处理后动态加权融合输出[13] - **两阶段训练**:第一阶段1T token传统训练,第二阶段仅20B token微调实现ParScale适配[14] - **计算效率**:复用现有参数扩展并行路径,内存占用仅为参数扩展法的1/22,延迟为1/6[1][19] 性能验证 - **基准测试**:在常识(MMLU)、数学(GSM8K)、编码(HumanEval)等任务中,P值越大性能提升越显著[15] - **成熟模型适配**:在已训练18T token的Qwen-2.5模型上应用,持续预训练和参数高效微调均获显著提升[16] - **边缘设备优势**:适合手机、汽车等小batch场景,内存和延迟效率优于传统方法[18][19] 行业应用前景 - **低成本部署**:通过后训练适配现有模型,降低资源需求,促进低资源场景应用[1][12] - **动态调整能力**:同一模型权重可灵活调整并行流数量,实时平衡性能与推理开销[16] - **技术互补性**:未来可能与MoE架构结合,形成内存友好与延迟友好的混合方案[19] 开源与社区反馈 - 代码已在GitHub开源,HuggingFace提供体验链接[2] - 社区评价为"突破性思路",尤其看好边缘计算场景的适用性[18] - 研究团队计划扩展至MoE架构及更大规模数据验证[19]
10万美元成本训练的小模型,在特定任务超越GPT-4o,延迟低99倍
36氪· 2025-05-14 09:45
公司概况 - Fastino是一家专注于开发"任务特定语言模型"(TLMs)的早期初创公司,由连续创业者Ash Lewis和George Hurn-Maloney共同创立[4] - 公司技术团队来自谷歌DeepMind、斯坦福大学、卡内基梅隆大学及苹果等知名机构[6] - 已累计获得近2500万美元融资,包括1750万美元种子轮和700万美元前种子轮[3] 技术方案 - 采用低端游戏GPU训练TLM模型,平均成本不到10万美元[3] - TLM模型在特定任务上性能媲美大型语言模型,推理速度比GPT-4o快99倍(100ms vs 4000ms)[8] - 基准测试显示TLM模型的F1分数比GPT-4o高出17%[9] - 模型架构基于Transformer但引入任务专精优化,消除参数冗余和架构低效[8] 产品特点 - 首批模型覆盖文本摘要、函数调用、文本转JSON等企业核心需求[10] - 提供PII屏蔽、文本分类、脏话过滤、信息提取等具体功能[17] - 支持部署在虚拟私有云、本地数据中心或边缘设备[13] - 已在金融、医疗、电子商务等行业应用,获得财富500强企业采用[13] 商业模式 - 采用订阅制收费而非用量定价,个人开发者每月1万次免费请求[11] - Pro用户每月10万次请求收费45美元,团队用户300万次请求收费1275美元[11] - 极低的模型运行成本支撑其定价策略[13] 行业趋势 - 大语言模型训练成本高达数千万美元,部署和推理成本同样高昂[7] - 小模型在成本、推理时延和特定任务性能上具有显著优势[14] - 类似企业包括Cohere、Mistral、阿里云Qwen3和Writer的Palmyra系列[14] - 对于高并发、低延迟要求的应用场景,小模型更具经济性[14]
早融合 VS 晚融合,Natvie 多模态大模型的 Scaling Law 有所不同吗?
机器之心· 2025-05-10 13:10
专题解读一:早融合与晚融合多模态模型的Scaling Law研究 - 多模态模型架构发展呈现从模块化“晚融合”向一体化“早融合”演进的趋势 早期工作多将视觉编码与语言解码分开处理,近期更多工作尝试将视觉感知与多模态理解集成到单一模型中[3] - 行业领先公司已发布并定义“原生多模态模型” 谷歌2023年12月发布的Gemini 1.0被其CEO称为“新AI品种”,即原生多模态模型;OpenAI 2024年发布的GPT-4o被描述为其第一个原生全量多模态模型,两者均采用端到端统一处理多模态数据[3] - “早融合”与“晚融合”代表两种不同的设计理念 “早融合”主张在训练早期合并处理不同模态数据,使用单一Transformer处理原始多模态输入,旨在初期学习模态间交互关系[4][5];“晚融合”则先将各模态数据通过独立编码器处理,再在深层整合,常依赖预训练的单模态模型[5][6] - 苹果公司近期研究对比了两种方法的Scaling特性 研究旨在探究流行的“晚融合”方法是否具备内在优势,并指出“晚融合”虽对数据异质性容忍度高,但可能引入偏差并阻碍模型利用跨模态依赖关系[4] 专题解读二:AI Agents的发展前景与关键议题 - AI Agents被视为人工智能的重要未来方向 Anthropic公司CEO Dario Amodei提出“AI的未来是Agents”的观点[1] - 围绕Agents的发展,数据创新、系统安全与产品迭代是关键议题 行业关注在MCP和A2A范式下企业如何维护数据系统安全,以及如何突破Agents产品迭代的关键缺口[1] - 人类需审慎把握AI技术的双面性 对话亦探讨了人类应如何把握AI技术作为双刃剑的问题[1] 本期通讯概览 - 本期通讯包含两项专题深度解读及大量行业要闻速递 完整版通讯包含2项专题解读,以及29项AI与Robotics赛道要事速递[2] - 要事速递覆盖技术、国内及国外多个维度 29项速递中,技术方面14项,国内方面4项,国外方面11项[2] - 通讯内容体量庞大 本期通讯总计21681字[3]
Agent产品,快者为王?Anthropic 和 Databrick CEO 对话解读
机器之心· 2025-05-10 06:07
01 在谈论Agents之前,人们应该先关注什么 - 人类低估了AI的好处和风险,需要关注风险以实现积极的未来 [6][7] - 短期内人类可通过比较优势在经济中发挥作用,但长期需重新思考经济组织方式,包括加强全球合作、政策支持及AI风险管理 [6][7] - AI应用将覆盖整个经济领域并带来超越经济层面的社会变革,但讨论时缺乏足够想象力和具体案例 [7] - AI技术落地实际效益取决于传统企业与AI公司的合作及市场推广,需让滞后经济领域快速适应创新技术 [7] - AI的未来是Agents,企业需围绕Agents创新开发能自主调用工具、完成数据交互的产品和服务 [7] - Block利用语音识别和生成式AI开发通过语音指令自动设置店铺信息的Agents [7] - AT&T结合传统机器学习和生成式AI分析通话记录,欺诈攻击减少80% [7] - AI可在安全条件下量化数据价值并加速产品迭代,两家公司合作使用Unity Catalog工具管控数据治理风险 [8] - AI产品快速迭代需借助RAG技术,两家公司接入MCP协议以使用外部数据资源 [8] 02 数据价值无可替代,但数据治理风险如何破解 - 数据代表企业积累的知识与智慧,是与AI能力最相辅相成的要素,可用于微调模型、提供上下文或供智能体分析 [10] - 企业专有数据是构建竞争壁垒的核心,行业特有数据(如制药实验数据、金融交易记录、用户行为数据)对训练AI模型至关重要 [10] 03 Anthropic为何仍乐观看待「Scaling Law」 - Scaling Law未达上限,但实用性需预训练之外的优化,需解决数据耗尽和成本问题 [9] - 多维度协同优化和混合推理模型是关键,模型迭代速度将继续保持快速 [9]