Scaling Law
搜索文档
谷歌用Gemini 3同时革了OpenAI和英伟达两家的命
36氪· 2025-11-26 10:39
谷歌Gemini 3发布对AI行业格局的冲击 - 谷歌Gemini 3和Nano Banana Pro的发布打破了AI领域由英伟达和OpenAI主导的双赢局面,标志着谷歌全面觉醒[1][3] - 该发布被描述为一次降维打击,左手打掉OpenAI的模型护城河,右脚踢翻英伟达的算力神坛[10] - 事件导致OpenAI首席执行官罕见承认在某些关键维度上落后,英伟达股价应声下挫并被迫公开辩护[5][7] Gemini 3的技术突破与核心优势 - 模型实现原生多模态终极形态,感官天生互通,能像人类一样直接理解光影和动态而非翻译成文字[20] - 首次在硅基芯片上实现系统2慢思考的常态化,具备动态计算能力,自动判断使用直觉秒回或逻辑推演[20][23] - 在代码生成、复杂数学和长逻辑链任务上对OpenAI构成代际优势,生成内容提示词极其简单且质量惊艳[12][23] - 完全在谷歌自研TPU集群上训练,软硬一体优化使算力利用率突破行业天花板[26][27] 谷歌TPU技术对英伟达算力垄断的挑战 - 第七代TPU Ironwood专为AI推理打造,单芯片性能较上一代提升逾四倍,成为谷歌最强大高能效芯片[30][34] - Ironwood内存带宽达7.37 TB/s,可扩展至9,216颗芯片互联,芯片间互联网络速率达9.6Tb/s[30][35] - 谷歌启动TPU@Premises计划,直接向巨头销售算力,目标夺取英伟达10%营收,Meta已倒戈使用TPU[24] - 自研TPU使谷歌训练成本仅为对手一半以下,对英伟达80%毛利率构成直接威胁[26][27] 谷歌全栈AI能力与战略调整 - 公司是唯一全栈人工智能企业,覆盖数据、算法、硬件、云服务器全链条自研[38] - 组织架构整合DeepMind和Google Brain,解决内耗问题,创始人谢尔盖·布林回归亲自参与代码开发[41][43] - 拥有YouTube全球高质量视频数据、谷歌搜索实时世界知识、Android数十亿端侧场景的数据飞轮优势[42] - DeepMind禁止对外发表最新成果论文,暗示公司可能隐藏大量未公开技术储备[60][62] AI行业竞争态势演变 - Gemini 3终结AI线性增长叙事,证明模型架构与定制硬件协同可带来非线性能力突破[56][57] - 行业从Scaling Law暴力美学转向研究驱动,Transformer架构可能过时,需新架构突破[48][50] - 英伟达试图用资本手段维持优势,今年自由现金流预计970亿美元,超越谷歌的650亿美元,计划投资Meta换取芯片使用承诺[63][66] - AI战争进入下半场,竞争焦点从算力堆砌转向芯片、全栈能力、架构创新等综合实力[44][45][53]
机械设备行业点评报告:GoogleGemini3表现超预期,看好AI算力需求的成长性
东吴证券· 2025-11-26 06:35
行业投资评级 - 增持(维持)[1] 报告核心观点 - Google Gemini 3发布表现超市场预期,其卓越的基准测试得分和多模态理解能力将推动AI算力需求持续增长,重点关注PCB设备与服务器液冷产业链的投资机会[1][2][3][4] 事件概述 - Google发布多模态大模型Gemini 3,展现出超市场预期的得分能力与多模态理解能力[1] Gemini 3性能表现 - HLE测试基础思考能力得分37.5%(无工具),领先Gemini 2.5 Pro的21.6%和GPT-5.1的26.5%[2] - 多模态理解能力ScreenSpot-Pro测试得分72.7%,远超Claude Sonnet 4.5的36.2%和GPT-5.1的3.5%[2] - 具备"生成式UI"能力,可动态生成含可点击交互式工具的定制化界面,逐步向AI Agent迈进[2] 算力需求与产业链影响 - Google DeepMind重申Scaling Law有效性,强调调整算法与堆叠训练算力是提升模型能力的关键方式[3] - Gemini 3完全基于Google TPU算力集群训练,实现AI硬件与软件全产业链整合[3] - 大模型加速迭代将推动算力建设需求持续增长,重点关注谷歌链、NV链、国产算力链的硬件投资机遇[3] PCB产业链机遇 - 谷歌TPU服务器中PCB以高多层为主,伴随单柜算力集成度提升,单机柜PCB用量与层数将持续提升[4] - 英伟达Rubin方案新增中板、正交背板等增量PCB环节,AI PCB市场持续扩容[4] - PCB设备商作为"卖铲人"有望受益于板厂CAPEX上行[4] 服务器液冷产业链机遇 - 单机柜算力集成度提升推动机柜功率增长,传统风冷无法满足散热需求,液冷方案成为必选项[4] - 液冷环节处于0-1产业化兑现阶段,内资液冷供应商正逐步切入算力服务器供应链[4] 投资建议 - PCB设备环节重点推荐大族数控、芯碁微装,建议关注耗材端中钨高新、鼎泰高科[5] - 服务器液冷环节重点推荐宏盛股份,建议关注英维克[5]
中兴发了一篇论文,洞察AI更前沿的探索方向
机器之心· 2025-11-26 01:36
文章核心观点 - 当前基于Transformer架构的大模型面临算力消耗大、效率低、与物理世界脱节等核心瓶颈,通用人工智能的实现路径亟待突破 [2] - 行业正从“规模竞赛”转向“效率革命”,探索超越自回归Transformer的新计算范式,特别是物理第一性原理模型与新型硬件的融合 [2][38] - 中兴通讯的论文为下一代AI大模型计算范式提供了重要参考,其自身在微架构创新和新型算法硬件探索方面的实践抢占了技术高地 [2][36][38] LLM现状及瓶颈 - 大模型性能遵循规模扩展定律,依赖计算量、参数量和训练数据量的堆叠,但训练沉没成本极高,例如Grok4模型在20万卡集群耗时半年才完成预训练 [4][5] - Transformer架构计算效率低,算术强度仅为2,远低于卷积神经网络的数百,导致模型算力利用率低,并高度依赖先进工艺和高带宽存储器 [6] - 随着模型参数和上下文长度增加,Transformer架构瓶颈与摩尔定律放缓的矛盾将更突出,面临“功耗墙”和“内存墙”挑战 [7] - 现有LLM存在幻觉、可解释性差等问题,其“Next Token Prediction”核心被部分学者认为难以真正理解物理世界,智能进步严重依赖“暴力缩放” [9] LLM自回归模式的工程改进和优化 - 算法层面通过优化注意力机制(如GQA、MLA、Flash-Attention)和采用低精度量化(如4-bit)来提升效率,但量化会引入误差 [13][14] - 循环递归参数复用架构(如Universal Transformer)通过参数共享提升算术强度,但其大规模扩展后的能力尚不明确 [15] - 集群系统采用张量、数据、流水线和专家并行等范式,混合专家模型可将计算量缩减为原来的1/32,预填充和解码阶段分离部署可提升硬件利用率 [16] - 端云AI协同搭建“快慢思考”系统,端侧处理实时推理,云端处理复杂任务 [17] 硬件工程创新 - 微架构领域专用化,引入异步数据搬移和混合精度训练;通过Scale Up和Scale Out域划分进行互联优化,Scale Up域采用Nvlink提供200纳秒超低延迟 [18] - 光电混合集群和“存算一体”等新型计算范式是构建万卡以上集群、突破“内存墙”的关键技术 [18][19] - 基于光IO技术重构计算体系结构和基于3D DRAM构建新型内存体系是两大前瞻性硬件工程技术 [21] - 万卡以上集群部署需通过算网存仿真平台进行优化 [20] 下一代AI大模型计算范式演进和展望 - AGI的实现需根本性变革,产业界正探索不以Next-Token Prediction为核心的新范式,基于能量、动力学等第一性原理的模型成为重要方向 [23][24] - 新模型发展分为两类:一是改进的Transformer架构,如Diffusion LLM可将推理吞吐量提升10倍以上,能耗减少至1/10;二是基于物理第一性原理的架构,如液态神经模型和基于能量的模型 [26][27][28] - 未来AI计算更受能耗限制,催生三大新型计算范式:物理原理启发(光计算、量子计算、电磁计算)、基于材料特性(概率计算、吸引子网络、热力学计算)和生物启发(类脑计算、DNA计算)的架构 [29][30][31][32][33][34] 中兴通讯的探索与实践 - 公司在微架构层面进行创新,如利用8T SRAM数字存内计算技术实现高能效AI加速器,其XPU-PIM异构架构在能效和吞吐量上相比常规GPU有数量级提升 [36] - 公司探索从物理第一性原理出发的新路线,如循环式Transformer架构可在减少超50%参数量的同时保持模型表达能力,基于FPGA的稀疏玻尔兹曼机将训练时间从超过10小时缩短至5分钟,加速超2个数量级 [36][37] - 公司在光连接、新型内存等支撑性工程技术以及大规模仿真平台等架构技术方面展开前瞻性研究 [37]
CPO、光通信模块板块爆发,5GETF、5G通信ETF、通信ETF、创业板人工智能ETF涨超3%
格隆汇APP· 2025-11-25 07:57
A股市场表现 - 三大指数集体走高,沪指涨0.87%报3870点,深证成指涨1.53%,创业板指涨1.77% [1] - 全市场成交额1.83万亿元,较前一交易日增量858亿元,4300股上涨 [1] - CPO概念、光通信模块板块爆发,中际旭创涨5%,新易盛涨4%,天孚通信涨2.4% [1] - 多只ETF涨幅显著,5GETF涨超4%,5G通信ETF、通信ETF、多只创业板人工智能ETF等涨超3% [1] ETF产品表现 - 5GETF(159994.SZ)当日涨幅4.28% [2] - 5G通信ETF(515050.SH)当日涨幅3.82% [2] - 通信ETF(515880.SH)当日涨幅3.67% [2] - 创业板人工智能ETF华安(159279.SZ)当日涨幅3.66% [2] - 创业板人工智能ETF大成(159242.SZ)当日涨幅3.65% [2] - 通信设备ETF(159583.SZ)当日涨幅3.63% [2] - 创业板人工智能ETF国泰(159388.SZ)当日涨幅3.62% [2] - 创业板人工智能ETF华夏(159381.SZ)当日涨幅3.60% [2] - 创业板人工智能ETF富国(159246.SZ)当日涨幅3.59% [2] - 通信ETF广发(159507.SZ)当日涨幅3.56% [2] - 创业板人工智能ETF华宝(159363.SZ)当日涨幅3.45% [2] - 创业板人工智能ETF南方(159382.SZ)当日涨幅3.33% [2] - 通信ETF(159695.SZ)当日涨幅3.31% [2] - 5G50ETF(159811.SZ)当日涨幅3.13% [2] ETF持仓结构与行业覆盖 - 5G通信ETF标的指数涵盖光模块、PCB、服务器龙头、12%高速铜联接四大AI算力系统核心组件,权重股包括新易盛和中际旭创等 [4] - 通信ETF跟踪的通信设备指数中,"光模块+服务器+铜连接+光纤"合计权重占比超过81% [4] - 创业板人工智能ETF标的指数权重股包含新易盛、中际旭创、天孚通信、润泽科技等,"CPO含量"超50% [4] 行业催化剂与巨头动态 - 谷歌正利用AI模型最新突破挑战英伟达芯片霸主地位,Meta据悉考虑斥资数十亿美元购买谷歌TPU用于数据中心建设 [5] - 潜在交易可能让谷歌抢占英伟达年收入的10%份额,带来数十亿美元新增收入 [5] - 谷歌构建从芯片(TPU)、网络(OCS)、模型(Gemini)到应用的完整技术闭环,推动资本开支持续增长 [5] - 随着TPU出货量预期上修、OCS渗透率提升及1.6T光模块放量,相关硬件供应商迎来重大发展机遇 [5] 技术进展与行业趋势 - 谷歌连发Gemini 3与Nano Banana Pro确立多模态领先优势,腾讯、阿里推动AI应用普惠,摩尔线程IPO标志硬科技资本化加速 [6] - 谷歌通过Gemini 3证明Scaling Law持续有效,打破"大模型已触及天花板"论调,Gemini 3 Pro采用稀疏MoE架构为全新设计 [6] - Scaling Law远未终结,算力需求持续扩张,继续看好算力板块及光模块行业龙头 [6] 未来展望与产业链机会 - 展望2026年,AI行业催化事件包括英伟达下一代Rubin GPU量产、谷歌新一代大模型发布、云厂商资本开支指引等 [7] - AI手机有望成为个性化智能助手,AI智能体或推动下一轮换机潮,电信运营商6G关键技术研发开启 [7] - 看好光模块/光器件/光芯片、AI手机及电信运营商,800G需求放量,1.6T加速导入,行业处技术迭代期 [7] - 光模块头部厂商技术领先、客户关系稳固、具备规模化交付能力,优势将进一步凸显 [7] - AI发展推动大型数据中心建设,光器件厂商受益于终端需求进入扩产红利期 [7] - 光芯片供需缺口持续扩大,EML产能紧缺推动CW光源放量,国产算力有望实现业绩落地 [7]
AI巨头们的万亿美元债务去哪了?
钛媒体APP· 2025-11-24 04:42
文章核心观点 - 科技巨头为满足AI算力天量资金需求,普遍采用特殊目的实体等表外融资工具,将巨额债务隔离在财务报表之外,以实现报表优化和风险隔离 [2][3][4] - 摩根士丹利估计此类“隐形债务”规模到2028年将高达8000亿美元 [2] - 行业形成包括循环融资在内的复杂资本操作,使云服务商、芯片制造商和模型公司深度捆绑,资本正从硬件层向模型与应用层切换 [7][9][17] AI投资规模与融资需求 - 2025年前三季度Meta净利润为370亿美元,但计划在AI上投入600亿美元,利润远不足以覆盖投资 [1] - Meta通过表外SPV成功撬动总计600亿美元算力资产,而其公开报表上只增加了300亿美元新债 [4] - xAI通过由Valor Equity Partners等机构牵头的SPV筹集到200亿美元用于购买英伟达芯片 [7] 表外融资运作模式 - SPV模式核心是成立独立实体替母公司借钱购买资产并长期独家出租给母公司使用,债务和资产记在SPV账上,与母公司财务报表隔离 [3] - 运作流程分为四步:成立SPV并签订长期租约、SPV凭借母公司信用获取高投资级评级、以低利率成功融资、购买算力资产交付使用 [4] - 谷歌采用变体模式,为信用较弱的加密矿工公司提供偿债保证,以换取其建好的数据中心容量优先租赁权 [5] 巨头合作与资本循环 - 循环融资模式构建资金在关联方内部流转的闭环,例如英伟达参与成立SPV,SPV再向英伟达采购芯片 [7] - 英伟达向甲骨文投资3000万美元引发后者股价暴涨36%,市值单日飙升2510亿美元,甲骨文反过来大规模采购英伟达芯片 [9] - OpenAI与英伟达、AMD、甲骨文、软银等巨头达成了超过1万亿美元的基础设施和芯片协议 [9] 行业驱动因素与资本动向 - 行业对Scaling Law的追求驱动算力需求指数级膨胀,英伟达成为最大赢家 [15] - 近一年英伟达股票遭密集高位减持:黄仁勋套现约15.48亿美元,段永平旗下基金单季度减持幅度达38.04%,软银清仓套现58.3亿美元 [16][17] - 软银清仓英伟达后领投OpenAI的400亿美元融资,标志资本从硬件芯片向模型与应用层切换 [17]
拆解Gemini 3:Scaling Law的极致执行与“全模态”的威力
36氪· 2025-11-24 03:55
Gemini 3性能表现 - Gemini 3在多项基准测试中霸榜,在整体、硬提示、编码、数学等类别均排名第一 [5] - 在ARC-AGI-2基准测试中,Gemini 3的性能达到百分之三十几,相比此前个位数或百分之十几的模型实现了质的飞跃 [10] - 模型在多模态推理上表现突出,得益于其原生多模态架构,将视觉、代码、语言数据混合预训练,实现跨模态的化学反应 [11] - 在实际应用测试中,其Agentic开发环境AntiGravity提供经理视角和编辑视角,可管理多个Agent协同工作,并结合浏览器功能实现自动化测试与开发一体化 [6] - 在创意写作方面,模型不仅能细致描写,还能设计情节反转,显示出对作者深层动机的理解 [9] - 但在真实世界视觉理解任务中,如分析安防摄像头、门铃场景的用户行为和风险事件时,性能可能不如上一代 [13] - 在处理需要多跳搜索、整合二十年财报等极度复杂任务时,其稳定性可能不如竞争对手的某些模型 [14] 谷歌技术优势与路线 - 谷歌的成功被归因于对Scaling Law的极致执行,通过改进预训练和后训练等系统工程细节实现模型能力提升 [17] - 模型内部可能采用了树状搜索(Tree of Thoughts)配合自我奖励机制,在推理时并行多条思路并自行评估选择,这是工程封装与模型科学的深度结合 [19] - 技术路线强调语境工程(Context Engineering),模型在生成答案前可能自动抓取相关背景信息构建丰富的思维链环境 [20] - 公司拥有显著的硬件优势,使用自研TPU避免了使用NVIDIA显卡的高昂成本,使其单位经济模型极其优秀,在同等预算下可训练更大模型、跑更多数据 [21] - 这种软硬件整合的护城河对竞争对手形成巨大挤压 [21] 对开发者生态与竞争格局的影响 - Gemini 3配合AntiGravity及Chrome等生态系统,在多模态原生编码体验上形成降维打击,对独立开发工具创业公司构成挑战 [23] - 新的机会可能在于创造站在巨人肩膀上的新商业模式和产品形态,例如前置部署工程师,打通从商业化到开发的全链路 [23] - 然而,该工具在处理后端部署、复杂系统架构时仍易卡顿,且在企业数据隐私方面存在顾虑,为独立厂商留下生存空间 [25] - 对于专业程序员而言,模型在指令遵循和处理边缘情况方面仍是辅助工具而非替代者,例如生成代码可能存在方向键反了等小错误 [26] AI未来发展趋势 - 单纯依赖Scaling Law可能面临资源瓶颈,行业开始探索可解释性、顿悟机制等基于第一性原理的新算法 [29] - 未来AI发展可能转向数据效率更高的架构,模仿人类大脑以极少数据实现高效学习,而非单纯扩大数据量 [30] - 世界模型是下一个重点战场,旨在理解物理规律,路线包括基于视频、基于网格/物理、基于点云等 [31] - 开源和端侧小模型受到关注,目标是让高性能AI能在个人设备上本地运行,打破对云端数据中心的依赖,实现真正的普惠AI [31] - 一批新兴AI实验室获得高额融资,关注领域包括以人为本的AI、自动化AI研究、加速科学发现、企业专用模型、安全超级智能等 [28]
活动报名:AI 的机会与泡沫|42章经
42章经· 2025-11-23 13:01
AI市场当前状态总结 - 2023年至2024年行业上涨动力源于Scaling Law和通用人工智能共识的推动[5] - 2025年以来强化学习的Scaling Law尚未形成统一的市场判断[5] - AI模型发展呈现阶梯式特征,而应用落地呈现脉冲式跃进模式[5] - 当前市场处于微妙的空白期阶段[5] AI技术与应用发展趋势 - 智能水平能否持续提升存在不确定性[6] - 应用加速落地是确定性的发展趋势[6] - 行业叙事逻辑正在发生变化[6] - 前期叙事推动的价格可能存在泡沫,但AI本身价值依然稳固[6] 未来关注的核心议题 - 未来一年AI行业具体发展方向[3] - 英伟达投资策略选择问题[3] - 多模态技术带来的市场机会[6] - 具身智能的量产和落地可行性[6] - 能源和数据中心领域的发展前景[6]
【兴证计算机】AI应用:谷歌王者归来,商业奇点临近
兴业计算机团队· 2025-11-23 09:19
本周核心观点 - 市场风险偏好下降,建议在震荡中加仓确定性方向和龙头,方向优选AI、国产化及金融科技 [1] - 当前计算机行业整体配置比例处于低位,从左侧布局春季躁动角度考虑,具备一定比较优势 [1] - 估值、业绩增长、产业景气变化是核心考虑因素 [1] AI行业动态 - 谷歌于11月19日、20日分别发布Gemini 3和Nano Banana Pro模型,性能全面反超,再次验证Scaling Law依然有效 [2] - xAI本周上线大模型Grok 4.1,性能明显提升 [2] - 国内方面,千问APP上线公测,蚂蚁集团发布“灵光”AI助手 [2] - 随着模型能力持续突破,AI应用有望迎来商业奇点,加速AI产业闭环 [2]
Generalist发现具身智能的Scaling Law,还让模型能同时思考与行动
36氪· 2025-11-21 01:52
公司概况 - 公司由Google DeepMind高级研究科学家Pete Florence联合创立,其Google学术引用数超过19000次,曾带队研发PaLM-E、RT-2等模型[4] - 联合创始人包括Andrew Barry(CTO,前波士顿动力员工)和Andy Zeng(首席科学家,曾参与PaLM-E研发)[4] - 核心团队拥有来自OpenAI、Waymo等顶尖公司的资深研究人员[4] - 早期投资者包括Spark Capital、NVIDIA、Boldstart Ventures、Bezos Expeditions、NFDG等机构,但投资金额未披露[3] 核心产品与技术 - 发布新型具身基础模型GEN-0,基于高保真度原始物理交互数据的多模态训练,设计目标为捕捉人类水平的反应反射与物理常识[1][5] - 模型核心特征为"和谐推理",实现感知流(持续接收传感器数据)与行动流(持续输出控制指令)在连续时间域中异步交织,无需显式同步点[6][7] - 模型架构借鉴视觉和语言模型优势并实现超越,适用于6自由度、7自由度及超过16自由度的半人形机器人[5][18] 模型性能与扩展规律 - 模型参数规模达到1B(10亿)时难以吸收复杂感知运动数据,6B(60亿)参数开始展现多任务能力,7B(70亿)以上参数可快速迁移至下游任务[10][11][12] - 扩展至10B(100亿)以上参数后,模型能以更少后训练数据快速适应新任务,在零样本下游任务中性能提升(下一动作验证预测误差降低)[14] - 首次在具身智能领域观察到模型固化现象,且相变发生在远大于语言模型的参数规模上,印证莫拉维克悖论[14] 数据与训练 - 训练数据集包含27万小时真实世界操控轨迹,从全球数千个家庭、仓库和工作场所收集,数据量比某些最大规模机器人数据集高出几个数量级[16][18] - 数据质量和多样性比纯粹数据量更重要,精心构建的数据混合可产生不同特性的预训练模型[18] - 模型展现出明显Scaling Law,预训练数据规模与下游性能存在幂律关系,适用于服装、制造、物流、汽车、电子等多行业任务[15] 行业竞争与前景 - 竞争对手包括Physical Intelligence(模型迭代至π 0.6,可完成连续长序列任务)、Skild AI(支持多形态机器人泛化)、Figure(采用快慢思考双系统架构)[19] - 行业技术思路尚未收敛,数据丰富度不足,商业化落地案例仍较少[19] - 具身智能Scaling Law已被初步验证,多形态泛化、动作延时、连续长序列任务等难题正被攻克,商业化前景逐步改善[20][21]
GEN-0 以及后续的 VLA 发展的看法
具身智能之心· 2025-11-21 00:04
GEN-0模型的技术突破 - GEN-0通过数据工厂采集了270,000小时(约31年)的真实机器人操作数据,目前每周新增10,000小时采集能力[2] - 数据规模相当于每周采集三个当前最大数据集(如OXE或AgiBot-World)的总和[2] - 模型经过半年预训练后展现出比Pi系列更强的性能增益,为后训练提供了更好基础[2] 具身智能领域数据技术演进 - 真实数据采集(UMI)相比仿真数据在长时序任务中具有显著效率优势,成功率接近100%而仿真数据为子任务成功率的乘积[8] - 仿真数据面临sim2real差距挑战,包括视觉差距和物理差距,对布料和软体等物理现象仿真仍不完善[8] - 数据工厂方案在数据多样性方面超越仿真方案,GEN-0通过规模化人力投入实现了数据问题的解决[7] 视觉语言动作模型发展趋势 - 模型参数规模必须增大才能有效利用海量数据,小模型在数据过载时会出现“僵化”现象而大模型持续提升[11] - VLA基础设施(Infra)存在巨大发展空间,需要专门针对时序因果性的研究而非简单套用上游领域方法[11] - 预训练主要学习动作空间的探索能力而非概念泛化能力,模型在VL(视觉语言)能力上的泛化表现有限[12] 预训练科学发现 - 数据质量与多样性比单纯数据量更关键,不同数据混合策略会产生不同模型特性[13] - 低MSE+低reverse-KL模型适合监督后训练,高MSE+低reverse-KL模型更具分布多峰性适合强化学习后训练[13] - 预训练科学将逐渐成熟,国内数据工厂预计会跟进为行业带来预训练环境[14] 合成数据技术的现状与前景 - 仿真平台仍具有价值,特别是在强化学习、提供丰富标注和作为基准测试平台方面[9] - GenManip平台可在14K Objaverse资产上生成数万量级跨具身长时序数据,支持快速构建Manipulation基准[6] - InternData A1合成数据集展现出与Pi Dataset相当的预训练效果,证明合成数据技术的潜力[6]