自动驾驶之心
搜索文档
特斯拉FSD藏了VLA吗?下周一场VLA和世界模型的深度讨论~
自动驾驶之心· 2025-11-14 00:04
活动与嘉宾信息 - 直播活动主题为自动驾驶世界模型和VLA的深度探讨,于11月17日晚举行 [4][5] - 主讲嘉宾詹锟为理想汽车视觉-语言-动作团队高级总监,硕士毕业于北京航空航天大学,2017年加入百度Apollo,2021年加入理想汽车并主导搭建自动驾驶技术栈,团队实现了高速NoA(2022年)、城市NoA(2023年)、端到端+VLM双系统架构(2024年)以及VLA框架(2025年)等一系列里程碑 [1] - 连线嘉宾许凌云为中国科学院博士,卡内基梅隆机器人研究所博士后,发表12篇机器人领域顶级期刊或会议文章,获DARPA SUBT无人车挑战赛2019年世界冠军,现任长安汽车泊车团队负责人 [2] - 其他嘉宾包括博世中央研究院高级算法科学家江岸青、上海交通大学AutoLab创始人张志鹏,主持人为自动驾驶之心运营负责人Gloria [3][4] 核心讨论议题 - 核心议题为探讨特斯拉FSD v14是否隐藏了VLA技术,以及谁在定义自动驾驶下一代方案:WA(可能指传统模块化架构)与VLA的对比 [5][8] - 讨论重点包括特斯拉FSD v14中值得国内关注的技术,以及世界模型和VLA的未来发展方向与融合统一的可能性 [8] - 议题涵盖数据和算力高需求背景下学术界的参与机会 [8] 后续内容与资源 - 完整版深度内容已独家上线知识星球「自动驾驶之心」,涵盖所有技术细节、QA及未公开彩蛋 [12] - 后续深度解析内容包含DriveBench:VLM在自动驾驶中的可靠性评估、自驾数据闭环工程探讨、以及AI Day直播主题LangCoop:自动驾驶以人类语言范式思考等 [12]
工程师变身AI“指挥者”,吉利与阿里云的软件开发变革实验
自动驾驶之心· 2025-11-13 00:04
行业核心挑战 - 汽车行业面临软件工程史上最大规模挑战,智能汽车代码量突破亿行,系统复杂度被放大数百倍[3] - 行业本质从硬件主导转向软件定义,软件决定产品核心体验,带来开发模式和复杂度的双重挑战[6] - 电子电气架构从分布式ECU向中央计算演进,面向服务架构(SOA)使系统集成复杂度呈指数级增长[8] - 需同时应对座舱域Linux/Android、智驾域QNX、车身域AUTOSAR等多平台,应用层与底层使用Java/Python/C/C++等异构技术栈[8] - 必须遵从ISO 26262功能安全、ISO/SAE 21434信息安全、ASPICE、MISRA C/C++等严苛国际标准,与敏捷开发模式存在张力[8] AI应用成效 - 公司软件开发人员占比从不到10%跃升至40%[3] - 数千人研发使用通义灵码,AI生成代码占比超过30%,代码开发效率提升20%[5] - 在30天项目中,编码实现环节效率提升30%,带动项目整体提效10%[11] - 编码阶段具体节省:编写代码从5人天减至4人天,注释补全从1.5人天减至0.5人天,单元测试从2.5人天减至2人天,代码优化从1人天减至0.5人天[11] - AI应用覆盖应用层软件研发、嵌入式开发和算法研发三大板块[10] 技术实施路径 - 通过构建高质量私有代码库、API文档和技术规范的专有知识库,使AI能理解业务上下文[15] - 结合RAG和MCP技术,使AI能准确提示内部API调用方式并遵循统一错误处理机制[14][15] - 支持企业专属版部署,通过VPC专线实现网络隔离与安全接入,确保核心代码资产不出内网[15] - 利用阿里云全球基础设施,实现多地部署、就近接入,满足全球研发中心低延迟和数据合规要求[18] 组织变革与价值延伸 - AI工具价值超越效率提升,协助处理PB级雷达点云和视频数据清洗,通过自然语言描述自动生成复杂脚本[11] - AI扮演知识管家角色,帮助新工程师将熟悉遗留代码模块的时间从一周缩短至两天,有效管理技术债[17] - 推动质量左移,在代码提交阶段由AI自动进行高频审核,使资深工程师从执行者转变为规则制定者[19] - 促进全球协同,统一代码仓和研发工具,推动编码规范和流程标准化[18] 未来愿景与人才转型 - 工程师角色从一线执行者转向AI指挥官,核心能力要求从实现能力转向定义问题、拆解任务和评估结果的能力[20][22] - 终极愿景是实现黑灯研究院,构建从需求到交付的端到端自动化工作流[22] - 未来工程师主导规则制定,AI承担更多执行工作,当前工程师与AI工作占比各半[21][22] - 行业急需既懂机械硬件又精通软件系统工程的交叉人才,AI有望降低软件开发门槛,让机械背景工程师参与软件开发[23]
熬过「真空期」的小马智行,已经迎来了势不可挡的正循环
自动驾驶之心· 2025-11-13 00:04
公司上市与资本运作 - 2025年11月6日,公司在香港联合交易所主板挂牌上市,股票代码2026,成为2025年全球自动驾驶行业规模最大IPO及港股AI领域募资额最高的新股[2] - 港股IPO发行约4825万股,最终发售价每股139港元,绿鞋后集资额达77亿港元[2] - IPO引入Eastspring等国际顶级投资机构作为基石投资者,基石认购总额达1.2亿美元,Uber出资认购1亿美元[4] - 2024年11月,公司以股票代码PONY在纳斯达克上市,通过IPO和同步私募共筹集约4.52亿美元,创当年美股自动驾驶领域最大规模IPO,总体融资规模近18亿美元[8] - 美股上市后吸引柏基投资、方舟投资、威灵顿资产管理等知名机构买入,管理层自愿延长股份锁定期至540天,传递长期信心[10] - 2025年第二季度财报发布后股价表现强劲,10月16日开盘价21.39美元,较8月12日15.05美元上涨超42.13%[11] - 双IPO资本布局拓宽投资者基础,未来五年募资净额约50%用于L4技术大规模商业化,40%用于技术开发,10%用于营运资金[13] 行业融资环境与公司资金策略 - 2021年国内自动驾驶行业融资达144起,总额932亿元;2022年融资事件骤降至92起,规模收缩至240亿元,较上年减少74%;2023年总金额进一步降至200亿元[7] - 行业低谷期公司仍完成两轮融资,2022年D轮融资达2.9亿美元,技术实力成为关键支持因素[8] - 公司通过Robotaxi、Robotruck、技术授权三大业务板块推进商业落地分散风险[8] 技术突破与研发进展 - 公司基于强化学习范式打造世界模型PonyWorld,开发虚拟司机系统,实现50万小时全场景、全天候、全无人驾驶运营,安全性表现比人类驾驶高出10倍[14] - 自研自动驾驶软件栈采用端到端模型,可感知并预测周围环境行为,如突然插队、鲁莽变道等复杂场景[16] - 自主设计研发车载计算单元、T-BOX、PSU及摄像头等硬件模块,实现性能与成本双赢[16] - 第七代L4自动驾驶软硬件系统采用100%车规级零部件,设计寿命达60万公里,BOM成本较前代下降70%[16] - 第七代Robotaxi支持平台化设计,与北汽新能源、丰田、广汽埃安合作推出多款车型,在北上广深获L4测试许可并开启全无人商业化运营[17] 商业化进展与运营效率 - 2024年上半年自动驾驶出行服务收入同比增长86%,技术授权与应用服务收入达2472万美元,同比翻番[8] - 2025年第二季度总营收达1.54亿元人民币,同比增长75.9%,环比增长53.5%[24] - 2025年上半年Robotaxi收入达325.6万美元(约合人民币2332万元),同比增长178.8%[25] - 乘客车费收入在2025年Q1和Q2分别实现约800%和超300%同比飙升,商业模式持续提速[27] - 开发高度自动化车队管理体系,实现1:20的“人员-车辆”安全远程运营比例,1人可在1小时充电内完成20辆车维护[27] - 千辆级规模第七代Robotaxi投放后可实现单车运营盈亏平衡[28] - 公司目标在年底前建立超1000辆车队,从技术驱动向大规模部署过渡[21]
我们正在寻找自动驾驶领域的合伙人...
自动驾驶之心· 2025-11-13 00:04
公司内容战略升级 - 公司正从单篇文章解读过渡到更深入的技术梳理、方案分析和观点讨论 [2] - 计划增加圆桌访谈、实战与工业级课程、咨询等多元化内容输出 [2] - 近期特斯拉、小鹏、理想的技术分享引发了行业广泛讨论 [2] 行业技术发展现状 - 自动驾驶行业已进入技术深水区 面临诸多难点和痛点需要突破 [2] - 行业重点关注方向包括4D标注、数据闭环、世界模型、VLA、自动驾驶大模型、强化学习和端到端方案 [4] 公司业务与招聘 - 公司作为国内自动驾驶技术创作平台 致力于为行业贡献价值 [2] - 招聘方向包括自动驾驶产品经理及多个前沿技术领域人才 [3][4] - 岗位职责面向B端企业、高校、研究院所及C端学生和求职人群的培训合作、课程开发与原创内容创作 [5] - 合作方式与待遇可通过指定渠道进行详细沟通 [6]
谁在带队小鹏机器人:IRON背后的关键人物
自动驾驶之心· 2025-11-13 00:04
小鹏机器人IRON的技术亮点与团队 - 新一代IRON的核心创新在于其仿生脊柱设计,而非简单的腰部结构,灵感来源于人类的脊柱、肌肉群、腹腔乃至皮肤[10][11] - IRON的前脚掌增加了自由度,并搭载自研的生成式控制器,其拟人化步态在2024年3月实现阶跃式突破,被团队视为技术拐点[13][15] - 团队为技术突破付出了巨大努力,实际效果远超预期[14] 小鹏机器人核心团队构成 - 团队由四位核心人物领导,包括一号位米良川、负责强化学习的陈杰、智能拟态部主任葛艺潇以及提供支持的自动驾驶负责人刘先明[5][45][52][61] - 团队规模从低谷期的70余人恢复至200余人,并在2025年持续引入新成员如陈杰和葛艺潇[96][99] 核心人物米良川的履历 - 米良川现任小鹏汽车机器人副总裁兼AI技术委员会负责人,全面统筹人形机器人项目的技术路线与产品落地[7][8][20][21] - 其职业生涯始于英伟达,累计任职近15年,深度参与GPU底层驱动、Tegra平台开发,并设计了后来成为NVIDIA DRIVE平台底层组件的OTA云架构[27][28][33] - 拥有丰富的跨界经验,包括在英伟达的图形与自动驾驶业务、创业公司米文动力的技术领导角色,以及在小鹏汽车从自动驾驶向机器人业务的转型[16][35][42][97] 其他核心成员背景 - 陈杰于2025年7月加入,是业内公认的具身智能大牛,曾任字节跳动Seed团队强化学习负责人,拥有哈佛大学AI与强化学习博士学位[45][49][50] - 葛艺潇领导智能拟态部,学术影响力显著,谷歌学术引用次数超过10,395次,h指数为44,曾任腾讯ARC实验室T12技术专家[52][55][56][59] - 刘先明作为小鹏汽车自动驾驶负责人,正率团队支持机器人研发,其研究方向包括去除VLA中的语言转译层以实现视觉与语义的直接对齐,加快推理速度[61][63][65] 小鹏机器人业务发展历程 - 业务起点可追溯至2020年收购多够机器人并成立鹏行智能,当时何小鹏已规划将四足机器人作为继汽车之后的第二增长曲线[73][77][79] - 初期通过高达400万元人民币的年薪吸引顶尖人才,团队一度扩张至300人,但后因技术路线分歧(是否做人形机器人)及公司流程复杂,团队规模锐减至70余人[82][84][86][96] - 在GPT时刻引爆具身智能后,前负责人赵同阳于2023年4月重组团队,仅用半年即推出首款人形机器人PX5,但赵随后离职创业[87][88][91][92][95] - 公司现已将机器人确立为继智能汽车、飞行汽车之后的第三条增长曲线,战略地位显著提升[100] 小鹏与特斯拉的战略对比 - 小鹏被广泛视为"中国版特斯拉",其产品设计(如P7与Model 3的相似性)和技术路线(纯视觉自动驾驶、押注Robotaxi)与特斯拉高度相似[102][104][106] - 主要战略分歧在于小鹏同时投入飞行汽车,该业务已于2025年11月初启动试生产,获近5000台订单,计划2026年量产交付[107][108] - 马斯克对小鹏机器人IRON表示认可,并预测特斯拉与中国公司将垄断人形机器人市场,截至2025年11月7日,特斯拉市值14300亿美元,是小鹏汽车(213亿美元)的67倍[111][112]
港中文中稿ICCV'25的自驾自适应快慢双系工作统AdaDrive
自动驾驶之心· 2025-11-12 00:04
文章核心观点 - 香港中文大学(深圳)与中山大学等团队提出名为AdaDrive的自适应协作快慢框架,旨在解决大语言模型融入自动驾驶系统时面临的计算开销与实时性平衡难题 [2] - 该框架通过自适应激活损失动态判断LLM调用时机,并引入自适应融合策略连续调节LLM对传统规划器的影响强度,实现按需激活与无缝协作 [2] - 在语言引导的自动驾驶基准测试中,AdaDrive在驾驶准确率与计算效率两方面均达到最先进性能 [3] 背景与挑战 - 早期方法如LMDrive和AD-H采用同步串行架构,LLM与规划器在每个驾驶步骤都参与运作,虽提升智能性但引入巨大内存开销与延迟,使实时部署面临挑战 [4] - 后续异步策略采用固定间隔激活LLM,但无法适应动态变化的驾驶场景,在安全关键场景中LLM可能未被激活,而在简单场景中激活则显得多余 [7] - 理想框架需具备动态决定LLM激活时机以及自适应控制LLM影响程度的能力 [7] AdaDrive算法架构 - 系统采用快慢路径并行运行,轻量级规划器作为快速路径高频处理每帧图像,LLM作为慢速路径低频激活并在关键场景下提供辅助 [13] - 通过Connector-W和Connector-H两个组件实现自适应整合,分别负责决定LLM激活时机和控制其贡献程度 [13][19] - Connector-W通过新颖的自适应激活损失,基于对比LLM辅助与无辅助预测结果的轨迹损失差异,动态学习LLM的最优激活条件 [20] - Connector-H利用预测置信度分数作为动态加权系数,实现LLM贡献的连续缩放,而非二元决策,公式为轨迹预测统一表示 [21][22] 技术创新点 - 提出长短时Q转换器(LS-Qformer),通过分组机制将可学习令牌分为长时组和短时组,同时提取当前帧关键特征并建模时序特征演变 [24] - 引入传播式记忆融合(PMF)机制,在固定大小的流式内存缓冲区中,将待淘汰帧的特征合并到其前一帧,实现信息前向传播并优化内存效率 [28] - 自适应LLM激活机制在训练中通过损失函数自然学习,确保仅当LLM贡献显著(差值超过预设阈值d=0.3)时才激活,以控制计算开销 [20] 实验性能结果 - 在LangAuto基准测试上,AdaDrive在LangAuto-Tiny和LangAuto-Short子任务的驾驶分数分别达到80.9%和70.6%,较排名第二的方法优势分别为12.9%和16.3% [31][32] - 在推理效率方面,自适应快慢系统与流式内存缓冲区设计使AdaDrive的GFLOPs较连续LLM激活降低62%,同时驾驶分数提升5.6% [33][38] - 消融实验表明,单独使用LS-Qformer可使驾驶分数从67.4%提升至71.9%,增加Connector-W后进一步提升至77.9%,最终完整系统达到80.9% [34][35] - LS-Qformer(20+20令牌)在驾驶分数上优于标准Qformer(75.8%)、SeqQ-Former(77.6%)等变体,达到80.9% [35]
终于搞定了!自动驾驶全栈小车黑武士001(感知/定位/融合/导航规划)
自动驾驶之心· 2025-11-12 00:04
产品发布与定价 - 自动驾驶之心团队正式推出面向科研与教学的黑武士系列001自动驾驶全栈小车,并开启预售 [1] - 产品原价为36999元,预售期间下单赠送模型部署、点云3D检测和多传感器融合3门课程,并优先安排组装发货 [1] 产品定位与目标用户 - 黑武士001定位为教研一体轻量级解决方案,支持感知、定位、融合、导航、规划等多个功能平台 [2] - 目标用户群体明确覆盖本科生学习进阶与比赛、研究生科研与论文发表、研究生求职与项目经验、高校实验室以及培训公司或职业院校的教学用具 [5] 硬件配置 - 主要传感器配置包括Mid 360 3D激光雷达(FOV 360°*59°,探测范围0.1m-40m)、镭神智能2D激光雷达(最大范围25m)、奥比中光深度相机(深度测量范围0.15-5m,相对深度精度≤2%)以及自带IMU [22][32] - 核心计算平台采用NVIDIA Jetson Orin NX,配备16GB RAM,AI算力达100TOPS [22][32] - 底盘系统采用阿克曼转向结构,车身结构为硬铝材质并发黑处理的钣金件 [2][23] 性能参数 - 车体尺寸为长620mm x 宽400mm x 高320mm,自车重量为30kg,最大载荷能力为30kg [25][26] - 采用24V供电,电池功率50w,续航时间大于4小时,运动速度最高可达2m/s [25] - 电机为轮毂伺服电机,轮毂外径为130mm [25] 软件功能与演示 - 软件框架基于ROS,支持C++和Python语言开发,提供一键启动的开发环境 [28] - 支持丰富的软件功能,包括2D/3D目标检测与分割、多种SLAM方案(RGB、视觉惯性、2D/3D激光等)、点云处理、车辆导航与避障等 [29] - 产品已在室内、室外、地库等多种场景下完成功能测试,演示内容包括户外公园行驶、点云3D目标检测、室内外2D/3D激光建图、上下坡测试以及夜间行驶等 [6][8][10][12][14][16][18][20] 扩展性与售后服务 - 产品支持二次开发和改装,预留了丰富的安装位置和接口,便于加装相机、毫米波雷达等额外传感器 [3] - 公司提供1年内非人为损坏的售后支持,保修期内因个人操作失误导致的损坏提供免费维修 [51]
从目前的信息来看,端到端的落地上限应该很高......
自动驾驶之心· 2025-11-12 00:04
行业技术趋势 - 地平线HSD表现超预期,一段式端到端方案重新成为行业量产重心,其性能上限很高 [1] - 小鹏VLA2.0采用视觉和语言并行输入,印证了VLA是技术核心 [1] - 行业整体技术路线正从两段式端到端向一段式端到端过渡,并进一步向VLA演进,多家团队已进行相应调整 [1] 课程核心内容 - 课程重点聚焦量产实践,涵盖一段式、两段式端到端、强化学习、导航应用、轨迹优化及兜底方案 [3] - 课程仅限40名学员,旨在面向就业直击落地 [3] 讲师背景 - 讲师王路拥有C9本科和QS50博士学历,发表多篇CCF-A/B论文 [5] - 现任国内顶级Tier1算法专家,从事大模型、世界模型等前沿算法的预研与量产,具备丰富的端到端算法研发和实战经验 [5] 课程大纲详解 - **第一章**:介绍主流的感知模型一体化架构和经典的规控learning化方案,以及端到端开源数据集和评测方式 [8] - **第二章**:讲解两段式端到端算法框架,包括建模方式、感知与PNC信息传递、优缺点分析,并通过PLUTO算法实战加深理解 [9] - **第三章**:介绍一段式端到端算法框架,其可实现信息无损传递,性能优于两段式,涵盖基于VLA和Diffusion等方法,并通过VAD系列进行实战 [10] - **第四章**:讲解导航地图的格式、内容信息,及其在端到端模型中的编码与嵌入方式,以有效发挥导航能力 [11] - **第五章**:重点介绍强化学习算法及训练策略,以弥补纯模仿学习的不足,实现更好的泛化能力 [12] - **第六章**:进行NN Planner项目实战,包括基于模仿学习(扩散模型、自回归算法)和强化学习的结合应用 [13] - **第七章**:介绍量产中的轨迹平滑优化等兜底方案,包括多模态轨迹打分搜索和轨迹平滑算法,确保输出轨迹稳定可靠 [14] - **第八章**:从数据、模型、场景、规则等多视角分享量产经验,讲解如何选用合适策略快速提升系统能力边界 [15] 课程安排与学员要求 - 课程于11月30日开课,预计三个月结课,采用离线视频教学,辅以VIP群答疑和三次线上答疑 [16] - 课程章节按周解锁,例如12月7日解锁第二章,12月14日解锁第三章等 [16][18] - 学员需自备GPU,推荐算力在4090及以上,并熟悉BEV感知、视觉Transformer、端到端算法、强化学习、扩散模型等,具备Python、PyTorch及数学基础 [17]
李飞飞聊AI下一个十年:构建真正的空间智能
自动驾驶之心· 2025-11-12 00:04
文章核心观点 - 空间智能是人工智能的下一个前沿,旨在构建能够理解和交互物理及虚拟世界的“世界模型”,这将重塑创造力、机器人技术和科学发现等领域[5][16] - 当前以大语言模型为代表的AI在抽象知识处理上表现出色,但在空间理解、物理推理和与环境交互方面存在根本性局限,与人类能力相距甚远[5][14][15] - 实现空间智能需要构建具备生成性、多模态性和交互性的世界模型,这是一项超越以往AI挑战的复杂任务,需要新的训练方法、大规模数据和模型架构[17][21][22] 空间智能的定义与重要性 - 空间智能是人类认知的基石,支撑着从日常行为(如停车、接钥匙)到专业活动(如消防员救援、科学发现)的物理世界互动[10][13] - 该能力是人类想象力和创造力的基础,从史前洞穴壁画到现代电影、游戏和工业设计,都依赖于基于空间的想象力[10] - 在人类文明进程中,空间智能在关键科学发现(如埃拉托色尼计算地球周长、沃森和克里克发现DNA双螺旋结构)中扮演了核心角色[11][12] 当前AI在空间智能方面的局限 - 最先进的多模态模型在估算距离、方向、大小等基本空间任务上表现仅略高于随机水平,在“心智旋转”测试中能力极为有限[14] - AI生成的视频虽令人惊叹,但往往在数秒后便失去连贯性,无法预测基本物理规律,也无法识别捷径或穿越迷宫[14] - 当前AI对世界的理解是割裂的,缺乏人类那种将事物在空间上的关系、意义及彼此关联进行整体性理解的能力[15] 构建空间智能世界模型的核心框架 - **生成性**:模型需能生成在语义、几何和物理层面保持一致的虚拟世界,并且对当前世界的理解必须与过去状态保持连贯[18] - **多模态性**:模型应能处理图像、视频、深度图、文本指令、手势、动作等多种形式的输入,并预测或生成完整的世界状态[19] - **交互性**:当动作或目标成为输入时,模型需能生成与先前世界状态、物理规律相一致的下一个世界状态,甚至预测实现目标所需的后续行动[20] 实现世界模型的技术挑战与研究方向 - **新的通用训练任务函数**:需要定义能反映几何与物理规律的通用目标函数,其复杂程度远超语言模型中的“下一token预测”[23] - **大规模训练数据**:需研发能从互联网海量二维图像或视频帧中提取深层空间信息的算法,并利用合成数据及深度、触觉等额外模态[24] - **新型模型架构与表征学习**:需突破现有MLLM与视频扩散模型范式,探索具备三维或四维感知能力的分词、上下文和记忆机制[25] 空间智能的潜在应用与影响 - **创造力与叙事**:工具如World Labs的Marble平台正赋能电影制作人、游戏设计师和建筑师快速创建可自由探索的三维世界,颠覆传统创作流程[32][33] - **机器人技术**:世界模型将通过提供可扩展的训练数据解决方案,缩小模拟与现实差距,加速具备泛化能力的机器人的发展[35][36] - **科学、医疗与教育**:空间智能系统能模拟实验、加速药物发现、实现沉浸式学习,在拯救生命和加速科学发现方面具有深远影响[38][39][40]
GEN-0:史上规模最庞大多元的具身真实世界操作数据集!
自动驾驶之心· 2025-11-11 00:00
文章核心观点 - GEN-0是一种新型具身基础模型,专为基于高保真原始物理交互进行多模态训练而构建,其能力随真实物理世界交互数据实现可预测的持续增长 [5][6][9] - 该模型在机器人领域首次观察到明确的扩展定律,证明模型性能随算力、数据和参数规模增长而持续提升 [6][14][15] - 模型在70亿参数规模出现智能“相变”临界点,突破了过去机器人领域模型规模和数据量的限制 [6][11][13] 模型架构与技术突破 - 架构继承视觉语言模型优势并实现突破,原生设计可捕捉人类级条件反射与物理常识 [5] - 核心特性“谐波推理”使模型接受同步思维与行动的无缝训练,在异步连续时序的感知与行动标记流之间建立谐波互锁 [5][6] - 架构原生支持不同机器人平台,已在6自由度、7自由度及16+自由度半人形机器人完成验证 [6] 规模化与扩展定律 - 在70亿参数临界点观察到相变,较小模型呈现固化态势,而更大模型持续提升,目前模型已扩展至100亿+参数规模 [6][11] - 模型展现出强扩展定律,更多预训练数据与算力持续且可预测地提升模型在多任务中的训后表现 [6][15] - 预训练数据规模与下游微调性能之间存在显著幂律关系,增加预训练数据能系统性地提升所有下游任务的模型性能 [15][16][18] 数据规模与演进 - 基于超27万小时真实世界异构操控数据进行预训练,该数据集正以每周1万小时的速度持续扩张且不断加速 [6][20] - 数据采集自全球数千个家庭、仓库及工作场所的多样化作业场景,由覆盖全球的硬件网络及数千台数据采集设备驱动 [20][22] - 正在构建史上规模最庞大、最多元的真实世界操作数据集,涵盖人类能设想的所有操作任务 [22]