Workflow
世界模型
icon
搜索文档
死磕技术的自动驾驶黄埔军校,又更新了这些技术进展......
自动驾驶之心· 2025-12-07 02:05
文章核心观点 - 文章旨在推广“自动驾驶之心知识星球”社区,该社区定位为国内首个自动驾驶全栈技术交流平台,汇集学术界与工业界资源,为从业者及学习者提供全面的技术内容、学习路线、行业资讯及求职内推服务 [8][25] - 社区核心价值在于降低行业入门壁垒,通过体系化的知识梳理和专家互动,帮助成员应对技术快速迭代和行业竞争,目标是打造一个近万人的技术分享与交流聚集地 [8][26] 社区概况与规模 - 社区已运营超过三年,是一个集视频、图文、学习路线、问答、求职交流为一体的综合类自动驾驶社区 [8] - 目前社区成员已超过4000人,成员来自近300家机构与自动驾驶公司,目标在未来2年内做到近万人的规模 [8][104] - 社区成员背景多元,包括上海交大、北京大学、CMU、清华大学等国内外知名高校实验室,以及蔚小理、地平线、华为、英伟达、小米汽车等头部公司 [25] 内容体系与技术覆盖 - 社区内部梳理了超过40个自动驾驶技术方向的学习路线,内容全面覆盖从基础到前沿的各个领域 [11][14] - 技术方向具体包括:自动驾驶感知(如BEV感知、3D目标检测)、规划控制、端到端自动驾驶、VLA(视觉-语言-动作模型)、世界模型、多传感器融合、自动驾驶仿真、3DGS(3D Gaussian Splatting)、NeRF、扩散模型、Occupancy Network、视觉语言模型(VLM)、在线高精地图等 [11][16][25][34][45][47][49][51][53][56][58][60][64][65] - 提供了近60个自动驾驶相关数据集的汇总,包括通用CV数据集、感知数据集、轨迹预测数据集,并详细梳理了自动驾驶VLM的预训练、微调及思维链数据集 [43] - 汇总了近40个开源项目,涵盖3D目标检测、BEV感知、世界模型、自动驾驶大模型等多个领域,助力快速上手实践 [41] 学习资源与课程 - 社区提供原创的系列视频教程,涵盖感知融合、多传感器标定、SLAM与高精地图、决策规划与轨迹预测、自动驾驶数据工程、2D/3D目标跟踪、自动驾驶仿真、端到端自动驾驶及大模型技术等八大方向 [17] - 为入门者准备了全栈方向的学习课程,包括数学基础、计算机视觉、深度学习、编程等资料,以及经典书籍和课程课件汇总,适合0基础学习者 [16][19] - 设有“自动驾驶100问”系列专题,内容涉及TensorRT模型部署、毫米波雷达融合、车道线检测、规划控制面试、BEV感知、相机标定、3D&4D毫米波雷达等工程实践问题 [16] 行业交流与活动 - 社区不定期邀请一线学术界与工业界大佬进行直播分享,目前已举办超过一百场专业技术直播,内容可反复观看 [12][92] - 直播分享主题前沿,例如:完全开源性能SOTA的端到端VLA模型“Impromptu VLA”、基于快慢神经符号系统的道路拓扑推理、让自动驾驶用自然语言交流的V2X研究、通用3D检测基础模型“DetAny3D”、基于扩散模型的规划算法“Diffusion Planner”等 [93] - 社区内部建立了与多家自动驾驶公司的岗位内推机制,可第一时间将成员简历推送给心仪公司 [17] - 日常交流问题涵盖技术学习、职业发展、行业趋势等,例如:端到端自动驾驶如何入门、多传感器融合就业前景、业内公司跳槽选择、博士研究方向等 [11][15][30] 社区特色与附加价值 - 社区致力于解答成员的各类实用问题,并提供快速解答,方便应用到实际项目中 [11] - 汇总了国内外自动驾驶与机器人领域的高校实验室和公司信息,为成员升学、求职提供参考 [35][37] - 打造了一个交流+技术分享的聚集地,旨在让初学者快速入门,让进阶者提升技能,并结交行业人脉 [8][26]
烧光700亿后,扎克伯格戳破元宇宙泡沫
新浪财经· 2025-12-06 06:24
文章核心观点 Meta Platforms Inc 正在进行一次重大的战略调整,核心是从高投入、低回报的元宇宙业务全面转向以人工智能为核心驱动力的新硬件时代 这一系列举措包括大幅削减元宇宙部门预算、引进高端设计人才、支持基础AI研究的独立探索 标志着公司对华尔街压力的务实回应和资源向更高回报领域聚焦的决心 [1][2][12][17][32] 预算撤回与人员调整 - 公司高管正考虑在2026年对元宇宙部门(Reality Labs)的预算进行高达30%的大规模削减 削减将主要集中于Meta Horizon Worlds社交平台和Quest VR头显硬件部门 [4][19] - 自2021年初以来,Reality Labs已累计亏损超过700亿美元 此次预算是公司在投入数百亿美元进行AI军备竞赛背景下 对市场压力的直接回应 [5][20] - 大幅财政收缩预计将最早于2026年1月启动裁员 涉及元宇宙部门约10%至30%的员工 [7][22] - 节省下来的资金预计将流向Reality Labs内部其他未来主义项目 主要是AI眼镜和其他可穿戴设备的研发 公司认为竞争对手在虚拟现实方面努力放缓 因此可以将资源投向更具商业潜力的领域 [8][22] 高端人才引进与设计战略 - 公司重金引进了苹果前UI设计负责人艾伦·戴伊 他将于12月31日加入并担任Reality Labs的首席设计官 直接向首席技术官汇报 表明设计美学被提升至战略核心地位 [8][23][24] - 艾伦·戴伊将领导一个全新的“创意工作室” 其使命是融合设计、时尚与科技以定义下一代AI产品与体验 核心工作是将苹果在用户界面的顶尖经验应用于Meta的AI硬件 [8][25] - 此次引援进一步确认了公司资源正从虚拟社交世界转向设计驱动、具备AI能力的高端可穿戴设备 Meta的Ray-Ban Meta智能眼镜已获得超出内部目标的销量成功并集成了AI助手功能 [8][26] 技术路线分歧与独立探索 - 公司首席AI科学家、图灵奖得主杨立昆宣布将于年底离开Meta 在欧洲创办专注于“世界模型”的新AI公司AMI 他公开批判硅谷主流生成式AI路线 认为当前大语言模型缺少实现人类级别智能的关键要素 [2][9][17][27] - 杨立昆的新公司AMI将采用一种“非生成式”的AI架构 专注于开发能够感知环境、理解物理世界、拥有持久记忆并能规划复杂行动序列的系统 [10][29] - 尽管杨立昆强调Meta首席执行官扎克伯格喜欢该项目 但双方一致认为其潜在应用已超出Meta的兴趣范畴 因此决定成立独立组织 AMI将与Meta建立合作关系并开放技术 但不会接受Meta投资以确保研究独立性 [11][30] 战略聚焦与未来方向 - 公司通过大幅削减元宇宙预算 将资源释放并集中投入到AI基础设施建设和已见市场回报的AI硬件上 以应对紧迫的AI军备竞赛 [12][32] - 引入以艾伦·戴伊为代表的顶尖设计人才 旨在确保下一代AI硬件在人机交互美学上拥有绝对优势 [12][32] - 允许杨立昆在基础AI理论上独立探索 是一种分散技术押注的高级风险管理策略 避免将所有未来赌注放在生成式模型单一赛道上 [12][32] - 消息公布后 公司股价应声大涨 市场反应积极 此次战略调整预示着公司正在快速摆脱元宇宙困境 全面转向一个以AI驱动、由顶级设计美学定义的新硬件时代 [6][12][21][32]
英伟达2025年技术图鉴,强的可怕......
自动驾驶之心· 2025-12-06 03:04
英伟达公司发展里程碑与战略定位 - 公司于1993年成立,已完成从图形芯片到AI巨头的演进,市值在2025年10月底达到5万亿美元,是3年前的11倍 [2] - 发展关键节点包括:1999年推出GeForce 256,2006年CUDA问世,2012年支持AlexNet,2020年开始发布高端计算GPU,2021年开始发布端侧芯片(ORIN/Thor)[2] - 公司是AI基础设施的第一巨头,但其野心不局限于硬件,2025年在自动驾驶、具身智能、大模型和世界模型等最热AI赛道上产出了多篇重量级工作 [2] Cosmos系列世界基础模型平台 - 该系列从2025年1月开始布局,是面向物理AI的世界基础模型平台,衍生出Cosmos-Transfer1、Cosmos-Reason1、Cosmos-Predict2.5等工作,为下游自动驾驶和具身智能奠定基座 [5] - **Cosmos-Predict2.5**:新一代物理AI视频世界基础模型,基于流匹配架构统一了文本、图像、视频到世界的生成能力,并引入物理AI专用VLM——Cosmos-Reason1进行文本嵌入与细粒度控制 [17] - Cosmos-Predict2.5构建了包含2亿精选视频片段的大规模训练数据集,并针对机器人、自动驾驶等五大领域进行专项数据整理 [17] - 其控制网络变体Cosmos-Transfer2.5支持多模态控制信号输入,模型规模减小3.5倍的同时实现更高生成质量,支持长达120秒的长视频连贯生成 [17] - 模型支持多摄像头同步视频生成(如自动驾驶7视角),并实现基于相机轨迹的视角重渲染 [17] - 采用基于VLM奖励模型的强化学习对生成质量进行对齐优化,并使用时步蒸馏技术将推理步数大幅减少至4步 [17] - 全面开源2B与14B规模的预训练与后训练模型,在PAI-Bench等物理AI基准测试中取得领先性能 [17] - **Cosmos-Transfer1**:基于扩散模型的多模态可控世界生成框架,通过自适应空间-时间控制权重机制,根据不同模态输入生成高质量世界仿真视频 [37] - Cosmos-Transfer1构建了面向自动驾驶的高质量数据集RDS-HQ,包含360小时的高清地图、3D检测框与LiDAR同步标注 [37] - 通过基于NVIDIA GB200 NVL72系统的并行推理策略,在64块GPU上实现5秒720p视频的实时生成 [37] - **Cosmos-Reason1**:旨在赋予多模态大语言模型“物理常识”与“具身推理”能力,通过定义层次化的物理常识本体与二维具身推理本体,采用“监督微调+强化学习”的两阶段训练范式 [32] - Cosmos-Reason1构建了包含约4M视频-文本对的训练数据集,以及包含604个问题的物理常识推理基准和涵盖6个数据集、610个问题的具身推理基准 [32] - 实验表明,经过物理AI SFT后,模型在物理常识和具身推理基准上的性能较基线VLM提升超过10%,进一步的物理AI RL训练能在多数任务上再带来超过5%的性能提升 [33] Nemotron系列AI智能体模型 - Nemotron系列是公司为代理式AI时代打造的“数字大脑”,通过提供开放、高效、精准的模型和工具,让企业能够快速构建专业AI智能体 [5] - **Nemotron Nano V2 VL**:一个高效的12B视觉语言模型,通过混合Mamba-Transformer架构、多阶段训练策略和高效推理优化,在文档理解、长视频推理等多模态任务中实现了SOTA性能 [12] - 该模型将上下文长度从16K扩展至128K,支持长视频、多页文档等复杂场景理解 [12] - 集成Efficient Video Sampling技术提升视频处理吞吐量,支持FP8与FP4量化,适用于资源受限环境 [12] - 在OCRBench v2、MMMU、ChartQA、Video-MME等45个多模态基准测试中表现优异 [12] - 公开发布包含超过800万样本的Nemotron VLM Dataset V2,以及NVPDFTex等标注工具 [12] - **Nemotron Nano 2**:面向推理任务的高效混合架构语言模型,结合Mamba-2层与自注意力层,在保持高精度的同时,实现了最高达6倍的推理吞吐量提升,并支持128k长上下文推理 [26] - 采用FP8混合精度训练配方与分阶段课程学习策略,在20T token上完成预训练 [26] - 通过基于Minitron的轻量级剪枝与蒸馏策略,将12B模型压缩至9B,使其能够在单张NVIDIA A10G GPU(22GB显存)上以128k上下文进行推理 [26] - **Nemotron-H系列**:采用创新的混合Mamba-Transformer架构,用计算和内存需求恒定的Mamba层替代绝大部分自注意力层,在保证高精度的前提下,实现了高达3倍的推理速度提升 [27][28] - 在65k输入、1k输出场景下,吞吐量达同类Transformer的2-3倍 [29] - 提出模型压缩范式MiniPuzzle,将56B模型压缩为47B模型,仅用极少量(63B)token进行蒸馏便恢复精度,并在长上下文推理中实现额外20%的加速 [31] - 为56B大模型成功实施了以FP8精度为主的层wise混合精度预训练方案,在长达20万亿token的训练中稳定 [31] - 基于该骨干网络构建的VLM模型在多项视觉语言基准(如MMMU, MathVista)上达到SOTA水平 [31] 具身智能与机器人系列 - 公司正在深入布局具身智能,主要工作包括GR00T N1和Isaac Lab,一手具身VLA,一手仿真平台 [5] - **GR00T N1**:一个面向通用人形机器人的开放式视觉-语言-动作基础模型,采用双系统架构,通过构建“数据金字塔”进行大规模预训练 [35] - 双系统VLA架构将视觉语言模型作为慢速推理模块,与基于扩散Transformer的快速动作生成模块端到端联合训练 [35] - 数据金字塔训练策略构建了从海量人类视频、仿真与神经生成数据到真实机器人轨迹的异构数据体系 [35] - 使用单一模型权重支持从单臂机械臂到双手机巧人形机器人等多种机器人形态,在低数据场景下表现出卓越的样本效率 [35] - 公开发布了GROOT-N1-2B模型检查点、训练数据集及仿真基准 [35] - **Isaac Lab**:一个GPU加速的多模态机器人学习仿真框架,集高保真物理、照片级渲染与模块化环境设计于一体 [6] - 提出了统一且可扩展的仿真范式,将GPU并行物理、实时射线追踪渲染与通用场景描述深度集成 [6] - 设计了全面的多模态传感器仿真套件,涵盖基于物理的传感器、基于渲染的相机以及基于Warp的几何传感器 [6] - 实现了从数据生成到策略部署的端到端学习工作流支持,内置了强化学习、模仿学习等多种学习范式 [6] - 通过模块化的“管理器”架构与底层Tensor API,在保持高性能GPU原生计算的同时,为研究者提供了灵活控制 [6] 自动驾驶系列 - 2025年11月发布的Alpamayo-R1在自驾行业引起轰动,是公司在自驾VLA上的重要尝试 [5] - **Alpamayo-R1**:一种融合因果推理与轨迹规划的视觉-语言-动作模型,旨在解决端到端自动驾驶在长尾安全关键场景中的性能瓶颈 [13] - 提出了Chain of Causation数据集,通过人机协同标注流程构建具有因果关联的结构化推理轨迹 [13] - 设计了模块化推理VLA架构,以物理AI预训练的Cosmos-Reason为骨干,结合基于流匹配的轨迹解码器,实现99ms延迟的实时轨迹生成 [16] - 提出了多阶段训练策略,包括动作模态注入、基于CoC的监督微调以及基于大推理模型反馈的强化学习后训练 [16] - 在闭环仿真与实车测试中,相比仅预测轨迹的基线模型,Alpamayo-R1在挑战性场景中规划准确率提升最高达12%,脱轨率降低35%,近距离接触率降低25%,推理质量与推理-动作一致性分别提升45%与37% [16] 高效训练与底层技术 - **NVFP4**:一种新型4位浮点格式的高效训练方法,通过混合精度、随机哈达玛变换、二维权重缩放与随机舍入等关键技术,成功在120亿参数模型上进行了长达10万亿token的稳定训练 [19] - 在120亿参数的混合Mamba-Transformer模型上,使用NVFP4格式完成10万亿token预训练,其验证损失与FP8基线全程紧密吻合(相对误差<1.5%),下游任务准确率可比拟 [19] - 对比实验证明,NVFP4在达到相同训练损失时,所需的训练token数比MXFP4少约36% [19] - 相关工作已在NVIDIA Blackwell GPU上通过Transformer Engine获得全面支持 [19] 数字人与动画生成 - **Audio2Face-3D**:一个基于深度学习的端到端音频驱动三维面部动画系统,能够从单一语音输入实时生成高保真、口型同步且带情感表达的全脸动画 [21] - 提出了双网络架构设计:基于回归的轻量级网络支持低延迟单帧推理;基于扩散模型的高质量网络以流式方式生成连续30帧动画,支持多身份条件生成 [21] - 构建了基于专业演员多情感语音捕获的4D面部数据集,并采用语音转换、文本转语音对齐与静默数据插入三种增强方法提升数据多样性 [21] - 开发了可重定向的混合形状求解器,可将生成的面部顶点运动转化为标准的ARKit混合形状权重,支持将动画无缝重定向至不同角色模型 [21] - 系统支持在线流式音频输入并实时生成动画,推理延迟低,并提供丰富的后处理参数面板 [21]
对话任少卿:2025 NeurIPS 时间检验奖背后,我的学术与产业观
雷峰网· 2025-12-05 10:24
文章核心观点 文章通过报道任少卿及其团队获得NeurIPS时间检验奖,回顾了其奠基性工作Faster R-CNN的深远影响,并深入探讨了任少卿加入蔚来后,在自动驾驶全栈自研、芯片定义、数据闭环体系构建以及技术路线(如世界模型)探索等方面的实践与思考,展现了蔚来在智能驾驶领域从零开始构建核心能力的过程与战略布局 [1][2][11][13][27] 根据相关目录分别进行总结 Faster R-CNN的成就与影响 - 任少卿、何恺明、孙剑与Ross Girshick共同发表的Faster R-CNN荣获2025年NeurIPS时间检验奖,该奖项表彰经过十年检验、对学科发展产生深远影响的奠基性工作 [1] - Faster R-CNN发表于2015年,将物体检测效率提升10倍以上,开创了端到端实时精准目标检测模式,其论文已被引用超9.8万次,是AI检测领域全球最高被引论文 [2] - 该模型的核心思想已深度融入人工智能基础技术,成为驱动自动驾驶、医疗影像、安防监控、工业检测、卫星遥感等关键领域的核心技术 [2] 研究理念与团队合作 - 孙剑坚持“simple but work”的研究理念,认为做核心工作需要远见、品位和坚持 [4][6] - 任少卿与何恺明的合作紧密且高效,日常节奏包括多次集中讨论与实验推进,何恺明几乎投入100%的精力,专注于研究问题、寻找方向与突破 [6][7][8] - 团队选择深度学习方向基于几个关键判断:方法有创新性、已有初步结果和进展、结果具备泛化能力而非技巧性(trick),验证了方向的可扩展性 [10] 加入蔚来与全栈自研启动 - 任少卿于2020年8月加入蔚来,首要任务是搭建团队并启动全栈自研L2产品,支持L3和L4,同时进行芯片选型 [13] - 蔚来第二代车是全球首个量产英伟达Orin芯片(使用4颗芯片)及高线束激光雷达的车型,于2022年3月在中国量产,半年后在欧洲量产 [14] - 团队在极短时间内(从拿到芯片到量产仅6-7个月)克服了Orin芯片作为新硬件在算力(比上一代增大8倍多)、架构、散热、功耗及工具链等方面的挑战,完成了复杂的自动驾驶域控制器(ADC)架构量产 [14][15] 自研芯片的定义与考量 - 作为需求方,团队参与了自研芯片的定义,基于对技术发展的判断,早在2021年就预见到Transformer将更广泛应用,这对芯片内存带宽提出了更高要求 [16] - 蔚来自研芯片具备行业最高的带宽,以支持Transformer等模型,并为支持更高级别自动驾驶(L3/L4)预埋了热备能力,可在百毫秒内实现芯片切换且用户无感 [17] 数据闭环与高效迭代体系 - 蔚来自2020年起重点建设数据能力,认为数据的价值在于针对特定模型筛选出的“corner case”,而非简单的数据拷贝,数据筛选过程消耗大量算力 [19][20] - 公司构建了灵活调度云端和车端算力的系统,并在此基础上建立了类似互联网行业的“AB test”系统,允许在量产车上并行测试下一代算法 [21] - 通过“AB test”系统,蔚来将主动安全功能的迭代效率大幅提升,即使面对高达200万公里一次误报(FP)的严格标准,也能实现三天迭代一次的速度 [22] - 针对超80万辆量产车的智驾接管数据,建立了自动化分析系统,能过滤掉99%以上的无效信息,仅返回0.1%-0.5%的有效数据供进一步分析,极大提升研发效率 [22] 对端到端与世界模型的技术思考 - Faster R-CNN本质是解决了物体检测任务的端到端问题,将检测速度提升至实时(10Hz、20Hz、30Hz),为视频处理和应用落地带来突破 [11] - 任少卿认为,端到端是自动驾驶技术演进的一个阶段,但并未解决所有问题,例如语言模型无法解决真实世界所需的时空认知问题 [24][25][26] - 世界模型旨在建立时空认知能力,学习物理规律和时空理解,以解决长时序决策问题,这是语言模型无法做到的 [26][27] - 蔚来于2023年决定All in世界模型,并于2024年7月首次公开发布,成为行业内率先拥抱此路线的公司之一,世界模型能支持长达10秒、1分钟甚至更长的时序推演,替代传统的规则代码(if else)处理长时序场景 [27][28][29][30]
大晓机器人将于12月18日正式对外亮相,商汤王晓刚出任董事长
新浪财经· 2025-12-05 00:42
公司动态 - 大晓机器人将于12月18日正式对外亮相并开源“开悟”世界模型3.0(Kairos 3.0)[1] - 公司称该模型是首个国内开源且已实现商业应用的世界模型[1] - 公司将同步发布具身超级大脑模组A1,搭载纯视觉无图端到端VLA具身智能模型,具备自主导航能力[1] - 商汤科技联合创始人、执行董事王晓刚将出任大晓机器人董事长[1] - 世界级AI科学家陶大程将担任大晓机器人首席科学家[1] 产品与技术 - 大晓机器人将开源“开悟”世界模型3.0(Kairos 3.0)[1] - 具身超级大脑模组A1搭载纯视觉无图端到端VLA具身智能模型[1] - 该具身智能模型具备自主导航能力[1]
另辟蹊径赴欧洲创办新AI公司,杨立昆:硅谷不是AGI的土壤
36氪· 2025-12-05 00:04
今年11月,杨立昆通过一则LinkedIn帖子宣布,他将于今年底离开Meta,专注于创建自己的公司。在当 日举行的AI-Pulse大会上,杨立昆谈及发展AI新方法时表示:"硅谷完全被生成式模型所催眠,所以你 必须在硅谷之外,在巴黎做这类工作。" 身为法国公民,杨立昆此前推动Meta于2015年在巴黎设立了Facebook AI Research(FAIR)实验室,并 在2023年催生了Meta的旗舰大语言模型Llama。他长期以来一直支持欧洲的AI人才和初创企业,因此外 界对他回国开展项目寄予厚望。 杨立昆透露,他的初创公司将是一个"全球实体",并将在世界各地设立研究机构,"尤其是在欧洲,那 里有大量的人才,他们可能没有意识到自己的全部潜力,为其提供合适的环境至关重要。"据两位知情 人士透露,杨立昆的新公司将在全球设立多个基地,其中一处位于巴黎。 杨立昆认为,当前基于文本的大语言模型"缺少一个重要的东西"以达到人类级别的智能。"我们最好的 AI系统可以通过律师资格考试、写诗、编写代码,"杨立昆说,表达了他对专注于语言模型的不满,"但 我们仍然没有一个能做五岁孩子能做的事情的机器人。我们缺少一些重要的东西。有些 ...
端到端时代下的自动驾驶感知
自动驾驶之心· 2025-12-05 00:03
自动驾驶技术范式转变:从模块化到端到端 - 行业技术热点已从BEV感知迅速转向端到端自动驾驶方案 [4] - 端到端并非新技术,早期因效果不佳而让位于模块化架构,但随Transformer与BEV发展正强势回归 [9] - 主流方案正将规划模块神经网络化,形成一段式或两段式端到端架构 [9] 端到端架构下的感知范式革命 - 传统感知-规划框架中,感知需提供全量、精确的场景信息供规划使用,因模块化设计使其无法获知规划具体需求 [11] - 端到端最大意义在于实现“规划导向”的感知,即从全量感知转向可学习的按需感知 [14] - 当前多数端到端方案仍沿用传统思路,将人为定义的感知任务作为辅助监督,这被视为感知模块的“手工特征算子”,可能限制模型上限 [13][14] - 感知模块需自我革新,摒弃对人为定义感知任务的依赖,转向可学习的隐式场景理解 [14] 导航引导的稀疏场景表征 - 提出“导航引导感知”概念,模仿人类驾驶员根据导航意图关注场景不同部分,而非进行全量感知 [17] - 基于BEV特征设计场景令牌学习器模块,引入导航信息并预测BEV注意力,将场景压缩为16个场景查询 [18][19] - 规划解码器仅与这16个查询交互即可输出轨迹,实现了对感知信息的极致压缩与高效利用 [19] - 该方案使模型在训练效率和推理速度上成倍提升,并大幅超越现有方案性能 [19] 世界模型作为隐式监督新方向 - 为减少对人为定义感知任务的依赖,引入基于BEV特征的自监督世界模型,通过预测未来帧特征增强场景理解 [20] - 设计在稀疏查询上做轨迹规划,在稠密BEV上做世界模型的方案,兼顾推理效率与训练一致性 [20] - 随着世界模型研究成熟,其有望完全替代人为感知任务,成为隐式场景表征最可靠的监督方式 [21] SSR方案性能与影响 - SSR框架仅用16个自监督可学习的查询作为场景稀疏表征,替代了传统方案中成百上千个人为监督的查询 [22] - 在nuScenes数据集开环测试中,SSR的3秒平均L2误差为0.75米,平均碰撞率为0.15%,推理速度达19.6 FPS,多项指标超越对比方案 [24] - 在Carla仿真闭环测试中,SSR的驾驶得分达78.9,路线完成率达95.5%,综合得分0.83,表现优异 [26] - 消融实验表明,使用16个场景查询在性能与效率间取得最佳平衡 [27] - 可视化显示场景查询能根据不同导航指令自适应关注与驾驶意图相关的区域,证明了可学习感知模块的有效性 [28] - 该方案被视为端到端感知的“AlexNet时刻”,标志着可学习感知模块首次大幅超越人为定义感知模块,可能引导行业新方向 [29]
字节端侧AI进展交流
2025-12-04 15:36
公司:字节跳动 * **AI战略重心与组织架构** * 公司AI战略聚焦三大方向:通用型AGI、具身智能和世界模型[1] * 研发由四大团队负责:C团队(基础模型孵化)、Follow团队(垂直行业应用)、Stone团队(AI工具链)、Cici团队(海外豆包产品)[2] * C团队和Follow团队承担了80%的产品及模型研发工作,人员规模分别超过1200人和1000人[2] * 公司AI战略核心思路是B端导向,90%以上的AI token消耗来自B端业务,C端流量主要用于吸引B端客户渗透产品矩阵[7] * **资本开支与算力布局** * 2024年资本开支预计约500亿元,2025年大幅提升至1600亿元,2026年初步规划达2200亿元[5] * 2025年资本开支中,900亿元用于购买GPU,700亿元用于共建AIDC及超算中心[1][5] * 2026年规划中,约70%(约1540亿元)用于购买GPU,其余30%用于共建超算中心[6] * GPU采购中,NVIDIA占比约75%,国内厂商占比约25%[1][6] * 现有总算力为1475亿FLOPS,相当于110万张H100D GPU的算力,其中H20型号已突破30万张[1][7] * **B端业务与火山引擎** * 公司整体收入主要来源于B端业务,通过提供AI解决方案、定制开发及私有化部署等服务获取收入[1][7] * 火山引擎2025年预计收入超过500亿元,侧重提供多元化AI处理解决方案及算力服务,以差异化优势与阿里云竞争[1][8] * **AI手机战略与进展** * 推出AI手机的战略目的是拓展硬件生态,通过AIOS 1.1.0通用型Agent平台掌控移动操作系统流量入口[1][10][11] * 公司与中兴、努比亚合作,计划2026年Q1末或Q2初推出量产机,目标出货量百万级别[1][14] * 预计2026年全球AI手机市场规模达8000万台,公司目标占据5%份额,即销售突破500万台[3][15] * 工程机使用骁龙8至尊版特供版芯片,算力400 TOPS;量产机预计算力达800 TOPS,可运行7B模型[3][25] * 工程机预备了3万台,70%分配给开发者渠道,C端预约量超出预期40%[13] * 计划通过语音控制和对话方式改变用户习惯,并渗透到衣食住行领域,高德地图已加入其生态系统[3][24] * **技术挑战与用户反馈** * FLO事业群面临主要技术问题:语义理解能力不足(单轮指令识别率低,多轮对话连贯性差,此类问题占比约60%)、触控物理触控失败率达24%、跨应用操作成功率低于50%、端侧模型延迟较大(用户侧达2-3秒)[16] * 用户反馈问题集中在:语义理解与多轮对话、跨应用操作(复杂任务如出行、住酒店、点外卖尤为明显)、端侧延迟、硬件资源占用(内存、耗电、发热)、数据隐私、个性化程度不高[18] * 线上存在3400多个P0级bug,团队每两天发布一个补丁版本进行热更新[18] * 技术问题基本可通过迭代解决,但部分特殊用户需求因硬件限制难以满足[19] * **应对第三方APP调用的技术方案** * 主流方法是模拟用户物理点击(类似按键精灵加RPA),通过视觉理解捕捉屏幕事件反馈,无需APP授权[20][21] * 其他方案包括:与公司直接合作获取底层授权、使用豆包录制视频重现用户行为、云端部署花生壳代理IP切换访问[23] * 未安装相应APP时,可通过浏览器激活方式(如WebDriver或Chrome V8引擎)实现自动化操作[22] * **未来展望与行业影响** * 系统级AI助手有潜力重塑移动端流量入口,终极目标是使用户无需安装APP即可获得服务,可能颠覆现有智能终端和操作系统格局[27] * AI手机可能改变互联网平台竞争格局,但目前各大公司均处于试水阶段,未来取决于技术突破与合作竞争[28] * 公司推动超级APP策略,旨在通过其内容生态(抖音、头条、TikTok等)构建统一管理的超级APP,通过语音交互满足用户需求[29] 行业:AI手机与算力服务 * **AI手机市场预期** * 字节跳动预计2026年全球AI手机市场规模将达到8000万台[3][15] * **云计算竞争格局** * 阿里云在SaaS和PaaS领域表现出色,生态系统成熟;火山引擎作为后起之秀,侧重AI处理解决方案及算力服务,寻求差异化竞争[8] * **技术发展趋势** * 端侧与云端协同推理是AI手机的重要技术路径,但面临延迟、资源占用等挑战[16][25][26] * 模拟点击、RPA、浏览器自动化等技术是解决跨应用操作和第三方调用限制的关键方向[20][21][22]
我们身处波涛汹涌的中心|加入拾象
海外独角兽· 2025-12-04 11:41
公司定位与团队背景 - 公司定位为专注于人工智能和基础模型研究的投资研究实验室(Investment Research Lab),既是基金也是研究实验室[5] - 团队由科技投资人、物理学博士和AI研究员组成,平均年龄低于30岁,强调高信任度、低自我和高人才密度的团队文化[5][6] - 公司在管资产规模超过15亿美元,包括5亿美元的长线基金,采用一二级市场联动投资策略[5] - 公司过去投资并见证了6家投资组合公司从数十亿、数百亿美元成长为千亿美元级别的企业[5] 投资理念与策略 - 投资理念受OpenAI、Anthropic和DeepMind启发,旨在成为投资领域的前沿研究实验室,关注全球最重要的技术变化[8] - 投资策略聚焦于少数关键机会,愿意在每一轮对优质公司持续加注,放弃多数琐碎机会[8] - 注重信息质量,拥有市场上最丰富、质量和密度最高的信息源,以提高投资胜率[8] - 强调长期关系建设,致力于与创始人和研究人员建立信任,投资AI原生时代的最佳创始人[8] 品牌建设与认知输出 - 坚持开源认知,通过内容输出为AI生态做贡献并构建品牌影响力[9] - 品牌代表公司与创始人之间的信任和审美观,吸引志同道合者[9] - 公司通过海外独角兽和AI讨论社群持续输出观点,影响中美两地华人创业者和AI从业者[6] 招聘需求与岗位要求 - 招聘岗位包括AI投资研究员和品牌策划(AI Narrative Specialist),工作地点覆盖硅谷、香港、北京和上海[12][15] - AI投资研究员需具备AI研究、工程或产品经验,熟悉技术趋势如Continual Learning、Proactive Agent等[12][13] - 品牌策划需熟悉硅谷AI内容,具备品牌叙事打造能力和创新表达方式经验[15] - 招聘不限资历和工作年限,对全职和实习生均开放,优秀实习生有转正机会[15][16] 行业关注领域 - 公司重点关注LLM新范式、强化学习、AI Agent、代码代理等前沿技术领域[19][21][23][25][27] - 技术趋势包括OpenAI o1、自玩强化学习、AI机器人、AI4S等方向[12]
第八届GAIR全球人工智能与机器人大会,议程正式公布
雷峰网· 2025-12-04 10:04
" 教育被重塑,产业范式被改写,世界模型浮出水面,算力体系重 新洗牌…… " 作者丨 杨依婷 编辑丨包永刚 在AI技术奔涌向前的时间洪流里,那些深刻的变革,往往以微弱的火光开场,最终点燃时代的烈焰。 九年前,一群跨越迷雾、坚守信念的科学家,点亮了GAIR这盏灯;九年后,我们早已置身于一个汹涌澎湃 的大模型纪元,面前,是愈加深邃的智能文明地平线。 2025年,人类与人工智能的对话正在被重新书写: 教育被重塑,产业范式被改写,世界模型浮出水面, 算力体系重新洗牌 …… 2025年12月12日-13日 , 第八届GAIR全球人工智能与机器人大会 将落地 深圳·博林天瑞喜来登酒店 , 以全新的议题格局和更深的行业纵深,搭建一座更加深刻的思想会场。 GAIR 2025,即将揭幕。 为答谢忠实读者, 大会提供了20张免费门票,扫码下方【二维码】报名获得。 数量有限,先到先得! 扫码报名参会 ↑↑↑ 重磅!大家翘首以盼的 GAIR 2025 大会议程 来啦!快快码住↓↓↓ 重磅!GAIR 2025 大会议程揭晓! 12月12日 上午 Al之道:教育的重新定义 | 专场主席:杨士强,清华大学教授,CCF会士, | | --- ...