强化学习
搜索文档
寻找散落在世界各地的自动驾驶热爱者(产品/4D标注/世界模型等)
自动驾驶之心· 2025-11-06 00:04
公司业务拓展 - 公司收到来自业内企业和个人的多样化需求 包括企业技术培训 发布会方案解读 行业总结以及求职辅导等 [2] - 为满足市场需求 公司正面向全球招募自动驾驶领域从业者 计划在技术服务 培训 课程开发与科研辅导等多个领域展开合作 [4] - 合作将提供高额酬金与丰富行业资源 主要面向B端企业 高校 研究院所以及C端学生和求职人群 [5][6] 合作方向与岗位 - 合作技术方向涵盖自动驾驶产品经理 4D标注/数据闭环 世界模型 VLA 自动驾驶大模型 强化学习 端到端等多个前沿领域 [5] - 岗位职责主要包括自动驾驶培训合作 课程开发以及原创文章创作 [6]
任少卿的智驾非共识:世界模型、长时序智能体与 “变态” 工程主义
自动驾驶之心· 2025-10-11 16:03
公司技术路线与架构选择 - 公司选择了一条高算力、多传感器、全新架构(世界模型加强化学习)的技术组合,被内部形容为“变态”的困难路径[8][9] - 该技术路线旨在建立一套真正接近物理世界的能力栈,虽然意味着更重的训练和更长的周期,但被认为是通向未来的道路[9][10] - 公司是国内第一个提出世界模型概念的厂商,其核心是以视频为底座,建立高带宽的时空认知能力,而非在语言模型上做模态扩展[21][26][27] - 公司认为端到端是智能驾驶历史阶段的产物,是“填坑”行为,而公司的目标是超越端到端,探索世界模型和强化学习等更根本的AGI路径[16][60][66] - 公司在2022年3月实现基于英伟达OrinX芯片的全栈自研平台Banyan量产,并在2024年5月推送了世界模型NWM的OTA更新[42][100] 世界模型技术解析 - 世界模型被定义为包含两个层面:物理规律的内建(如重力、惯性)和时空操作能力(理解预测物体在三维空间加时间维度的运动)[23] - 世界模型与语言模型是并行关系,前者解决“认知时空和规律”,后者解决“认知语言和概念”,两者融合才能形成真正的AGI[25] - 世界模型的核心优势在于建立高带宽的时空认知,类比脑机接口,旨在用图像直接交互,摆脱低带宽语言描述的限制[26][27] - 与世界模型相比,VLA(视觉-语言-动作)本质仍是语言模型的模态扩展,其“根”在语言上,视觉是“外挂”的转换器[25][29][30] - 训练世界模型需要大量视频数据,来源主要包括游戏引擎生成的数据和真实世界的车载传感器数据[54] 数据策略与强化学习应用 - 公司建立了三层递进的数据系统:数据闭环系统(DLB)、伴生测试系统、风险评估控制系统(RAMS),形成了业界顶尖的数据处理能力[74][76][77] - 数据策略上,公司倾向于使用“脏”但量大的量产数据,而非干净但量小的专家数据,认为通过强化学习清洗数据能学到更复杂的真实世界情况[55][57][59] - 强化学习被赋予两个关键作用:能“洗数据”,将模型输出的好的分布往前排;能延长“上下文”,让模型学会处理长时序推理,摆脱“5秒记忆的金鱼”状态[60][75] - 公司认为行业至今没有完全接受强化学习的重要性,而公司已在内部实验并计划在年底新版本中推出基于强化学习的长时序能力[60][64] - 通过端到端AEB模型和伴生测试体系,公司将AEB的真实场景响应率从不到10%提升至70%-80%,并获保险公司数据验证事故损失下降25%[86][88] 工程体系与研发管理 - 公司研发组织采用“4×100米接力棒”模式,明确划分为预研、量产、平台复制、车型复制四个阶段,职责清晰以提升效率[95][97][105] - 公司拥有三代智驾平台量产经验(Aspen, Banyan, Cedar),且均为对应芯片(Mobileye EyeQ4, 英伟达OrinX, 自研神玑)的全球首个量产平台,工程能力被极致锻炼[100][101] - 在工程上,公司自建了CUDA之上的软件栈(cuDNN、框架层、工具层),为自研芯片对接和快速量产打下基础,此做法在行业中非常独特[103] - 平台策略上,高算力平台(4颗Orin)提供安全冗余、新功能先发和更早迭代的优势,再通过技术蒸馏迁移到低算力平台(如乐道的1颗Orin)[92][93] - 公司强调技术追求简单高效,认为复杂高效不可持续,目标是建立“又新又轻松”的架构,用更少资源达到更好效果,提升竞争力上限[113][115] 产品进展与未来目标 - 公司在2025年5月于地库场景首发了语言交互找出口功能,为国内首个量产的此类功能,并计划在年底到明年Q1逐步推出开放集指令交互(Open-set)[39][40] - 公司将主动安全(如AEB)置于最高优先级,目标是切实减少事故,最新目标是力争在年内将事故损失降低50%[86][118] - 公司认为当前技术体系可以通往L3、L4,明年智驾竞争将更明显地向L3/L4迈进,技术端的关键是搞定世界模型的长时序能力[108][109] - 公司智驾研发的终极目标并非单纯实现L3功能,而是让系统更像人,能处理人所处理的各类长短时序决策,核心价值在于解放精力和减少事故[107][117] - 公司通过统一架构处理高速和城区场景,虽然初期开发量大、节奏显慢,但避免了方案割裂,旨在获得更干净、更具扩展性的长远优势[51][84]
任少卿的智驾非共识:世界模型、长时序智能体与 “变态” 工程主义
晚点LatePost· 2025-10-09 10:14
文章核心观点 - 蔚来智能驾驶负责人任少卿认为,智能驾驶的未来在于构建“世界模型”并结合强化学习,这是一条比当前行业主流的“端到端”和“VLA”模型更艰难但上限更高的技术路径,旨在实现真正的通用人工智能[4][5][8] - 蔚来选择了一条高算力、多传感器、全新架构的激进技术路线,短期内面临开发周期长、进展慢的挑战,但长期看有望构建起接近物理世界的认知能力,形成核心竞争优势[5][21][23] - 公司将安全视为最高优先级,通过自建三层数据系统和引入端到端模型,已实现事故损失下降25%,并设定了年内再降50%的目标,体现了技术的社会价值[42][61][62] 技术路径与架构 - **对主流技术的批判与超越**:认为端到端模型是智能驾驶特定历史阶段的产物,本质是“填坑”,其能力止步于短时序问题[4][7];VLA模型虽整合了视觉、语言和动作,但核心仍是低带宽的语言模型,无法承载现实世界的连续复杂性[4][11][12] - **世界模型的核心主张**:以视频为底座,建立高带宽的“时空认知”能力,内建物理规律(如重力、惯性)和理解时空运动的能力,与语言模型的“概念认知”并行,最终融合走向AGI[8][9][14] - **强化学习的关键作用**:智驾行业尚未完全接受强化学习的重要性,其能“清洗”海量但嘈杂的量产数据,并将系统的规划能力从模仿学习的“5秒记忆”扩展到处理长时序决策,是实现真正智能体的关键[5][27][29][30] - **与同行的技术差异**:理想和小鹏的基座模型以语言模型为训练底座,华为的WA模型本质是世界模型但强调点不同,蔚来是国内首个提出并量产世界模型架构的公司,并在该架构内实现了VLA[15][20][31] 研发体系与工程能力 - **三代首发平台的经验**:公司历经三代智驾平台全球首发(Mobileye EyeQ4、英伟达Orin、自研神玑芯片),克服了芯片首发的大量工程难题,锻炼出强大的工程能力[52][53] - **独特的三层数据系统**:构建了DLB(数据闭环)、伴生测试系统、RAMS(风险评估控制)三层系统,实现了数据自动筛选、大规模AB测试和每日数百万次接管的自动化分析,支撑快速迭代[34][36][40] - **“4×100米接力”研发组织**:将研发流程细化为预研、量产、平台复制、车型复制四个明确阶段,形成“铁打的营盘”,职责清晰,提升整体效率[45][46][49] - **自研软件栈优势**:在英伟达Orin平台上,仅保留最底层的CUDA,其上工具链全部自研,为自研芯片的平滑对接和快速量产奠定了基础[54] 产品进展与战略选择 - **统一架构的长期主义**:在2022年同时推进国内和欧洲量产时,选择将高速与城区功能统一到一套架构下推倒重来,而非采用两套方案追求短期速度,虽初期进度慢但长期架构更干净[37][41] - **安全优先的产品策略**:优先推动端到端AEB功能上线,通过真实数据覆盖将场景响应率从不足10%提升至70%-80%,已验证事故损失下降25%,将社会价值置于即时用户体验之前[38][39][42] - **高算力平台的差异化**:高算力平台(如4颗Orin)提供安全冗余、承载新功能先行开发,再通过技术蒸馏迁移至低算力平台,用户体验基本无差异但功能上线有先后[43][44][48] - **开放集交互的规划**:计划在2024年底至2025年Q1推出Open-set(开放集指令交互),使用户能像与真人司机一样用自然语言随意下达指令,而非局限于有限指令集,这将是国内首个此类量产功能[16][17][20] 行业竞争与未来展望 - **对竞争态势的判断**:认为明年行业竞争将聚焦于基于世界模型的长时序能力建设,并明显向L3/L4级功能迈进[55] - **公司的核心优势**:扎实的数据与工程体系、经受三代平台考验的团队、以及在新架构上的先行布局,是应对未来竞争的基础[51][54][70] - **人才吸引的立足点**:为年轻技术人才提供世界模型这一AGI早期领域的探索机会、海量真实数据、成熟工程体系及产品快速落地的平台,是吸引顶尖人才的关键[69][70]
京东集团-SW一度涨超6% 将在未来三年持续投入 带动形成万亿规模人工智能生态
智通财经· 2025-09-25 03:17
股价表现 - 公司股价一度上涨超过6% 截至发稿时上涨6.47%至141.6港元 [1] - 成交额达到19.07亿港元 [1] 战略规划 - 公司宣布未来三年将持续投入人工智能领域 目标带动形成万亿规模的人工智能生态 [1] - 创始人刘强东亲自担任京东探索研究院院长 在全球范围内招募人工智能科学家 [1] 研发布局 - 京东探索研究院成立于2020年11月 是专注于前沿科技探索的研发部门 [1] - 研究院深耕泛人工智能领域 包括大语言模型、多模态智能、具身智能和强化学习等方向 [1]
应届生看过来!上海AI Lab校招通道已开,100+岗位,700+offer,让科研理想照进现实!
机器之心· 2025-08-21 04:12
招聘计划 - 公司面向2025年1月至2026年10月毕业的全球校园人才开放100+职位[1][4] - 招聘对象包括梦想新星、学术新星、工程新星和竞赛新星四类人才[4] - 常规岗位面向2025年9月至2026年10月毕业生 海内外毕业时间同步认定[4] 岗位类别 - 提供算法、研发、产品、运营、解决方案、职能/支持六类岗位[6][7] - 算法类聚焦大模型、机器学习基础理论、多模态、强化学习及AI for Science方向[7] - 研发类专注大规模分布式训练框架、高性能计算、AI系统架构及AI芯片协同优化[7] 人才要求 - 寻求AGI坚定信仰者 重视根本问题解决而非论文数量[3] - 需要卓越工程实践者 具备复杂工程驾驭能力和大规模场景验证经验[3] - 偏好挑战高难度机制创新研究的"摘星者" 追求颠覆性进展[3] - 要求兼具激情与理性的思考者 能严谨评估idea的规模化路径与长期价值[3] - 重视长期主义践行者 专注解决基础性、通用性核心问题[3] 招聘流程 - 网申于2025年8月20日启动 设6场集中笔试[10] - 笔试时间分布在2025年8月25日至10月13日 覆盖研发与算法方向[10] - 提供活动直通渠道 参与校园活动可获终面PASS卡[10] - 面试流程包含3-4轮 通过后陆续发放Offer[10] 平台资源 - 提供顶级科研平台与超大规模算力集群支持[13] - 配备大规模数据资源 支持具备规模化潜力的研究方向[13] 投递方式 - 通过扫描二维码或阅读原文链接投递简历[14] - 设置专属小助手联系方式13661489516提供投递支持[14]
思辨会 | 思辨八方,智启未来——2025世界人工智能大会思辨会综述
观察者网· 2025-08-03 13:30
人工智能行业发展趋势 - 2025年世界人工智能大会(WAIC 2025)采用"问题驱动、深度对话"的创新思辨形式,围绕量子模拟、数字孪生脑、AI for Science等前沿议题展开讨论 [1] - 人工智能正从"能看会说"的感知智能迈向"能想会做"的决策智能,迎来历史性转折点 [9] - 具身智能与强化学习结合,推动AI从理论优势转化为产业动能,在智能仓库、无人驾驶、应急救援等领域展现广阔前景 [7] 智能体安全挑战 - 现代智能体具备自主决策能力,但存在严重安全缺陷,可能导致服务器崩溃、数据泄露及企业核心系统渗透 [2] - 专家提出沙盒环境测试、安全对齐技术等解决方案,强调需构建全链条防护体系 [2] - 智能体安全是关乎未来人机信任的关键命题,需将安全考量前置到设计源头 [2] AI for Science应用突破 - AI打破学科壁垒,在量子物理领域识别量子纠缠模式,在材料科学中加速新型超导体发现,在生物医学领域破解蛋白质折叠奥秘 [3] - AI全面覆盖生命科学全流程,从病理研究到分子分析,如GNoME系统发现数百万新晶体材料 [5] - 交大人工智能学院开发全球首个推理型罕见病智能体诊断系统,解决小样本难题 [5] 数字孪生脑技术 - 数字孪生脑通过构建人脑虚拟模型,模拟大脑活动、预测神经疾病发展及测试药物效果 [6] - 该技术为阿尔茨海默症、帕金森病等神经退行性疾病治疗带来新曙光 [6] - 引发关于"思想隐私"边界及人类意识与AI模拟关系的伦理思考 [6] 具身智能发展瓶颈 - 数据短缺是制约具身智能发展的关键瓶颈,人形机器人数据回流明显不足 [8] - 模拟生成仿真数据存在视觉和物理效果质量控制难题 [8] - "模仿+强化"混合学习范式成为突破数据瓶颈的希望之路 [8] 多模态技术挑战 - AI大模型在数学竞赛表现良好但在物理竞赛中吃力,需提升图形理解能力 [4] - 关键挑战在于将符号逻辑与神经网络结合,使AI理解科学规律背后的物理意义 [4] - 多模态技术是提升AI科学能力的潜在方向 [4]
自动驾驶圆桌论坛 | 聊聊自动驾驶上半年都发生了啥?
自动驾驶之心· 2025-07-14 11:30
技术路线与量产现状 - BEV感知方案已成为行业主流量产选择 完全替代传统单目/双目检测方案 但在corner case(如非结构化道路、复杂路口)上仍有明显短板 [11][36] - 特斯拉引领的纯视觉BEV+Occ环境建模方式已获行业验证 但3DGS等新型表征方式正在探索中 [2][52] - 端到端方案(E2E)尚未展现显著优势 数据收集难度和训练成本高于传统两阶段模型 目前更多停留在PR层面 [4][48] 新兴技术方向 - VLA/VLM成为2025年焦点技术 通过语言模型提升corner case处理能力 但存在落地真实性存疑、学术界与工业界数据壁垒等问题 [5][20][45] - 扩散模型在轨迹生成中展现多模态优势 但实时性仍是量产挑战 CVPR2025的DiffusionDrive已取得进展 [17][39] - 世界模型主要应用于仿真数据生成 预训练和端侧推理仍待突破 部分厂商宣传存在夸大 [50][52] - 强化学习受限于仿真精度与安全性要求 在自动驾驶领域尚未规模化应用 但长期潜力被看好 [7][47][51] 行业痛点与突破方向 - 长尾场景处理需解决三大核心问题:VLA在corner case的实证数据不足、车端算力与模型效率的平衡、模仿学习的天花板突破 [5][6][7] - 数据闭环能力成为竞争关键 需构建自动化标注+仿真验证的高效流水线 头部企业已布局AI驱动的数据运营体系 [28][33] - 芯片算力限制导致技术分层:Orin-X支持多模态LLM处理复杂城区场景 而J6M等中低端芯片仅能支撑纯视觉高速NOA [40][45] 未来趋势与竞争格局 - 技术路线呈现分化:L2+方案侧重VLA泛化性提升 L4方案聚焦世界模型构建安全验证体系 [25] - 3D高斯与毫米波雷达应用被忽视 前者可发展为世界模型表征 后者存在技术空白 [52] - 行业进入"智驾平权"阶段 地平线征程6等芯片推动辅助驾驶普及 但平价车型仍受限于corner case处理能力 [36][39] - 中心化智能成为长期方向 从单车智能向V2X+云端协同演进 [47] 技术迁移与跨领域应用 - 自动驾驶与具身智能技术高度互通 VLA时代下两者在安全场景与灵活场景形成互补 [33] - 舱驾一体化成为新探索方向 结合语音与OS系统提升用户体验 [43] - 知识体系需保持可迁移性 避免过度专业化导致转行障碍 [52]
对话未来出行 | 商汤绝影CEO王晓刚:汽车是人工智能最好的载体,以世界模型和仿真学习突破特斯拉式数据壁垒
每日经济新闻· 2025-05-16 04:00
智能汽车行业趋势 - 智能汽车竞争焦点从硬件参数转向认知能力,行业处于"软件定义汽车"向"认知重塑出行"跃迁的临界点 [1] - 2025年第一季度中国L2级辅助驾驶新车渗透率达65% [1] - 智能座舱进化分为三个阶段:问答工具、大模型赋能的"全能助手"、具备记忆与共情能力的"家庭成员" [1][8] 商汤绝影技术路径 - 采用"世界模型+强化学习"技术组合突破现实数据不足瓶颈,降低对激光雷达的依赖 [1][10] - 世界模型可模拟未来场景变化,例如施工路段避让及碰撞情形 [12] - 通过仿真环境生成海量驾驶场景,使自动驾驶系统自我进化,类似AlphaZero的自我博弈逻辑 [10][16] 激光雷达技术观点 - 激光雷达属于阶段性技术选择,未来可被模型算法和数据迭代替代 [1][12] - 激光雷达在城区复杂场景中作用有限,且受天气干扰、老化等问题影响 [12] - 当前部分车企采用"激光雷达+端到端系统"双配置作为过渡方案 [16] 车企合作模式 - 与主机厂形成"太极式共生"关系,既保留车企自研能力又发挥科技公司技术优势 [3][18] - 产品已上车7款车型,2024年将推出地平线J6E方案并在奇瑞量产,基于英伟达Thor的系统将应用于东风车型 [17] - 合作核心是研发体系对齐而非股权绑定,涉及工具链、数据格式等基础设施协同 [19] 数据与商业化 - 车企保留数据所有权,商汤绝影提供脱敏技术支持 [21] - 自动驾驶盈利需3年,依赖量产规模扩大及摄像头配置标准化 [22] - 未来研发重心转向云端,提供云服务和大模型基础设施,车端研发将轻量化 [22] 行业应用场景 - 汽车是当前人工智能最佳载体,因多模态传感器丰富且数据回流规模大 [4][5] - 智能座舱通过全时感知(表情/动作/生理信号)实现情感化交互,远超手机等被动设备 [9] - 技术可延伸至智能机器人领域,与汽车AI存在高度重合性 [5]