世界模型

搜索文档
AI落地难?这场对话揭开真相,给出破局“三板斧”
21世纪经济报道· 2025-07-24 07:02
AI技术发展趋势 - 全球AI正从大语言模型快速迈向世界模型新阶段 AI能力从语言理解延伸至对真实世界的感知 预测与决策 支撑具身智能和自动驾驶等复杂场景落地[2] - AI产业应用从通用模型转向垂直领域智能体开发 金融 交通 制造 营销等专用AI模型正实现与具体场景深度融合[2] - 世界模型标志着AI进入新阶段 成为推动产业革命核心力量 今年世界人工智能大会焦点是AI如何推动产业变革[2] 企业AI落地挑战 - 企业管理层需从战略高度理解AI对个人 企业及社会的影响 真正重视和推动技术落地[2] - AI技术存在应用门槛 员工存在畏难心理 难以推进实际执行与部署[2] - 企业需构建内部人才培养机制 尤其是AI工程化能力 并搭建持续学习体系[2] - 产业场景具体且繁多 通用大模型可能不适用 专业小模型面临专业数据少 迭代慢问题[3] - 技术能力不足或机器幻觉会引发内部质疑 对应用落地产生阻力[3] 企业AI战略实施路径 - 企业决策者必须树立清晰AI战略 积极拥抱创新 管理层需对技术细节 应用效果 局限性及人才投资等有清晰认知[3] - 建立全员参与 积极创新的文化氛围 让员工意识到AI是提升效率帮手 实现人技协同发挥规模效应[4] - 企业需构建完善数字化基础 借助既懂技术又熟悉行业的生态伙伴 围绕具体场景协同合作[4] - 小模型依赖专业数据 算法 算力 场景等多方因素 需要生态伙伴携手并进[5] 产业应用实践案例 - 施耐德电气设立AI创新实验室 基于软硬件一体化能力聚焦垂直领域场景创新 成果用于自身智能升级并赋能上下游生态伙伴[6] - 通过5G 柔性制造 AR与AI算法深度融合 上海普陀工厂实现生产流程全面数字化智能化 人均生产效率提高82% 获评灯塔工厂[6] - 发起创赢计划 与软件开发商 系统集成商及终端用户组成共创三角 联合开发AI嵌入式解决方案加速产业化落地[7] 生态体系建设 - AI技术发展和应用需要牵头人 通过构建企业级 产业级乃至国家级生态圈 促使AI与更多产业深度融合[7] - 世界人工智能大会旨在扩大AI生态圈 为构建世界模型夯实基础 助力开启社会经济新篇章[7] - AI成为引领全球经济转型核心引擎 需通过技术 管理 生态全方位创新 实现高效 绿色与普惠的产业新格局[7]
连狗都看得懂的世界,AI却还在学!世界模型到底牛在哪儿?
电动车公社· 2025-07-22 15:27
人工智能技术发展历程 - 37年前贝尔实验室的杨乐昆开发出世界上第一个用于文本数字识别的卷积神经网络 证明神经网络可以像人类一样学会"看见" [1][2][3] - 当前人工智能正经历从"工具智能"到"认知智能"的跃迁 神经网络通过类似人类学习的过程找到数据关联性 构成AI算力基础 [5][6] 辅助驾驶技术演进 - 2016年前系统仅能处理静态环境 定位精度以米为单位 功能限于ACC自适应巡航和车道保持 [12][14] - 2020年深度学习技术带来空间认知范式转变 但仍依赖标注数据和高精度地图 存在逆光/遮挡场景误判问题 [15][16][18] - 激光雷达普及后形成摄像头互补 行业开始采用轻地图+实时感知混合架构 但BEV二维模型高度信息不足 [20][21][22] - 2023年引入OCC 3D栅格环境模拟 摆脱地图依赖 可识别施工栏杆等异形障碍物 [23][25] 世界模型的核心突破 - 世界模型使AI具备空间想象重构和时间推演能力 实现从被动执行到主动决策的跨越 [46][47][48] - 蔚来NWM可在100毫秒内推演216种事故轨迹 每0.1秒动态更新模拟世界寻找最优解 [61][62] - 实际应用场景包括自主寻找停车场出口 无车道线道路的智能避让 被追尾预防辅助等 [51][54][56] 行业技术发展现状 - 蔚来/小鹏等车企正重点布局世界模型 以解决AI缺乏因果推理能力的核心缺陷 [30][65] - 当前技术仍处早期阶段 存在算力消耗大 模拟精度待提升等问题 需持续迭代优化 [63][66] - 行业类比1980年代神经网络发展初期 当前处于AI技术爆发前夜的关键积累期 [67][68][69]
汽车行业专题报告:辅助驾驶的AI进化论:站在能力代际跃升的历史转折点
国海证券· 2025-07-22 11:26
报告行业投资评级 - 维持辅助驾驶行业“推荐”评级 [1][8][110] 报告的核心观点 - 辅助驾驶行业现状是平均水平提升、技术路线收敛,车企难差异化,向高级别跃迁时细分安全功能待提升,人机交互边界模糊带来商业化落地焦虑和安全隐患 [5] - 建立辅助驾驶能力研究框架,从企业组织战略、技术能力、消费者感知三个维度梳理全栈自研主机厂辅助驾驶能力及潜力 [6][7][111] - 大算力芯片上车元年,世界模型持续优化,辅助驾驶行业能力迎来迭代拐点,头部厂商解决方案逐步完善,车企展开战略合作推动智能化渗透率普及,供应链格局显现,国内供应商向软硬件一体化发展 [8][110][111] 根据相关目录分别进行总结 前言:辅助驾驶技术进展及研究框架构建 - 全栈自研主机厂发展进程:介绍特斯拉、小鹏、华为、理想、蔚来、小米等车企辅助驾驶研发进展、硬件配置、车型发布等情况 [11][15][28] - 第三方解决方案玩家格局:车企与头部智驾厂商合作可节省成本、抢占市场,Momenta、元戎启行、地平线等厂商端到端方案推进有节奏且合作覆盖广泛 [45][46] - 构建辅助驾驶技术研究框架:从企业经营、技术能力、用户感知三个维度衡量辅助驾驶能力,分析各车企研发投入、战略重心、传感器方案、算力、模型等情况 [48][49][50] 维度一:企业组织和战略 - 辅助驾驶战略布局:研发方向从早期模块化分工向端到端融合、全域架构与跨域协同发展,车企动态调整团队架构与研发重心 [53][54][55] - 辅助驾驶研发投入:2022 - 2024年技术驱动型企业研发费用普遍高于15%,规模效应型企业随销量增长费率降低,小米集团2021 - 2023年研发费用率逐步攀升 [60] 维度二:技术能力三要素 - 传感器、算力、模型 - 传感器:技术降本与规模量产推动多感知方案并行,形成“数据输入 - 算法进化 - 硬件适配”正向循环,国产厂商在传感器供应链格局中份额稳步提升 [64][66][67] - 算力军备赛:云端智算中心肩负模型训练等任务,头部车企建立EFLOPS级超算中心,车端驾驶域控芯片向大算力化跃迁,国产芯片2025年集中量产 [75][78][85] - 车云模型:技术路径收敛,架构由决策规划模型化向模块化端到端发展,引入多模态数据信息,世界模型运用数据驱动提升类人化决策能力 [7][111] 维度三:消费者感知 - 辅助驾驶功能表现能力 - 驾驶辅助功能:“车位到车位”功能融合行车与泊车功能,实现全场景连续驾驶目标,各车企相关功能不断迭代升级 [97][98][105] - 安全辅助功能:AEB性能边界优化,车辆避撞方式与车速有关,蔚来等车企安全辅助功能不断提升 [99][103][105] - 消费者感知力:辅助驾驶产品标签化,成为新车卖点,各车企驾驶及安全辅助功能落地进程有差异 [105] 投资建议 - 建议关注车企研发及功能落地进展,如特斯拉、小鹏、鸿蒙智行合作车企、理想汽车、蔚来汽车、小米集团;以及头部第三方解决方案供应商,如Momenta、元戎启行 [8][111] - 建议关注供应链国内供应商,如速腾聚创、禾赛科技、舜宇光学科技、联创电子、德赛西威、华阳集团、均胜电子、知行科技、地平线机器人、黑芝麻智能等 [8][111]
具身智能前瞻系列深度一:从线虫转向复盘至行动导航,旗帜鲜明看好物理AI
国金证券· 2025-07-22 08:17
报告行业投资评级 未提及 报告的核心观点 报告认为具身智能发展处于早期,当前缺乏模拟学习能力,物理AI是构建模拟学习的核心;世界模型约等于空间智能加物理AI;建议重视3D数据资产和物理仿真引擎双主线,看好中国物理AI稀缺资产索辰科技 [4][37]。 根据相关目录分别进行总结 从生物智能五阶段映射具身智能,模拟、规划能力是当前缺失环节 - 阶段一(关联性学习):生物智能起源于早期两侧对称生物学会“行动导航”,如线虫学会“转向”,“行动导航”是扫地机器人落地前提;早期两侧对称生物具备两侧对称结构、效价神经元、大脑和“情感”雏形;“关联性学习”是对未来初步“预测”的前提 [10][11][13]。 - 阶段二(强化学习):早期脊椎动物学会“试错”,构成“强化学习”基础;“基于预期奖励的时序差分强化学习”有助于缩短试错时间、建立更长预测时间窗口;该机制形成涉及时间感知和空间感知 [15][17][18]。 - 阶段三(模拟学习):早期哺乳动物学会“规划”,即“模拟学习”;构建基于模型的强化学习困难,因真实世界动作连续、信息嘈杂不完整、奖励复杂;大鼠在“不确定性”情况下触发模拟 [22][24][29]。 - 阶段四(模仿学习):灵长类动物学会“模仿学习”,映射到具身智能,“模仿学习”分为“主动教学”与“逆向强化学习”两种策略 [32]。 - 阶段五(语义处理):人类掌握“语言”,形成大规模协作;具身智能产业中,模拟学习应用相对初级,未来拥有3D空间智能的机器人具备“仿真”能力后将进化为硅基生命 [35][36]。 复盘智能驾驶模型算法演绎历史,世界模型≈空间智能+物理AI - 智能驾驶VS具身智能:智能驾驶是具身智能现阶段落地可行性及商业闭环被验证的场景,众多人形机器人核心创始团队有智能驾驶从业经验;智能驾驶“反物理交互”,人形机器人需高频“物理交互” [37][41]。 - 从特斯拉FSD说起:特斯拉FSD智能驾驶算法经历“模块化”规则驱动算法、感知模块引入BEV+OCC架构实现“端到端”、追求“一段式端到端”三个阶段;VLM、VLA等慢思考模型逐渐发展成熟 [44][46][53]。 - 谈及世界模型、物理AI:世界模型约等于空间智能加物理AI,英伟达Cosmos侧重视频世界模型;空间智能核心是让模型理解3D空间信息,获取3D空间数据有真实数据采集与仿真合成数据两条路线;物理AI解决机器人与物理世界交互及“缺数据”难题 [66][71][77]。 重视3D数据资产+物理仿真引擎双主线,看好中国物理AI稀缺资产索辰科技 - 群核科技:推出空间智能平台Spatial Verse,为空间智能算法提供产业级工具;2024年前三季度营收5.53亿元,经调整亏损率收窄至17%;毛利率持续提升,业务以订阅收入为主 [80][84][86]。 - 索辰科技:发布索辰开物平台,将发布“机器人虚拟训练平台”;2024年营收3.79亿元,2020 - 2024年营收CAGR达23.7%;业务分工程仿真软件与仿真产品开发两部分,研发投入强度较高 [92][95][100]。
可以留意一下10位业内人士如何看VLA
理想TOP2· 2025-07-21 14:36
自动驾驶技术发展现状 - BEV感知方案已完全成熟并广泛应用于量产车型 基于BEV的动态感知、静态感知、OCC感知均实现技术落地 [16][24] - 端到端方案仍处于验证阶段 实际效果未显著超越传统两阶段模型 存在数据收集难度大、训练成本高等实操问题 [11][31] - 行业面临的核心挑战是corner case处理能力 非结构化道路、复杂路口等场景通过率不足99% [16][24] 新兴技术路线争议 VLA/VLM技术 - **看好派**:认为VLA通过大模型推理能力实现场景理解 可突破传统规则引擎的迭代瓶颈 是下一代技术重点方向 [2][28] - **质疑派**:指出当前VLA基座多依赖开源模型魔改 缺乏专用预训练体系 且车端算力限制导致性能与延迟难以平衡 [1][27] - **中立派**:认为对话功能仅提供情绪价值 控车逻辑需独立设计 量产可行性存在但效果待验证 [3][18] 关键技术突破方向 - **世界模型**:三大应用场景包括预训练、仿真数据生成、端侧推理 目前数据生成领域已取得阶段性成果 [6][33] - **强化学习**:仿真精度是核心瓶颈 若能解决sim2real域差距 配合端到端架构将实现性能飞跃 [6][32] - **扩散模型**:适配多模态轨迹生成特性 地平线DiffusionDrive方案已实现实时性突破 [7][26] 行业竞争格局演变 - 数据闭环能力成为竞争焦点 头部公司重点构建AI驱动的数据流水线 涵盖采集、清洗、标注全流程自动化 [20][22] - 仿真技术呈现两极分化:L4企业侧重世界模型构建安全验证体系 L2+厂商聚焦VLA提升泛化能力 [18][30] - 芯片算力制约技术落地 7B参数以下模型成主流 量化加速与轻量化算法需求迫切 [27][28] 学术与产业协同 - 学术界研究滞后于产业落地 BEV从论文发表到量产应用耗时2年 当前VLA等技术尚未形成理论共识 [31][9] - 产学研割裂问题突出 工业界数据壁垒导致学术界缺乏真实场景验证数据集 [13][31] - 3D高斯等新型表征方法有望重构世界模型架构 球谐函数替换等基础研究具备潜力 [6][33] 技术路线选择建议 - 短期优先完善一站式端到端方案 长期需突破鲁棒性瓶颈以实现L4 [18][26] - 平价车型可采用BEV+蒸馏方案过渡 等待芯片成本下降支撑大模型部署 [24][26] - 自动驾驶与具身智能技术互通 建议选择迁移性强的研究方向 [34][22]
死磕技术的自动驾驶黄埔军校,三周年了~
自动驾驶之心· 2025-07-19 06:32
业务发展 - 打造了四个IP矩阵:自动驾驶之心、具身智能之心、3D视觉之心、大模型之心,覆盖知识星球、公众号、视频号、哔哩哔哩、知乎等平台 [2] - 从纯线上教育转型为全栈式服务平台,新增硬件业务、论文辅导和求职业务,并在杭州设立线下办公室 [2] - 知识付费仍是核心业务,但重点拓展了硬件教具、线下培训和求职招聘等多元化服务 [2] 技术方向 - 自动驾驶行业正经历大模型引发的智驾方案升级,从VLM/VLA向更先进的端到端解决方案演进 [2] - 具身智能和大模型是重点孵化方向,已举办多期圆桌论坛,受到学术界和产业界广泛关注 [2] - 视觉大语言模型(VLM)在自动驾驶中的应用包括预训练、迁移学习和知识蒸馏等多个技术分支 [9][12][13] 社区建设 - 自动驾驶之心知识星球已成为国内最大的自动驾驶技术社区,拥有近4000名成员和100+行业专家 [4] - 社区覆盖30+自动驾驶技术学习路线,包括端到端自动驾驶、BEV感知、Occupancy等前沿方向 [4] - 每周活跃度位居国内前20,注重成员积极性和技术交流 [4] 内容体系 - 知识星球包含四大板块:技术领域分类汇总、科研界顶级大佬直播、求职资料分享和痛点问题解答 [7] - 整理了视觉大语言模型、世界模型、扩散模型和端到端自动驾驶四大前沿技术方向的资源 [6] - 汇总了多个Awesome资源库,涵盖VLM架构、推理策略、安全隐私等细分领域 [8] 数据集资源 - 整理了VLM预训练使用的多个大型数据集,包括LAION5B(5B图文对)、WuKong(100M中文图文对)等 [15] - 汇总了自动驾驶相关数据集,如nuScenes、Waymo Open Dataset、BDD100K等,涵盖感知、预测、规划等任务 [21][22] - 收集了语言增强的自动驾驶系统数据集,支持自然语言导航和空间推理等高级功能 [22] 应用领域 - 智能交通领域应用包括语言引导车辆检索、视觉问答和视频异常识别等技术 [23] - 自动驾驶感知方向涉及行人检测、3D目标检测和开放词汇语义分割等任务 [24] - 定位规划领域探索语言引导导航、轨迹预测和运动规划等解决方案 [25] 行业趋势 - 世界模型在自动驾驶中快速发展,涵盖3D场景理解、未来场景演化和物理原理建模等方向 [30][31] - 扩散模型在自动驾驶中的应用包括场景生成、数据增强和轨迹预测等多个方面 [33][39] - 端到端自动驾驶研究聚焦多模态融合、可解释性和长尾分布处理等关键问题 [45][55]
死磕技术的自动驾驶黄埔军校,三周年了。。。
自动驾驶之心· 2025-07-19 03:04
自动驾驶技术发展现状 - 自动驾驶技术正处于从辅助驾驶(L2/L3)向高阶无人驾驶(L4/L5)跨越的关键阶段 [2] - 2025年自动驾驶、具身智能、大模型Agent三大赛道是AI竞争高地 [2] - 端到端自动驾驶成为主流学习方向,建议从BEV感知开始逐步深入 [2] 自动驾驶技术社区 - 自动驾驶之心知识星球是国内最大的自动驾驶学习社区,拥有近4000名成员 [2] - 社区汇聚100+行业专家,提供30+技术方向学习路线 [2] - 覆盖端到端自动驾驶、世界模型、视觉大语言模型等前沿方向 [2][4] 视觉大语言模型研究 - CVPR 2024发布多篇视觉语言模型预训练论文,涉及效率提升和公平性优化 [11] - 视觉语言模型评估涵盖图像分类、文本检索、行为识别等任务 [16][17][18] - 大规模预训练数据集包括LAION5B(50亿图文对)、WebLI(120亿图文对) [15] 自动驾驶数据集 - 主流自动驾驶数据集包括nuScenes、Waymo Open Dataset、BDD100K等 [21] - 语言增强数据集支持自然语言导航、视觉问答等任务 [22] - 图像分类评估数据集包含ImageNet-1k(128万训练图)、CIFAR-100等 [16] 技术应用领域 - 智能交通领域应用包括语言引导车辆检索、视觉问答系统 [23] - 自动驾驶感知方向研究语言引导3D检测、开放词汇分割等任务 [24] - 决策控制领域探索大语言模型在轨迹预测和运动规划中的应用 [25][26] 世界模型研究进展 - 2024年发布DriveWorld、GAIA-1等驾驶世界模型,支持场景生成与理解 [30][32] - 世界模型可预测未来视觉观测并辅助规划决策 [32] - 研究涵盖4D场景重建、占用预测等方向 [32] 扩散模型应用 - 扩散模型在自动驾驶中用于场景生成、数据增强和轨迹预测 [39] - CVPR 2024发布MagicDriveDiT等街景生成模型 [39] - 研究聚焦时空一致性、多视角生成等挑战 [39] 端到端自动驾驶 - 方法分为模仿学习、强化学习和多任务学习三大类 [61] - 最新工作如DriveGPT4、DriveMLM探索大模型与规划控制结合 [27][51] - 挑战包括长尾分布处理、安全验证等 [55][57] 行业资源与生态 - 社区提供TensorRT部署、BEV感知等工程问题解决方案 [71][73] - 与地平线、蔚来等公司建立内推渠道 [110] - 成员来自卡耐基梅隆、清华等高校及头部自动驾驶公司 [106][107]
9点1氪|被订书钉损坏的Switch 2拍出179万天价;239亿深圳地王或被三折贱卖;市场监管总局约谈外卖平台要求理性竞争
36氪· 2025-07-19 00:47
上市动态 - 双林股份拟发行H股股票并在香港联交所主板挂牌上市 [1] - 宇树科技开启上市辅导 控股股东王兴兴直接持股23.8216% 通过有限合伙控制10.9414% 合计控制34.7630%股权 [2] 大公司动向 - 世茂集团深圳龙岗地王项目或被三折贱卖 12宗土地收储补偿68亿元 较239亿元拿地成本折价71.5% [4] - 茶颜悦色因零食包装涉嫌侵权方大同专辑封面致歉并下架产品 [5][6] - 字节跳动新加坡办公室食物中毒事件宣判 涉事餐饮公司云海肴被罚7000新加坡元(约3.9万元)并关停团餐业务 [6] - 良品铺子回应"一股两卖"争议 武汉国资委拟29.99%控股 但18.01%股份转让方宁波汉意19.89%股权被冻结 [11] - 雷军陪同比亚迪王传福参观小米汽车工厂 比亚迪为小米SU7核心电池供应商 [7][8] 消费品与科技 - 百事可乐回应配方变更 称可根据需求使用蔗糖 并计划推出不含人工色素香精的乐事/多力多滋产品 [7] - 苹果iOS26将升级智绘表情功能 支持自定义人物表情和身体特征 [14] - iPhone17 Pro曝光4种配色 包括橙色铝合金中框设计 [18] 医药健康 - 征祥医药自主研发流感抗病毒药玛硒洛沙韦片获批上市 对甲乙型流感病毒及禽流感病毒均有效 [8][9] - 凯米生物完成1.7亿元Pre-A轮融资 资金将用于前列腺癌/乙肝治疗性疫苗临床开发 [17] 人工智能与投融资 - 商务部部长王文涛会见英伟达CEO黄仁勋 强调中国开放政策 英伟达表态深化AI领域合作 [12] - Meta从苹果挖角两名AI研究人员 Mark Lee和Tom Gunter加入超级智能实验室团队 [14] - Anthropic计划新一轮融资 估值或超1000亿美元 [14] - 粒界科技完成千万美元B3轮融资 由比亚迪等领投 资金用于3D引擎AI化升级及具身智能研发 [15] - 香港虚拟保险公司保泰人寿获7000万美元C轮融资 永明金融领投 [18] 航空与物流 - 春秋航空澄清"飞机起飞后砸向地面"报道不实 涉事航班因机械故障滑回候机楼 [10] - 顺丰快递员变卖客户107万元油卡 公司仅同意按保价赔偿2500元 客户已提起诉讼 [10][11]
AI端侧深度之智能驾驶(上):技术范式迭代打开性能上限,竞争、监管、应用加速高阶智驾落地
中银国际· 2025-07-18 06:40
报告行业投资评级 - 行业评级为强于大市 [1] - 水晶光电评级为买入 [1] - 隆利科技评级为买入 [1] - 瑞芯微评级为增持 [1] 报告的核心观点 - 智能驾驶有望成为物理 AI 率先落地的场景,带动产业链企业投资机遇 [1] - 技术范式迭代为高阶智驾奠定基础,变更行业竞争壁垒 [3][5] - 车企竞争、监管政策、商业应用推动高级智驾发展,L3 级乘用车落地在即、L4 级商用车初现曙光 [3][5] - 中国汽车零部件和布局汽车业务的消费电子企业为代表的供应链,将深度受益高阶智驾渗透率提升趋势 [5][168] 根据相关目录分别进行总结 智能驾驶是物理 AI 率先实现的场景,发展节奏迎加速 - 智能驾驶可提供“解放精力、减少事故”价值,城区 NOA 有望加速渗透 [13][20] - 因成熟度、需求量、政策支持力度等因素,智驾有望成为物理 AI 率先落地的场景 [27] - 高阶智驾落地面临挑战,责任认定成为主要难点 [33] 技术篇:技术范式演进为高阶智驾奠定基础,行业壁垒急剧切换 - 架构升级,端到端架构具备数据驱动/全局优化优势,替代模块化架构成为主流 [36][37] - 范式演进,从规则驱动走向数据驱动/知识驱动,数据/算力/模型成为车企竞争壁垒 [60] - 未来展望,世界模型 + 纯强化学习或成 L4 级智驾的方案,竞争壁垒或变成世界模型精度 [82] - 案例,从理想 MINDVLA 模型架构、训推过程看智驾技术落地的最近进展 [97] 商业篇:竞争、监管、应用同时加速,L3 落地在即、L4 初现曙光 - 商业竞争,智驾成为车企品牌的核心差异化,平权和升规同时加速渗透 [126] - 政策监管,全球智驾政策从试点转向推广应用,国内首次放开 L3 级乘用车上路 [137] - 应用落地,L3 级智驾商业模式逐渐成熟,L4 级 ROBOX 落地节奏加快 [154] - 投资建议,建议关注地平线机器人 -W、黑芝麻智能、瑞芯微等企业 [168]
入职小米两个月了,还没摸过算法代码。。。
自动驾驶之心· 2025-07-16 08:46
自动驾驶行业趋势与职业发展 - 自动驾驶行业当前处于快速发展阶段,大模型与端到端技术成为核心方向[4][6] - 小米汽车在自动驾驶领域势头强劲,虽薪资水平中等但短期发展潜力较大[7] - 医学图像与工业检测领域技术门槛低于自动驾驶,可作为从业者备选方向[6] 求职与技能提升策略 - 实习经历需适当包装,重点突出与目标岗位相关的技术亮点[3][6] - 建议利用公司资源补充自动驾驶算法实践经验(如BEV、端到端),同时学习VLA、SFT等技术[6] - 需同步准备秋招与实习转正,多offer可增强薪资谈判能力[5][6] 技术研究方向与资源 - 视觉大语言模型、世界模型、扩散模型和端到端自动驾驶为四大前沿方向[10] - 自动驾驶数据集覆盖2D/3D目标检测、语义分割、轨迹预测等任务,包括NuScenes、BDD100K等主流数据集[25][26] - 扩散模型在自动驾驶中应用于场景生成、3D补全等任务,如DriveDreamer、MagicDriveDiT等创新方法[43] 社区与学习平台 - 知识星球提供自动驾驶课程、硬件资料及招聘信息,已形成学术-产品-就业闭环生态[8][62] - 社区目标3年内聚集万人规模,现有华为天才少年及领域专家入驻[8] - 会员可获取5000+干货内容、100+场行业直播及求职咨询等权益[62] 端到端自动驾驶进展 - 开源仓库收录E2E驾驶最新研究成果,涵盖感知、预测、规划全流程[45][49] - 特斯拉FSD验证了端到端模型可行性,但开环评估仍存争议[49] - 典型方法包括DriveGPT4(大模型驱动)、VADv2(概率规划)等[52][55]