Workflow
扩散模型
icon
搜索文档
OpenAI宋飏被Meta挖跑了,扩散模型崛起关键人物,加入MSL再会师清华校友赵晟佳
36氪· 2025-09-26 03:19
这次是——宋飏(Yang Song)! 宋飏,何许人也? 最新消息,扎克伯格再次从OpenAI重磅挖角了一名华人研究员。 16岁裸分上清华的少年天才,扩散模型崛起&攻克扩散模型短板的关键贡献者之一,OpenAI战略探索团队的带队人。 这次是真的要用"震惊"来表达我内心的感受了(吃惊脸.jpg)…… 翻看他本人在上的最新一篇推文,还是上个月因GPT-OSS而激动。 现在再听闻他的消息,已经是宋飏于本月初转会至Meta的MSL旗下,向MSL首席科学家赵晟佳汇报。 他被撬动这件事,咱听到后脱口而出一句"震惊"真不是夸张,而且相信大部分人听到这个消息几乎第一反应都这样。 业内人士称他是Meta从OpenAI挖来的最强大脑之一,还说"很多OpenAI的朋友得知他离开,都惊呆了"。 Meta前前后后不停歇挖来的这么多牛人,他们到底看中的是什么? 有网友评价道,他们并非纯粹为了金钱利益,"一旦你达到一定的财富水平,金钱就不再驱动你的决策"——尤其是对于那些在OpenAI工作了3年以上的员 工来说。 宋飏于2022年博士毕业后加入OpenAI,担任研究科学家,至今3年零2个月。 他的核心研究方向是提升模型处理大规模、复杂、多 ...
OpenAI宋飏被Meta挖跑了!扩散模型崛起关键人物,加入MSL再会师清华校友赵晟佳
量子位· 2025-09-25 13:00
衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 最新消息,扎克伯格再次从OpenAI重磅挖角了一名华人研究员。 这次是—— 宋飏 (Yang Song) ! 宋飏,何许人也? 16岁裸分上清华的少年天才,扩散模型崛起&攻克扩散模型短板的关键贡献者之一,OpenAI战略探索团队的带队人。 这次是真的要用"震惊"来表达我内心的感受了 (吃惊脸.jpg) …… 翻看他本人在上的最新一篇推文,还是上个月因GPT-OSS而激动。 现在再听闻他的消息,已经是宋飏 于本月初转会至Meta的MSL旗下,向MSL首席科学家赵晟佳汇报。 他被撬动这件事,咱听到后脱口而出一句"震惊"真不是夸张,而且相信大部分人听到这个消息几乎第一反应都这样。 业内人士称他是Meta从OpenAI挖来的最强大脑之一,还说"很多OpenAI的朋友得知他离开,都惊呆了"。 Meta前前后后不停歇挖来的这么多牛人,他们到底看中的是什么? 有网友评价道, 他们并非纯粹为了金钱利益 ,"一旦你达到一定的财富水平,金钱就不再驱动你的决策"——尤其是对于那些在OpenAI工作了 3年以上的员工来说。 持续攻克扩散模型短板 宋飏于2022年博士毕业后加入Op ...
都在聊轨迹预测,到底如何与自动驾驶结合?
自动驾驶之心· 2025-08-16 00:03
扩散模型在自动驾驶领域的应用综述 - 扩散模型凭借强大的多模态建模能力,能够从复杂数据分布中生成多样性强、符合物理约束的结果,为自动驾驶系统提供新的解决方案 [2] - 该技术可显著提升数据多样性、增强感知系统鲁棒性,并有效辅助决策模块处理各类不确定性,已成为自动驾驶基础模型重要的一环 [3] 感知与三维占用预测 - 基于扩散模型的三维占用预测方法显著优于传统判别方法,尤其在处理遮挡或低可见度区域时表现突出,生成的占用特征能有效支持下游规划任务 [5] - 条件扩散模型被应用于驾驶场景的精准图像翻译,帮助系统更好地理解和适应各种道路环境 [5] 预测与决策应用 - 稳定扩散模型可高效完成车辆轨迹预测任务,生成高精度的其他车辆运动轨迹预测结果,显著提升自动驾驶系统的预测能力 [5] - DiffusionDrive框架利用扩散模型对多模态动作分布的建模能力,通过多模态锚点和截断的扩散机制处理驾驶决策中的不确定性,实现了端到端自动驾驶的创新应用 [5] 数据生成与合成 - 扩散模型有效解决了自然驾驶数据集多样性不足、真实性与可控性受限的难题,为自动驾驶验证提供高质量合成数据 [5] - 可控生成技术对解决3D数据标注挑战尤为重要,未来还将探索视频生成以进一步提升数据质量 [5] 驾驶场景生成技术 - 双条件时间扩散模型(DcTDM)通过引导帧转换结合双条件来增强时间一致性,能够生成长达40秒、节奏一致且连贯的驾驶视频 [7] - 该模型在一致性和帧质量方面性能优于其他视频扩散模型,提高了25%以上 [7] - LD-Scene框架融合大语言模型与潜在扩散模型,通过自然语言实现用户可控的对抗性场景生成,支持对碰撞类型与强度等对抗行为的细粒度控制 [11] 多视角场景生成 - DualDiff双分支条件扩散模型引入占用射线采样(ORS)作为语义丰富的3D表示,结合数值驾驶场景表示实现全面的前景与背景控制 [14] - 该模型在FID分数上达到最先进水平,并在下游的BEV分割和3D目标检测任务中取得更优结果 [14][17] - DiVE基于扩散Transformer的生成框架专门设计用于生成高保真、时间连贯且跨视图一致的多视图视频,能够与鸟瞰图布局和文本描述无缝对齐 [19][22] 交通仿真与场景生成 - DriveGen基于大模型的新型交通仿真框架可生成多样化交通场景并支持定制化设计,包含LLM生成地图及车辆资产的初始化阶段和VLM选取路径点目标的推理阶段 [26][27] - Scenario Dreamer是一种完全数据驱动的自动驾驶规划生成仿真器,其核心是新颖的向量化潜在扩散模型,以约2倍更少的参数、6倍更低的生成延迟实现优于最强基线的生成质量 [28][33] 视频生成与质量控制 - DualDiff+引入奖励引导扩散(RGD)框架维持生成视频的全局一致性和语义连贯性,在NuScenes数据集上将FID分数降低4.09% [34][36] - 在下游任务中,车辆mIoU提升4.50%,道路mIoU提升1.70%,前景mAP提高1.46% [34] 安全关键场景生成 - AVD2事故视频扩散描述框架通过生成与详细自然语言描述及推理对齐的事故视频,增强事故场景理解能力 [39][42] - CCDiff因果组合扩散模型识别智能体间的潜在因果结构并融入场景编码器,提升生成场景的真实性,在碰撞率、偏离道路率等关键指标上展示改进的闭环性能 [44][48] 可控生成与优化技术 - 多引导扩散模型采用直接偏好优化(DPO)算法进行微调,基于引导分数优化偏好,有效应对引导采样微调过程中的复杂性和挑战 [51][52] - SceneDiffuser分摊扩散仿真技术将去噪计算成本分摊至未来仿真步骤中,显著降低单步推演成本(推理步数减少16倍),同时缓解闭环误差 [55][58] 道路场景生成 - DiffRoad扩散模型通过逆向去噪过程从白噪声中合成道路布局,保留真实世界的空间特征,设计的Road-UNet架构优化主干网络和跳跃连接之间的平衡 [59][62] - 该模型能够生成真实且平滑的道路结构,同时保持原始分布特性,生成的场景可以完全自动化转换为OpenDRIVE格式 [61][62] 评估与验证应用 - 基于扩散模型的方法通过融合行为复杂性和交通密度的对抗性引导函数,增强更有效、更真实的安全关键交通场景的生成 [65][67] - AdvDiffuser基于引导扩散的对抗性框架结合扩散模型捕捉背景车辆的合理群体行为,并利用轻量级引导模型有效处理对抗场景,提升可迁移性 [68][71] 系统性能与效率 - SLEDGE基于真实驾驶日志训练的生成式仿真器需要生成的实体具有独特属性,结合对现有车道图表示的系统研究,引入新颖的光栅到矢量的自编码器 [75][76] - 该仿真器支持500米长的路线,使2023年nuPlan挑战赛获胜者PDM的失败率超过40%,所需存储空间减少500倍(<4 GB) [76] 行为仿真与生成 - 通用行为扩散(VBD)框架利用扩散生成模型在闭环环境中预测场景一致且可控的多智能体交互,在Waymo仿真智能体基准测试中实现最先进的性能 [83][84] - 该框架通过基于行为先验和模型优化目标的多步细化,支持推理时的场景编辑,满足各种交通仿真应用中的广泛用户需求 [83] 图像与视频生成 - GenDDS基于隐扩散模型Stable Diffusion XL的驾驶场景生成方法,通过描述性提示引导合成过程,生成逼真且多样化的驾驶场景 [85][88] - GEODIFFUSION将各种几何条件转换为文本提示,赋能预训练的文本到图像扩散模型进行高质量检测数据生成,性能优于先前的L2I方法且训练时间快4倍 [95][96] 街景图像生成 - Text2Street框架通过三阶段实现可控生成:车道感知道路拓扑生成器、基于位置的目标布局生成器和多控制图像生成器 [100][102] - 在nuScenes数据集上显著优于Stable Diffusion等模型,车道计数准确率提升14.91%,目标计数准确率提升16.5% [101][103] 全景视频生成 - Panacea方法生成驾驶场景中的全景可控视频,产生无限量多样化的标注样本,融合新型4D注意力机制与两阶段生成流程以维持一致性 [104][106] - 通过ControlNet框架实现对鸟瞰图布局的精细化控制,能高效生成高质量多视角驾驶场景视频 [104] 布局引导生成 - DrivingDiffusion时空一致的扩散框架用于生成由3D布局控制的真实多视角视频,通过级联多视角单帧图像生成、多摄像头共享的单视角视频生成和后处理步骤解决问题 [119][121] - 该模型在复杂城市场景中生成大规模真实多摄像头驾驶视频,为下游驾驶任务提供支持 [119] 几何控制生成 - MagicDrive街景生成框架通过定制化编码策略融合相机位姿、道路地图、3D包围盒及文本描述,实现多样化3D几何控制 [124][125] - 与现有方法相比,通过分离前景与背景编码避免了BEV投影导致的几何信息丢失,同时支持天气、时间等场景属性控制 [125][128] 场景生成与验证 - DriveSceneGen数据驱动的驾驶场景生成方法从真实驾驶数据集学习并从零开始生成完整的动态驾驶场景,能够以高保真度和多样性生成与真实世界数据分布一致的新型驾驶场景 [128][129] - 在5000个生成场景上的实验结果突显了与真实世界数据集相比的生成质量、多样性和可扩展性 [129] 控制生成技术 - BEVControl两阶段生成方法可精确控制前景与背景内容,支持草图式输入便于人工编辑,在前景分割mIoU上显著超越当前最优方法BEVGen(5.89→26.80) [134][135] - 使用其生成图像训练下游感知模型,NDS指标平均提升1.29 [134] 安全评估生成 - DiffScene基于扩散的安全关键场景生成方法利用扩散模型近似低密度空间分布的能力,设计了多个对抗性优化目标指导扩散生成 [138][139] - 与6个最先进的基线方法相比,生成的场景在3个指标上更具安全关键性,在5个距离函数上更真实,对不同自动驾驶算法更具可转移性 [138] 交通仿真生成 - 场景扩散(Scene Diffusion)系统结合扩散模型与目标检测,直接生成具有现实性和物理合理性的智能体离散边界框布局,能够适应美国不同的地区并捕捉每个地区的复杂特征 [141][144] - 可控交通生成(CTG)条件扩散模型允许用户在测试时控制轨迹的期望属性,同时通过强制动力学保持逼真性和物理可行性 [145][148]
一文尽览!扩散模型在自动驾驶基础模型中的应用汇总,30+工作都在这里了~
自动驾驶之心· 2025-07-31 23:33
扩散模型在自动驾驶领域的应用 - 扩散模型凭借多模态建模能力,能从复杂数据分布中生成多样性强、符合物理约束的结果,为自动驾驶系统提供新解决方案 [2] - 在自动驾驶领域可显著提升数据多样性、增强感知系统鲁棒性,并有效辅助决策模块处理各类不确定性 [3] - 已成为自动驾驶基础模型重要一环,包括提升三维占用预测精度、驾驶场景精准图像翻译、车辆轨迹预测等核心功能 [3][4] 关键技术突破 - 双条件时间扩散模型(DcTDM)通过引导帧转换结合双条件增强时间一致性,生成长达40秒的连贯驾驶视频,性能优于其他模型25%以上 [3] - DriveSceneDDM数据集包含文本场景描述、密集深度图和坎尼边缘数据,为长时间驾驶视频生成提供全面支持 [3] - 扩散模型在三维占用预测中显著优于传统方法,尤其在处理遮挡或低可见度区域表现突出 [4] 多模态数据生成 - 扩散模型有效解决自然驾驶数据集多样性不足问题,为自动驾驶验证提供高质量合成数据 [4] - 可控生成技术对解决3D数据标注挑战尤为重要,未来将探索视频生成进一步提升数据质量 [4] - 条件扩散模型应用于驾驶场景精准图像翻译,帮助系统更好理解和适应各种道路环境 [4] 感知与决策优化 - 稳定扩散模型可高效完成车辆轨迹预测任务,生成高精度运动轨迹预测结果 [4] - DiffusionDrive框架利用扩散模型对多模态动作分布的建模能力,实现端到端自动驾驶创新应用 [4] - 通过多模态锚点和截断扩散机制处理驾驶决策中的不确定性 [4] 行业研究进展 - 东北大学提出的DcTDM模型在ICRA2025中稿,展示扩散模型在长时间驾驶视频生成的突破 [3][5] - 香港科技大学等机构提出LD-Scene框架,融合大语言模型与潜在扩散模型实现用户可控对抗性场景生成 [9] - 西安交通大学团队开发DualDiff模型,在FID分数上达到最先进水平,BEV分割任务性能显著提升 [15][18]
研一结束了,还什么都不太懂。。。
自动驾驶之心· 2025-07-24 06:46
自动驾驶行业技术趋势 - 自动驾驶技术栈趋同,端到端VLA、世界模型等前沿方向成为行业热点 [3][4] - 传统规控仍有岗位需求,但需升级技术栈以适应大模型时代 [3][4] - 低算力环境下实现成果的策略和实践案例受到关注 [6] 自动驾驶技术社区 - 自动驾驶之心知识星球已成为国内最大智驾技术社区,聚集近4000名成员 [11] - 社区覆盖30+自动驾驶技术学习路线,包含VLM、世界模型、端到端等前沿方向 [11][13] - 与数十家自动驾驶公司建立1v1内推渠道,简历直达 [11] 视觉语言模型(VLM)研究 - VLM预训练数据集规模从百万级(COCO)到十亿级(LAION5B)不等 [20] - VLM评估涵盖图像分类、文本检索、行为识别等多任务 [21][22][23] - VLM在自动驾驶中的应用包括感知理解、定位规划和决策控制 [29][30][31] 端到端自动驾驶 - 端到端方法整合感知、预测、规划模块,提高系统效率 [32] - 世界模型在端到端驾驶中实现场景理解和未来预测的统一 [34][35] - 扩散模型用于轨迹生成和场景合成,提升驾驶安全性 [37][38] 自动驾驶数据集 - 主流数据集包括KITTI、Cityscapes、nuScenes等,覆盖2D/3D检测、分割等任务 [26] - 语言增强数据集推动VLM在自动驾驶中的应用 [27] - 智能交通领域数据集支持语言引导的车辆检索和VQA任务 [28] 技术社区资源 - 知识星球提供四大板块:前沿技术、技术分类、学术直播、求职资料 [13] - 社区汇总近百个自动驾驶数据集和20+标注工具 [70] - 每周1-2场行业专家直播,年计划100场左右 [72]
ASIC,大救星!
半导体行业观察· 2025-07-20 04:06
计算危机与AI需求 - AI应用的快速扩展显著增加了对计算基础设施的需求,暴露了基础硬件范式中的关键限制[2] - 数据中心是AI操作的核心,2023年消耗约200太瓦时电力,预计2026年增至260太瓦时,占美国总电力需求约6%[3] - 前沿AI模型训练成本急剧上升,预计2027年最大规模训练运行成本将超过10亿美元[5] - 晶体管尺寸缩小到纳米级,摩尔定律和丹纳德定律正达到极限,导致更高功率密度和加热问题[5] 基于物理的ASIC解决方案 - 基于物理的ASIC直接利用物理动力学进行计算,而非强制实现理想化的数字抽象[1] - 通过放宽传统ASIC的无状态性、单向性、决定性和同步性约束,显著提升能源效率和计算吞吐量[1][12] - 传统ASIC中标量乘法需几十到几百个晶体管,而基于物理的ASIC仅需少量组件[14] - 基于物理的ASIC可加速AI应用如扩散模型、采样、优化和神经网络推理,以及材料和分子科学模拟[1] 性能优势与设计策略 - 基于物理的ASIC通过放宽设计约束可节省功率和能量成本[20] - 采用自上而下与自下而上相结合的设计策略,最大化应用算法与硬件结构之间的匹配[22][24] - 定义运行时间和能量消耗比率RT(ℓ)和RE(ℓ)作为性能指标,当任一比率大于1时认为算法在硬件上高效[27] - 阿姆达尔法则对使用ASIC所能获得的性能提升设定了限制,需考虑算法中可加速部分的比例[29] 应用领域 - 人工神经网络特别适合通过专用模拟硬件加速,因其对噪声具有极强抗性和重复操作特性[40][41] - 扩散模型与非平衡热力学有深刻联系,基于物理的ASIC可利用硅中自然发生的随机性高效运行[42] - 采样和优化问题可通过基于物理的ASIC更高效解决,如使用Ising机和热力学计算[43][44] - 科学模拟和模拟数据分析是基于物理的ASIC的直观应用,可加速材料发现和分子动力学模拟[45][46] 发展路线图 - 第一阶段需展示基于物理的ASIC在关键工作负载上优于传统CPU或GPU的性能[49] - 第二阶段需解决可扩展性问题,如采用基于tile的层级结构和可重构交互项设计[53][54] - 最终阶段需将基于物理的ASIC集成到异构系统中,并开发标准软件抽象如PyTorch和JAX支持[56][57] - 光学神经网络在执行标量乘法时能效比传统方法具有根本性优势,模拟Ising机能耗比CPU低1-2个数量级[51]
自动驾驶圆桌论坛 | 聊聊自动驾驶上半年都发生了啥?
自动驾驶之心· 2025-07-14 11:30
技术路线与量产现状 - BEV感知方案已成为行业主流量产选择 完全替代传统单目/双目检测方案 但在corner case(如非结构化道路、复杂路口)上仍有明显短板 [11][36] - 特斯拉引领的纯视觉BEV+Occ环境建模方式已获行业验证 但3DGS等新型表征方式正在探索中 [2][52] - 端到端方案(E2E)尚未展现显著优势 数据收集难度和训练成本高于传统两阶段模型 目前更多停留在PR层面 [4][48] 新兴技术方向 - VLA/VLM成为2025年焦点技术 通过语言模型提升corner case处理能力 但存在落地真实性存疑、学术界与工业界数据壁垒等问题 [5][20][45] - 扩散模型在轨迹生成中展现多模态优势 但实时性仍是量产挑战 CVPR2025的DiffusionDrive已取得进展 [17][39] - 世界模型主要应用于仿真数据生成 预训练和端侧推理仍待突破 部分厂商宣传存在夸大 [50][52] - 强化学习受限于仿真精度与安全性要求 在自动驾驶领域尚未规模化应用 但长期潜力被看好 [7][47][51] 行业痛点与突破方向 - 长尾场景处理需解决三大核心问题:VLA在corner case的实证数据不足、车端算力与模型效率的平衡、模仿学习的天花板突破 [5][6][7] - 数据闭环能力成为竞争关键 需构建自动化标注+仿真验证的高效流水线 头部企业已布局AI驱动的数据运营体系 [28][33] - 芯片算力限制导致技术分层:Orin-X支持多模态LLM处理复杂城区场景 而J6M等中低端芯片仅能支撑纯视觉高速NOA [40][45] 未来趋势与竞争格局 - 技术路线呈现分化:L2+方案侧重VLA泛化性提升 L4方案聚焦世界模型构建安全验证体系 [25] - 3D高斯与毫米波雷达应用被忽视 前者可发展为世界模型表征 后者存在技术空白 [52] - 行业进入"智驾平权"阶段 地平线征程6等芯片推动辅助驾驶普及 但平价车型仍受限于corner case处理能力 [36][39] - 中心化智能成为长期方向 从单车智能向V2X+云端协同演进 [47] 技术迁移与跨领域应用 - 自动驾驶与具身智能技术高度互通 VLA时代下两者在安全场景与灵活场景形成互补 [33] - 舱驾一体化成为新探索方向 结合语音与OS系统提升用户体验 [43] - 知识体系需保持可迁移性 避免过度专业化导致转行障碍 [52]
学长让我最近多了解些技术栈,不然秋招难度比较大。。。。
自动驾驶之心· 2025-07-10 10:05
自动驾驶行业技术趋势 - 自动驾驶技术快速迭代,算法工程师需掌握BEV、世界模型、扩散模型等复合型技能[2] - 企业招聘偏好复合型人才,要求覆盖传感器标定、数据处理、模型训练到部署全流程[3] - 前沿技术如端到端、VLA、强化学习等岗位需求增加,但量产仍以数据、检测、OCC等基础工作为主[2][3] 知识星球核心资源 - 提供价值千元的入门视频教程,涵盖世界模型、Transformer等前沿技术论文解读[3] - 未来将新增相机标定、多模态融合、大模型等课程,全部免费向会员开放[5] - 社区已吸引华为天才少年等专家加入,形成学术+产品+招聘的闭环生态[5] 四大前沿技术方向资源 视觉大语言模型 - 汇总10+开源项目,包括智能交通LLM应用、AIGC、视觉语言模型综述及提示学习方法[7] - 提供37.6M多语言Wikipedia图文数据集及12B规模的WebLI预训练数据[13] 世界模型 - 收录16项研究成果,如Meta的导航世界模型(NVM)、InfinityDrive泛化模型及DriveWorld 4D场景理解[27][28] - 聚焦视频生成与场景重建技术,如DriveDreamer-2支持定制化驾驶视频生成[28] 扩散模型 - 整合22篇权威综述,覆盖3D视觉、视频编辑、推荐系统等应用领域[30] - 自动驾驶领域应用包括Drive-1-to-3实车合成、MagicDriveDiT长视频生成等9项创新工作[31] 端到端自动驾驶 - 收录50+里程碑方法,如EfficientFuser高效融合框架、nuScenes开环SOTA模型UAD[37][39] - 开源仓库包含Opendilab和Pranav-chib整理的端到端驾驶方法全集[33] 数据集与评估体系 - 预训练数据集规模最大达12B(LAION5B),覆盖108种语言[13] - 自动驾驶专用数据集包括NuScenes(1200类)、Waymo Open Dataset(多任务)等19类[19][20] - 评估指标涵盖mAP(目标检测)、mIoU(语义分割)、Recall(图像检索)等标准化体系[14][17][18] 技术应用场景 智能交通 - 语言引导车辆检索系统采用多粒度检索技术,2023年新增3种统一多模态结构[21] 自动驾驶系统 - 感知模块集成VLPD行人检测、Language-Guided 3D检测等6项创新算法[22] - 规划控制领域应用GPT-Driver轨迹预测、DRIVEVLM多模态融合等5种解决方案[23][24] 行业生态发展 - 社区目标3年内建成万人规模的智能驾驶&具身智能社群[5] - 会员权益包含5000+干货内容、100+场直播回放及求职咨询等7项专属服务[51]
元宇宙数字人技术新飞跃:交互、感知与虚拟现实的全面升级
搜狐财经· 2025-07-10 02:22
人工智能与数字人技术融合 - 生成式AI技术如GPT系列及扩散模型显著提升数字人交互能力和形象逼真度 [1] - 语音合成、表情驱动及实时渲染技术使数字人活跃于直播、客服等动态场景 [1] - 数字人自主学习与情感感知能力持续提升 通过深度学习算法提供个性化服务 [1] 虚拟现实与多模态交互技术 - VR设备为数字人带来真实感和立体感 提升用户沉浸感 [3] - 多模态交互技术融合语音识别、自然语言处理 实现更自然便捷的人机交互 [3] - 数字人在直播、客服场景表现优异 赢得用户广泛好评 [3] 大数据分析与硬件配套升级 - 大数据分析提供精准用户画像 助力数字人优化服务和直播内容 [3] - 5G、云渲染、VR/AR设备为数字人创造低延迟高沉浸应用环境 [3] - 脑机接口技术潜力巨大 未来或拓展数字人交互方式与应用场景 [3]
最近,一些自驾公司疯狂往一线『输送』人才。。。
自动驾驶之心· 2025-06-26 12:56
自动驾驶行业现状 - 多家自动驾驶公司面临营收压力,开始裁员或将研发人员转岗至销售一线[2][3] - 部分公司对入职不足1年的校招生也采取了裁员措施[2] - 行业普遍存在"输出一线"策略,即将研发人员转岗销售,这被视为变相裁员手段[3] - 下半年新车集中发布,若销量不及预期可能引发新一轮裁员潮[4] 行业人才发展建议 - 被裁人员应专注技术积累期,避免急于求职造成心理压力[6] - 建议利用空窗期学习新技术栈,关注市场需求旺盛的岗位方向[6] - 转岗销售一线的技术人员建议骑驴找马,利用在职时间准备跳槽[7] - 行业提供内推渠道帮助技术人员对接合适岗位[7] 自动驾驶技术前沿 - 视觉大语言模型领域涌现多篇CVPR 2024论文,涵盖预训练、迁移学习等方向[15][16] - 世界模型在自动驾驶中的应用成为研究热点,2024-2025年有多篇相关论文发表[33][34] - 扩散模型在自动驾驶视频生成、3D视觉等领域应用广泛,已有20+篇综述论文[36][38] - 端到端自动驾驶成为主流研究方向,两大GitHub仓库汇总了最新研究成果[43][46] 自动驾驶数据集 - 视觉语言预训练数据集规模从1M到12B不等,涵盖多语言场景[19] - 自动驾驶专用数据集包括KITTI、Cityscapes、nuScenes等,涵盖2D/3D目标检测等任务[25] - 语言增强的自动驾驶数据集聚焦视觉-语言导航、车辆检索等新兴方向[26] - 评估数据集覆盖图像分类、目标检测、语义分割等多项任务[20][23][24] 技术应用领域 - 智能交通领域主要研究语言引导的车辆检索和视觉问答系统[27] - 自动驾驶感知方向聚焦行人检测、3D目标检测等任务[28] - 定位规划领域探索语言引导导航和轨迹预测技术[29] - 决策控制方向研究大语言模型在自动驾驶决策中的应用[30] - 端到端自动驾驶整合感知、预测、规划全流程[31]