自动驾驶之心

搜索文档
InternVL 3.5来了!上海AI Lab最新开源:硬刚 GPT-5 还把效率玩明白
自动驾驶之心· 2025-08-27 23:33
模型发布与性能 - 上海AI Lab推出开源多模态模型InternVL 3.5系列,在通用性、推理能力和推理效率方面显著提升 [2] - 通过级联强化学习(Cascade RL)框架实现更优性能,离线RL阶段确保稳定收敛,在线RL阶段进行精细对齐 [2] - 提出视觉分辨率路由器(ViR)动态调整视觉标记分辨率,结合解耦视觉-语言部署(DvD)方法优化效率 [2] - 在多个基准测试中表现领先,显著缩小与GPT-5等顶级商业模型的性能差距 [2] 模型架构与参数规模 - 模型架构包括动态高分辨率文本分词器、InternViT视觉编码器和视觉-语言连接器 [5] - 采用两阶段训练范式:大规模预训练阶段和多阶段后训练阶段 [5] - 提供多种参数规模版本,从1.1B到241B,包括密集模型和MoE模型 [3] - 最大模型InternVL3.5-241B-A28B总参数量达240.7B,其中视觉参数5.5B,语言参数235.1B [3] 训练方法与数据 - 预训练阶段使用1.16亿个样本,对应约2500亿个标记,纯文本与多模态数据比例约为1:2.5 [7] - 后训练采用三阶段策略:监督微调(SFT)、级联强化学习(Cascade RL)和视觉一致性学习(ViCO) [9] - SFT阶段使用高质量对话数据,包含来自InternVL3的指令遵循数据和"思考"模式下的多模态推理数据 [9] - 测试时扩展(TTS)方法包括深度思考(逐步推理)和并行思考(Best-of-N策略) [11] 多模态推理与数学能力 - 在MMMU基准测试中,InternVL3.5-241B-A28B达到82.7分,显著超越前代产品 [15] - MathVista基准测试中,InternVL3.5-241B-A28B获得63.9分,较InternVL3-1B的18.8分有大幅提升 [15] - 在MathVerse视觉only测试中,InternVL3.5-241B-A28B达到68.5分,相比InternVL3-1B的18.7分进步显著 [15] - 使用并行思考技术后,多个模型的数学推理能力进一步提升 [15] OCR与文档理解 - 在AI2D测试中,InternVL3.5-241B-A28B达到87.3分(无mask)和95.0分(有mask) [17] - DocVQA测试中,InternVL3.5-241B-A28B获得94.9分,优于GPT-4o的92.8分 [17] - OCRBench测试中,InternVL3.5-241B-A28B达到907分,表现优异 [17] - 在TextVQA测试中取得84.5分,超越GPT-4o的77.4分 [17] 多模态理解与幻觉评测 - MMBench V1.1英文测试中,InternVL3.5-241B-A28B获得87.4分 [21] - MMVet测试中达到81.2分,优于GPT-4o的69.1分 [21] - HallusionBench测试中获得77.9分,表现突出 [21] - 综合多模态理解能力在多个基准测试中领先 [21] 具身智能与GUI代理 - 在VSI-Bench测试中,InternVL3.5-241B-A28B达到69.5分,显著优于GPT-4o的34.0分 [29] - GUI代理任务中,ScreenSpot-v2测试获得92.9分,OSWorld-G测试达到53.2分 [27] - WindowsAgentArena测试中取得18.0分,WebArena-Lite-v2测试获得11.7分 [27] - 在具身智能体任务中表现优异,多个测试分数领先 [29] 多语言与视频理解 - 多语言MMBench测试中,英文达到87.6分,中文86.4分,表现均衡 [24] - 视频理解任务中,Video-MME测试达到72.9分(无字幕)和76.0分(有字幕) [25] - MVBench测试获得76.5分,MLVU测试达到78.2分 [25] - 在多语言和多模态视频理解方面表现全面 [24][25]
死磕技术的自动驾驶全栈学习社区,近40+方向技术路线~
自动驾驶之心· 2025-08-27 01:26
社区规模与愿景 - 自动驾驶之心知识星球社区目前拥有超过4000名成员 目标在未来2年内达到近万人规模 [1] - 社区愿景是让AI与自动驾驶技术普及到有需求的用户群体 打造技术交流与分享的聚集地 [1] 社区内容体系 - 社区整合视频 图文 学习路线 问答和求职交流功能 形成综合性自动驾驶社区 [1] - 已梳理近40+技术路线 覆盖端到端自动驾驶 VLA benchmark 多模态大模型等前沿方向 [2][5] - 提供全栈方向学习课程 特别适合零基础初学者快速入门 [7] - 汇总近60+自动驾驶数据集 行业主流仿真平台及各类技术学习路线 [13] 行业资源整合 - 汇集国内外知名高校实验室资源 包括上海交大 清华大学 CMU ETH等顶尖院校 [13] - 覆盖头部企业资源 包括蔚小理 地平线 华为 大疆 英伟达 Momenta等行业领导者 [13] - 建立与多家自动驾驶公司的内推机制 实现简历与岗位的快速对接 [9] 技术专题覆盖 - 深度梳理端到端自动驾驶技术 包含一段式/二段式量产方案及VLA相关算法 [27][32] - 系统整合3DGS与NeRF技术 涵盖算法原理 场景重建与仿真应用 [28] - 详细解析自动驾驶世界模型 包括技术前沿与业界应用实践 [29] - 全面覆盖BEV感知技术 包含纯视觉方案 多模态融合及工程部署方案 [36] 专家网络与互动 - 邀请数十位产业界与学术界一线专家入驻 包括经常出现在顶会和访谈中的行业领袖 [2] - 不定期组织与学术界 工业界大佬的深度对话 探讨技术发展趋势与量产痛点 [4][58] - 已举办超过100场专业技术直播分享 内容可反复观看学习 [53] 实战应用支持 - 提供模型部署优化方案 包括TensorRT模型部署 毫米波雷达融合等实战内容 [6] - 梳理Occupancy Network 轨迹预测 强化学习等关键技术点的产业体系方案 [41] - 针对多传感器融合 在线高精地图等量产关键技术进行深度解析 [39] 学习资源体系 - 汇总自动驾驶与计算机视觉领域经典书籍 涵盖数学基础 深度学习 运动规划等方向 [25] - 整理开源项目资源 覆盖3D目标检测 BEV感知 世界模型等热门领域 [25] - 提供100问系列专题 包括规划控制 BEV感知 相机标定等实用技术问答 [6]
自动驾驶VLA技术交流群成立了(数据/模型/部署等方向)
自动驾驶之心· 2025-08-26 23:32
自动驾驶行业技术交流 - 成立大模型VLA技术交流群 促进VLA相关技术讨论和合作[1] - 交流内容包括VLA数据集制作 一段式VLA 分层VLA 基于大模型的端到端方案 基于VLM+DP的方案 量产落地 求职等[1] - 通过添加小助理微信AIDriver005并备注昵称+VLA加群可加入交流群[1]
理想汽车MoE+Sparse Attention高效结构解析
自动驾驶之心· 2025-08-26 23:32
理想汽车智驾技术架构 - 公司采用"MoE + Sparse Attention"高效结构解决大模型部署时的推理效率问题,通过混合专家架构实现模型容量扩容而不显著增加推理负担[3] - MindGPT大语言模型经过重新设计与预训练,具备3D空间理解和推理能力,但参数量增加导致端侧部署可能出现效率低下问题[3] - 该技术方案针对英伟达Thor-U智驾芯片优化,确保在车载计算平台上的实际应用性能[3] 稀疏注意力机制技术细节 - 采用局部窗口(Local Attention)与跳跃连接(Strided Attention)组合结构,每个token关注附近窗口内token(如前后2个位置)以及步长为s的远端token[9][10] - 注意力矩阵呈现对角线局部连接与分布条纹状跳跃连接相结合的模式,保证token能快速传播到远端同时保留局部建模能力[10][15][16] - 通过构建稀疏注意力mask实现计算优化,在不修改Transformer主体结构前提下限制注意力机制复杂度,仅关注关键输入部分[6][12][14] 混合专家架构实现方案 - 使用8个专家网络(E1-E8),由Router动态选择激活部分专家而非全部,仅在需要时调用相关子模型[6][22] - 采用Top-k路由策略(通常k=2),通过Gate模块计算输入样本对各个专家的偏好程度并选择最优专家[24][32] - 支持分布式部署模式,通过all_to_all通信机制实现跨GPU的专家网络数据交换与负载均衡[34][37] 计算复杂度优化 - 稀疏注意力机制显著降低计算复杂度,相比标准全连接Self-Attention大幅减少计算量[17] - MoE架构通过激活部分专家网络实现计算资源动态分配,在不增加推理成本前提下扩大模型容量[22][25] - 采用专家并行(Expert Parallelism)技术,支持多GPU分布式训练与推理,提升系统整体效率[28][31]
一文尽览!2025年多篇VLA与RL融合的突破方向
自动驾驶之心· 2025-08-26 23:32
好的,我将按照您的要求分析这篇关于机器人具身智能领域VLA与RL融合的研究文章。作为资深分析师,我将从技术突破、性能提升和应用前景三个维度为您解读核心要点。 文章核心观点 2025年机器人具身智能领域正爆发"多模态与自主学习"的融合革命,ICLR、RSS、ICRA、CVPR等顶会集中收录的8篇重磅文献清一色聚焦视觉-语言-动作(VLA)模型与强化学习(RL)的融合,致力于解决机器人在真实场景中的智能决策和精准执行问题[2] 这些研究以VLA模型的多模态理解能力为基石,叠加强化学习的自主优化优势,针对机器人操控和导航中的策略泛化难、动态环境适应差、多模态信息错位等行业瓶颈提出创新解决方案[58] 研究聚焦家居家务、工业装配、机械臂操控等高频应用场景,通过扎实的实验数据验证方法有效性,部分还开放项目代码推动技术落地[58] GRAPE模型研究 - 通过轨迹级VLA对齐、任务阶段分解及灵活时空约束的偏好建模,解决VLA模型泛化差与目标适应性弱的问题[5] - 将最先进VLA模型的域内操作任务成功率提升51.79%,未见操作任务成功率提升58.20%[8] - 在安全性目标下碰撞率降低37.44%,在效率目标下启动步长减少11.15%[8] VLA-RL框架突破 - 构建轨迹级强化学习表达式将操作轨迹转化为多模态多轮对话形式,微调预训练视觉语言模型成为机器人过程奖励模型[13] - 在LIBERO平台的40个挑战性机器人操作任务中使OpenVLA-7B模型性能较当前最强微调基线明显提升[15] - 发现可通过测试时间优化进一步增强性能,为机器人领域存在早期推理扩展规律提供重要迹象[15] ReWiND框架创新 - 基于少量演示预训练语言基奖励函数与策略,通过少在线交互的微调适配未见任务[18] - 奖励模型对未见过任务的泛化能力比基准方法高出2.4倍[21] - 在新任务适应效率上,模拟环境中比基准方法快2倍,真实世界场景下将预训练双手动策略的性能提升5倍[21] ConRFT方法进展 - 采用"离线(行为克隆+Q学习)+在线(一致性策略+人工干预)"两阶段强化微调[24] - 仅需45至90分钟的在线微调时间,模型平均成功率便达到96.3%,较监督学习方法提升144%[29] - 单个回合长度缩短1.9倍,在八项实际操作任务中展现优异性能[29] RLDG方法贡献 - 利用强化学习生成高质量训练数据微调机器人通用策略[33] - 在连接器插入、组装等精确操作任务中,成功率最高提升40%[39] - 性能提升源于数据优化后的动作分布与改进的状态覆盖,实现"通用策略灵活性+专门任务高性能"的结合[39] TGRPO优化方案 - 融合步骤级别与轨迹级别的优势信号,优化GRPO原有的组级优势估计[42] - 在基准测试的十个操作任务中性能始终优于各类基线方法[44] - 能够生成更稳健、高效的操作策略,提升VLA模型微调效果与实际适配能力[44] iRe-VLAd框架特色 - 通过强化学习与监督学习循环迭代的模式优化VLA模型[49] - 有效解决直接应用在线强化学习于VLA模型的训练不稳定与计算负担过重问题[47] - 在两个模拟基准与一个真实世界操作套件的实验中验证有效性[51] RIPT-VLA后训练突破 - 基于稀疏二进制成功奖励,通过动态回放采样与留出部分优势估计算法进行交互式后训练[55] - 使轻量级QueST模型成功率提升21.2%,7B参数的OpenVLA-OFT模型成功率达97.5%的新高[57] - 仅需1次演示即可让SFT模型在15次迭代内达到97%的成功率,计算与数据效率突出[57]
超越OmniRe!中科院DriveSplat:几何增强的神经高斯驾驶场景重建新SOTA
自动驾驶之心· 2025-08-26 23:32
核心观点 - DriveSplat是一种基于神经高斯表示并具有动静态解耦的高质量驾驶场景重建算法 通过区域划分的体素初始化方案和可变形的神经高斯建模 在Waymo和KITTI数据集的新视角合成任务中展现了最先进的性能 [2][14] - 该方法采用近-中-远三个区域划分策略增强近距离细节表示 引入深度和法线先验监督提升几何准确性 训练效率显著优于对比方案(单场景30K迭代仅需68分钟) [2][14][27] - 在Waymo数据集上PSNR达36.08(重建)和34.41(新视角合成) 在KITTI数据集上PSNR达28.59(重建)和24.53(新视角合成) 均超越所有基线模型 [29][32] 技术架构 - 使用八叉树结构初始化背景表示 根据深度范围( , )计算八叉树层数 基础体素大小通过初始体素大小除以2的幂次计算 [16] - 通过主成分分析(PCA)估计主轴 应用高斯混合模型(GMM)获得分割阈值 将场景划分为近、中、远三个区域 近区和中区的体素尺寸被细化以适应密集点分布 [18][19] - 动态参与者通过边界框信息从局部坐标系转换到全局坐标系 非刚性参与者通过形变网络建模神经高斯的时间演化(调整位置、旋转、尺度等属性) [21] 性能表现 - 在Waymo数据集上:PSNR重建指标36.08(优于基线最高35.76) 新视角合成PSNR 34.41(优于基线最高33.46) LPIPS指标0.079(优于基线最低0.093) [29] - 在KITTI数据集上:PSNR重建指标28.59(优于基线最高28.68) 新视角合成PSNR 24.53(优于基线最高22.01) SSIM指标0.895(优于基线最高0.874) [32] - 训练效率显著提升:单场景30K迭代仅需68分钟 对比Desire-GS的180分钟以上 速度提升约62% [27] 算法优化 - 采用SfM+LiDAR组合初始化点云:PSNR达34.41 优于单独使用SfM(33.30)或LiDAR(32.01) [33] - 背景分区优化(BPO)模块提升明显:使用BPO后PSNR从33.82提升至34.41 LPIPS从0.093改善至0.087 [36] - 几何先验监督有效:使用相对深度监督时PSNR达34.41(绝对深度监督为33.23) 法线监督使余弦相似度从0.331提升至0.504 [36][37] 动态处理 - 非刚性参与者重建性能突出:添加可变形模块后PSNR从35.26提升至37.93 与结合SMPL的OmniRe(37.26)相比仍具优势 [39] - 动态解耦策略提升明显:未使用动态模块时PSNR仅23.86 添加动态表示后提升至35.26 [39] - 支持多类型点云初始化:包括SfM、LiDAR和稠密DUSt3R输入 其中SfM+LiDAR组合效果最优 [16][33]
英伟达具身机器人“新大脑”即将揭晓
自动驾驶之心· 2025-08-25 23:34
英伟达机器人技术进展 - 英伟达通过社交平台预告2025年8月25日的重要发布 配图为黑色礼盒和签名贺卡 [1] - 预告视频显示黄仁勋向人形机器人赠送贺卡 题词"致机器人:好好享受你的新大脑吧" [3] - 公司在SIGGRAPH顶级会议上发布开源物理AI应用和机器人视觉推理模型Cosmos Reason 该模型使机器人具备人类式推理能力并转化为现实行动 [3] 物理AI技术突破 - 视觉推理模型实现场景化决策 案例中机器人根据"面包+烤面包机"场景推断并执行烘烤动作 [4] - 黄仁勋提出AI技术演进路径:从意识AI到生成式AI 再到代理式AI 最终进入物理AI阶段 [5] - 物理AI定义为具备运动技能的交互模型 可感知和理解现实世界并执行复杂操作 主要载体为机器人和自动驾驶汽车 [5] 市场规模与产业动态 - 英伟达高管预计物理AI将撬动万亿美元级市场 [6] - 国内外企业加速布局:华为/字节/比亚迪/小米/广汽加码具身智能 特斯拉/1X/Figure AI推进商业化量产 [6] - 券商认为DeepSeek公司推动通用机器人大模型发展 人形机器人工业场景应用成为确定性趋势 产业链进入"百花齐放"阶段 [6] 技术社区生态 - 具身智能之心知识星球汇聚近200家公司机构 提供30+学习路线/40+开源项目/60+数据集 [8][9] - 技术交流群覆盖60+方向 包括大模型/VLN/VLA/足式机器人/规划控制等前沿领域 [10]
2025年了,生成和理解多模态大模型发展到哪一步了?
自动驾驶之心· 2025-08-25 23:34
多模态大模型发展趋势 - 文章聚焦于2025年年中前图片理解与图片生成统一的多模态大模型发展,强调技术进展与核心挑战 [1][2] - 研究范围主要限于图片模态,不包括更广泛的多模态(Omini-LLM)方向 [3] 代表性研究工作 - Google的Unified-IO和Unified-IO-2被视为Omini-LLM早期代表 [3] - 阿里OFA、复旦AnyGPT、Meta的CM3Leon和Chameleon及ANOLE、VITA等工作对后续研究有显著影响 [3] 视觉Tokenizer技术路径 - 视觉生成依赖低频特征(如VAE-Based),视觉理解依赖高层语义特征(如CLIP、SigLIP) [17] - 字节TokenFlow采用双视觉Encoder:理解侧用CLIP ViT-B/14-224/ViTaminXL-256/SigLIP-SO400M-patch14-384,生成侧用VQ-GAN结构提取特征 [16][17] - 字节Muse-VL将语义与像素特征在维度侧拼接后经MLP映射再离散量化,语义编码器使用SigLIP系列 [21] - 中山大学与华为SemHiTok通过解耦Codebook实现语义特征重建与像素级重建结合 [21] - 港大UniTok使用单视觉Encoder,通过多codebook量化实现特征对齐 [33][35] - 百川等机构DualToken使用单一视觉Encoder,浅层特征(1-6层)用于重建,深层特征(26层)用于语义对齐 [37][39] - 腾讯TokLIP通过VQGAN Encoder提取特征后,经因果Token编码器得到语义特征,并计算蒸馏与对比损失 [42][44] - 北大、阿里和中科院UniLip将CLIP视觉Encoder改造为统一Tokenizer,并与扩散Transformer结合 [46][47] 模型架构与训练策略 - Meta的meta-query、MetaMorph和Pisces,字节Mogao和BAGEL等探索自回归、自回归+扩散及纯扩散架构 [17] - QLIP采用两阶段训练:第一阶段学习语义特征,第二阶段优化重建质量与高频细节 [28][30] - UniLip训练分三阶段:冻结部分模块训练连接器、联合训练连接器与扩散Transformer、指令微调 [47][49] 量化与特征处理技术 - QLIP使用二进制球量化(BSQ)处理视觉特征 [30] - UniTok采用多codebook量化(MCQ),将特征分为多个子块分别量化,提高codebook利用率 [35] - DualToken使用残差量化(RQ-VAE)处理深层特征 [39]
末9硕双非本,现在有些迷茫。。。
自动驾驶之心· 2025-08-25 23:34
自动驾驶行业技术发展趋势 - 自动驾驶行业仍处于快速发展阶段 技术发展呈现曲折但持续向好的态势[2] - 具身智能和自动驾驶成为两大主流技术方向 具备机器人、规控和车辆技术背景的研究人员在这两个领域都有发展机会[2] - 视觉语言动作模型(VLA)和端到端自动驾驶是技术壁垒更高的方向 这些方向为转向大模型或具身智能领域提供更好基础[2] 自动驾驶技术社区生态 - 自动驾驶之心知识星球是目前国内最大最全的自驾学习平台 集视频、图文、学习路线、问答、求职交流为一体[2] - 社区规模已超过4000人 预期未来2年内达到近万人规模[2] - 社区与近300家机构和自动驾驶公司建立联系 提供产业、产品和求职交流平台[63] 自动驾驶技术资源体系 - 社区梳理了40+技术路线 涵盖行业应用咨询、VLA基准测试、综述和学习入门路线[3] - 汇总了近60+自动驾驶数据集 包括NuScenes、Waymo、KITTI、Lyft L5、Apollo Scape等知名数据集[19][24] - 整理了自动驾驶仿真平台资源 包括14种前端仿真和6种后端仿真工具[24] 自动驾驶人才需求与就业 - 行业对多种算法工程师需求旺盛 包括端到端模型算法工程师、感知模型算法工程师和模型效率优化工程师等[12][13][14] - 模型效率优化岗位要求承担智能驾驶系统AI模型车端推理效率优化 构建模型压缩核心算法[14] - 社区与多家自动驾驶公司建立岗位内推机制 可第一时间将简历送达心仪公司[10] 自动驾驶技术研究热点 - 端到端自动驾驶成为学术界和工业界研究热点 涵盖量产方案、最新综述和里程碑方法[30] - 3DGS和NeRF技术在自动驾驶场景重建与闭环仿真领域应用广泛[31] - 自动驾驶世界模型是当前学术界和工业界关注的重点领域[32] - 视觉语言模型(VLM)在自动驾驶领域应用包括最新综述、开源数据集和思维链推理[34] - 自动驾驶VLA成为2025年最火的技术方向 涵盖开源数据集、语言解释器算法和模块化VLA[36] 自动驾驶技术应用领域 - BEV感知成为量产方案基石 涵盖纯视觉、多模态、多任务和激光雷达等多种方案[41] - 在线高精地图是无图NOA量产方案的核心技术[44] - 多传感器融合技术包括Lidar+Camera、Radar+Camera和多种融合方法汇总[43] - 规划控制技术涵盖传统规划内容基础算法、决策规划框架和常用控制算法[38]
小鹏超视距自动驾驶VLA是如何实现的?
自动驾驶之心· 2025-08-25 23:34
核心观点 - 小鹏汽车团队提出NavigScene数据集和三种方法 连接局部感知和全局导航信息 实现超视距自动驾驶能力[2][3] - 该方法显著提升感知、预测、规划和问答任务性能 增强对陌生场景的泛化能力[3][10] - 技术突破体现在将导航指令(如转向指令、距离信息)与多视角传感器数据融合 模拟人类驾驶员使用导航工具的行为模式[8][9] 数据集构建 - NavigScene基于nuScenes和NAVSIM数据集构建 包含NavigScene-nuScenes和NavigScene-NAVSIM两个子集[9][14] - 通过Google Maps API生成导航视频 使用方向API获取路线、静态地图API获取连续图像、距离矩阵API估算距离和时间[16] - 采用多指标候选选择策略:交叉路口相似度(Sinter)、距离值相似度(Sdist)和词汇相似度(Sword) 权重设置η1>η2>η3确保方向准确性优先[18][19] 技术方法 - 导航引导推理(NSFT):在VLM提示中加入导航指令 使模型同时处理局部视觉线索和全局导航背景[20][23] - 导航引导偏好优化(NPO):扩展DPO方法 通过辅助文本摘要任务建立详细答案与摘要版本间的偏好关系 增强BVR推理能力[24][25] - 导航引导视觉-语言-动作模型(NVLA):通过特征融合MLP将VLM输出与BEV特征维度对齐(从32,000维压缩至256维) 集成到端到端驾驶框架[27] 性能提升 - 在DriveLM评估中:Llama-Adapter的BLEU-4从50.68提升至54.25 METEOR从33.75提升至37.62 ROUGE-L从64.59提升至67.66[30] - 在NuInstruct评估中:感知任务最近物体识别(Clo)从20.4提升至32.2 规划任务从25.7提升至31.2[34] - 端到端驾驶任务:VAD模型检测mAP从0.27提升至0.36 SparseDrive模型mAP从0.42提升至0.46[37] 泛化能力 - 跨城市泛化测试:波士顿→新加坡任务中 VAD+Qwen2.5-7B+NPO使平均L2距离从0.86米降至0.70米 碰撞率从26.83%降至22.55%[51] - 新加坡→波士顿任务中 相同配置使平均L2距离从0.63米降至0.61米 碰撞率从20.44%降至18.46%[51] - NPO技术显著提升系统在不同交通模式和基础设施下的适应能力[52] 行业应用 - 端到端自动驾驶课程涵盖大语言模型、BEV、扩散模型、强化学习等技术模块[57] - 岗位需求显示:VLA/VLM算法专家薪资达40-70K·15薪 量化部署工程师达40-60K·15薪 博士应届生薪资达90-120K·16薪[60] - 行业社区规模近4000人 覆盖300+企业与科研机构 涉及30+技术方向包括端到端自动驾驶、大模型、仿真测试等[66]