Workflow
自动驾驶VLM模型
icon
搜索文档
自动驾驶中有“纯血VLA"吗?盘点自动驾驶VLM到底能起到哪些作用~
自动驾驶之心· 2025-09-06 16:05
视觉语言自动驾驶模型技术实现 - 模型支持不同数量相机输入 无需明确指定相机数量[2] - 轨迹输出采用文本形式 通过Prompt限制为XY坐标格式[4] - 输出坐标为车辆坐标系相对值 原点为(0,0) 非图像坐标[6] - 使用Python编程进行轨迹格式规范化处理 确保输出符合预期[8] - 通过JSON格式和关键词约束优化未经训练模型的输出效果[9] 数据集构建与处理 - 遇到坐标异常问题 连续多帧坐标相同后出现突变[14] - 不同数据集存在坐标格式差异 包括经纬度与相对坐标[14] - 通过规则化方法剔除不合理轨迹数据[14] - 统一转换为自车坐标系下的相对位移进行数据对齐[18] - 输入为图像和前1.5秒轨迹点 输出未来5秒轨迹点[20] 模型训练与性能 - 经过数据训练后模型输出格式符合性显著提升[8] - 通过QA训练获得多模态轨迹预测和场景理解能力[11] - 具备动态物体轨迹预测能力 包括车辆行人运动预测[11] - 新增端到端预测任务确保数据完整性[20] 社区资源与技术覆盖 - 知识星球涵盖40+技术方向包括多模态大模型和端到端自动驾驶[22] - 社区成员来自头部自驾公司和高校实验室 超4000人规模[24] - 提供近40个技术路线图和学习入门路线[24] - 包含自动驾驶数据集汇总与仿真工具资源[27] - 建立与多家自动驾驶公司的岗位内推机制[29]