Large Model Fine-tuning

搜索文档
基于开源Qwen2.5-VL实现自动驾驶VLM微调
自动驾驶之心· 2025-08-08 16:04
自动驾驶技术框架与模型 - LLaMA Factory是一款开源低代码大模型微调框架,集成业界广泛使用的微调技术,GitHub星标超过4万,成为开源社区最受欢迎的微调框架之一 [3] - 项目基于Qwen2.5-VL-7B-Instruct模型,通过自然语言对话触发自动驾驶辅助功能,并以特定格式返回结果 [3] - Qwen2.5-VL是视觉-语言系列旗舰模型,支持视觉识别、物体定位、文档解析和长视频理解,旗舰型号Qwen2.5-VL-72B性能与GPT-4o和Claude 3.5 Sonnet相当 [4] 数据集与训练 - 使用CoVLA数据集,包含10,000个真实驾驶场景和超过80小时视频,通过自动数据处理生成精确驾驶轨迹和自然语言描述 [5] - 实际训练仅使用400张图片和对应QA问答对,数据量较小 [7] - 微调过程通过Web UI配置参数,训练日志显示loss进度,微调后模型保存在指定路径 [15] 技术应用与效果 - 微调后的模型在回答自动驾驶相关问题时,比原生Qwen2.5-VL-7B-Instruct模型更具参考价值,原始模型存在答非所问的情况 [19] - 测试显示模型能识别天气、道路类型等场景信息,并给出置信度(如多雨天气置信度0.978,宽阔道路置信度0.659) [10] - 模型可评估自动驾驶风险,如识别交通信号灯、其他车辆(置信度0.656)和行人(概率43.064%) [10] 社区与资源 - 自动驾驶之心知识星球拥有近4000人社区,300+自动驾驶公司与科研机构参与,覆盖30+技术栈 [22] - 提供端到端自动驾驶、大模型、BEV感知、轨迹预测等多方向专业课程 [23]