自动驾驶之心 - 财报，业绩电话会，研报，新闻

自动驾驶之心

搜索文档

自动驾驶之心· 2025-07-07 12:17

{ "核心观点": { "模型定位": "快手团队推出8B参数规模的多模态基础模型Kwai Keye-VL，专注于提升短视频理解能力，同时保持通用视觉-语言处理能力[2]", "技术突破": "通过6000亿token的大规模视频数据集和创新的四阶段预训练+两阶段后训练策略实现性能突破[2][4]", "应用价值": "在公开视频基准测试和自建KC-MMBench短视频基准上达到SOTA水平，用户体验优于同规模模型[3]" }, "技术架构": { "数据构建": "数据集总量超6000亿token，侧重视频数据，采用过滤、重描和帧级标注等严格处理流程[4]", "预训练流程": { "阶段1": "基于Qwen3-8B初始化，冻结视觉/语言模型参数，优化投影MLP层实现跨模态对齐[12]", "阶段2": "解冻所有参数，端到端多任务训练覆盖图像描述、OCR、VQA等任务[13][14]", "阶段3": "精选高质量数据进行退火优化，解决广覆盖训练中的细节理解不足问题[15]", "模型融合": "采用同构-异构融合技术平均不同数据混合策略的模型权重，降低偏差[16]" }, "后训练策略": { "阶段1": "通过监督微调(SFT)和混合偏好优化(MPO)提升指令遵循等基础能力[5]", "阶段2": "五模式冷启动数据混合+强化学习(RL)激发高级推理能力[6]" } }, "性能表现": { "基准测试": { "通用能力": "在MMMUval(71.4)、AI2D(86.7)、MMStar(75.5)等通用基准领先[27]", "视频专项": "Video-MME(67.7)、LongVideoBench(62.8)、MMVU(66.1)体现视频理解优势[27]", "数学推理": "MathVistaMINI(80.7)、MathVersevision(59.8)显示跨模态推理能力[27]" }, "人类评估": { "视频子集": "整体评分3.33(5分制)，在正确性(3.34)、相关性(4.83)等维度领先竞品[30]", "图像子集": "整体评分3.81，视觉识别(3.97)和基础描述(4.0)能力突出[30]" } }, "工程实现": { "并行策略": "混合数据并行(DP)与序列并行(SP)，集成ZeRO优化器实现计算/通信重叠[23]", "负载均衡": "全局贪心策略按FLOPs分配样本，减少硬件空闲时间[24]", "容错机制": "样本级自动恢复检查点，精确恢复训练状态[25]", "推理优化": "适配vLLM框架支持视频输入，奖励模型随机调度降低RL时间开销[26]" }, "行业贡献": { "基准建设": "发布KC-MMBench短视频基准含6类任务1840个实例，填补领域空白[28]", "方法论输出": "提供从数据构建、训练策略到工程优化的全链路实践参考[3][4]" } }

分钟级长视频生成！地平线Epona：自回归扩散式的端到端自动驾驶世界模型（ICCV'25）

自动驾驶之心· 2025-07-07 12:17

自动驾驶世界模型Epona的核心创新 - 提出自回归扩散世界模型框架Epona，融合扩散模型与自回归模型优势，支持分钟级长视频生成、轨迹控制生成和实时运动规划[1][2] - 两项关键架构创新：解耦时空分解（分离时间动态建模与细粒度生成）、模块化轨迹与视频预测（端到端整合运动规划与视觉建模）[2][18] - 引入链式前向训练策略（CoF），解决自回归误差累积问题，FVD指标提升7.4%，支持600帧（2分钟）长视频生成[23][26][29] 技术架构与性能表现 - **解耦设计**：时序建模采用多模态时空Transformer（MST），空间生成采用双-单流DiT结构，支持逐帧自回归生成[20] - **多模态生成**：TrajDiT分支生成3秒连续轨迹（20Hz实时），VisDiT分支生成下一帧图像（4090 GPU上2秒/帧）[21][25] - **基准测试优势**：在NuPlan数据集上FVD降至82.8（优于Vista的89.4），NAVSIM轨迹预测碰撞率0.36%（优于UniAD的0.31%）[29][30] 行业应用价值 - 突破现有世界模型局限：解决传统视频扩散模型固定长度限制（如GAIA-2）与自回归Transformer模型离散token质量损失（如GAIA-1）[15] - 支持实际场景需求：可应用于轨迹控制视频生成（定制化驾驶模拟）和轻量化实时规划（仅启用TrajDiT分支）[21][28] - 参数量2.5B，计算效率优于NVIDIA Cosmos等同类模型，在消费级硬件（4090）上可部署[25][32] 行业技术趋势 - 世界模型成为下一代端到端自动驾驶关键路径，减少对感知模块与标注数据的依赖[6] - 自回归+扩散的混合架构成为前沿方向，Epona首次实现连续表征下的长序列自回归生成[9][33] - 当前行业痛点包括长时序一致性（如Cosmos限于短视频）与实时规划能力（如Vista缺乏轨迹控制），Epona提供统一解决方案[17][26][32]