两阶段训练策略
搜索文档
相机运动误差降低40%!DualCamCtrl:给视频生成装上「深度相机」,让运镜更「听话」
机器之心· 2025-12-21 04:21
文章核心观点 - 香港科技大学、复旦大学等机构的研究团队提出了一种名为DualCamCtrl的全新端到端几何感知扩散模型框架,旨在解决现有视频生成模型在相机运动控制中缺乏显式几何理解的问题 [3] - 该模型通过创新的双分支扩散架构和语义引导互对齐机制,能够同步生成与镜头运动一致的RGB与深度序列,从而更好地解耦外观与几何建模 [3][9] - 大量实验表明,DualCamCtrl在相机运动一致性方面显著优于现有方法,相机运动误差降低超过40% [4][28] 技术架构与核心设计 - **双分支视频扩散框架**:模型采用双分支架构,一条分支生成RGB表示,另一条分支生成深度表示,两种模态通过SIGMA机制进行融合,以实现连贯的几何引导 [7][9] - **语义引导互对齐机制**:SIGMA机制采用语义引导的双向设计,浅层以RGB特征锚定语义结构,深层则引入深度反馈优化几何表达,以促进RGB与深度模态的有效协同 [11][17] - **分阶段训练策略**:模型采用两阶段训练策略,第一阶段为解耦训练阶段,使RGB与深度分支分别专注学习外观与几何表征;第二阶段为融合训练阶段,引入融合模块实现跨模态交互与联合优化 [11][18][21] 性能表现与实验结果 - **定性分析**:在相同输入条件下,DualCamCtrl在相机运动的对齐效果和视频生成的视觉效果上均显著优于现有先进方法 [23][26] - **定量分析(图像到视频)**:在RealEstate10K数据集上,DualCamCtrl的FVD指标为80.38,FID指标为49.85,均显著优于对比方法MotionCtrl(FVD: 137.4, FID: 71.70)和CameraCtrl(FVD: 118.7, FID: 69.90)[27] - **定量分析(文本到视频)**:在RealEstate10K数据集上,DualCamCtrl的FVD指标为408.1,优于AC3D的415.6、CameraCtrl的426.8和MotionCtrl的506.9;其CLIPSIM指标为0.3154,也优于其他对比方法 [27]
开源复现o3图像思考!快手让AI不再被动看图,模型自主生成代码调用工具
量子位· 2025-08-21 04:23
核心观点 - Kwai Keye团队提出Thyme新范式,赋予多模态大模型"超越图像思考"的能力,通过生成并执行代码调用工具完成复杂图像处理和数学计算[1][3] - Thyme在20个基准测试中表现优异,尤其在处理高分辨率图像和复杂推理任务上性能显著提升[11] 技术方案 多模态交互范式 - 核心思想:模型主动生成并执行代码调用工具,突破被动"看图"限制[3] - 功能丰富:支持裁剪、旋转、缩放、对比度增强等图像操作及复杂数学计算[4] - 高度自主:自主判断工具使用需求并动态生成代码,无需人工干预[5] 训练策略 - 两阶段训练:SFT阶段使用50万条高质量样本数据集,仅需200 GPU小时[6] - RL阶段创新: - 构建1万张高难度图像问答对增强复杂场景感知[7] - 提出GRPO-ATS算法,文本生成(τ=1)与代码生成(τ=0)采用差异化温度采样[36][37] - 采用Rabin-Karp滚动哈希算法检测重复内容,提升资源利用率[38] 配套资源 - 开源400万原始数据集及筛选标注数据[8] - 开发安全沙箱环境,自动处理代码格式、变量定义等问题[8][22] - 完整开源训练代码、模型及工具链[9] 性能表现 基准测试 - 感知任务:HRbench-4K测试中FSP指标达91.0(+5.8),FCP指标63.0(+10.8)[41] - 推理任务:MathVista测试70.0(+1.8),Logic Vista测试49.0(+9.2)[41] - 通用任务:幻觉检测aAcc指标71.0(+5.4),MMVet Hard测试58.3(+5.5)[41] 细分领域 - 自动驾驶场景:感知任务提升27.14%,推理任务提升81.57%[45] - 监控场景:感知任务提升64.99%,推理任务提升33.16%[45] - 高分辨率处理:HRbench-8K测试中FSP指标86.5(+7.7)[41] 工作流程 1 接收问题并输出推理思路[21] 2 判断复杂度决定是否生成Python代码[21] 3 简单问题直接回答,复杂任务生成代码交沙箱执行[21] 4 沙箱执行后返回结果,多轮交互直至输出最终答案[21]
思维链监督和强化的图表推理,7B模型媲美闭源大尺寸模型
机器之心· 2025-08-01 04:23
核心观点 - Chart-R1模型通过强化学习的微调方法(R1-Style)在图表推理领域取得突破,结合思维链监督和数值敏感的强化学习微调,实现复杂图表推理能力 [2] - 该模型在数学推理和代码智能方面表现优异,但在通用多模态数据上的应用仍需进一步研究 [2] - Chart-R1的成功表明,即使是参数规模较小的模型也能在特定领域媲美大型闭源模型,为构建高效专业领域AI模型提供经验 [20][21] 创新点与技术突破 - **程序化数据合成技术**:利用LLM生成图表绘制代码,构建包含258k多步推理样本的ChartRQA数据集,确保数据多样性和真实性 [7] - **两阶段训练策略**: - Chart-COT阶段:通过思维链监督分解复杂图表推理任务为可理解的子任务 [13] - Chart-RFT阶段:采用数值敏感的强化学习微调(GRPO),结合软匹配和编辑距离提高准确性 [13] - 开源项目DocTron覆盖通用文档、学科公式、图表代码等场景,无需定制化模块开发 [2] 实验结果与性能表现 - **基准测试表现**: - Chart-R1-7B在CharXiv-RQ测试中达到91.04分,超越GPT-4o(85.7)和Claude-3.5-Sonnet(90.8) [12] - 在ChartQA测试中得分为46.2,接近Claude-3.5-Sonnet(60.2)和GPT-4o(47.1) [12] - 在ChartRQA(multi)测试中得分为49.93,优于Gemini-2.5-Flash(59.17)和Qwen2.5-VL-7B(40.57) [12] - **训练策略对比**: - Qwen2.5-VL-7B-SFT在ChartROA(multi)测试中仅得18.34分,而Chart-R1的RQA-SFT+QA+RQA-RL策略达到49.93分 [14] - 在复杂图表推理任务中,Chart-R1表现稳定,显著优于现有视觉语言模型 [17] 研究意义与应用前景 - 为图表理解和推理领域提供新的研究方向,解决多模态数据稀缺问题 [18][22] - 可应用于商业智能分析、科学研究数据解读、金融报告分析等场景,提升自动化分析效率 [19] - 验证了强化学习在视觉多模态推理任务中的有效性,特别是精确数值推理场景 [22]