自动化前端开发
搜索文档
让模型“看视频写网页”,GPT-5仅得36.35分!上海AI Lab联合发布首个video2code基准
量子位· 2025-10-19 04:10
行业技术发展现状与瓶颈 - 多模态大模型在静态截图生成网页代码方面已展现出不俗能力,但网页的真正价值在于其动态交互功能,这是传统静态评测的盲区[1] - 为填补评估交互式网页重建能力的关键空白,上海人工智能实验室与浙江大学等机构联合提出了IWR-Bench评测基准,标志着AI从“看懂静态网页”到“理解动态交互”的关键一步[1][20] - 新基准的任务复杂性跨度很大,从简单的浏览功能到需要逆向工程游戏规则的2048、订机票等应用,难度远超预期[2] IWR-Bench评测基准核心特点 - 评测核心转变在于要求模型观看一段记录完整用户操作流程的视频,并结合网页全部静态资源,去理解并复现整个页面的动态行为,即从“image-to-code”迈向“video-to-code”[2][5] - 基准覆盖113个真实网站任务和1001次交互动作,平均每任务8.9步,包含2048、扫雷等完整游戏逻辑与GUI重建的复杂任务[5][12] - 引入自动化Agent-as-a-Judge评测协议,通过编程代理复现动作轨迹,采用双重评分体系同时评估功能正确性与视觉保真度[5][10][11] 主要模型评测结果 - 对28个主流模型的全面测试显示,最佳模型GPT-5的综合得分仅为36.35分,其交互功能分数为24.39%,视觉保真度分数为64.25%[2][13][14] - 所有模型的视觉保真度分数均显著高于交互功能分数,揭示模型能较好复现静态视觉效果,但在生成事件驱动逻辑方面严重不足,功能实现是最大瓶颈[14][16] - “thinking”版本模型普遍表现更好,但提升幅度有限,基础模型能力仍是决定性因素[17][18][19] - 专门针对视频理解的模型表现垫底,通用多模态大模型表现更优,表明该任务与传统视频理解任务具有显著差异性[20] IWR任务对模型的核心挑战 - 任务对模型提出三大核心挑战:从视频帧精准捕捉布局、文本与组件状态的多模态理解能力[8] - 挑战还包括在时间序列中推断交互逻辑与因果关系,并将视频元素与静态资源可靠匹配与绑定的多模态推理能力[8] - 最终挑战是将推断出的状态机与事件逻辑实现为可运行前端代码的高级代码生成能力[8]