Workflow
多模态软件工程
icon
搜索文档
多模态BUG修复新SOTA:慕尼黑工大GUIRepair登上SWE-bench Multimodal榜单第一
机器之心· 2025-09-16 00:22
研究背景与动机 - 自动化程序修复(APR)是软件工程重要方向 旨在利用智能技术自动定位并修复bug以节省人工调试成本[6] - 现有APR研究主要集中于单一模态(文本+代码)层面 在经典基准(SWE-bench, Defects4J)已展现强性能[6][7] - 现实软件开发中存在多模态问题 特别是前端和GUI应用中用户常通过屏幕截图报告视觉软件缺陷[8][10] - GUI相关问题单靠文字难以描述清楚 截图提供的视觉信息至关重要但现有APR系统很少关注该领域[10][11] - GUI Testing社区虽关注GUI软件问题 但重点在于发现bug而非自动修复 导致APR与GUI Testing出现断层[12] 解决方案与技术框架 - GUIRepair是跨模态自动修复框架 成功将APR与GUI Testing经验知识融合[15] - 核心设计哲学为"Seeing is Fixing" 强调只有真正看见问题才能更好修复问题[17] - 框架由两个互补跨模态组件构成: Image2Code(将视觉元素转化为可执行代码上下文)和Code2Image(将代码行为重新渲染为视觉输出)[18][21] - 实现跨模态双向转换 建立视觉信息与代码行为的联系 包括从图像→代码的理解和代码→图像的验证[18][21] - 输入包含文本描述(issue报告)和源代码 通过多模态LLM进行跨模态推理修复[13] 实验成果与性能表现 - 在SWE-bench Multimodal基准进行评测 该基准涵盖517个真实多模态问题 来源于JavaScript开源库[19] - 使用GPT-4o作为基座模型时成功解决30.37%任务实例 超越现有使用相同模型的修复系统[22][23] - 使用更强o3模型时达到35.98%修复成绩 超过所有开源和商业修复系统 登顶SWE-bench Multimodal排行榜第一[22][23] - 在排行榜中GUIRepair + o3以35.98%分辨率位居首位 高于Refact.ai Agent(35.59%)和OpenHands-Versa(34.43%)等系统[23] 研究意义与行业影响 - 开辟了多模态软件自动修复新研究方向 为自动化程序修复领域带来重大突破[24][25] - 推动自动化多模态软件工程进入新时代 展示跨模态力量在软件工程中的应用潜力[27] - 填补了APR与GUI Testing之间的断层 使模型具备视觉理解与自动修复双重能力[12][34] - 尽管只是起点 但为未来多模态软件工程研究提供更广泛应用场景和更强任务解决能力[28]