AgentNet 数据集

搜索文档
港大联手月之暗面等开源OpenCUA:人人可造专属电脑智能体
机器之心· 2025-08-14 01:26
核心观点 - 香港大学XLANG Lab与月之暗面等机构联合推出完全开源的计算机使用智能体(CUA)框架OpenCUA,包含数据收集工具、大规模数据集和训练流程 [1][3][6] - 基于该框架训练的旗舰模型OpenCUA-32B在OSWorld-Verified基准测试中达到34.8%成功率,创开源模型新纪录并超越GPT-4o [1][37] - 项目完整公开代码、数据和模型,涵盖3个操作系统及200多个应用/网站的大规模多模态数据集 [2][6][20] 技术框架 - 开发跨平台标注工具AgentNet Tool,支持Windows/macOS/Ubuntu系统的屏幕视频录制和交互信号采集 [6][13] - 提出动作约简技术将原始高频操作压缩为高阶动作序列,与pyautogui动作空间对齐 [16][17][21] - 采用状态-动作匹配方法提取关键帧作为系统状态表征,避免未来信息泄露 [19] 数据集构建 - AgentNet数据集包含22,625条人工标注任务,其中Windows 12,000条、macOS 5,000条、Ubuntu 5,000条 [23] - 任务平均步骤18.6步,覆盖140+应用和190+网站,支持720p至4K分辨率 [20][23] - 构建AgentNetBench离线评估基准,包含100个经人工审查的多平台代表性任务 [25][27] 模型训练 - 基于KimiVL-A3B和Qwen2.5-VL系列模型进行监督微调,得到OpenCUA-7B/32B等变体 [32][35] - 采用生成器-反思器迭代流程生成反思式长思维链推理,增强任务步骤处理能力 [30] - 模型结合多图像历史与跨领域数据,支持真实桌面环境操作 [29] 性能表现 - OpenCUA-32B在OSWorld-Verified在线评估中达成34.8%平均成功率,超越OpenAI CUA的31.4% [37] - 在AgentNetBench离线评估中取得79.1%平均成功率,高于OpenAI CUA的73.1% [40] - GUI定位任务中OpenCUA-72B在ScreenSpot-Pro和OSWorld-G分别达到55.3%和59.6%准确率 [42] 行业意义 - 首个具备真实性、复杂性和多模态特征的桌面端轨迹级开源数据集 [24] - 完整开源工具链为CUA研究提供基础设施,加速透明化与可验证研究进程 [50] - 展现出明确的数据规模效应和跨领域泛化能力 [45][50]