GitTaskBench

搜索文档
CodeAgent 2.0 时代开启|GitTaskBench,颠覆性定义代码智能体实战交付新标准
机器之心· 2025-08-30 10:06
GitTaskBench评测框架创新 - 突破现有AI编码评测局限,首次提出仓库级测评新范式,考察从仓库理解到项目交付的全链路能力[2] - 联合中科院、北大、港科大等顶尖机构共同开发,引入"经济收益"作为核心评测指标[2] - 覆盖7大模态×7个领域×24个子领域的54个真实任务,包含18个后端仓库[3] 评测体系构建方法论 - 采用四阶段构建流程:仓库遴选(Stars≥50+近五年活跃)、完备性验证(100%人类可复现)、执行框架设计、自动化评测[10] - 每个任务配备完整GitHub仓库+自然语言指令+明确输入输出格式+自动化评测系统[4] - 仓库平均包含204个文件、1,274.78个函数、52.63k行代码,文件间引用依赖达1,242.72次[3] 三维能力评估体系 - 整体编码掌控:读文档、解依赖、生成/修改/调试代码[9] - 任务导向执行:多轮推理与工具使用,利用代码仓库但不局限于仓库[9] - 自主环境配置:独立安装环境/解决依赖,不借助预置镜像[8] 经济可行性量化模型 - 首创α值指标:α=1/n×∑[(T×MV×Q)-C],量化任务自动化带来的净收益[12][13] - T为任务成功二元标记(与ECR一致),MV为人工完成市场价值,Q为质量系数(0-1),C为API成本[15] - 该模型评估Agent方案在各领域的经济可行性,量化成本节省与效率提升[13] 主流框架性能表现 - OpenHands+Claude 3.7获得最佳成绩:ECR 72.22%/TPR 48.15%[15] - GPT-4.1成本效益突出:成功率次优的同时,成本仅为Claude的1/10-1/30[15] - 开源模型表现:Qwen3-32B以更少token达到Claude 3.5约60%水平[15] 跨领域经济价值分析 - 高价值领域:视频类(VideoPose3D)、语音类(FunASR)、生理信号类(NeuroKit)任务可获得最大正向alpha收益[18] - 低价值领域:图像处理任务(MV≈$5-10)当执行成本超过$1-2时alpha为负[19][20] - 市场价值分布:视频动作分析$150,语音识别$100-200,生理信号分析$60,而图像增强仅$5-10[22] 实际应用指导价值 - 框架选择需三元权衡:效果、成本、API调用[24] - 可作为Agent基础设施的回归测试场,支持基座对比和工作流改进[27] - 提供企业级应用落地评审标准,通过ECR/TPR/α三维指标支持上线决策[27]