Code Agent

搜索文档
DeepSeek-V3.1版本更新
第一财经· 2025-09-22 13:45
DeepSeek-V3.1现已更新至DeepSeek-V3.1-Terminus版本。官方公号表示,此次更新在保持模型原有能力 的基础上,针对用户反馈的问题进行了改进,包括:语言一致性,缓解了中英文混杂、偶发异常字符等 情况;Agent能力,进一步优化了Code Agent与Search Agent的表现。 此次更新在保持模型原有能力的基础上,针对用户反馈的问题进行了改进。 ...
CodeAgent 2.0 时代开启|GitTaskBench,颠覆性定义代码智能体实战交付新标准
机器之心· 2025-08-30 10:06
GitTaskBench评测框架创新 - 突破现有AI编码评测局限,首次提出仓库级测评新范式,考察从仓库理解到项目交付的全链路能力[2] - 联合中科院、北大、港科大等顶尖机构共同开发,引入"经济收益"作为核心评测指标[2] - 覆盖7大模态×7个领域×24个子领域的54个真实任务,包含18个后端仓库[3] 评测体系构建方法论 - 采用四阶段构建流程:仓库遴选(Stars≥50+近五年活跃)、完备性验证(100%人类可复现)、执行框架设计、自动化评测[10] - 每个任务配备完整GitHub仓库+自然语言指令+明确输入输出格式+自动化评测系统[4] - 仓库平均包含204个文件、1,274.78个函数、52.63k行代码,文件间引用依赖达1,242.72次[3] 三维能力评估体系 - 整体编码掌控:读文档、解依赖、生成/修改/调试代码[9] - 任务导向执行:多轮推理与工具使用,利用代码仓库但不局限于仓库[9] - 自主环境配置:独立安装环境/解决依赖,不借助预置镜像[8] 经济可行性量化模型 - 首创α值指标:α=1/n×∑[(T×MV×Q)-C],量化任务自动化带来的净收益[12][13] - T为任务成功二元标记(与ECR一致),MV为人工完成市场价值,Q为质量系数(0-1),C为API成本[15] - 该模型评估Agent方案在各领域的经济可行性,量化成本节省与效率提升[13] 主流框架性能表现 - OpenHands+Claude 3.7获得最佳成绩:ECR 72.22%/TPR 48.15%[15] - GPT-4.1成本效益突出:成功率次优的同时,成本仅为Claude的1/10-1/30[15] - 开源模型表现:Qwen3-32B以更少token达到Claude 3.5约60%水平[15] 跨领域经济价值分析 - 高价值领域:视频类(VideoPose3D)、语音类(FunASR)、生理信号类(NeuroKit)任务可获得最大正向alpha收益[18] - 低价值领域:图像处理任务(MV≈$5-10)当执行成本超过$1-2时alpha为负[19][20] - 市场价值分布:视频动作分析$150,语音识别$100-200,生理信号分析$60,而图像增强仅$5-10[22] 实际应用指导价值 - 框架选择需三元权衡:效果、成本、API调用[24] - 可作为Agent基础设施的回归测试场,支持基座对比和工作流改进[27] - 提供企业级应用落地评审标准,通过ECR/TPR/α三维指标支持上线决策[27]
华泰证券 从Agent,到Multi-Agent
2025-03-10 06:49
纪要涉及的行业和公司 - **行业**:AI、计算机行业 - **公司**:华泰证券、微软、Cloud、苹果、腾讯、Workday、ServiceNow、Salesforce、Cruel AI、Mona、OpenAI、亚马逊 纪要提到的核心观点和论据 - **AI商业化进展**:过去两年全球AI商业化主要成果集中在chatbot领域,市场期待的能替代人类执行连续复杂多步骤任务的agent尚未出现,微软Copilot未实现早期演示效果,原因是模型能力和产品工程化问题[2] - **Minus产品影响**:虽非创新模型,但提供在现有模型能力下实现多任务Agent的新思路,引发开源社区对Agent落地应用的关注和复刻尝试[3][4] - **Multi - agent系统**:是AI发展重要方向,通过多智能体协同工作弥补单个智能体能力不足,如Minus系统不同智能体负责不同任务,由不同模型驱动,提高任务自动化执行能力且工程化落地较好[3][5] - **2024年AI技术突破**:在感知、定义、记忆、规划和行动五个环节取得突破,多模态模型增强感知能力,记忆和上下文处理技术升级,思维链方法提升规划能力,行动环节虚拟机形态解决数据源访问问题,Agent编排能力分配任务[3][6][8][9] - **大模型进展**:在推理与行动上进展显著,通过思维链(COT)方法和推理加行动(Reasoning + Acting)的工程实践实现,企业级应用常见人机协作方式[3][10] - **Code Agent发展**:发展相对成熟,能自动完成编码相关任务并集成到IDE环境,应用场景从代码生成扩展到测试和调试等环节[11] - **通用场景延伸**:关键因素是数据权限放开程度,不同数据处理范围作用不同,苹果和腾讯等公司整合个人行为数据提升个性化服务[12] - **MCP协议作用**:为云端系统设计的通信协议,确保agent信息共享和任务协作标准化,苹果预期打通第三方应用数据权限并整合个人行为数据[13] - **Multi Agent系统现状**:初具雏形,技术能力得到验证,工程化准备相对成熟,多Agent生态有望快速迭代发展[15] - **Multi Agent系统构成要素**:由各类agent、合作类型、系统结构、协作策略、协调机制构成,主流采用动态机制协作[16] - **多智能体协同系统运作**:包括环境与上下文感知、协作层、影响因子,目前处于中期模型共享及相互智能能力交换阶段[17] - **多智能体系统合作模式**:包括合作、竞争、竞争合作三种模式,各有特点[19] - **多智能体系统策略分类**:分为基于规则、基于角色、基于模型三种方法,目前主流是基于模型的协作方式[21] - **多智能体系统结构分类**:分为集中式、分布式、层次式三种,集中式架构较为普遍[22] - **多智能体系统协调机制**:包括静态协调和动态协调,动态架构更为常见[23] - **多智能体验例**:Menus产品采用集中式动态决策、基于模型判断的技术架构,包含信息检索、代码生成、数据分析三类agent[24] - **开源多代理框架**:提供预制技术架构及工具集,有任务执行等多个方向,如Cruel AI、Mona等框架具备关键特征[25] - **多智能体开源架构**:包括Python框架、OpenAI的a one架构、微软AutoGen升级版Magical One、亚马逊AWS上的Motion Agent编排器、OWL by开幕AI等,各有特点和不足[27][29] - **企业需求与布局**:企业有复杂任务编排需求,海外To B软件公司如Workday、ServiceNow和Salesforce等在2025年Q4介绍了multi - agent编排系统,产品落地节奏影响商业化变现[28] - **多智能体技术对互联网影响**:将从个体发展成网络,成为下一代互联网重要组成部分,2025年加速产业化,推动计算机行业股票上涨,各大互联网公司纷纷布局[3][29][30] 其他重要但是可能被忽略的内容 - 2023年感知模块早期大模型主要支持文本理解,多模态模型发展增强视觉理解能力;记忆模块围绕长期、短期记忆及上下文处理技术升级,如Cloud推出MMCP协议;规划模块引入思维链方法[8] - 行动环节虚拟机形态以Minus为例可通过编码或操作屏幕获取网页数据,agent编排能力基于角色分配协同工作,如文档编辑项目[9] - 苹果18.3或18.2系统中用户可选择是否允许AI学习其使用APP习惯,为数据打通和行为数据整合做铺垫[13][14]