Workflow
智能体框架
icon
搜索文档
赛道Hyper | 巨头竞速:智能体框架的新入口之争
华尔街见闻· 2025-09-04 06:36
腾讯Youtu-Agent开源事件 - 腾讯于9月2日正式开源智能体框架Youtu-Agent 该框架在WebWalkerQA基准测试中基于DeepSeek-V3.1实现71.47%的准确率 刷新开源模型纪录 [1] - 腾讯强调"应用落地"定位 框架功能聚焦本地文件管理、数据分析和论文研究等具体场景 避免过度承诺 注重真实需求验证 [8][9] - 腾讯采取谨慎试探策略 在已有生态内深耕 通过开源实现风险对冲 等待场景自然孵化 [8][9][23] 巨头智能体框架战略差异 - 阿里AgentScope 1.0强调"开发者友好"和全生命周期管理 试图构建一站式多智能体开发平台 策略更激进且平台化 [10][12] - 微软选择将智能体能力直接嵌入Office套件和Copilot生态 凭借现有用户基数实现"以应用带生态" 跳过开发者圈定阶段 [13][14][24] - 三家公司均通过开源框架进行战略卡位 争夺未来潜在的数字入口定义权 但路径存在显著差异:腾讯重具体场景、阿里重平台建设、微软重生态绑定 [17][18][24] 行业竞争本质与现状 - 智能体框架价值尚未在企业级市场得到规模化验证 缺乏显著降本增效案例 当前竞争属于话语权博弈而非商业兑现 [5][6][21] - 开源本质是低成本市场进入策略 通过开发者试错转移风险 同时为未来标准争夺积累主动权 [7][18][26] - 巨头战略逻辑趋同:既要在框架层抢占潜在标准 又要在应用层培育真实需求 微软依托Office全球用户 阿里依托钉钉国内渗透率 [24][25][26] 技术发展方向 - 微软AutoGen框架专注于多智能体系统构建 通过不同角色智能体(大语言模型、工具调用模块等)协同完成复杂任务 [15][16] - 智能体框架竞争类比操作系统、浏览器历史竞争逻辑 核心在于未来交互规则定义和流量入口分配权 [17][18] - 框架持续演化依赖长期社区投入及云计算、安全、合规等产业能力补充 否则可能沦为短期热度项目 [23]
大厂角力智能体框架:腾讯宣布开源,阿里同日“上新”
观察者网· 2025-09-02 13:57
产品发布与定位 - 腾讯优图实验室于9月2日正式开源智能体框架Youtu-Agent 该框架面向实际应用 覆盖文件管理 数据分析 学术研究和信息综述等多个场景 [1] - 阿里通义实验室同日推出新一代智能体开发框架AgentScope 1.0 该框架以开发者为核心 专注于多智能体开发 提供覆盖开发 部署 监控全生命周期的生产级解决方案 [7] 技术性能表现 - Youtu-Agent在WebWalkerQA基准上基于DeepSeek-V3.1达到71.47%准确率 刷新开源效果SOTA记录 [3] - 在GAIA文本子集上基于DeepSeek-V3 Pass@1达到72.8% 接近甚至超越部分依赖训练或付费闭源模型的框架 [3] 架构设计与兼容性 - 框架基于openai-agents-python架构 兼容DeepSeek和gpt-oss等多类模型API与工具 [6] - 采用YAML配置结合元智能体机制 用户通过需求描述可一键自动生成并运行智能体 [6] - 通过模块化与异步化设计支持streaming tracing及agent-loop等功能 [6] 开源生态与部署优势 - 完全基于开源生态构建 不依赖封闭模型 适配可访问低成本的部署环境 [6] - 支持二次开发与定制化应用 为开发者和企业提供灵活的技术拓展空间 [6] 实际应用功能 - 本地文件管理场景可实现自动批量文件识别 重命名与归档 [6] - 数据分析场景可读取Kaggle等表格数据 自动清洗统计并输出可视化HTML报告 [6] - 学术研究场景可自动总结论文要点 检索相关研究并生成Markdown笔记 [6] - 通过Wide Research功能依据主题自动搜索整理资料 生成结构化综述实现调研自动化 [6]
腾讯开源智能体框架Youtu-Agent
第一财经· 2025-09-02 06:52
公司动态 - 腾讯优图实验室宣布智能体框架Youtu-Agent正式开源 [2]
腾讯开源智能体新框架:不用训练无需充值,用开源模型实现SOTA Agent
量子位· 2025-09-02 04:17
文章核心观点 - 腾讯优图实验室开源Youtu-agent智能体框架 解决研究者和开发者面临的上手门槛高、环境复杂、实验难以复现等问题[1] - 该框架基于开源生态 不依赖闭源API或模型训练 在多个基准测试中展现领先性能[1][4] - 通过自动化智能体生成和DITA设计原则 显著降低定制难度 支持科研、开发及爱好者快速构建实际应用[24][29][30] 技术性能表现 - WebWalkerQA基准测试准确率达71.47% 基于DeepSeek-V3.1刷新开源效果SOTA[4] - GAIA文本子集测试Pass@1达72.8% 超越部分依赖付费工具的智能体框架[4] 框架核心优势 - 开源友好且成本敏感 完全基于开源生态适配低成本部署环境[5] - 灵活架构兼容DeepSeek、gpt-oss等多类模型API与工具集[6] - 模块化异步化设计支持streaming、tracing与agent-loop高效调试[9] - 通过YAML配置和元智能体对话实现一键生成智能体配置[8][24] 实际应用案例 - 本地文件管理:自动识别PDF文件并重命名为"学号-姓名"格式 非PDF文件自动归档[13] - 数据分析:读取CSV文件后自动清洗分析 生成结构化HTML报告[15][16] - 论文分析:解析PDF论文内容 检索相关研究并生成Markdown格式研究报告[18][19] - 广域研究:通过搜索工具收集信息 经文档处理和分析后生成结构化综述报告[21][22] 自动化生成机制 - 通过meta-agent交互澄清用户意图 自动生成完整配置文件[24] - 运行python scripts/gen_simple_agent.py生成配置 python scripts/cli_chat.py启动测试[25][26] - 基于DITA原则定义需求、输入输出、工具和交互范式四维度[23] 适用群体与部署 - 研究人员可作比ReAct更强的开源基线 支持一键评估脚本[28] - 开发者可作为经过验证的脚手架快速构建真实应用[29] - 爱好者可通过丰富示例直观探索 支持web-ui可视化运行[30][35] - 部署需git克隆代码 uv同步依赖 配置.env工具API密钥[32][35]
SEAgent:开启从实战经验中自我进化的GUI智能体新纪元
机器之心· 2025-08-17 04:28
核心观点 - 上海交通大学和香港中文大学学者提出SEAgent框架 该框架无需人类干预即可通过环境交互实现自主学习和进化 突破当前计算机使用智能体依赖昂贵人工标注数据的瓶颈[2] 自主进化框架 - 采用三位一体闭环设计 包含课程生成器、执行者-智能体和评判者-世界状态模型三大核心组件[4][5] - 课程生成器担任导师角色 根据智能体能力生成渐进式任务并维护记录新功能的软件指南[9] - 执行者-智能体在软件环境中执行实际操作探索[9] - 评判者-世界状态模型提供精准步骤级反馈 形成完整进化闭环[9] 世界状态模型优化 - 针对开源大视觉语言模型在长序列操作评判中的不足进行深度优化 当输入过多历史截图时现有模型判断准确率会下降[10] - 通过革新评判范式和高质量数据蒸馏两阶段优化 使用GPT-4o生成860条高质量评判轨迹数据对Qwen2.5-VL-7B模型微调[14] - 引入截图变化描述协同训练任务 显著增强对GUI微小变化的感知能力[14] - 优化后模型性能大幅接近GPT-4o等商业模型水平[10] 专才-通才融合策略 - 发现直接训练多软件通才模型效果不佳 性能低于单一软件专才模型[13] - 采用三阶段策略:先培养五个不同软件专才智能体 再蒸馏3500条成功轨迹数据到通用模型 最后进行多软件强化学习进化[15] - 最终通才智能体综合成功率达34.5% 超越直接训练通才模型(30.6%)和专才模型总和(32.2%)[18] 系统性能表现 - 在OSWorld基准测试中取得显著性能飞跃 SEAgent专才强化学习模型整体成功率达32.2%[16] - 专才模型在VScode(37.7%)、GIMP(38.5%)、Impress(22.0%)、VLC(33.3%)和Writer(29.0%)均表现优异[16] - 通才融合模型进一步将整体成功率提升至34.5% 在VScode(40.5%)和GIMP(42.3%)实现最高性能[16][18] 算法验证 - 消融实验证实世界状态模型是有效学习前提 基于探索的GRPO强化学习显著优于单纯模仿[20] - 对抗性模仿机制带来关键性能提升 能从错误中学习[20] - 课程生成器提供渐进式任务设计 支撑整个进化框架运行[20]
腾讯AI Lab开源可复现的深度研究智能体,最大限度降低外部依赖
量子位· 2025-08-06 05:56
行业技术发展 - 深度研究智能体(Deep Research Agents)凭借大语言模型(LLM)和视觉-语言模型(VLM)的强大能力,正在重塑知识发现与问题解决的范式 [1] - 现有开源智能体框架多依赖付费工具,限制了可复现性和普适性 [2] 公司产品创新 - 腾讯AI Lab推出全开源、多模块、层次化的智能体框架Cognitive Kernel-Pro,为深度研究智能体的开发与训练提供突破性解决方案 [4] - Cognitive Kernel-Pro在GAIA基准全集上超越开源免费框架SmolAgents,性能逼近依赖付费工具的智能体,在GAIA-text上训练的8B模型超越WebDancer和WebSailor-7B [5] - 公司公开Agent Foundation Model的训练配方,提供可复现的训练路径 [7] - 相关技术报告及代码已开源,框架以Python代码为动作空间,充分发挥现代LLM的推理和代码生成能力 [8][10] 技术架构设计 - 模块化架构:采用两层多模块设计,包含主智能体和多个子智能体,确保模块独立性和扩展性 [11] - 状态管理与规划:通过"进度状态"机制记录已完成步骤、待办任务等,提升复杂任务处理效率 [11] - 标准化任务接口:主智能体与子智能体通过简洁文本接口通信,子智能体以Python函数形式定义 [11] - 测试时优化:引入反思机制和投票机制,通过评估和优化动作轨迹提升任务完成质量 [11] 数据训练方法 - 训练流程覆盖网页导航、文件处理、代码生成和推理等多个领域,包含高质量Web Agent数据构建、Persona Hub数据增强、推理数据优化和轨迹采样等创新方法 [15][16][17] - 使用OpenWebVoyager、Multihop URLQA、AgentWebQA等数据集,涉及1,259至32,231不等的查询和步骤数量 [16] 性能对比优势 - 在GAIA基准测试中,Cognitive Kernel-Pro(使用Claude-3-7模型)平均得分70.91,超越多数开源框架 [19] - 8B模型CK-Pro-8B在GAIA-text基准测试中超越WebDancer和WebSailor类似大小模型,体现框架和训练方法优越性 [22][23] - 反思功能消融实验显示,开源模型Qwen-3-32B能提供接近GPT-4.1的反思效果 [24][25] 开源与工具策略 - 框架强调LLM和VLM的内在能力,最大限度降低外部依赖,实现真正的全开源 [20] - 支持灵活切换免费API(如DuckDuckGo),提升可访问性 [20] - 相较于依赖Jina Reader、FireCrawl等付费工具的现有开源框架,Cognitive Kernel-Pro更具功能全面性和开源优势 [14][20]
o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark
量子位· 2025-06-16 04:50
经典小游戏成为新Benchmark - o3-pro突破推箱子第六关上限并通关所有关卡 表现远超benchmark原有标准[2][8] - 俄罗斯方块测试中o3-pro得分无上限 成绩较前SOTA模型o3直接翻倍[3][14] - 测试采用迭代交互循环模式 结合智能体框架的感知/记忆/推理模块提升稳定性[18][20] Lmgame基准测试体系 - 包含6款游戏:推箱子(1989版)、俄罗斯方块、2048、糖果传奇、马里奥兄弟、逆转裁判[6][18] - 各游戏评估标准差异化:推箱子计算通关关卡数 俄罗斯方块按方块数+10倍消行数计分[7][13][24] - 测试框架开源 支持动态更新游戏关卡(如推箱子从4关扩展至50关)[9][23] 模型性能对比 - 推箱子历史排名:o3-pro > o3 > o4-mini > DeepSeek-R1(0528版)[10] - 俄罗斯方块历史排名:o3-pro > o3 > R1 > o4-mini 与推箱子排名存在差异[14] - o3-pro操作耗时显著 单步决策需数分钟[17] 研究团队背景 - 项目来自UCSD Hao AI Lab 负责人张昊(卡内基梅隆博士)曾参与创立LMSYS[28][29][30] - 实验室获谷歌/英伟达资助 2024年4月接收DGX B200捐赠[34] - 开源项目FastVideo获GitHub 1 5k星标 团队同时开发大模型竞技场等知名框架[32][31] 行业应用延伸 - Gemini模型2024年5月成功通关宝可梦·蓝 谷歌CEO公开宣布成果[26][27] - 测试方法受业界认可 网友认为比大模型竞技场更适合评估模型能力[5]
o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark
量子位· 2025-06-16 04:49
经典小游戏成为大模型Benchmark - 核心观点:经典小游戏如推箱子和俄罗斯方块被用作测试大模型性能的新基准,o3-pro模型在该基准上表现优异,突破了原有上限 [1][2][6] - o3-pro在推箱子游戏中通关所有关卡,远超之前仅能完成第六关的benchmark上限 [3][7][8] - 在俄罗斯方块中o3-pro表现持续强劲,游戏需强行终止,其得分计算方式为放置方块数量与清除行数10倍之和 [13][14] - 与前SOTA模型o3相比,o3-pro成绩直接翻倍 [3] Lmgame Benchmark框架设计 - 测试框架包含六款游戏:推箱子、俄罗斯方块、2048、糖果传奇、马里奥兄弟和逆转裁判 [18] - 采用迭代交互循环模式:游戏状态持续反馈给模型,模型生成动作后获得奖励并更新状态 [18] - 引入智能体框架辅助,包含感知、记忆、推理模块,并通过提示标准化确保评估稳定性 [20] - 各游戏评价标准差异化:马里奥兄弟按移动距离、2048按合并方块值对数、糖果传奇按消除数量、逆转裁判按正确动作计数 [24] 模型性能对比与开源生态 - 推箱子历史排名:o3-pro > o3 > o4-mini > DeepSeek-R1(0528) [10] - 俄罗斯方块历史排名:o3-pro > o3 > R1 > o4-mini(与推箱子排名部分倒置) [14] - 测试基准动态更新,GitHub仓库半月前仅四关,原版推箱子含50+关卡 [9] - 项目完全开源,可自行下载测试模型性能 [23] 研究团队背景 - Lmgame由UCSD Hao AI Lab开发,负责人张昊为卡内基梅隆博士、伯克利博士后,曾参与创立LMSYS(大模型竞技场开发方) [28][29][30] - 实验室获谷歌/英伟达资助,2024年4月获赠英伟达DGX B200服务器 [34] - 其他开源项目FastVideo(视频生成加速框架)获GitHub 1.5k星 [32]