OpenAI Agents SDK
搜索文档
6.4万star的开源智能体框架全面重构!OpenHands重大升级,叫板OpenAI和谷歌
机器之心· 2025-11-08 04:02
OpenHands V1 架构重构与核心设计原则 - OpenHands 团队正式发布新论文,宣布其广受欢迎的软件开发智能体框架已完成架构重构,推出 OpenHands Software Agent SDK,GitHub star 数量已超过 64,000 [1] - 此次重构标志着 OpenHands 从 V0 进化到 V1,旨在为原型设计、解锁新型自定义应用以及大规模可靠部署智能体提供一个实用的基础 [2] - V0 版本最初设计为单体架构,将智能体逻辑、评估和应用组合在同一个代码库中,虽利于快速原型设计,但在项目发展中暴露出沙盒僵化、可变配置庞杂以及研究与生产过度耦合等短板 [4] - V1 版本基于四项核心设计原则构建新架构,直接解决 V0 的局限性 [9] - 原则一:沙盒化应该是可选的,而非普遍适用的 V1 默认在单个进程中统一智能体和工具的执行,当需要隔离时,同一个栈可被透明地容器化,使沙盒化成为可选,在不牺牲安全性的前提下保持灵活性 [9] - 原则二:默认无状态,状态的真值来源单一 V1 将所有智能体及其组件视作在构建时即被验证的、不可变且可序列化的 Pydantic 模型,唯一可变实体是会话状态,作为单一明确定义的真值来源,实现确定性重放、强一致性和稳定的长期恢复 [10] - 原则三:保持严格的相关项分离 V1 将智能体核心隔离成"软件工程 SDK",应用通过 SDK API 进行集成,使得研究可以独立于应用演进 [11] - 原则四:一切都应是可组合且可安全扩展的 V1 将可组合性作为首要设计目标,在部署层面,四个模块化包可以灵活组合以支持本地、托管或容器化执行;在能力层面,SDK 暴露类型化的组件模型,让开发人员可以声明式地扩展或重新配置智能体而无需触及核心 [12][13][14] OpenHands V1 生态系统与核心功能 - OpenHands V1 是一个完整的软件智能体生态系统,包括 CLI 和 GUI 应用,它们构建在共享的基础 OpenHands Software Agent SDK 之上 [16] - SDK 定义了具有确定性重放功能的事件溯源状态模型、用于智能体的不可变配置以及集成了 MCP 的类型化工具系统 [18] - 工作区抽象使得同一个智能体能够在本地运行以进行原型设计,或者在安全、容器化的环境中远程运行,而只需最少的代码更改 [18] - 与仅提供库的 SDK 不同,OpenHands 包含用于远程执行的内置 REST/WebSocket 服务器,以及一套用于人工审查和控制的交互式工作区界面,包括基于浏览器的 VSCode IDE、VNC 桌面和持久化的 Chromium 浏览器 [20] - SDK 独特地集成了原生沙盒化执行、生命周期控制、模型无关的多 LLM 路由以及内置的安全分析 [5] - 在灵活性方面,设计了一个简洁接口,默认情况下仅需几行代码即可实现智能体,但又易于扩展为具有自定义工具、内存管理等功能的复杂智能体 [5] - 在安全性和可靠性方面,提供了无缝的本地到远程执行可移植性、集成的 REST/WebSocket 服务 [5] - 为了与人类用户交互,可以直接连接到各种界面,如可视化工作区、命令行界面和 API [5] 竞争优势与特性比较 - 团队系统比较了其 SDK 与 OpenAI Agents SDK、Claude Agent SDK 和 Google ADK 的 31 个特性,发现 OpenHands SDK 独特地结合了 16 个额外特性 [21] - 独特特性包括原生远程执行、带沙盒功能的生产服务器,以及跨越 100+ 供应商的模型无关的多 LLM 路由 [21] - 具体优势特性包括:支持 MCP、自定义工具、历史持久化与恢复、子智能体委托、模型无关性(支持 100+ LLMs)、多 LLM 路由、会话成本与令牌追踪、暂停/恢复智能体执行、原生支持非函数调用模型、智能体操作安全分析器、操作确认策略、上下文文件支持、智能体技能、上下文浓缩、TODO 列表规划器、基于 Tmux 的交互式 Bash 终端、自动生成对话标题、带自动掩码的密钥管理、智能体卡顿检测、跨会话长期记忆等 [21] - 生产服务器特性方面,具备内置 REST+WebSocket 服务器、基于会话的身份验证、内置远程智能体执行、智能体环境沙盒化、用于智能体工作区的 VNC 桌面、VSCode Web 和内置 Chromium 浏览器 [21] 可靠性与性能评估体系 - 团队通过两个互补的过程评估 OpenHands Agent SDK 的可靠性和性能:持续测试和基准评估 [24] - 持续测试流程结合了程序化测试和基于 LLM 的测试,在每个拉取请求上自动运行且每天运行一次,检查 SDK 在多种语言模型下是否表现一致,每次完整运行成本仅为 0.5–3 美元,并能在 5 分钟内完成 [24] - 基准评估在标准化的智能体任务上衡量 SDK 的整体能力,帮助了解模型质量和系统性能 [25] - SDK 采用三层测试策略平衡覆盖范围、成本和深度:程序化测试在每次提交时运行,模拟 LLM 调用并在几秒钟内验证核心逻辑、数据流和 API 协定 [31] - 基于 LLM 的测试包括集成测试和示例测试,每天执行并可按需为拉取请求执行,使用真实模型验证推理、工具调用和环境稳定性,每次运行成本为 0.5–3 美元,在 5 分钟内完成 [31] - 集成测试覆盖多种基于场景的工作流,示例测试定期运行所有 SDK 示例以确保端到端的可靠性,测试套件会随着新智能体行为和故障模式的发现而不断扩展 [26] - 基准评估是按需进行的高成本评估,每次运行成本 100–1000 美元,耗时数小时,用于衡量学术数据集上的综合智能体能力 [31] 基准测试表现与竞争力 - 在软件工程基准 SWE-Bench Verified 上,SDK 使用 Claude Sonnet 4.5 配合扩展思维实现了 72.8% 的解决率 [29] - 在通用智能体基准 GAIA 上,SDK 使用 Claude Sonnet 4.5 实现了 67.9% 的准确率,展现了有效的多步推理和工具使用能力 [29] - 其他模型表现对比:在 SWE-Bench 上,Claude Sonnet 4 达到 68.0%,GPT-5 达到 68.8%,Qwen3 Coder 480B 达到 65.2%;在 GAIA 上,Claude Sonnet 4 达到 57.6%,GPT-5 达到 62.4%,Qwen3 Coder 480B 达到 41.2% [29] - 强大的开源编码模型 Qwen3 Coder 480B 实现了 41.2% 的分数,这些结果略优于 OpenHands-Versa 的结果,表明该 SDK 的架构并未牺牲智能体能力,并实现了与研究专精系统相媲美的性能 [30]