Workflow
OpenAI Operator
icon
搜索文档
智能体的崛起:其对网络安全领域的优势与风险
搜狐网· 2025-10-10 05:05
随着智能体被逐渐应用于各行各业,它们对业务运营、人机协作和国家安全的影响正在不断扩大,确保 智能体安全、可解释且可靠的责任也随之加重。美国政策研究智库R街研究所(R Street Institute)发表 了"The Rise of AI Agents: Anticipating CyberSecurityOpportunities, Risks, and the Next Frontier"的报告,概 述了智能体系统的架构,探讨了智能体在网络安全用例中的部署方式,并识别了它们在网络安全领域的 优势及在四个不同的基础功能层面(感知、推理、行动和记忆)产生的新风险。启元洞见编译该报告, 为智能体相关研究提供参考。 一、引言 2023年被称为"生成式人工智能"元年,2024年则稳步迈向"人工智能实用化",而2025年则被誉为"智能 体"元年。智能体的核心是"由人工智能驱动的自主智能系统,旨在独立执行特定任务,无需人工干 预。"尽管目前对智能体尚未有明确的定义,但都强调了其包括学习、记忆、计划、推理、决策和适应 在内的一系列自主追求和完成目标的能力。与非智能体系统不同,它能在较少的人工干预下执行多步骤 任务,潜力巨 ...
什么都不做就能得分?智能体基准测试出现大问题
机器之心· 2025-07-15 05:37
AI智能体基准测试现状 - 基准测试是评估AI系统优势与局限性的基础工具,对科研与产业发展具有关键引导作用[2] - 随着AI智能体从研究原型转向实际应用,行业开始构建专门评估其能力的基准测试,但任务设计和评估方式比传统AI测试复杂得多[3][4] - 现有10个主流基准测试中,8个存在严重问题,部分导致对AI能力100%误判[6] 现存问题案例分析 - WebArena基准测试将错误答案"45+8分钟"判定为正确(正确答案应为63分钟)[8] - τ-bench中"无操作"智能体在航班任务中获得38%正确率,尽管其完全不理解机票政策[8] - SWE-bench Verified中24%智能体排名因单元测试扩充而变动,显示原有评估不全面[25] - OSWorld因使用过时网站导致28%性能低估,评估器仍依赖已移除的CSS类名[32][33] 核心失效原因 - 模拟环境脆弱:智能体可能利用系统漏洞绕过任务要求[13] - 缺乏标准答案:代码/API调用等输出难以统一评估,主观性强[13] - 结果有效性不足:7/10基准不能真实反映任务完成情况[23] - 透明度缺失:8/10基准未公开已知问题[23] 解决方案与检查清单 - 提出AI智能体基准测试检查清单(ABC),包含43项条目,源自17个主流基准测试[17] - ABC包含三部分:结果有效性检查、任务有效性检查、基准报告指南[18] - 有效性判据:1)任务需特定能力才可解 2)评估结果真实反映完成情况[12][15] 行业影响数据 - SWE-bench Lite中41%智能体排名因测试扩充而变动[25] - WebArena因评估方法缺陷导致1.6%-5.2%性能误判[31] - 7/10基准存在可被智能体利用的捷径或无法完成的任务[23]