Workflow
Model Context Protocol (MCP)
icon
搜索文档
Research Solutions(RSSS) - 2025 Q4 - Earnings Call Transcript
2025-09-18 22:00
Research Solutions (NasdaqCM:RSSS) Q4 2025 Earnings Call September 18, 2025 05:00 PM ET Speaker4Good afternoon, everyone, and thank you for participating in today's conference call to discuss Research Solutions Inc.'s financial and operating results for its fiscal fourth quarter and full year ended June 30, 2025. As a reminder, this conference is being recorded. I would now like to turn the conference over to your host, Steven Hooser, Investor Relations.Speaker5Thank you, David, and good afternoon, everyone ...
MCP:构建更智能、模块化 AI 代理的通用连接器
AI前线· 2025-09-14 05:33
模型上下文协议(MCP)核心概念 - MCP是一个开放标准,定义基于JSON-RPC 2.0的通用客户端-服务器协议,用于AI代理与外部能力的交互[4] - 关键组件包括主机(如LLM或IDE)、客户端(管理通信)、服务器(暴露外部功能)以及工具、资源、提示和采样功能[6][7][8] - 协议支持有状态连接,使用STDIO进行本地传输,HTTP+SSE或流式HTTP进行Web连接[4] 标准化协议的优势 - 将M×N集成碎片转化为M+N模块化结构,大幅减少定制集成工作量[18] - 实现跨框架互操作性,允许不同AI代理无缝访问任何MCP兼容服务器[10] - 提供面向未来的稳定集成层,使LLM和框架更换不影响现有工具集成[18] - 促进工具开发民主化,社区正构建Google Drive、GitHub等流行服务的MCP连接器库[18] 行业应用案例 - Block公司部署"Goose"企业AI代理,通过MCP集成Databricks、Snowflake、GitHub等系统,实现SQL生成执行和运营自动化[14][19] - 开发工具领域广泛应用,Windsurf、Anysphere、Replit等IDE通过MCP提供上下文感知的编码辅助[17] - 企业级多系统工作流编排,例如销售流程可跨电子邮件、CRM、Slack和日历工具自动化操作[33] 技术框架集成进展 - LangChain通过mcp-adapters包使代理能加载任何MCP服务器工具[22] - CrewAI工具库支持MCP服务器作为工具提供者,使用MCPServerAdapter实现集成[23] - AutoGen提供McpToolAdapter和mcp_server_tools()函数,支持 Anthropic fetch工具等网络内容获取功能[25] 能力提升维度 - 增强代理记忆和状态持久性,支持向量数据库存储超越LLM上下文窗口的长期信息[28] - 实现跨工具调用的共享上下文保持,避免重新提示或信息丢失[28] - 支持动态工具发现,代理可编程查询可用工具及其说明和输入模式[28] - 为多代理协作奠定基础,支持专业代理团队通过共享工作空间协同工作[28] 生态系统发展现状 - MCP于2024年底由Anthropic推出,正迅速成为开放通用标准[3] - 开源MCP服务器数量持续增长,被AI开发者社区快速采用[33] - 实际应用涵盖大规模企业自动化、开发者工具增强和多系统工作流编排场景[33]
首个基于MCP 的 RAG 框架:UltraRAG 2.0用几十行代码实现高性能RAG, 拒绝冗长工程实现
AI前线· 2025-08-29 08:25
UltraRAG 2.0 技术架构创新 - 基于 Model Context Protocol (MCP) 架构设计,通过组件化封装将 RAG 核心功能标准化为独立 MCP Server,支持函数级 Tool 接口灵活调用与扩展 [2][3][24] - 采用 Client-Server 架构实现模块间无缝复用,新模块可通过"热插拔"方式接入,避免对全局代码的侵入式修改 [23][24] - 原生支持多结构 Pipeline 流程控制(串行/循环/条件分支),所有控制逻辑通过 YAML 配置实现,大幅降低工程复杂度 [26] 开发效率提升表现 - 实现经典多轮检索方法 IRCoT 仅需约 50 行代码,较官方近 900 行实现减少 94% 代码量,较标杆框架 FlashRAG 的 110 行减少 55% 代码量 [6][8] - 其中约 50% 代码为 YAML 伪代码,显著降低开发门槛与实现成本 [6] - 构建具备动态检索、条件判断和多轮交互的多阶段推理系统仅需不到 100 行代码 [12] 系统性能验证 - 在复杂多跳问题上相较 Vanilla RAG 性能提升约 12% [14] - 内置 17 个主流 benchmark 任务与多种高质量 baseline,提供统一评测体系与知识库支持 [26] - 支持智能客服、教育辅导、医疗问答等典型应用场景,输出更可靠的知识增强答案 [22] 生态资源支持 - 提供完整开源生态:GitHub 项目仓库、Hugging Face 开源数据集、项目主页及详细教程文档 [3][29] - 支持研究者快速适配新模型算法,保持系统稳定性与一致性 [24]
杜克大学、Zoom推出LiveMCP‑101:GPT‑5表现最佳但未破60%,闭源模型Token效率对数规律引关注
机器之心· 2025-08-28 10:40
研究背景与动机 - MCP外部工具交互能力已成为AI Agent核心 使Agent能超越静态知识动态与真实世界交互 Model Context Protocol标准化了模型与工具集成[4] - 现有评测基准多聚焦单步工具调用 合成环境或有限工具集 无法捕捉真实场景复杂性和动态性 实际应用中代理需与随时间变化响应的实用工具交互并跨完全不同的领域[4] - 现实用户查询带细致上下文和特定约束 需跨多次工具调用的精确推理 要求代理知道何时及如何在演变任务状态中组合工具[4] - 现有基准无法完全揭示代理系统在真实生产环境部署时的差距 理解代理在时间演进生产环境中为何失败能为改进模型和系统架构提供宝贵见解[4] 评测基准设计 - 包含101个高质量任务 经多轮LLM改写与人工审校 覆盖41个MCP服务器 260个工具 分为Easy Medium Hard三档难度 涵盖从基础工具调用到复杂多步推理[6] - 采用Reference Agent机制 严格遵循预定义执行计划 仅使用计划指定MCP工具和参数 确保动态环境中产生稳定可重现参考结果[9] - 金标执行链构建结合o3模型起草 LLM辅助编辑与人工调整 修正逻辑错误 工具选择 参数化和数据处理错误 修订过程耗费约120 PhD hours 每个任务经多次试验验证[9] - 执行计划工具链长度分布平均5.4次调用 最长达15次[9] - 创新并行双轨评测框架解决在线服务响应随时间变化问题 工具池包含所有必需工具加额外MCP工具 单任务总共76-125个工具 模拟真实世界选择广度[10] - 采用LLM-as-judge双重评分机制 对被测代理结果和执行轨迹分别评分 人类一致性验证显示与人类专家一致性在结果评审达κ>85% 轨迹评审达κ>78%[11] 模型性能表现 - 在18个评测模型中 GPT-5以58.42%总体成功率领先 其次为o3(46.53%) GPT-5-mini(43.56%) 开启扩展思考的Claude-4.1-Opus(41.58%) 显示即使最先进模型在复杂多步工具编排任务上仍有很大提升空间[14] - 难度梯度影响显著 Easy任务上GPT-5达86.67%成功率 Hard任务上仅为39.02% 表明当前模型处理复杂约束和长链推理时存在局限性[14] - 开源模型明显落后 最好Qwen3-235B-A22B仅22.77%成功率 Llama系列表现尤其不佳 Llama-3.3-70B仅1.98% 暴露在MCP工具调用训练上不足[14] 执行质量与效率分析 - 轨迹质量与任务成功率和平均结果分呈现显著正相关 强调过程正确性对最终结果的决定性影响[17] - 闭源模型展现独特对数型Token效率模式 低Token预算下任务成功率快速提升后进入平台期 表明早期Token用于高价值操作而额外Token多带来冗余[18] - 开源模型即使使用相当或更多Token成功率提升有限 Llama系列倾向过早停止探索 Qwen模型产生更长输出和更多工具调用但未转化为性能提升[18] - 启用扩展思考的Claude系列在相似Token预算下持续展现更好性能 表明改进来自更好规划和错误恢复而非输出冗长[18] 失败模式分析 - 识别三大类七种具体失败模式 工具规划与编排错误占比最高[20] - 参数错误是核心瓶颈 语义错误率即使强模型也有16-25%[20] - 输出处理错误 工具返回正确结果但在解析或转换时出错[20] - 忽略需求 完全错过任务明确要求未调用相关工具[20] - 过度自信自解 依赖内部知识而非调用必要工具[20] - 无效循环 识别需要工具但陷入无产出思考循环未调用相关工具[20] - 错误工具选择 调用不适当工具导致错误结果[20] - 语法错误 参数格式错误在Llama-3.3-70B-Instruct中高达48% 显示MCP特定训练缺失[20] 与既有工作差异 - 更贴近生产实况 更大工具池与干扰工具设置 暴露长上下文与选择噪声下鲁棒性问题[23] - 更高难度与更细金标 平均5.4次调用最长15次 显著区分模型层级 金标执行链含详细参数与步骤 评分更一致更接近人工判断[24] - 更强诊断性 并行得到参考轨迹与被测轨迹 可精确定位错在计划 参数还是后处理 指导工程优化[25] 总结与展望 - LiveMCP-101为评测AI Agent在真实动态环境中多步工具使用能力建立严格可扩展评测框架 通过101个涵盖多领域精心设计任务配合基于执行计划创新评测方法[27] - 揭示即使最先进大语言模型在工具编排 参数推理和Token效率方面仍面临重大挑战 不仅诊断当前系统不足更为开发更强大AI Agent指明改进方向[27]
Microsoft Highlights Gieni AI as Vertical AI Reference at Build 2025
GlobeNewswire News Room· 2025-08-06 00:51
公司动态 - Orderfox Schweiz AG旗下市场情报平台Gieni AI在微软Build 2025大会上被选为垂直AI集成参考案例[1] - Gieni AI成为首批在微软Copilot Studio市场提供MCP连接器的垂直AI代理之一[2] - 该平台通过微软365工具(Teams/Outlook/Excel/Word)直接提供市场、竞争和风险情报[2] - 集成后用户可在不切换应用的情况下生成实时情境洞察[2] 技术能力 - MCP连接器使Gieni AI能通过混合智能模型提供行业特定答案[4] - 模型结合专有结构化/非结构化公司数据、零样本推理和向量数据库架构[4] - 平台可生成仪表板、市场报告并通过微软环境直接丰富CRM工具[4] - 系统实时处理来自3.8亿网页和500万公司档案的数据[8] - 采用专有语义搜索和分类系统处理数据[8] 商业价值 - 帮助企业直接在日常流程中做出更智能快速的决策[3] - 实现更明智的决策制定、更快的市场进入策略和竞争优势保持[9] - 功能包括识别ESG合规供应商、追踪区域竞争者和跨行业趋势分析[5] - 将数据过载转化为可直接嵌入现有工具的可操作情报[9] 战略合作 - 与微软合作使Gieni AI能在企业现有软件系统中运行[6] - 简化运营并增强战略团队对市场数据的访问[6] - Gieni AI市场研究代理即将面向微软Copilot用户开放[6] - 可通过微软企业平台进行计费[6] 公司背景 - Orderfox Schweiz AG总部位于苏黎世[10] - 开发面向工业和B2B领域的AI平台[10] - 产品包括实时市场情报代理Gieni AI和全球最大CNC网络Partfox[10] - 技术支撑全球企业的自动化、采购和数据驱动决策[10]
Baidu Launches ERNIE 4.5 Turbo, ERNIE X1 Turbo and New Suite of AI Tools to Empower Developers and Supercharge AI Innovation
Prnewswire· 2025-04-25 17:03
文章核心观点 百度在2025年百度Create开发者大会上推出ERNIE 4.5 Turbo和ERNIE X1 Turbo两款模型及一系列AI应用和进展 致力于赋能开发者拥抱MCP 同时推出AI开放倡议等举措支持AI开发者适应新兴趋势 [1][10][17] 分组1:会议概况 - 百度在2025年百度Create开发者大会上介绍新的AI创新成果 大会主题为“模型引领,应用为王” 设有六个分论坛 [1][21] 分组2:模型介绍 - 推出ERNIE 4.5 Turbo和ERNIE X1 Turbo 具备增强的多模态能力、强推理和低成本特点 免费供用户在文心一言使用 旨在解决行业痛点 [3] - ERNIE X1 Turbo是升级的深度思考推理模型 性能提升且价格为ERNIE X1一半 仅为DeepSeek R1的25% [4][5] - ERNIE 4.5 Turbo在减少幻觉、逻辑推理和编码能力上有进步 响应更快 多模态能力与GPT - 4.1相当 价格为ERNIE 4.5的20% [6] 分组3:AI应用 - 推出高度逼真的数字人 具有超逼真语音和外观 百度慧博星平台可一键创建数字人 [9][10][11] - 发布多智能体协作应用新乡 能一站式解决复杂问题 目前覆盖200种任务类型 未来计划扩展到超10万种 [14] - 推出沧州OS 百度网盘基于此推出行业首个多模态AI笔记工具AI Note [15] 分组4:生态建设 - 百度搜索开放平台推出AI开放倡议 为开发者提供流量、变现机会和最新AI服务 [18] - 宣布全面支持开发者采用MCP 并在一系列百度自有服务中展示集成演示 [19] - 宣布第三届文心杯创新挑战赛 奖金翻倍 最高提供7000万元投资 未来五年培养1000万AI人才 [20]