Workflow
Agent开发
icon
搜索文档
中信证券:建议关注以多模态为代表的应用机会 同步关注模型发展带来的算力新需求
智通财经网· 2025-11-20 01:00
文章核心观点 - Google发布最新基座模型Gemini 3 Pro,其多模态理解和逻辑推理两大关键能力显著提升,多模态性能表现达到领先水平 [1] - 模型围绕Agent开发、代码生成、用户交互等关键能力持续升级,在主流测试集上达到领先水平,目前已全面向Search、Gemini app、AI Studio、Vertex AI、Google Antigravity等渠道开放 [1] - 建议关注以多模态为代表的应用机会,同步关注模型发展带来的算力新需求 [1][8] 多模态能力 - Google将Gemini 3 Pro定位为"世界最好的多模态理解模型",强调其综合利用多种模态信息进行推理思考的能力 [2] - 在理解+推理测试集MMMU-Pro/Video-MMMU上分别得分81.0%/87.6%,较GPT-5.1的76.0%/80.4%有明显提升 [2] - 在测试GUI交互能力的ScreenSpot-Pro测试集上正确率达到72.7%,大幅超越Claude Sonnet 4.5的36.2% [2] - 模型多模态能力是从最初开始构建,原生多模态架构创新带来性能显著领先 [1][2] 推理能力 - Gemini 3 Pro在主流推理测试集上性能优异,GPQA Diamond测试集上得分91.9%,略微领先于GPT-5.1 [3] - HLE测试集上无工具调用正确率达到37.5%,较GPT-5.1的26.5%有明显提升 [3] - 深度思考模式下模型在HLE测试集上正确率进一步提升到41%,ARC-AGI-2成绩为45.1%,大幅超越GPT-5.1的17.6% [3] - SimpleQA Verified测试集上正确率达到72.1%,较GPT-5.1的34.9%有大幅领先,反映模型知识丰富度和信息准确性提升 [3] Agent能力 - 模型工具调用能力与GPT-5.1、Claude 4.5 Sonnet相比有小幅领先,任务规划能力表现更好,支持100万Tokens上下文窗口长度 [4] - 长上下文精确检索测试集性能大幅领先,结合推理和多模态理解能力升级,展示更丰富的Agent开发潜力 [4] - 发布全新Agent开发平台Google Antigravity,整合模型、代码助手、外部工具、可视化开发环境等,覆盖完整端到端开发工作流 [6] 编程能力 - 在swe-bench verified等关键测试集上与Claude 4.5 Sonnet能力相近,更多侧重网页UI为代表的前端开发能力 [4] - WebDev Arena上得分达到1487,超越GPT-5.1和Claude 4.5 Sonnet等模型 [5] - 通过实时的用户界面改造能力,Google Search可以用视觉结合文本的方式更有效阐述结论 [5] 生态系统 - To C端将Gemini App作为统一入口,当前Gemini app MAU超6.5亿,超过70%的Google Cloud用户使用Google的AI服务 [6] - 超过1300万开发者使用Gemini模型进行应用开发,通过丰富的Agent工具提升用户粘性 [6] - To D端通过Google Antigravity平台培育丰富Agent生态,将开发者思路快速转化成可落地的Agent产品 [6]
Agent开发中的坑与解_殷杰 百度智能云高级产品经理
搜狐财经· 2025-10-14 03:57
文章核心观点 - 报告系统梳理了Agent(智能体)开发从启动前、开发中到上线后全流程中常见的现实困境与挑战,并针对每个阶段的问题提供了具体的解决方案和最佳实践,旨在帮助企业打造高可用、可持续优化且贴合需求的智能体 [1][2] 启动前阶段的关键问题与解决方案 - **目标设定问题**:启动前易出现目标过大或模糊导致难以落地,解决方案是选择从小切口与痛点入手,例如聚焦于提升客户服务响应速度,采用“最小可用Agent”模式进行小步快跑 [1][9][12] - **数据与工具忽视**:忽视数据和工具会导致效果差,需坚持数据先行,重点保障数据的可获取性、质量与更新方式 [1][9][12] - **业务场景不清**:业务场景不清晰会导致Agent缺乏价值,应从明确的客户痛点出发,以终为始倒推Agent的选题 [1][9][12] - **ROI评估缺失**:缺乏投资回报率评估会导致项目难持续,应以ROI为导向设定可量化的指标,确保价值可验证 [1][9][12] - **技术选型策略**:选型无标准答案,需结合开源/闭源/自研、免费/商业、代码形态等维度,并依据技术团队规模与预算选择适配方案,例如技术储备充足且成本敏感的团队可选择免费开源框架和高代码平台 [1][14][17] - **行业经验借鉴**:应避免重复造轮子,积极借鉴行业最佳实践、应用模版、搭建指南,并咨询行业专家或参加论坛,站在前人肩膀上以提升效率 [17] 开发中阶段的关键问题与解决方案 - **模型选择与成本控制**:开发中面临模型选择困难、使用不当及成本失控问题,可借助如百度智能云千帆等平台精选模型,通过场景匹配缩小范围,并关注效价比以持续调优 [2][20][23] - **提示词设计**:提示词存在目标模糊、缺乏结构化表达等问题,应像编写产品需求文档一样设计提示词,确保指令清晰、格式规范,并用场景示例进行补充,可利用融合行业经验的预置模版和智能调优工具 [2][26][27] - **知识库管理**:知识库数据管理混乱导致检索效果差,解决方案是结合离线加工与在线召回,并优化检索策略 [2] - **工具调用与安全**:工具调用协同不足且安全防护薄弱,需从合适平台获取工具并实现标准化调用,同时构建多级纵深安全体系,结合数据与规则干预保障安全 [2] 上线后阶段的关键问题与解决方案 - **系统稳定性保障**:上线后常出现监控告警缺失、扩缩容与容灾机制不足、日志记录匮乏等问题,需通过识别资源依赖、配置冗余容量、建立全链路日志与监控告警及容灾机制来保障系统稳定 [2] - **持续优化机制**:缺乏持续观测、数据驱动决策和用户反馈体系,需完善观测手段,构建量化评价基线并建立用户反馈体系,以推动Agent持续优化 [2]
MiniMax推出Agent全栈开发功能!一句话聊出演唱会选座系统,可锁座可支付
搜狐财经· 2025-07-16 16:35
产品功能发布 - 国产大模型公司MiniMax正式发布Agent全栈开发功能,支持一键构建完整全栈应用,涵盖前端展示和后端功能 [2] - 系统支持Supabase后端托管、Stripe支付集成、cron job定时任务和长链接维持等技术特性 [2] - 可实现API调用、实时数据处理、支付功能、LLM集成、定时任务执行及用户认证等功能 [2] 应用场景展示 - 用户可在30分钟内开发演唱会选座系统,实现实时锁座、注册验证、Stripe支付下单等完整流程 [2] - 投资者可定制实时看板跟踪全球50只科技股票价格和行业新闻,数据抓取支持每天07:00、12:00和17:00三次更新 [2] - 个人创业者可创建出海独立站如水晶手串电商网站,支持真实下单和订单管理功能 [2] - 职场用户可将Excel表格转化为数据看板,支持企业内数据看板定制和CRM/SaaS工具开发 [4] - 支持定时资讯推送功能如AI Daily Newsletter,用户可自定义主题和推送频率 [4] 技术架构 - 采用模块化Agent架构,包含调研子Agent、全栈开发Agent和测试子Agent三个核心组件 [4] - 调研子Agent可分析需求生成技术方案,检索API规范并验证需求完整性 [4] - 全栈开发Agent基于行业最佳实践生成健壮代码,实现前后端完整功能 [4] - 测试子Agent执行接口级测试与修复,进行模块化应用测试与调试 [4] 企业级应用 - 新增MCP builder功能,用户通过一句话指令即可开发任意MCP应用 [5] - 支持企业级应用开发包括业务管理系统、金融数据可视化、个人效率工具等场景 [5] - 平台上线一个月内已完成12次功能更新 [5] 市场影响 - Agent全栈开发功能显著降低复杂应用开发门槛 [5] - 在快速落地简单应用和满足个性化开发需求方面展现出潜力 [5]