Agent

搜索文档
Agents和Workflows孰好孰坏,LangChain创始人和OpenAI杠上了
Founder Park· 2025-04-21 12:23
行业观点分歧 - OpenAI发布构建AI Agents的实用指南,主张通过LLMs主导Agent设计[2] - LangChain创始人反对严格区分Agent类型,认为理想框架应允许结构化工作流向模型驱动灵活过渡[2] - Anthropic提出"Agentic系统"概念,将Workflows和Agents视为同一系统的不同表现形式[2][12] - 大模型派(Big Model)强调通用型智能体系统,工作流派(Big Workflow)主张模块化工作流构建[2] Agent定义差异 - OpenAI定义Agent为"能代表用户独立完成任务"的宏观系统[10] - Anthropic将Agent明确区分为预设规则的Workflows和动态决策的Agents[12][13] - 实际生产环境中大多数系统采用Workflows和Agents混合模式[16][20] - 建议采用"Agentic程度"的连续光谱概念替代二元分类[21] 技术实现挑战 - 构建可靠Agent的核心难点在于确保LLM每步获取精准上下文[26][27] - 上下文传递问题常源于系统提示不完整、工具描述不当或响应格式错误[28] - 声明式框架可视化清晰但动态性不足,代码优先方案更灵活但控制复杂[6][41] - 多Agent系统需解决通信机制问题,可采用交接或工作流混合模式[45][46] 框架设计维度 - 成熟框架需同时支持Workflows和Agents两种模式[32] - 需平衡可预测性与自主性,不同应用场景需求各异[33] - 理想框架应兼具低门槛(易用性)与高上限(扩展性)[37][40] - LangGraph采用声明式与命令式混合API,支持持久化与流式传输[30][31] 生产环境考量 - Agentic系统通常需牺牲延迟和成本换取任务表现[20][63] - 企业级应用需特殊功能如人工监督、容错机制和长期记忆存储[53][57] - 垂直领域需定制化方案,通用模型难以满足独特业务需求[67] - 框架价值体现在标准化构建方式、调试工具和生产级功能集成[49]
扣子空间一手实测:字节的第一个Agent,比Manus如何?
Founder Park· 2025-04-21 12:23
产品发布与内测 - 4 月 17 日,豆包·深度思考模型发布,同步升级文生图模型 3.0、视觉理解模型,推出 OS Agent 解决方案及 AI 云原生推理套件[29] - 4 月 18 日晚间,字节跳动扣子空间开启内测,定位通用 Agent,采用邀请码制[3] 产品功能与体验 - 扣子空间用户可选择「通用实习生」或「领域专家」完成工作任务,有探索和规划两种模式,支持添加 MCP 扩展[4][7][13] - 实测中,制定旅游攻略和一周穿搭任务部分完成,专家助手任务出现 Python 脚本调用失败、API 权限异常等 Bug[6] - 接入语音合成工具可将文字攻略转成语音,查天气推荐穿搭可输出图片[15] 专家 Agent 情况 - 扣子空间内置「用户研究专家」和「华泰 A 股观察助手」两个专家 Agent,限时免费,前者单任务平均耗时 4 分钟,后者 23 分钟[24][25] - 「华泰 A 股观察助手」执行任务不稳定,出现数据未获取、Python 脚本调用失败等问题[26][27] 行业趋势与战略 - 2025 年之前被称为 Agent 之年,manus 加速大厂在该领域推进[29] - 做好 Agent 技术上需更强多模态模型、更好架构和工具、降低模型推理成本和延迟,字节或已做好准备[30][31] - 火山引擎通过多种方式全面推进 Agent 生态建设,未来 Agent 定义和应用场景将更清晰[32] - 字节的 Agent 战略以技术突破、生态协同和成本优势为核心[33]
复盘字节扣子空间开发历程:瞄准工作场景,做一个 Agent 系统
晚点LatePost· 2025-04-21 09:36
字节AI产品扣子空间内测表现 - 字节Agent产品"扣子空间"4月18日内测开启后因用户涌入导致服务器崩溃,验证市场对实用型AI产品的强烈需求[3] - 产品定位为"与Agent一起开始你的工作",聚焦解决工作场景复杂问题,由豆包大模型驱动并支持MCP协议调用飞书等工具[4] - 通用Agent提供探索模式(自动执行)和规划模式(需用户确认),后者在测试中表现更优,能完成收集行业动态等任务[5][7] 产品功能与测试案例 - 通用Agent可开发提醒喝水App:分析竞品→收集需求→输出交互式网页方案[8] - 处理关税查询等复杂任务时存在信息过时问题,但会主动生成可视化网页文件[10] - 专家Agent体系包含用户研究专家(提炼访谈记录为产品建议)和华泰A股观察助手(分析上市公司数据)[12][14][16] - 中美关税对宁德时代影响分析案例:拆解6步骤耗时40分钟,输出包含市场拓展建议的报告[22][24] 技术架构与竞争优势 - 采用豆包1.5 Pro为主模型,因其工具调用和多模态处理能力突出且推理成本低[28] - 背靠字节生态优势:整合扣子平台200万+AI应用数据、飞书文档工具链及火山引擎部署能力[28] - 通过MCP协议实现飞书文档双向读写,解决私有数据访问关键问题[28] - 行业竞争壁垒在于数据/工具调用能力而非基础模型差异[31] 产品战略与行业动态 - 当前版本定位为"打样",目标构建通用+专家Agent协同的开放系统[4][33] - 快速上线策略旨在获取用户反馈优化产品层,弥补基础模型局限[32] - 国内大厂均在加速布局Agent赛道,扣子空间属于先行者之一[33]
火山总裁谭待:很多Agent的能力还停留在类似自动驾驶的L1阶段
快讯· 2025-04-17 11:17
行业发展方向 - 目前很多Agent的能力仍停留在初级水平,真正实现具备更强反思、规划与自主决策能力的Agent是行业发展的方向 [1] - 深度思考模型是构建Agent的基础,模型需要具备思考、计划和反思能力,并且支持多模态,才能更好地处理复杂任务 [1] 公司动态 - 字节跳动旗下火山总裁谭待在火山引擎2025FORCE LINK AI创新巡展上表示,豆包1.5深度思考模型正式发布 [1] - 豆包1.5深度思考模型在数学、编程、科学推理、创意写作等通用任务表现突出,并上线了具备视觉推理能力的视觉版 [1] - 视觉版模型能像人类一样对看到的事物进行联想和思考 [1]
北京最火独角兽,要IPO了
投中网· 2025-04-15 06:57
智谱AI IPO进展 - 智谱于2025年4月14日在北京证监局办理IPO辅导备案,辅导机构为中金,计划2025年10月完成上市准备 [3] - 2025年3月完成股份改制,由有限责任公司变更为股份有限公司 [3] - 成为国内大模型"六小虎"中首家启动IPO的公司 [3] 公司背景与技术架构 - 源自清华大学知识工程实验室,核心团队为清华系技术专家,包括首席科学家唐杰(主导研发中国首个万亿参数开源大模型"悟道2.0")[5] - 技术对标OpenAI,拥有全栈自研GLM系列模型架构,包括基座大模型GLM-4、代码模型、多模态模型等,2023年3月至今已完成4次重大迭代 [5] - 2025年发布Agent产品AutoGLM沉思,推理模型GLM-Z1-Air性能比肩DeepSeek-R1但速度提升8倍、成本仅1/30 [5] 商业化进展 - 2024年商业化收入同比增长超100%,MaaS平台吸引70万企业及开发者用户,API年收入同比增30倍 [5] - C端产品"智谱清言"2024年三季度上线付费功能后预计年收入超千万元 [5] - 2025年宣布为"开源年",计划发布包括基座模型、多模态模型等在内的全新开源大模型 [5] 融资与资本结构 - 累计融资超100亿元,2023年单年融资37亿元,估值增长6倍至200亿元 [7] - 投资方包括美团、腾讯、小米等产业资本及红杉、高瓴等财务投资人,2025年3月获杭州、珠海、成都国资合计18亿元战略投资 [7][8] - 无控股股东,实际控制人唐杰和刘德兵通过一致行动人安排控制36.9647%表决权,美团为最大外部股东(持股5.5423%)[10] 行业竞争格局 - 国内大模型"六小虎"分化明显:零一万物转向参数适中模型,MiniMax聚焦多模态,百川深耕医疗,月之暗面开发内容社区 [3] - 二级市场反应积极,战略合作方思美传媒在IPO消息公布后股价涨停 [3]
一堂「强化学习」大师课 | 42章经
42章经· 2025-04-13 12:01
强化学习(RL)基础概念 - 强化学习是机器学习中解决多步决策问题的算法框架 其特点在于没有标准答案 通过最终反馈机制评判结果好坏[6] - 与传统监督学习不同 RL不需要标注数据 而是通过环境交互获得奖励信号 更接近人类解决问题的逻辑[6][7] - 典型应用场景包括游戏(如乒乓球)和复杂任务(如行程规划) 每个决策步骤会影响最终结果[6] RL与LLM的结合发展 - OpenAI首次在InstructGPT中将RL与LLM结合 解决大模型指令遵从问题 衍生出RLHF技术[10][11] - RLHF通过人工标注数据训练奖励模型 使LLM输出更符合人类需求 但本质是对齐而非增强模型能力[12][13] - RL实现"慢思考"机制 通过延长推理过程(token量增加)提升LLM准确性 形成inference time scaling范式[14][15] 行业技术路径分化 - OpenAI聚焦Agent范式 实现多轮交互和虚拟世界操作 完成从单轮到多轮的跃迁[20][21] - Anthropic专注编程能力 在简单问题快速响应与复杂问题深度思考间取得平衡[17][30] - DeepSeek探索通用泛化能力 通过理科训练与文科调校结合实现平衡输出[18][31] 技术实现关键要素 - 基建框架决定迭代效率 7B模型训练周期从7天缩短至2天可提升3倍试错机会[33] - 数据质量比数量更重要 针对性训练数据可显著提升模型性能[33] - 理解能力依赖LLM预训练 决策能力依赖RL 二者形成乘法效应缺一不可[23][24] 行业应用与人才现状 - RL人才稀缺源于技术门槛高 论文引用量比NLP/CV少一个数量级 工业级应用场景有限[39][40] - 开源框架AReaL-boba实现7B模型SOTA性能 推动RL技术普及[43] - 创业公司需把握技术窗口期 在终局到来前快速验证产品 而非追求长期技术优势[37][38] 企业组织架构建议 - 预训练与后训练团队需紧密协作 成员需具备跨领域知识避免能力盲区[36] - 按目标划分专业团队(多模态/RLHF等) 同时保持技术路线的灵活性[36] - Agent公司需储备RL人才 尽管当前技术门槛较高但未来可能成为标配能力[37]
吴明辉:DeepSeek之后,每一家公司都是Agent
混沌学园· 2025-04-02 08:32
核心观点 - 未来营销不仅面向人,还需面向大模型,智能体如Manus可能成为每个人的桌面 [1] - 企业本质是超级Agent,一线员工是感知系统,管理层是认知系统 [1][5] - 国产AI领域将在4月迎来Agent发布潮,Manus已与通义千问达成合作 [1] - 大模型能力十倍速提升带来重大机遇,但幻觉问题仍是挑战 [2] - Agent分为供给侧代理和需求侧代理,Manus是成功案例 [3][4] 推理大模型带来的机会 - 大语言模型本质是函数,根据上文生成下文 [1] - DeepSeek-R1等模型推理能力提升10倍,创造新创业机会 [2] - 幻觉问题未解决反而带来机遇,可用企业独有数据解决 [2] - 大模型擅长处理非结构化数据,如社交媒体信息 [11] Agent的定义与分类 - Agent可译为"智能体"或"代理商",需明确代理谁的利益 [3] - 供给侧代理:帮助客户更好使用现有软件 [3] - 需求侧代理:围绕客户需求连接资源,如Manus [4] - Manus成功连接各种工具,类似人类具备感知和行动能力 [5] 企业Agent的构建框架 感知系统 - 贝壳找房案例:工牌录音记录施工过程,数据脱敏分析后赋能一线 [8] - AI可强化感知,如Grok3利用X平台实时舆情数据 [10] - 大模型帮助交易员获取场外非结构化数据,提升感知能力指数级 [11] 认知系统 - 需聚焦高频高杠杆率决策,如用AI变革核心工种 [14] - 建议采用倒三角架构:客户在上,一线员工居中,管理层在下 [15] - 企业应建立自有模型保护数据,开源是更好选择 [15] - 倒三角结构解决两大问题:客户与员工互动、员工与管理层互动 [17] 行动系统 - 物理世界行动系统如宇树机器人,虚拟世界行动系统如API/RPA/Agent [18] - Manus展示Agent强大功能,企业需全员升级工具和分工 [19] - 企业应重构组织,思考员工在新工具中的角色定位 [19] 目标系统 - Agent需明确代理目标,形成感知-响应-行动闭环 [20] - AI可实现自我迭代,如思灵机器人自造自身 [20][21] - 企业需在目标前提下利用AI进行复盘,遵循人机持续迭代原则 [23] 战略建议 - 研发团队需升级,明确AI可替代的工作范围 [25] - 保护核心数据,面向大模型做营销而不仅面向人 [26] - 产品设计需考虑机器人操作场景 [26] - 建议有资源的企业训练自有模型 [26] - 未来战略需基于"智能无限提供"的假设 [27] - 工作分为对人/不对人两类,后者将减少 [27] - 人机交互不可替代,需重视客户情绪价值 [27]
对话飞虎互动:金融行业AI智能体怎么做
钛媒体APP· 2025-03-31 03:52
石海东告诉钛媒体App:"DeepSeek不仅在大模型推理成本和推理能力实现了极大优化。更重要的是, 对于各行业客户而言,过去对大模型存在负面印象,包括幻觉、训练数据等偏见和缺陷性问题, DeepSeek正在抹除这部分担心。这进一步推动了深度垂直智能体的落地。" 未来会有大量专业Agent,而不是只有一个超级Agent 相较于通用型Agent,面向B端垂直场景的Agent其机会窗口正在扩大。春节过后,DeepSeek的出圈,中 国有至少60家银行相继宣布对接了DeepSeek,但基本面向投资者的投研报告、财报分析、客户资料分 析报告等非核心业务场景,亦或者是OA、办公自动化,IT代码开发等非业务场景。 与一些企业或厂商先高调发声再选择行动不同的是,飞虎互动深入金融行业的Agent这件事情已经一年 有余。目前围绕金融银行三大关键环节:营销-风控-交易,飞虎互动构建了三款大模型驱动的Agent用 例,包括对客营销机器人,风控合规机器人,交易服务机器人。 飞虎互动公司创始人董事长石海东及团队与钛媒体交流中指出,AI大模型在银行业务价值和落地优先 级高的其实是在营销、风控领域,目前DeepSeek还没有接入到这些领域 ...
用友网络(600588):转型阶段整体承压 AI赋能后续成长
新浪财经· 2025-03-31 00:31
财务业绩 - 2024年总营业收入91.53亿元 同比下滑6.6% [1] - 归母净利润亏损20.61亿元 较2023年亏损扩大10.9亿元 [1] - 实际亏损超出业绩预告的17.2-19.2亿元区间 [1] 收入下滑原因 - 部分客户需求阶段性延后导致签约金额同比下降 [1] - 订阅业务模式迁移对短期整体收入造成影响 [1] 亏损扩大因素 - 研发投入形成的资本化无形资产摊销金额同比增加3亿元 [1] - 报告期末员工较2023年末减少3666人 离职补偿金增加1.4亿元 [1] - 计提商誉减值损失同比增加1.6亿元 [1] 云业务表现 - 云服务业务收入68.5亿元 同比下滑3.4% [2] - 订阅收入同比增长26.0% [2] - 云业务相关合同负债27.8亿元 较2023年末增长13.0% [2] - 订阅相关合同负债23.1亿元 较2023年末增长25.9% [2] - 云服务累计付费客户数87.25万家 新增付费客户15.75万家 [2] 战略发展 - 发布企业服务垂类大模型YonGPT2.0 采用1个大模型平台和2个应用框架(Agent和RAG) [2] - 基于Agent等框架发布智能助理、数智员工等通用产品及100多个场景化企业智能服务 [2] - 产品覆盖财务、人力、供应链等企业服务领域 [2] 盈利预测调整 - 下调2025-2026年盈利预测 新增2027年预测 [3] - 预计2025-2027年收入分别为105.1亿元、121.9亿元和141.8亿元 [3] - 预计2025-2027年归母净利润分别为1.0亿元、4.1亿元和8.4亿元 [3]
从Copilot到Agent:AI编程的范式革新
西部证券· 2025-03-12 11:16
行业投资评级 - 行业评级为超配 维持前次评级 [5] 核心观点 - AI Coding正在成为Agent商业化的突破口 编程领域的规则明确性为Agent应用提供了天然约束框架 编程环境的技术特性为Agent自纠错提供了理想试验场 编程原子化任务与大模型链式推理机制深度契合 [1][8] - 企业开发效率的刚需创造了明确付费意愿 AI编程领域已逐步形成"技术验证-产品迭代-商业变现"的完整闭环 [1][8] - AI大模型在编程中的应用发展分为"Copilot→Agent→Multi-Agent"三个阶段 目前各大厂商AI coding产品多处于第一阶段向第二阶段迈进的关键节点 [2][9] 技术发展三阶段 - 第一阶段LLM as Copilot:大模型作为Copilot辅助程序员完成任务 不改变软件工程的专业分工 [2][9] - 第二阶段LLM as Agent:Agent能够自主完成一部分任务 成为单一职能专家 自主使用工具完成预定任务 [2][9] - 第三阶段LLM as Multi-Agent:多智能体互相协作完成复杂任务 人类负责创意纠偏和确认工作 [2][9] 国际领先产品分析 - GitHub Copilot:2024年7月ARR达3亿美元 占GitHub整体收入增长的40% 拥有180万付费订阅用户 [13] 2025年2月推出Agent模式 自主执行能力显著提升 可实现自主迭代代码识别错误并自动修复 [15] - Cursor:2024年8月完成4亿美元A轮融资 2024年12月估值达25亿美元 2025年3月ARR可能已增长至1.5亿美元 估值或突破100亿美元 [17][18][19] - Devin:2024年4月估值达20亿美元 2024年12月全面开放 订阅费用为$500/月 客户包括年收入3亿美元的Ramp和年收入17亿美元的MongoDB [20][21] 国内主要产品进展 - 字节豆包MarsCode:2025年3月正式上线国内首个AI原生集成开发环境Trae 配置Doubao-1.5-pro模型 支持切换DeepSeek R1和V3模型 [22][23] - 百度文心快码Comate:公司80%工程师深度使用 代码采纳率达46% 新增代码生成占比29% 已升级至3.0版本 由Copilot模式升级为Agent模式 [26][27] - 阿里通义灵码:正式发布AI程序员 开发效率提升数十倍 生成速度最快达分钟级 能够自主执行任务拆解代码编写缺陷修复测试等全过程任务 [28][29] - 腾讯云AI代码助手:接入DeepSeek-R1满血版 代码生成准确率提升30%+ 支持函数级/模块级代码生成 [31] - 智谱CodeGeeX:截至2024年7月个人用户数量超100万 与英特尔合作发布AIPC版 可部署在端侧完成AI任务 [32][33] - 商汤代码小浣熊:采用2B+2C双轮驱动 C端分为个人免费版和49元升级收费版 B端企业标准版按899元/人/年收费 [34][35] - 艾普阳SnapDevelop:纯国产化低代码IDE 全面满足信创研发需求 集成ChatGPT服务海外用户 [36] - 普元信息:推出低代码Copilot模式 接入DeepSeek 32B和671B超大规模私有化模型 [37][38] 建议关注标的 - 商汤-W(已覆盖)卓易信息普元信息金现代科大国创等 [3]