Workflow
多智能体系统
icon
搜索文档
北大汇丰王小愚:中国AI投资具备三大优势,首要挑战在核心技术依赖与硬件短板
新浪财经· 2025-09-22 02:02
专题:财富领航征程丨金融新启航 中央金融工作会议指出,要做好科技金融、绿色金融、普惠金融、养老金融、数字金融 " 五 篇大文章 " ,为推进金融高质量发展指明了方向。鉴于此,新浪财经年度策划《金融新启 航》特别推出《财富领航征程》系列访谈栏目,深度对话金融机构高管、专家学者,共谋行 业发展之道。 第一,支付清算系统能够实现实时化与可信化。5G提供毫秒级延迟和高速数据传输,支持跨境支付的 实时结算(如传统SWIFT系统需1-3天,而融合技术可将时间压缩至秒级);区块链确保交易不可篡改 和全程可追溯,降低欺诈风险(如香港"贸易联动"平台试点案例);AI通过实时反欺诈模型分析交易行 为,例如支付宝风控系统利用AI降低盗刷率90%以上。5G、人工智能(AI)与区块链的协同能够实 现"速度-安全-智能"的三角闭环,推动支付清算从中心化向分布式高效模式转型。 第二,智能投顾与资产管理更加个性化与透明化。智能投顾的核心,是用数据和算法,代替人工进行资 产配置和投资建议的过程。它依赖AI技术分析用户风险偏好和市场数据生成个性化投资组合。与此同 时,区块链记录所有交易流水,确保策略执行透明可审计。5G保障海量市场数据的实时传输 ...
马斯克“巨硬计划”新动作曝光!从0建起算力集群,6个月完成OpenAI&甲骨文15个月的工作
搜狐财经· 2025-09-18 06:34
项目进展 - 6个月建成算力集群 已完成200MW供电规模 支持11万台英伟达GB200 GPU NVL72 [1] - 项目进度远超行业标准 6个月完成OpenAI和甲骨文等合作方15个月的工作量 [1] - 2025年3月7日启动Colossus II项目 收购100万平方英尺仓库及100英亩地块 [4] - 截至8月22日安装119台风冷式冷水机组 提供200MW冷却能力 [4] - 第一阶段部署11万个GPU 最终目标超过55万个GPU 峰值功率需求超1.1吉瓦 [4] - 部署168个特斯拉Megapack电池储能系统 避免对当地电网造成冲击 [5] 技术架构 - 基于xAI大型语言模型Grok构建多智能体系统 部署数百个专用智能体 [2] - 智能体分工涵盖编码 图像视频生成 软件测试等全流程 [2] - 系统通过虚拟机模拟人类用户交互 实现软件开发生命周期全自动化 [2] - 采用跨区域能源策略 在密西西比州收购前杜克能源发电厂 [4] - 发电厂已运行7台35MW燃气涡轮机 总输出245MW [4] - 通过合资公司获得400MW燃气涡轮机服务 占供应商总容量600MW的67% [5] 战略布局 - 项目命名为"巨硬计划"(MACROHARD) 2021年已有初步构想 [2] - Colossus II专为AI推理设计 规模较Colossus I扩大数十倍 [4] - 与特斯拉形成协同效应 AI软件优化自动驾驶算法及工厂自动化 [6] - 特斯拉提供海量真实世界训练数据 公司定位转向"AI机器人公司" [6] - 长远路线图计划将GPU总量扩展至100万个 [4] 资源投入 - 合资公司第二季度资本支出1.12亿美元 [5] - 密西西比州监管机构特批12个月燃气轮机运行许可 无需正式审批 [4] - 马斯克亲自督导项目 包括电力生产审查和技术评审 [5]
张小珺对话OpenAI姚顺雨:生成新世界的系统
Founder Park· 2025-09-15 05:59
文章核心观点 - 语言是人类实现泛化的核心工具,是构建通用人工智能系统的最本质要素 [4][7][77] - AI Agent发展已进入下半场,重点从模型训练转向任务定义和环境设计 [5][62][63] - 创业公司最大机会在于设计新型人机交互界面,而非重复ChatGPT模式 [110][112][113] - 未来AI生态将呈现既单极又多元格局,由不同超级应用共同定义智能边界 [5][146][154] 姚顺雨背景与研究历程 - 清华姚班本科、普林斯顿博士,2019-2024年在普林斯顿攻读博士学位 [13] - 2016年接触多模态嵌入技术后转向深度学习,2018年系统性开始深度学习研究 [14][15] - 博士期间从计算机视觉转向语言模型研究,因认为语言是实现AGI的更核心方向 [15] - 专注Language Agent研究6年,2024年加入OpenAI [4][19] AI Agent技术演进 - 技术发展三阶段:符号主义AI(规则系统)→深度强化学习(环境特定)→大语言模型(泛化推理)[40][41][43] - 语言智能体与传统Agent本质区别在于具备推理能力从而实现泛化 [36][38][39] - ReAct框架成为最通用方案,实现推理与行动的协同 [26][50] - 代码环境是数字智能体最重要的"手",提供天然机器表达形式 [53][54][55] 任务与环境设计 - 当前瓶颈从方法创新转向任务定义和环境设计 [62][63] - 优秀任务需具备:结果导向奖励机制、基于规则的白盒评估、可解释性 [64][66][71] - 任务分类标准:可靠性需求型(如客服)vs创造力需求型(如证明猜想)[70][72] - 评估指标需区分Pass@k(多次尝试成功率)和Pass^k(每次成功率)[74] 产业发展与创业机会 - 模型能力溢出为创业公司创造机会,关键在于设计新型交互界面 [110][112] - 成功案例包括Cursor(编程副驾驶)、Manus(通用交互)、Perplexity(研究型搜索)[117][127][129] - 数据飞轮形成需三个条件:自主训练能力、清晰奖励信号、数据好坏分离 [123][124] - 成本不是核心瓶颈,真正关键在于找到价值超过成本的应用场景 [139][141] 未来生态展望 - OpenAI五级能力划分:聊天机器人→推理者→智能体→创新者→组织者 [44][45] - 未来12-24个月趋势:Chatbot系统自然演进为Agent系统,新型Copilot应用涌现 [165][166] - 记忆系统(Memory)将成为核心竞争壁垒,特别是上下文管理能力 [51][158][159] - 最终生态将由多个超级应用共同定义,呈现中心化与分布式并存格局 [146][152][154]
DeepDiver-V2来了,华为最新开源原生多智能体系统,“团战”深度研究效果惊人
量子位· 2025-09-11 10:19
产品发布与核心特性 - 华为发布DeepDiver-V2原生多智能体系统 采用团队作战模式 包括一个Planner负责任务分解和进度管理 多个专业Executor并行处理子任务 通过共享文件系统交换信息 [1] - 系统基于多智能体形态训练 具备更强的角色扮演和协同推理能力 能够生成数万字的高质量深度研究报告 [2] - 该系统专攻AI深度搜索和长文调研报告生成 目前已开源 [3] 性能表现与基准测试 - 在WebPuzzle-Writing基准测试中 DeepDiver-V2生成报告平均长度达24.6K tokens 是OpenAI o3 DeepResearch(10.6K tokens)的两倍多 [4] - DeepDiver-V2-38B在BrowseComp-zh测试中达到34.6分 超越WebSailor-72B(30.1分)和WebSailor-32B(25.5分) [5] - DeepDiver-V2-38B在BrowseComp-en测试中达到13.4分 为同规模开源模型中最高 超过WebSailor-72B(12.0分) [5] - 在自动评测中 DeepDiver-V2效果与主流agent产品相当 Content Diversity指标表现优异 [4] 系统架构创新 - 采用以Planner为中心的多智能体系统架构 协调多个Executor 取代V1版本的单模型超长上下文处理模式 [7] - Planner进行自适应复杂度评估 构建任务树分解复杂问题 并采用竞争赛马机制提高结果可靠性 [8][9] - 智能体通过共享文件系统交换精炼任务摘要和文件元数据 而非完整上下文 实现可扩展通信和并行执行 [11] - 系统包含专业化Executor:Information Seeker负责信息收集与验证 Writer负责长文本生成与章节构建 [12] 训练方法与技术支撑 - 采用Planner-centric分配机制解决多智能体训练中的责任归属问题 [13] - 训练流程包括冷启动监督微调 拒绝采样微调(RFT)和在线RFT 使用动态轨迹缓存批处理策略 [15][16] - 训练完全使用Atlas 800I A2集群 依托1000+ NPU组成的大规模计算集群 通过华为高速缓存一致性系统(HCCS)互联 [17] - 开发专门强化学习框架 包括Agent Factory代码库和Trajectory-wise过滤机制 [17][18] 实验发现与性能分析 - 系统性能对Executor能力极其敏感 但对Planner要求相对宽松 7B Planner已能胜任大部分协调工作 [19][21] - 38B Information Seeker单独使用时在BrowseComp-zh得分26.3 超越WebSailor-32B(25.5分) [23] - 将7B Executor升级为38B后 BrowseComp-zh分数增加9分(18.3→27.3) 而升级Planner仅提升6.3分(18.3→24.6) [25] - 在长文本写作任务中 升级Writer带来的提升(5.51→5.80)远超升级Planner(5.51→5.56) [25] - 多智能体训练使子智能体在处理扩展任务集时更加鲁棒 具备独当一面的能力 [26] 应用前景与行业影响 - 从单一模型到多智能体系统的转变为解决复杂现实问题开辟道路 [27] - 未来将在企业调研 科学文献综述 专业数据分析等专业领域发挥巨大作用 [27]
A2A、MCP、Gemini……谷歌技术专家手把手教你搭建 AI Agent
Founder Park· 2025-09-02 10:21
活动主题 - Google Cloud AI专家分享AI智能体构建技巧 重点关注ADK A2A MCP和Agent Engine技术框架的应用[2] - 探讨如何利用Google最新AI技术打造协作性强 高效 可扩展的多智能体系统[2][6] - 探索智能体开发未来趋势 分析智能体对人机交互范式的重塑潜力[2][6] 目标受众 - AI初创企业及出海企业的业务负责人与技术负责人[6] - AI产品经理 解决方案架构师及AI工程师群体[6] - 开发者群体 活动需经审核且名额有限[3][6] 行业动态参考 - Intercom采用Founder Mode实现300%增长 体现按结果付费模式在AI转型中的成功应用[8] - 红杉美国重点关注五大AI赛道 反映资本对特定AI领域的战略布局[8] - a16z全球AI产品Top100显示DeepSeek增长放缓 中国开发者出海全球化成为新趋势[8]
LLM也具有身份认同?当LLM发现博弈对手是自己时,行为变化了
36氪· 2025-09-01 02:29
研究背景与方法 - 哥伦比亚大学与蒙特利尔理工学院研究者通过迭代式公共物品博弈测试LLM的自我识别能力,博弈设置包括每轮给予10分、贡献0-10分选择及1.6倍乘数均分收益机制[2][3][6] - 研究比较两种条件:No Name(告知与另一AI对战)和Name(告知与自己对战),每场游戏进行20轮并记录历史上下文[6][8] - 实验覆盖多模型包括GPT-4o、Claude Sonnet 4、Llama 4 Maverick等,采用三类系统提示词(集体/中立/自私)的九种组合,每种配对运行100场游戏[9][10] 核心发现 - 当告知LLM与自己对战时,其合作倾向显著改变:集体提示词下贡献减少(背叛倾向增加),自私提示词下贡献增加(合作倾向增加)[16][20] - Claude Sonnet 4在Name条件下提及"人类"53次及"提醒"125次,表现出怀疑或情绪反应[12] - 简化规则后(取消规则重申及推理要求),Name与No Name的行为差异仍存在但影响减弱[21][23] - 真实自我对战中(与三个自身副本博弈),集体/中立提示词下贡献增加,自私提示词下贡献减少,与双人博弈结果存在差异[24][28] 研究意义 - 表明LLM存在自我识别能力,且这种认知会影响多智能体环境中的决策策略[1][29] - 发现AI可能无意识地相互歧视,从而莫名改变合作或背叛倾向[1][29] - 结果为多智能体系统设计提供参考,提示词设置可能显著影响AI协作行为[16][28]
如何借助 ADK、A2A、MCP 和 Agent Engine 构建智能体?
Founder Park· 2025-08-27 11:41
活动概述 - Founder Park联合Google Cloud举办线上分享活动 特邀AI专家史洁探讨AI智能体开发技术[2][3] - 活动时间为9月4日20-21点 采用审核制报名方式 面向特定专业受众群体[4][8] 技术框架 - 重点介绍ADK A2A MCP和Agent Engine四大技术框架在构建AI智能体中的应用方案[3][8] - 探讨如何利用Google最新AI技术构建具备协作性 高效性和可扩展性的多智能体系统[3][8] 行业影响 - 深入分析智能体开发未来趋势 预判智能体技术将重塑人机交互范式[3][8] - 活动面向AI初创企业 出海企业技术负责人 AI产品经理及工程师等专业群体[8] 延伸资源 - 公众号提供AI创业相关延伸阅读 包括增长策略 平台红利把握及产品评估等主题[9]
Chain-of-Agents: OPPO推出通用智能体模型新范式,多榜单SOTA,模型代码数据全开源
机器之心· 2025-08-23 04:42
文章核心观点 - 提出全新智能体推理范式Chain-of-Agents(CoA)以解决传统多智能体系统通信效率低、泛化能力有限及缺乏数据驱动学习能力的问题 [2][3] - CoA框架通过层次化智能体架构实现端到端多智能体协作 显著降低推理成本并提升性能 [6][8] - 基于CoA训练的Agent Foundation Model(AFM)在近20项复杂任务基准测试中刷新性能记录 包括多跳问答、代码生成和数学推理等领域 [6][18][24][25][27] 技术架构 - CoA采用角色型智能体(思考/计划/反思/验证)与工具型智能体(搜索/爬取/代码)的层次化架构 支持动态激活机制 [10][13] - 通过多智能体能力蒸馏将OAgents成功轨迹转换为CoA兼容格式 生成约87k条SFT轨迹数据用于监督微调 [11][14][15] - 强化学习阶段采用约85k条高质量任务数据 通过策略抽样优化高难度任务表现 [16] 性能表现 多跳问答任务 - AFM-RL在7个数据集上达成平均性能新高 以Qwen-2.5-7B-instruct为基准时平均准确率达45.5% 较ZeroSearch提升6.4% [19] - 多跳问答任务提升显著 表明其在任务分解与工具使用方面具有更强能力 [19] 复杂网页搜索任务 - AFM(Qwen-2.5-32B-Instruct)在GAIA基准实现55.4%通过率 领先WebSailor 2.2%和WebDancer 3.9% [24] - 在BrowseComp任务以11.1%成功率居32B模型首位 WebWalker任务准确率达63.0% 超过WebThinker-RL 16.5% [24] 数学推理能力 - AFM-RL-7B在五个数学基准平均准确率64.3% 较次优模型SimpleTIR-7B-Multi提升3.6% [26] - AFM-RL-32B平均准确率78.0% 领先ReTool-32B达3.6% 在AIME25和OlympiadBench分别实现10.5%和5.7%绝对提升 [26] 代码生成能力 - AFM-RL-32B在LiveCodeBench v5准确率47.9% CodeContests成绩32.7% 显著超越TIR方法 [6][27][28] - 与基础模型相比 AFM通过RL优化后在7B与32B模型上平均准确率分别提升8.5%和13.2% [27] 效率优势 - AFM将推理成本(token消耗)减少高达85.5% 在工具调用效率和token消耗维度均表现最优 [6][33] - 在GAIA数据集测试中 AFM工具调用次数最少 且提示工程token消耗最低 [33] 技术局限与展望 - 当前角色型智能体类型需预先定义 未来需探索动态角色生成机制以增强未知任务适应性 [39] - 现有工具以文本为主 需融合图像/语音等模态工具扩展应用场景 [39] - 针对长周期任务需设计更高效的智能体状态记忆与历史轨迹复用策略 [39]
内幕曝光:OpenAI模型坦承不会第六题,3人俩月拿下IMO金牌
36氪· 2025-08-12 00:57
技术突破与性能表现 - 在短短两个月内实现AI数学能力从小学数学水平跃升至国际数学奥林匹克竞赛(IMO)金牌水平 [1][4] - 推理时间从0.1分钟(6秒)扩展到100分钟(6000秒),实现10000倍计算扩展 [6][25] - 采用多智能体系统技术,通过多个AI助手分工协作解决复杂问题 [10] - 在GSM8K小学数学基准测试中,顶级模型准确率已达95%(Claude 3),但该数据集已饱和 [13] - 开源模型在各类数学测试中表现差异显著:Mathstral 7B在AIME 2024获得2/30分,而部分模型得分为0/30 [14] 方法论创新 - 使用通用强化学习技术而非形式化验证工具处理难以验证的任务 [6] - 通过扩展测试时间计算和并行计算实现深入推理 [6][25][26] - 设计特殊奖励函数使AI能处理物理奥林匹克等难以验证的难题 [26] - 每份证明由三名IMO奖牌获得者独立评分并达成一致性意见 [1] - 选择发布原始输出保持透明度,尽管证明可读性不高类似"外星语言" [1] 系统特性与可靠性 - 新模型展现出自我意识能力,在无法解答IMO第六题时主动承认局限而非输出错误答案 [8][18][19] - 显著减少推理模型"幻觉"问题,倾向于在缺乏有效证明时说"不确定" [19][20] - 该技术被视作通往人工超级智能(ASI)道路上的重要里程碑 [6] - 使用与其他项目相同的通用基础设施,未专门为IMO定制系统 [26][27] 团队与开发过程 - 核心团队仅由三名研究人员组成(Alexander Wei、Noam Brown与Sheryl Hsu) [1][4][8] - 在最后两个月冲刺完成工作,期间有研究员曾以2:1赔率打赌模型不会获胜 [1][8] - 计划将该方法整合进更多模型,全面提升推理能力并构建更强大的Agent系统 [27] 行业意义与应用前景 - 突破表明小团队也能创造重大成果,为AI开发者提供合作与创意范例 [8][29] - 通用技术可应用于数学、科学等多个领域解决未解难题 [6][26][29] - 从竞赛数学到真正数学研究存在巨大差距:IMO题需1.5小时,而千禧难题需要数千小时思考时间 [23] - 未来可能实现AI自主提出新问题,而不仅仅是解决问题 [28]
GPT5令人失望的背后:OpenAI如何做商业战略调整 | Jinqiu Select
锦秋集· 2025-08-08 15:38
GPT-5核心技术升级 - 实现"推理集成"能力,将快速响应与深度推理统一为一站式解决方案,无需用户切换模型[8] - 强化后训练微调和反馈优化,针对消费级和企业级使用进行细致打磨,提升模型实用性和可靠性[8][9] - 代码能力实现巨大飞跃,为软件开发设立全新可靠性和实用性标准,尤其在代码生成和调试方面表现突出[10][11] 商业与基础设施战略 - ChatGPT每周活跃用户高达7亿,85%用户位于美国以外,主要市场包括印度、印尼、巴西等新兴国家[12] - 企业客户达500万付费席位,覆盖金融、生物科技等多个行业,形成个人订阅+企业服务+API平台三位一体商业模式[13] - 近期完成400亿美元融资,用于大规模算力部署,与甲骨文、微软等建立超大规模云基础设施合作[15][16][17] 产品体验设计理念 - 取消模型选择功能,拒绝"跑分崇拜",强调真实场景下的实用性而非基准测试高分[21][22] - 针对特定高价值任务进行定向优化,如让GPT-5参与顶尖编码竞赛并达到世界冠军水平[22][23] 多Agent系统发展 - 探索"组织型AI"愿景,通过多个专门化代理协作完成复杂任务,类似人类团队分工[24][25] - 实际案例显示Agent可同时承担编码、设计、QA等多重角色,实现闭环自我改进[26][27] - 企业需调整工作流程才能充分发挥Agent潜力,局部使用仅能提升效率10-15%[28][29] 技术发展脉络 - GPT-1到GPT-3聚焦基础语言能力扩展,GPT-3.5到GPT-4引入对齐技术和推理机制[30][33] - GPT-4.5到GPT-5构建综合智能体系,形成基础大模型+推理层+代理编排层三层架构[31][32] - ChatGPT产品验证了通用对话AI的市场需求,成为全球数亿人日常工具[33]