Workflow
智能体
icon
搜索文档
专访汤道生:元宝重兵投入这半年
搜狐财经· 2025-10-10 10:42
公司AI战略与组织调整 - 国内大模型市场趋于集中,开源成为重要战略,DeepSeek的横空出世是重要变量 [3] - 公司AI产品服务从原来只基于混元大模型,转变为开放整合多家大模型 [3] - 2024年12月,云与智慧产业事业群(CSIG)与技术工程事业群(TEG)再度搭配,CSIG承担前端产品责任,TEG专注底层混元大模型,类似云服务合作模式 [3][7] - 将原技术团队孵化的元宝产品调整至业务部门,由拥有To C产品经验的负责人带领,任命原腾讯会议负责人Lori Wu负责元宝 [4][7] - 公司将浏览器、搜狗与输入法等工具类产品转到CSIG,以强化AI场景联动 [9] 元宝产品发展关键决策 - 元宝在国内同类产品中第一个全面拥抱第三方模型,优先接入DeepSeek R1,决策过程仅两三天,基于用户强烈需求 [3][18][20] - 决策核心是“以用户需求为本”,只要对产品价值大于包袱成本就应执行,大部分用户不关心模型是谁做的 [24] - 微信对元宝的支持力度前所未有,包括广告位、新闻插件、视频号与公众号可被@元宝点评,微信内可转发文件给元宝进行总结分析 [25][27] - 元宝团队重建需要大量招聘懂大模型的产品经理、搜索专家及模型后训练研究人员,每周持续面试 [28][29] - 元宝的目标是成为C端搜索信息的新入口,公司视其为继移动互联网后的关键战役,希望拿到AI时代的船票 [9][81] AI产品与技术洞察 - 新一代搜索服务更倾向由大模型理解意图,再针对性查找最新、最权威内容,是智能体驱动(Agent-driven)的方式 [11] - 2025年被认为是Agent元年,模型逻辑推理能力只是AI产品体系的一部分,还需搭配搜索、语音、专业数据、服务生态等能力 [11] - 大模型与搜索联动有两种路径:先搜再交模型解读,或模型先理解意图再去搜,需大模型判断,两者都有 [30] - AI Chatbot产品形态过去两年变化不大,对话仍是核心,但未来会涌现不同产品形态,不同玩家有不同侧重 [63] - AI可视为“生活上的操作系统”,是获取服务或资源的媒介,但比传统操作系统更智能、强大,能自主分解任务并协调资源完成 [64][65] To B市场与商业化 - AI在To B是激烈战场,国内头部云厂商基本都是大模型头部玩家,大模型服务可带动配套云服务收入增长 [84] - AI算力需求带动云厂商收入增长提速,GPU算力充足的云厂商获得更多市场份额,同时推动存储与通用计算消耗增长 [84] - 企业更关注模型应用落地以实现降本增效,国内开源大模型成为许多企业搭建智能体的首选,工具选择多,竞争激烈导致亏损与补贴 [84] - 腾讯云智能体开发平台(ADP)升级至3.0,支持超过140个MCP插件服务,扩展智能体工具能力,支持多智能体并行协作 [91] - To B领域公司聚焦平台产品,将服务交给生态伙伴,伙伴中年收入过10亿的案例很多 [98] 行业趋势与竞争格局 - AI产品范式变化主要体现在用更高效率满足已有场景需求,但尚未创造像移动互联网时代的新连接方式 [66][67] - AI时代可能出现Agent与Agent、模型与服务之间的新连接,未来互联网内容可能更多是为Agent生成而非用户直接消费 [68] - 大模型竞争是人才竞争,公司加大招聘力度,总办亲自吸引顶尖AI人才,推动扁平化管理,给年轻人更大发挥空间 [72] - 行业探索产品与模型的解耦合作方式,混元按自身节奏迭代模型,元宝基于稳定版本做产品工作,定期升级 [74][75] - 创业公司很难避开巨头竞争,在大厂生态找机会或专注海外市场是更好选择,海外用户付费意愿更高 [97][99]
智能体的崛起:其对网络安全领域的优势与风险
搜狐网· 2025-10-10 05:05
文章核心观点 - 人工智能智能体技术正从理论走向实用,2025年被誉为“智能体元年”,其核心是由AI驱动的自主系统,能独立执行多步骤任务,对业务运营和数字基础设施产生显著影响[2] - 智能体在网络安全领域展现出巨大潜力,通过持续监控、实时威胁检测和人力增强等方式提升安全效率,但也在感知、推理、行动和记忆四个基础功能层面引入了新的风险[1][7][11] - 智能体架构通常构建于大语言模型之上,包含感知、推理、行动和记忆四个基础组件,多智能体系统的协作增加了复杂性,也带来了可解释性、隐私和系统安全性方面的新挑战[3] 智能体技术发展趋势与定义 - 2023年至2025年被视为AI技术演进的关键阶段,从“生成式人工智能”元年经过“人工智能实用化”阶段,稳步迈向“智能体”元年[2] - 智能体的核心定义是“由人工智能驱动的自主智能系统,旨在独立执行特定任务,无需人工干预”,强调其学习、记忆、计划、推理、决策和适应等一系列自主能力[2] - 建立智能体领域的技术领导地位可能带来重大的经济和地缘政治影响,尤其是在金融、医疗保健和国防等敏感领域的关键工作流程中嵌入智能体[2] 智能体系统架构与类型 - 智能体系统架构包含四个基础组件:感知模块负责从外部来源获取数据,推理模块利用LLM功能规划行动方案,行动模块执行任务,记忆模块存储上下文信息[3] - 智能体基础架构堆栈包括模型API、内存存储、会话管理器、外部工具集成以及支持模块化开发的开源框架和库[3] - 报告识别了七种主要智能体类型:简单反射智能体、基于模型的反射智能体、基于目标的智能体、基于效用的智能体、学习智能体、多智能体系统和分层智能体[4][5][6] - 当今领先的智能体如谷歌的Project Astra、OpenAI的Operator和CrewAI反映了通用智能体系统面向不同环境与行业灵活应用的发展趋势[6] 智能体在网络安全领域的优势 - 智能体通过自主辅助网络工作人员执行持续监控、漏洞管理、威胁检测、事件响应和决策等重要任务来增强网络安全[7] - 在持续监控和漏洞管理方面,智能体能应对高度分散化的现代数字环境,谷歌Project Zero团队已成功运用智能体发现多个零日漏洞[8] - 在实时威胁检测与响应方面,多智能体协同工作模式实现分钟级威胁检测与响应,微软Security Copilot等解决方案将平均响应时间缩短了60%以上[9] - 在网络安全人力增强方面,智能体通过自动化处理70%以上的告警误报,每周可为安全分析师节省40小时工作时间,有效应对全球400万的网络安全人才缺口[10] 智能体架构各层面的网络安全风险 - 感知模块面临对抗性数据注入和AI模型供应链风险,威胁行为者可能在预训练阶段将恶意数据嵌入基础模型中[12][13] - 推理模块的漏洞可能导致错误决策,风险包括模型底层漏洞的利用和模型利用攻击,攻击者可能提取专有知识或敏感训练数据[14] - 行动模块对利用智能体与外部系统交互能力的攻击敏感,风险包括提示注入、命令劫持、未经授权的访问和API集成漏洞[15] - 记忆模块可能发生内存篡改或损坏风险,威胁行为者操纵存储的内存来扭曲智能体的理解,早期引入的漏洞可能随时间得到强化[16]
智能体崛起
虎嗅· 2025-10-10 01:01
OpenAI战略转型 - OpenAI推出四个新产品:Apps SDK(自然语言创建应用)、AgentKit(多智能体系统框架)、Codex(自动编写修复测试代码)、Sora 2(一句话生成视频模型和应用)[2] - 公司从模型公司转型为"用自然语言驱动生产力"的智能体平台[3] - 新平台使个人开发者能以极低成本(月费10美元)完成复杂开发任务,过去需三人两个月完成的工作现可独立快速完成[3] 生产力革命 - AI释放的生产力属性让每个人成为"自开发""自公司""自团队",影响是自媒体的千倍万倍[4] - 个人可写出代码、产出软件、落地产品,在任意行业完成生产闭环[4] - 未来创业不再需要大团队,只需调研机器人、开发机器人、营销机器人、财务机器人等Agent集群[13] 商业组织重构 - 执行层面按部就班的中层管理者角色将被"中层机器人"取代[12] - 公司作为分工协作组织的本质将被智能体重构,智能体能自动分工、自动执行、自动评估[16] - 资本投向将从投"公司"转向投"Agent集群",投资本质仍是投"人",但人变为机器人群落的调度者[14] 内容产业变革 - Sora 2可能成为AI时代的"抖音",让用户用几句话生成视频[19] - 相比传统视频平台,Sora 2具有原生结构优势:内容从语言生成,语义密度高,生成过程可直接向量化内容实现精准分发[19] - 未来内容平台、商业平台、社交平台、资本平台都可能围绕AI重建[20] 行业竞争格局 - AI时代科技主导者可能从七家缩减到两三家[22] - 英伟达投资英特尔、OpenAI入股AMD等动作被视为"怕被甩出前七"的博弈[26] - 国产芯片、国产算力、国产机器人有望在局部空间形成阶段性竞争优势,在资本市场创造阶段性牛股[28] 技术发展速度 - OpenAI用自家Codex仅花六周就开发出复杂智能体工具,展示前所未有的开发效率[30] - 技术变革按幂次加速,未来量子计算等高阶算力平台可能使"想法"到"实现"无限逼近瞬时和边际零成本[31] - 当实现不再稀缺时,唯一真正的竞争力将是创意与思想本身[32]
智能体崛起!
搜狐财经· 2025-10-09 17:53
OpenAI的战略转型与新产品 - OpenAI从模型公司转型为“用自然语言驱动生产力”的智能体平台 [2] - 推出四个核心新物种:Apps SDK(自然语言创建应用)、AgentKit(多智能体系统框架)、Codex(自动编写修复测试代码)、Sora 2(一句话生成视频模型和应用)[2] AI驱动的生产力革命与个体能力跃迁 - AI释放的生产力属性让每个人有机会成为“自开发”、“自公司”、“自团队”,其影响是自媒体时代的千倍万倍 [5] - 个体将能独立完成写出代码、产出软件、落地产品的完整生产闭环,催生由无数个体开发的“自产品”世界 [5] - 技术进步最伟大的发明是赋予个体“能力平权”的思想和能力 [6] AI时代工具的本质与超级个体组织 - AI工具将把真正脑力劳动者的能力放大到超人级别,实现“一个人+多个Agent”的超级个体组织 [9] - 执行层面按部就班的中层管理角色将被“中层机器人”取代,个体可独立完成定义产品、搭建团队、制定流程、生成广告、管理用户的完整商业链路 [9] - 未来创业只需调研机器人、开发机器人、营销机器人等Agent集群,资本将投向“Agent集群”及其调度者 [10] 公司组织形态的重构与平台格局演变 - 公司的本质是分工协作的制度化,当智能体能自动分工执行评估,组织本身需要Agent重构 [11] - 个人需要新的“组织力”来管理时间、协调多个Agent配合以及用机器人管理其他机器人 [12] - AI时代科技主导者可能从七家巨头缩减到两三家,平台将围绕AI重建内容、商业、社交和资本生态 [17] AI原生平台的结构优势与内容产业变革 - Sora 2作为AI时代的“抖音”,其最大优势在于“原生结构”更优:内容由语言生成,语义密度高,生成过程可直接向量化内容以实现精准分发 [14][16] - 传统视频平台第一关卡在内容理解,而AI原生平台在语义空间中进行推荐更准确高效 [16] 技术红利分配与差异化竞争策略 - 技术红利下放但最终胜出者仍是极少数,例如人人都能拍视频但能破千播放量的仅占前3%,能赚到1万元的又是这3%里的3% [18] - “规模法则”适用于技术、商业和社会,最强者一骑绝尘,多数人面临增长瓶颈和全球性“内卷” [19] - 差异化竞争策略是不与顶尖0.01%正面竞争,而是在自有坐标中做到差异化的0.01% [19] 未来技术演进与核心竞争力 - 量子计算等高阶算力平台将使“想法”到“实现”的时间差无限逼近“瞬时”和“边际零成本” [21] - 当“实现”不再稀缺,唯一的真正竞争力将回归创意与思想本身 [22]
3.8亿大模型大单,讯飞拿下,华为宇树都赚了
36氪· 2025-10-09 11:44
项目中标概况 - 讯飞智元信息科技有限公司中标金华市婺城区“婺城数智未来”新型基础设施建设项目,成交金额约为3.8亿元(380百万)[1] - 项目预算为38,891.1万元,最高限价为38,891万元 [3] - 项目竞标方包括讯飞智元、联通(浙江)产业互联网、国泰新点等五家供应商,讯飞智元以总分88.66分的最高分中标 [6][7] 项目结构与费用构成 - 项目建设内容包括1个数智底座、10个AI场景、3个数据要素服务场景、2个中心,覆盖软件、硬件、云资源、数据服务等多个部分 [2] - 软件费用占比最高,达41%(1.56亿元),其次是硬件费用占38%(1.44亿元),云资源占11%(0.42亿元) [4] - 数智底座是项目基础,包含大模型训练平台、智能体平台等多个自研平台,其中智能体平台报价250万元 [8][9] AI大模型与智能体落地应用 - 项目报价文件中“大模型”出现79次,“智能体”出现96次,显示其为核心技术 [2][10] - 10个AI场景深度融入大模型技术,涵盖教育、公安、人社、医疗、水务等十大领域 [10] - AI+教育场景引入大模型AI教师备授课助手,报价80万元;AI+人社场景引入创业辅助智能体,报价90万元 [10][11][12] - 项目中存在大量数十万元级别的子项目,显示大模型落地迅猛 [12] 国产AI产业链参与 - 人工智能信创创新中心采用2台华为大模型推理一体机(Atlas 800T A2),合计报价约281万元 [14][15] - 该中心同时采用4台讯飞星火塔式工作站,合计报价约120万元 [15] - 人工智能研学中心采购宇树科技人形机器人Unitree G1(单价9.9万元)和G1edu-U1(单价16.9万元)各3台 [17] - 项目还涉及海康威视、大华股份、鲁尔物联等国产智能硬件厂商的产品 [18][19] 行业意义与公司动态 - 该项目是AI大模型规模化落地的一个标志性案例,显示AI技术正从概念验证走向深度融合的产业落地 [2][20] - 科大讯飞近期在AI领域表现活跃,9月至少拿下5个大单,包括中广核259万元项目、广东佛山1800万元项目等 [20] - 项目整合了从科大讯飞平台、华为芯片到宇树机器人的国产AI产业链,展示了中国AI技术集成与应用能力 [20]
平台化、智能体、与算力模型矩阵:OpenAIDevDay2025:从“应用”到“平台”的三大战略
海通国际证券· 2025-10-08 12:55
报告行业投资评级 - 报告未明确提及对特定行业的投资评级 [1] 报告的核心观点 - OpenAI 在 DevDay 2025 上明确了三大战略重点,标志着其从单一“应用”向“应用平台”的战略升级 [1][2] - 核心战略包括推动 ChatGPT 平台化、构建生产级智能体体系以及升级模型与算力基础设施 [1] - 通过“平台化入口 + 智能体生态 + 多模态内容生成 + 工程工具链 + 规模化算力”的协同推进,OpenAI 已勾勒出其下一阶段的完整战略路径与商业化蓝图 [5] 平台化战略 - 正式推出“ChatGPT内置应用”功能,用户可在对话界面直接调用第三方应用服务 [2] - 开发者可利用基于 MCP 开放标准的 Apps SDK 进行应用构建与分发 [1][2] - 包括 Bookingcom、Canva、Coursera、Figma、Expedia、Spotify 及 Zillow 在内的首批合作伙伴已率先接入 [2] - 该功能为开发者提供了一个全新的应用分发通道,可直接触达超过 8 亿的周活跃用户 [2][5] 智能体生产体系 - 正式发布 AgentKit,这是一套涵盖智能体编排与落地的全流程工具集 [1][3] - AgentKit 集成了可视化的 Agent Builder、统一治理的数据连接器注册中心、便于产品嵌入的 ChatKit 以及系统化的评估体系 [3] - 强化式微调技术已向 o4-mini 开放,并对 GPT-5 处于私人测试阶段,该技术支持定制工具调用与评分准则 [3] - 目标是构建具备“可控、可评、可运维”特性的生产级智能体体系 [3] 模型与能力矩阵升级 - GPT-5 Pro 已正式纳入 API,面向高精度任务场景 [1][4] - 视频生成模型 Sora 2 进入 API 生态,扩展多模态能力 [1][4] - 推出具备显著成本优势的 gpt-realtime-mini 和 gpt-image-1-mini,价格较同类大模型分别降低约 70% 和约 80% [4] - Codex 已全面可用,新增 Slack 集成、Codex SDK 及企业级管控功能 [4] - 共同构建起覆盖“实时多模态交互—代码生产—媒体生成”的完整能力链条,并实现更精细化的价格分层 [4] 算力与生态基础设施 - 宣布与 AMD 达成长期战略合作,计划构建总规模达 6GW 的 GPU 算力集群 [1][5] - 首批 1GW 算力将基于 AMD Instinct MI450 芯片,预计自 2026 年下半年起逐步交付 [5] - 合作条款中包含与实现关键技术里程碑挂钩的期权安排 [5] - 当前平台生态繁荣,拥有 400 万开发者、超过 8 亿的周活跃用户,以及 API 每分钟处理约 60 亿 token 的吞吐能力 [1][5] - 算力布局旨在支撑需求侧应用生态的持续扩展 [5]
假期被玩坏了的奥特曼,正在玩弄全世界的算力
虎嗅· 2025-10-07 23:25
OpenAI业务数据与趋势 - OpenAI整体每月tokens消耗量合计约为1040万亿,其中API部分每月约260万亿,ChatGPT订阅部分每月约780万亿 [5] - 谷歌AI工厂的月均token消耗量已从5月的480万亿骤增至6月的980万亿,并肯定突破千万亿量级 [5] - OpenAI的ChatGPT拥有约8亿周活用户,每周消耗约180万亿tokens,人均每周使用约22.5万tokens [6] ChatGPT用户行为分析 - 平均每位ChatGPT用户每周大约执行20次典型推理任务,相当于每个工作日提出约四个重要问题 [6] - 用户token消耗存在结构性差异,少数中重度用户贡献了绝大部分消耗量 [7] 开发者生态与API增长 - 平台开发者人数相对2023年增长了2倍,而API消耗的token数量增加了20倍 [9] - 平均每位开发者消耗的token数量在两年间增长了10倍 [9] - OpenAI平台现有400万开发者,API调用量为每分钟60亿token [11] 新产品发布与技术演进 - GPT-5 Pro将开放API,适用于金融、法律、医疗保健等需要高准确性和深度推理的领域 [12] - GPT-5 Codex正式发布,其日使用量从8月以来增长了10倍以上 [12] - 智能体处理任务复杂度的摩尔定律预言其每7个月翻倍,多智能体协作将推理消耗放大至简单对话的15倍以上 [13] 算力基础设施与需求 - 公司在绑定英伟达10GW数据中心后,又与AMD约定了总计高达6GW的数据中心 [14] - 目标是将数据中心规模提升至2033年的250GW,并已开始营销强大10倍的GPT-6 [14] - 公司目标是今年底达到百万张GPU卡 [23] Sora 2视频模型算力需求 - Sora 2的峰值算力需求估算高达约72万张GB200 GPU [21] - 模型规模、采样步数、硬件效率及在AI社交短视频领域的野心是决定其算力需求的关键变量 [20] - AI视频生成的应用将从社交分享扩展到影视制作等专业领域,算力竞争将推向新量级 [22]
刚刚,OpenAI开发者大会重磅发布:AgentKit、Codex正式版、Apps SDK与Sora 2 API
机器之心· 2025-10-07 00:14
公司业绩与规模 - 公司拥有4000万开发者和8亿周活跃ChatGPT用户 [2] - API每分钟消耗量达到60亿token [2] 核心发布:AgentKit - AgentKit是一套面向开发者和企业的完整工具集,用于构建、部署和优化智能体 [9][11] - 包含三大模块化组件:Agent Builder、Connector Registry和ChatKit [14] - Agent Builder提供可视化画布,用于拖拽式设计多智能体工作流,并内置名为Guardrails的开源安全层 [15][18] - Connector Registry集中管理数据与工具连接,整合了ChatGPT和API的数据源,包括预置连接器和第三方MCP [19][21] - ChatKit可将基于聊天的智能体嵌入用户应用或网站,并支持自定义外观,已被HubSpot、LegalOn等公司用于内部知识助手、客服支持等场景 [22][23] - 评估功能得到扩展,引入数据集、trace评分等新特性,并引用客户案例:Klarna客服智能体处理了全部工单的三分之二,Clay销售智能体实现10倍增长 [24] 模型更新与发布 - 强化微调(RFT)功能已在o4-mini模型上全面开放,并在GPT-5上进入私测阶段,正与数十家客户合作完善 [25] - Codex正式版上线,自8月初以来日活跃使用量增长10倍以上 [28][29] - GPT-5-Codex在上线后三周内处理了超过40万亿token,成为增长最快的模型之一 [29] - Codex新增Custom tool calls和Custom graders功能,并推出Slack集成、Codex SDK和全新的管理员工具 [30] - 公司内部几乎所有工程师都在使用Codex,每周合并的PR数量增加70%,Codex自动审查几乎所有PR以发现关键缺陷 [31] 应用生态与开发工具 - 正式发布ChatGPT新一代可对话应用(Apps),用户可在聊天界面中与Booking.com、Canva、Expedia等首批应用交互 [32][34] - 发布Apps SDK(已开源),基于Model Context Protocol (MCP)标准,使开发者能构建应用逻辑与界面,并触达超过8亿ChatGPT用户 [36][37] - 计划今年晚些时候推出应用目录(App Directory),并向Business、Enterprise和Edu版本扩展应用功能 [37] 新模型API发布 - 发布gpt-realtime-mini,可通过WebRTC、WebSocket或SIP连接实时响应音频和文本输入 [39] - 发布gpt-image-1-mini,是一种原生多模态语言模型,可同时接受文本和图像输入并生成图像输出 [41] - 首次通过Video API向开发者开放Sora 2的能力,包含Create video、Get video status等五个端点 [44][46] - Sora 2系列提供两个变体:Sora 2注重速度与灵活性,适用于快速迭代;Sora 2 Pro支持专业级画质,适用于高质量视频生产场景 [46][48] - 强大推理模型GPT-5 pro的API已经上线 [47]
从「知题」到「知人」:UserRL让智能体学会「以人为本」
机器之心· 2025-10-05 06:42
文章核心观点 - 当前大语言模型在代码、数学等任务上表现出色,但距离成为真正的“用户伙伴”仍有差距,核心挑战在于缺乏“知人”的能力,即理解用户动态、不确定和多目标的意图 [2] - 智能体发展的下一个时代课题是从“会解题”迈向“懂用户”,这需要全新的动态评测框架与训练机制 [2] - 来自UIUC与Salesforce的研究团队提出了系统化方案:UserBench(用于评测)和UserRL(用于训练),二者相辅相成,将“以用户为中心”从理念落地为可复现的流程、接口与评测指标 [2][3] UserBench:量化用户价值的评测框架 - **核心思想**:真正的智能体价值不在于完成任务本身,而在于是否能够理解用户、服务用户,UserBench旨在通过刻画用户特征,将“用户价值”从抽象理念转化为可量化的研究对象 [4] - **设计原则**:针对传统评测集中在工具调用与任务完成,却鲜少触及模型是否对齐用户潜在与动态意图的缺口 [5] - **三大用户交互特征**:UserBench将现实交互的三大特征作为评测核心,包括用户目标未完全成形(模糊性)、在多轮对话中逐步显露(渐进性)、以含蓄间接的方式表达(间接性)[3][6][8] - **环境与数据构造**:标志性设计是旅行规划任务,覆盖五个子场景,每个维度设置数十条隐式偏好表述,要求模型理解用户话语背后的语义逻辑 [8] - **数据难度与真实性**:环境内置稳定数据库后端,搜索返回采用混合式选项(正确项、错误项、噪声项)增加模型认知难度,数据根据偏好复杂程度分为Easy/Medium/Hard三档,既保真实性又具备实验可控性 [9][10] - **标准化交互接口**:将复杂的模型、用户及环境三方交互抽象为三类原语操作:Action(与用户对话)、Search(检索数据库)、Answer(提交推荐),高度浓缩了“理解—检索—决策”的链路 [11][15] - **评价指标**:核心指标是归一化得分(选到最优解记1.0,正确但次优解记0.8,其余记0),并辅以过程指标如有效搜索/对话操作率、偏好揭示率进行综合分析 [13][16] UserBench关键评测发现 - **模型普遍表现**:在评测的主流模型中,GPT-4o的归一化得分为0.329,Gemini-2.5-Pro为0.317,Claude-4-Sonnet为0.307,Deepseek-V3为0.210 [12] - **核心挑战定位**:模型并非输在“不会算”,而是常常没能问对问题、没能挖出关键信息,真正的挑战是智能体与人的交互中进行有效的“用户价值”提炼与捕捉 [13] - **单选比多选困难**:当模型可回答次数限制为一次时,平均分数下滑约40%,暴露了“只能给一次答案”时的抉择困难 [16] - **用户偏好揭示率低**:主流模型仅约20%的答案完全贴合全部用户意图,即便是强模型,通过主动互动挖掘到的偏好不到30% [16] - **工具使用与用户理解脱节**:模型普遍有效搜索率超过80%(如Gemini-2.5-Flash达83.62%),但有效对话率显著更低(如GPT-4o为27.82%),说明“循证澄清”的难度更高 [12][16] - **约束复杂度影响**:当总偏好数固定时,把偏好更平均地分散到多个旅行需求中更容易,而集中在少数需求上会显著拉低分数,揭示了本质挑战来自局部约束的组合复杂度 [16] - **交互轮数与质量非正相关**:盲目拉长交互轮数并不能带来收益,同时,命中答案的“时效性”与整体模型对话质量也并不总是正相关 [16] UserRL:以用户为中心的强化学习训练框架 - **核心思想**:在UserBench抽象出的三个原语接口之上,构建一个统一的gym环境,把用户在多轮交互中的参与转化为一个可训练的强化学习问题,优化智能体在交互中的回报 [18] - **八大Gym Environments**:覆盖从个性化推荐到复杂推理的多维能力,包括TravelGym、TauGym、PersuadeGym、TurtleGym、TelepathyGym、FunctionGym、IntentionGym、SearchGym,所有环境统一在Action/Search/Answer接口下 [19][20][25] - **用户模拟与多轮Rollout**:每个环境中的用户由LLM模拟,并可更换不同用户模拟模型以实现交互多样性,框架特点包括确定性任务状态、可验证奖励函数、自然语言互动以及多轮rollout [22][26] - **双层奖励设计**:探索回合层(Turn-level)与轨迹层(Trajectory-level)奖励设计,回合层方法包括Naive、Equalized、Reward-to-Go(R2G)及Exponential Mapping(EM),轨迹层整合方式包括Sum和R2G [22][23][24][26][27] - **训练与优化方法**:主要采用GRPO算法进行优化,在同一query下采样多条轨迹,组内归一化优势,再结合回合与轨迹奖励进行联合优化,在RL训练前进行了SFT小规模优化 [30] UserRL关键训练发现 - **奖励组合效果**:回合均等(Equalized)加轨迹Reward-to-Go(R2G)在4B/8B模型上最稳健、平均表现最好,而回合均等加轨迹Sum最弱,说明轨迹级计分比回合级细分更具有决定性价值 [29][34] - **训练模型表现**:经过UserRL训练的Qwen3-8B(Equalized/R2G)在8个gym上的平均得分为0.5652,在TravelGym、PersuadeGym、IntentionGym等交互型任务上超过强闭源模型,整体平均也领先闭源对照 [29][34] - **闭源模型对照**:作为对照的闭源模型中,Gemini-2.5-Pro平均得分为0.4702,GPT-4o为0.4449,GPT-4o-mini为0.1729 [29] - **SFT冷启动必要性**:先做SFT再RL能显著避免早期坍塌,部分任务收益超过100% [30][34] - **用户模拟器选择关键**:使用GPT-4o作为模拟用户训练的模型下游更强,但Qwen3-32B作为开源模拟器具备性价比高且可迁移的优势 [34]
AI+ Tech Week来袭,听Meta,Character.ai, Pokee, Wanderboat等分享Agent前沿
锦秋集· 2025-10-02 08:38
峰会概览 - 2025年AI+ Multimodal Day & Agent Everywhere峰会将于10月10日至11日在旧金山举办,聚焦多模态AI与智能体两大前沿方向,汇聚技术、资本与产业力量推动AI技术落地与生态共建[2] - 峰会预计汇聚超过2000名行业精英,其中创始人占比40%、投资人占比30%、研究员占比30%[2][18] - 锦秋基金作为合作伙伴参与,其被投企业Pokee AI创始人朱哲清和Wanderboat.ai CEO You Wu将在现场交流[2] 核心亮点 - 活动采用双主题并行模式,首日聚焦“AI+ Multimodal Day”探讨视觉、语音与跨模态数据处理,次日围绕“Agent Everywhere”深入智能体架构与工作流重构[16] - 超过20家AI团队将进行现场产品首秀,涵盖多模态数据库、智能体基础设施及AI原生应用领域,包括Genspark、Browserbase、OpusClip等知名公司[17] - 活动设置四个主题论坛,分别讨论智能体操作系统、多模态数据库、AI原生娱乐及物理AI智能革命,并包含产品展示和 networking 环节[9][14] 参与企业及业绩 - Character.ai 是全球排名第一的AI社交平台,其多模态负责人将参与论坛[23] - Genspark.ai 的通用智能体产品在45天内达成3600万美元年度收入[23] - Browserbase 已完成4700万美元融资,提供基于云的无头浏览器服务[23][24] - Tinyfish 成功融资4700万美元,打造了部署量最大的企业级网页智能体[24] - LanceDB 作为多模态数据库先锋融资3000万美元,打造下一代非结构化数据存储引擎[26] - GMI Cloud 作为GPU云基础设施领军者融资8200万美元,反映市场对算力底层技术的强烈需求[26] - OpusClip 成立18个月积累1000万用户,年经常性收入达八位数,被软银视为下一代AI视频编辑工具标杆[31] - Creatify.ai A轮融资1550万美元,18个月实现900万美元ARR,团队来自Meta、Snap等大厂[31] - Higgsfield.ai 在5个月内实现5000万美元ARR,用户超1100万,展现AI产品规模化落地的极致效率[31] - Plaud.ai 产品Plaud Note是全球领先的AI录音笔,年化收入超过1亿美元,设备全球出货量近70万台,并实现连续两年10倍增长[35] - Composio 平台已集成超500种工具,成功融资2900万美元,致力于构建AI智能体无缝调用外部能力的核心骨干网[36] - E2B 完成2100万美元A轮融资,定位为企业级AI智能体云基础设施的定义者[37] 论坛议题聚焦 - 智能体操作系统论坛将探讨下一代AI智能体需超越文本处理,具备看、说、做能力,通过视觉、语音和交互捕获人类情境[21] - 多模态数据库论坛强调数据库需从静态仓库转变为能主动理解内容、连接语义的智能引擎,以支持自动驾驶、医疗影像等应用[24] - AI原生娱乐论坛关注AI如何通过处理文字、图像、声音能力发明全新文化玩法,重塑内容生产流程[29] - 物理AI论坛深入探讨硬件与AI交叉点,包括传感器、交互界面到具身智能体,探索汽车、机器人等行业变革机遇[33] 被投企业介绍 - Pokee AI 利用强化学习开发前沿AI Agent,具备高级规划、推理能力,并能灵活调用多样化数字工具,其技术可扩展至数千种工具与复杂工作流[10] - Wanderboat.ai 是旅行垂类AI应用黑马,拥有500万用户,通过智能规划与社交互动重塑旅行体验[11][13]