AI Agent
搜索文档
突破Agent长程推理效率瓶颈!MIT&新加坡国立联合推出强化学习新训练方法
量子位· 2025-08-20 10:21
文章核心观点 - MEM1框架通过强化学习训练AI Agent自主管理记忆和推理 显著提升处理复杂任务时的效率和性能 [2][3][6][8][9][12][17][22] 技术原理 - 采用基于结果奖励的强化学习训练 使模型学会提取、整合和修剪信息 [12][14] - 引入内部状态<IS>作为工作记忆 实现近似常量级显存开销 [8][9][16] - 通过注意力掩码机制限制关注范围 迫使模型高效压缩历史信息 [12] 性能表现 - 7B参数MEM1模型推理速度达传统14B模型的3.5倍 [2] - 峰值上下文token数量降至传统模型的1/4 [2] - 在16目标任务测试中准确率12.3% 远超对比模型Qwen2.5-14B-Instruct的3.54%和Qwen2.5-7B+外部记忆模块的4.56% [3][17] 应用场景 - 支持多轮复杂任务处理 包括文档检索QA、开放域Web QA和多轮网购决策 [19] - 展现分问题独立存储、自适应搜索策略和任务规划能力 [20] - 在长程环境交互任务中保持上下文稳定 避免线性增长 [16] 行业意义 - 为处理长推理上下文挑战提供新思路 替代传统外部记忆模块方案 [22] - 实现端到端训练 降低工程复杂度并提升效果可控性 [12][22] - 论文已被COLM 2025 RAM workshop收录为口头报告 [3]
Manus披露预测性年度收入为9000万美元
36氪· 2025-08-20 10:16
公司财务表现 - 公司披露收入运行率为9000万美元 [1] 公司战略与定位 - 公司定位为全球化市场的中国AI初创企业 [3] - 公司将全球总部从北京迁至新加坡,以加速国际化并应对跨境合规 [3][5] - 公司强调其中国属性,创始人表示希望证明作为中国出生的创始人也能在新的环境下做好全球化的产品 [3][5] - 公司长期目标是成为世界级的公司 [5] 产品与技术 - 公司发布了Wide Research产品 [2] - 公司核心技术依赖于调用大量美国底层模型的API接口,这些服务未对中国大陆开放 [5] - 公司采用“上下文工程”而非自研底层模型,并分享了智能体框架调整的细节 [4] 市场沟通与形象 - 公司此前较少主动披露财务指标如年化经常性收入,认为此类表述不够有野心 [3] - 近期通过披露收入运行率和技术博客发声,被视为试图在市场定位上找回主动权 [1][3][4]
写代码写出26亿身家、“淘宝第一个程序员”多隆离职后重出江湖,加入老同事创企,“杀入”AI赛道!
AI科技大本营· 2025-08-20 09:04
核心人物背景 - 蔡景现(花名多隆)从杭州大学生物系硕士毕业后于2000年加入阿里巴巴,成为淘宝第一位程序员并主导构建交易系统和论坛系统[4][5] - 在阿里巴巴25年职业生涯中晋升至最高技术级别P11,并曾成为阿里合伙人,2017年以26亿元身家登上胡润财富榜第1629位[8][9][11] - 以技术实力著称,曾独立维护淘宝搜索引擎、TDF文件系统、Tair key-value系统及通讯框架,被内部称为"神"并流传"有困难,找多隆"的口号[5][7] 职业变动与创业选择 - 于2025年8月1日离开阿里巴巴结束25年任期,同年8月6日加入AI初创公司贝联珠贯投身AI赛道[1][12] - 选择与阿里巴巴前同事毕玄(林昊)再度合作,毕玄曾为阿里云视频云负责人(P10),2021年离职创办贝联珠贯并获5000万天使轮融资[13][14] - 贝联珠贯定位高效云资源管理服务商,业务覆盖在线业务型算力、大数据型算力及AI型算力市场,2024年10月完成数千万元Pre-A轮融资[14][15] 技术方向与行业影响 - 公司重点发展AI Agent技术解决运维服务规模化难题,通过SREAgent将专家经验沉淀为代理服务,目标实现高质量高效运维[18] - 该方向针对运维行业长期依赖专业人力、难以规模化的痛点,试图通过AI技术突破服务交付瓶颈[18] - 公司入选《杭州AI卧龙图》并跻身"杭州AI 108将",显示其在区域AI产业中的认可度[15]
DiT突遭怒喷,谢赛宁淡定回应
量子位· 2025-08-20 07:48
文章核心观点 - DiT(Diffusion Transformers)作为扩散模型领域的核心架构受到质疑,但原作者谢赛宁强调科学验证的重要性并回应质疑,同时指出DiT的技术优势及改进方向 [4][5][6][9][27][29][32] DiT的技术地位与影响 - DiT将Transformer与扩散模型融合,在计算效率和生成效果上超越基于U-Net的经典模型ADM和LDM,并将Transformer扩展到图像视频领域 [9] - 若DiT存在根本性错误,大量依赖DiT的生成模型可能需重新评估,对整个领域产生重大影响 [10] 质疑者的核心论点 - 质疑依据来源于论文《TREAD:Token Routing for Efficient Architecture-agnostic Diffusion Training》,提出Tread策略可将早期层token传递至更深层,无需修改架构或引入额外参数 [12][13][14] - DiT架构可能隐含特性导致FID迅速降低,Tread模型比DiT在40万次训练迭代快14倍,在700万次迭代时快37倍 [15][16] - 质疑者认为大幅性能提升可能否定原有方法,并批评训练中禁用部分网络的做法 [17][19] - 指出DiT后置层归一化可能导致动态范围输出问题,需使用对数尺度处理信噪比差异 [23] - 质疑DiT的条件处理仅通过普通MLP流程,未体现Transformer特性 [25][26] 谢赛宁的回应与技术说明 - 强调Tread策略与"DiT是错的"无直接关联,认为Tread类似随机深度,通过正则化提升特征稳健性 [27][28] - 推荐使用经过验证的Lightning DiT版本(含swiglu、rmsnorm、rope等技术),并指出后置层归一化目前无证据表明存在问题 [29][30] - 提出DiT的核心改进集中于内部表征学习,包括REPA方法、tokenizer修正、语义token拼接、解耦架构及正则化方法 [32] - 训练中采用随机插值/流分配提升效果,SiT作为基准评估方法,时间嵌入需使用adaln-zero并共享参数以避免浪费30%参数 [33] - 指出sd-vae是DiT当前症结,处理256×256分辨率图像需445.87 GFlops且非端到端架构,va-vae和repa-e仅能部分解决问题 [34]
这个AI让我躺平,实测首个手机通用Agent:点外卖、做PPT,连工作都能帮我找
虎嗅· 2025-08-20 05:40
本文来自微信公众号:APPSO (ID:appsolution),作者:APPSO,题图来自:AI生成 每天睁眼后的第一件事是什么?刷手机。 睡前的最后一件事是什么?还是刷手机。 但你有没有算过,每天要在不同App之间切换多少次?淘宝比价、美团点外卖、小红书找攻略——我们的手机里装着几十个App,却要靠十个手指在它们 之间来回奔波。 这些碎片化的时间往往一天下来,足以让我们开始怀疑人生——时间都去哪儿了。 所以当AI Agent浪潮席卷而来时,我们的第一反应就是希望能有一个真正的手机通用Agent。它应该像一个随身助理,不管你在做什么,都随时响应你的 需求,同时能够在后台默默工作,不打断你正在进行的任何事情。 其实早在Manus刷屏之前,智谱就已经在Agent赛道上埋头苦干了。我们之前测过他们的初代AutoGLM,印象还不错。而就在刚刚,智谱再次升级了 AutoGLM Agent功能。 带着这样的疑问,我们想看看这款Agent能否把"手机自动驾驶"这个概念变成现实。 一句话就能让AI帮你打卡追剧点奶茶,AutoGLM Agent开启手机自动驾驶 0:00 / 0:21 据智谱官方介绍,AutoGLM Agen ...
中美AI竞争加剧:OpenAI对手智谱发布智能体应用,奥尔特曼称美国低估中国AI威胁
钛媒体APP· 2025-08-20 05:13
智谱AI产品发布 - 智谱发布全球首个手机Agent智能体应用产品AutoGLM 2.0版本 基于纯国产模型GLM-4.5和GLM-4.5V驱动 具备推理、代码与多模态能力 支持iOS、安卓和网页全平台 [3] - AutoGLM 2.0突破硬件限制 通过Agent+云手机技术在任何设备和场景下运行 实现从"言"到"行"的范式转变 [3][10] - 产品定位C端用户 通过多智能体系统帮助用户平行处理工作和日常任务 实现"1(用户)+N(智能体)"的能力扩展 [3] 技术性能与测试表现 - 在Device Use基准测试中 AutoGLM整体表现优于ChatGPT Agent、UI-TARS-1.5和Claude 4 Sonnet 其中在OSWorld测试中获得48.1分 远超ChatGPT Agent的42.9分 [11][12] - 在Browser Use测试中达到87.7分 在Mobile Use的AndroidWorld测试中获得75.8分 均领先竞争对手 [12] - 技术实现基于端到端异步强化学习突破 结合GLM-4.5系列模型原生能力 支持推理、编码、研究和GUI操作等多类任务 [10] 公司融资与生态布局 - 智谱累计完成约11次融资 总金额超125亿元人民币 投资方包括红杉中国、高瓴资本、阿里巴巴、腾讯等头部机构及多地国资 [7] - 公司定位开放平台 与高通、三星、英特尔、荣耀等硬件厂商合作 在AIPC和智能助手领域落地应用 [9] - 使用成本低于竞争对手 DeepSeek 最低仅需8个英伟达H20芯片即可运行GLM-4.5系列模型 [7] 行业竞争与中美AI发展 - 2024年中国人工智能产业规模超7000亿元人民币 连续多年保持20%以上增长率 截至3月共有346款生成式AI服务完成备案 [5] - OpenAI CEO奥尔特曼表示美国低估中国AI进展 中国在推理和技术探索方面可能更快构建能力 中美AI竞赛复杂度超出简单领先排名 [5][17] - 中国开源模型DeepSeek V3训练成本不到600万美元 性能媲美ChatGPT 促使OpenAI改变模型发布策略并首次推出开放权重模型 [13][17][18] 市场发展与预测 - 2025年被行业称为"智能体爆发年" 百度、阿里、腾讯等互联网大厂密集布局 智能体市场进入协同作战阶段 [7] - 仅2024年上半年就有超50款智能体产品发布 包括字节跳动的扣子空间和360的多智能体蜂群系统 [7] - IDC预测到2027年60%的大型企业将采用协作型智能体系统 业务流程效率提升50%以上 [20]
速递|千亿估值加持,Databricks新一轮融资10亿美元,为Agent时代打造“水与电”
Z Potentials· 2025-08-20 04:19
融资动态 - 公司正以1000亿美元估值完成新一轮融资 规模约10亿美元 由Thrive与Insight Partners共同领投[2] - 公司在1月份以620亿美元估值完成100亿美元融资 运营资金已十分充裕[2] - 自2013年成立以来累计融资约200亿美元[2] 员工持股计划 - 公司已在2025年为员工安排两轮次要融资 允许员工根据持股规模出售40%/50%/60%的股份[2] - 二级市场全部可用资金未用尽 员工保留比预期更多的股份[2] - 员工近期已有两次套现股票机会 公司不急于进行IPO[2] 战略投资方向 - 新一轮融资将用于推进AI Agent数据库及AI Agent平台两个具体项目[3] - 公司将参与AI人才争夺战 招聘AI人才成本高昂[8] 产品布局 - Lakebase数据库于6月年度技术大会发布 基于开源Postgres 具备企业级品质[4] - 产品定位为Supabase竞争对手 支持企业开发者氛围编程项目[4] - 采用分离式计算与存储架构 实现经济高效的大规模数据库创建[6] 市场机遇 - 数据库市场总可寻址规模达1050亿美元 过去40年基本未受挑战[4] - 由AI Agent创建的数据库比例从一年前30%增长至当前80% 预计一年内达99%[4] - AI Agent成为新用户群体 公司重点确保该类用户成功以撬动市场规模[5] AI Agent平台发展 - Agent Bricks平台于6月推出 专注于处理日常事务的智能Agent[6] - 企业需求集中于独立可靠处理日常事务(如员工入职/人力资源答疑)而非超级智能[6] - 该方向被视为对全球GDP和组织机构的重大机遇[7]
中国零售消费行业生成式AI及数据应用研究报告
艾瑞咨询· 2025-08-20 00:05
零售消费行业现状与挑战 - 零售行业从高速增长转向存量竞争阶段 企业亟需通过数字化技术重塑人货场关系[1][2] - 2024年全国社会消费品零售总额约49万亿元 线上销售渠道占比持续提升[6] - 消费者购买理性与专业度上升 企业关注点由流量经济转向会员经济[4] 细分行业竞争格局 - 美妆国货品牌市场份额从2022年43.7%增长至2024年55.7% 通过KOL测评与UGC内容种草快速占领市场[9] - 鞋服行业进入存量博弈阶段 呈现"速生速朽"特征 同质化商品快速充斥渠道[11] - 家居行业受房地产周期影响 从增量开发转向存量优化阶段 加速打造全渠道运营系统[14] 生成式AI应用现状 - 71%的企业将加强数据驱动决策 生成式AI率先在营销客服类场景落地[22] - 营销环节是生成式AI落地最快领域 已采用企业中营销内容生成和智能客服渗透率均超90%[46] - 94%的零售消费企业已应用AI Agent 智能客服和营销内容生成渗透率最高[29] 生成式AI实施模式 - 近90%的企业倾向于引入外部服务商 74%的企业存在多模型调用需求[27] - 模型架构与算法研发环节73%企业选择与厂商合作 仅9%独立负责[28] - 企业更关注能提供多样化模型选择的厂商 74%企业在底层能力构建时选择两种及以上模型方案[28] 生成式AI价值体现 - 91%的企业通过生成式AI实现内容成本降低 降本比例主要集中在30%左右[49] - 超50%企业利用生成式AI与数据精准定位客群 用户沉淀比例多数提升10%到30%之间[57][58] - 生成式AI赋能供应链效率优化约10%-30% 在库存周转环节52%企业已部署相关技术[60] 行业特定应用链路 - 美妆行业整合消费者肤质检测数据等多维度数据 生成定制化产品方案[33] - 鞋服行业通过大数据采集分析实时追踪流行元素变化 生成式AI快速生成契合潮流的设计草图[35] - 家居行业整合线上浏览数据与线下体验反馈 分析消费者家居风格偏好等需求[38] 数据治理与决策优化 - 数据质量是生成式AI落地关键痛点 两者协同实现AI价值最大化[19] - 93%的企业构建知识库并覆盖多场景 生成式AI助力数据治理提质增效[54] - 生成式AI显著强化自然语言理解能力 能深度挖掘多源异构数据间隐含关联[40] 出海拓展战略 - 93%的零售消费企业布局海外业务 亚太、欧洲、北美洲为主要目的地[64] - 生成式AI成为突破语言与文化壁垒的关键工具 通过智能翻译等实现本地化营销[67] - 家居企业加速拓展海外市场 从过去代工模式转向建设海外自有品牌[14] 云服务支撑体系 - 公有云服务商提供从基础资源到开发平台的全面赋能 降低生成式AI应用门槛[24] - 云厂商依托算力规模与算法迭代优势 可高效满足企业多模型调用需求[27] - 综合型云服务商具备电商渠道资源和平台搭建能力 全方位满足企业出海需求[67]
Z Event|大厂的同学下班一起聊AI?线下局深圳8.23、新加坡8.28
Z Potentials· 2025-08-19 15:03
招募活动 - 公司正在深圳和新加坡举办两场关于AI Agent主题的小型聚餐活动 分别计划招募8-10人和6-8人 目标人群为大厂员工 创业公司产品技术人员及创业者 [4] - 活动旨在促进交流想法 分享经验和拓展人脉 报名采取先到先得机制 截止时间为活动前一日晚8点 [4] - 公司会根据参与者背景和诉求进行合理组合 确保活动效果 [4] 公司定位 - 公司定位为AI时代中国年轻版的YC 专注于寻找有创造力的00后创业者 [6] - 公司业务涉及多个领域 包括Z Finance和Z Lives等 [5]
深度|Agent 全球爆发,Agent Infra是否是搭上这趟快车的关键?
Z Potentials· 2025-08-19 15:03
AI Agent 引爆元年 - 京东云开源业内首个"完整产品级"通用多智能体系统JoyAgent-JDGenie,在GAIA基准测试中取得75.15%整体准确率,显著超越同类产品[2] - Flowith发布革命性Agent产品Neo,支持"三无限":无限步骤执行复杂任务、无限上下文支持百万token记忆、无限工具并行调用[2] - KPMG推出Workbench多Agent平台,初期部署50个智能体并计划扩展至近千个,服务于税务/审计/咨询等领域[2] - AI Agent正从单一对话工具向主动执行任务/联动服务/实时反馈的"数字生产力"转型[3] AI Agent落地四大痛点 - 稳定性问题:算力波动/调用延迟/数据获取超时导致执行链路断裂,缺乏高可用云节点和弹性算力调度[4] - 数据质量差:内部文档分散/多版本冗余/缺乏标准化,实时数据更新不及时[5][6] - 模型管理分散:缺乏统一接入平台,版本切换慢/策略路由缺失/推理延迟高[7] - 调试监控困难:跨云跨系统缺乏全链路可观测性,金融/医疗等场景合规部署阻力大[8] Agent Infra关键能力 - 需提供稳健执行环境/高效模型管理/多样工具调用/精准数据供给和安全合规[8] - 小宿科技构建三层Infra:IaaS层提供全球化云服务,MaaS层实现模型聚合管理,DaaS层提供智能搜索与数据服务[12] - 打通"可靠运行环境+可控模型治理+高质量实时数据"的Agent运行逻辑[14] 联网检索+实时数据接入 - AI Agent需实时获取最新政策/新闻/市场动态以支撑决策,LLM知识滞后问题需联网搜索解决[15][17] - RAG技术实现检索增强生成流程,先检索信息再生成专业回答[19] - 企业级Agent需持续获取外部联网数据保持实时性/高效性/准确性,应用于客服/市场分析/金融投资等场景[21][22] 小宿智能搜索优势 - 月调用量达数亿次,服务近千家企业[23] - 支持35+语言和多模态检索,符合GDPR/CCPA等法规[25][26] - 提供长摘要总结和结构化输出,自动高亮关键信息[27] - 在44%查询中优于主流搜索引擎,SLA达99.9%[28][31]