Workflow
Computer Use
icon
搜索文档
ChatGPT智能体正式发布,多个创业赛道昨夜无眠
量子位· 2025-07-18 00:30
ChatGPT Agent核心功能 - 整合"思考"和"执行"能力,实现深度研究与操作执行的统一[2][8] - 可接管用户电脑操作,接近操作系统级别的控制[3] - 工作场景支持会议安排、PPT生成、报销提交等高管助理级功能[4] - 生活场景覆盖旅游规划、活动安排等CEO秘书级服务[4] 技术实现与性能 - 采用专用模型实现SOTA,网页浏览和现实任务执行能力显著提升[5][30] - 动态学习机制优化速度、准确性和效率,配备可视化/文本浏览器及API访问路径[27][28] - 在DSBench测试中超越人类水平,SpreadsheetBench得分比GPT-4o提升超一倍[33][34][38] - "人类最后考试"得分41.6分,远超早期模型不足10分的表现[31] 商业化部署 - Pro版支持无限次任务,其他付费版每月50次任务,企业/教育版7月开放[22][23][24] - 通过积分制扩展使用量,免费用户暂未开放[23][25] 行业影响与竞争格局 - 将创业赛道功能整合为大厂标准化产品,冲击Agent领域创业者[5][7] - 落后于Anthropic等竞品的"Computer Use"功能,但在通用Agent领域加速追赶[48] - 手机厂商华为/小米等已试水Agent应用,如自动订咖啡、接听电话等[49] 长期趋势展望 - 可能重塑互联网形态,从PC时代"网站"、移动时代"APP"转向AI时代"Agent"[52] - 企业级应用如AI客服已快速渗透,垂直领域AI编程/绘图同步推进[46][47] - 预示由AI驱动的操作系统级产品形态正在形成[50][51]
中金 | AI进化论(8):AI Agent:AI的L3时刻?
中金点睛· 2025-03-24 23:32
AI Agent发展现状与趋势 - AI Agent进入L3"智能体"阶段,核心区别在于具备使用工具和执行决策能力,近半年技术进展加速推动规模化落地 [6][7] - OpenAI将AI发展划分为5个阶段:L1聊天机器人(如ChatGPT,自然语言理解达80-90%)、L2推理者(如o1模型)、L3智能体(当前阶段)、L4创新者、L5完整组织 [7][9] - 海外厂商密集发布AI Agent产品,聚焦两大目标:增强GUI理解能力实现设备接管(如Anthropic Computer Use任务完成度14.9%),以及简化开发者构建流程(如OpenAI Responses API) [11][20] 代表性产品与技术突破 - Monica推出的Manus在GAIA基准三项难度评分均超越OpenAI,采用多代理模式实现通用场景落地,通过虚拟机展示处理过程提升用户信任度 [26][27][32] - Anthropic Computer Use功能通过API模拟人类操作电脑,任务完成度从7.8%提升至14.9%;OpenAI Operator聚焦浏览器操控,完成度达38.1% [12][13][17] - 微软OmniParser将UI截图转为结构化元素,叠加边界框辅助Agent交互;OSWorld测试显示人类任务完成度72.36%,AI Agent最高达38.1% [15][17][19] 商业化与生态影响 - 交互方式变革:智能手机从GUI向VUI+GUI演进,最终可能发展为APP-less的Agent UI,重构应用分发逻辑 [39][40][42] - 流量格局重塑:通用Agent可能聚合分散于微信(10.78亿MAU)、淘宝(9.57亿MAU)等头部APP的流量,改变应用开发商竞争格局 [41][44] - 硬件载体扩展:AI Agent能力渗透将推动消费电子形态创新,可穿戴设备如眼镜或成为新载体 [49] 厂商竞争格局 - 手机厂商加速布局:华为Pura70小艺智能体、小米15超级小爱(支持一键点咖啡)、荣耀Magic7 YOYO智能体实现系统级AI集成 [47][48] - 互联网厂商切入:智谱AutoGLM已适配微信/淘宝等应用;阿里与苹果合作开发中国版iPhone AI功能,借助15.6%市场份额拓展C端 [50][51] - 生态构建路径分化:OpenAI推Responses API构建模块,微软Copilot Studio提供低代码平台,Anthropic则采用MCP开放标准协议 [20][22][23]
泥沙俱下,Manus被掩埋的价值
新财富· 2025-03-12 01:50
文章核心观点 - Manus作为"世界首个通用型AI Agent"产品 在发布后经历了从高度赞誉到严厉质疑的舆论反转 其创新性被质疑为缺乏技术护城河的"缝合怪" 但工程化产品与基座大模型存在本质区别 决定软件护城河的关键在于应用场景而非单纯技术自研[2][4][5][13] - 公司采用快速卡位策略抢占Agent赛道 通过海外优先的营销策略引发国内自媒体流量炒作 导致产品期待值与实际功能不匹配 造成舆论反噬[15][20][22][26] - 产品在差异化体验上实现从ChatBot多轮对话到Agent"委托-交付"模式的跨越 但当前应用场景偏向中产和极客群体 对普通用户存在使用门槛和交付良率问题[29][32][35][36] - 公司面临早期创业企业的典型质疑 类似小米初期被指"组装手机" 最终产品价值需通过持续优化和生态拓展来证明[37][38][39] 行业竞争格局 - 海外AI巨头已推出垂类Agent产品 包括Anthropic的Computer Use、OpenAI的Operator以及代码垂类Devin AI编程Agent 国内智谱也推出屏幕交互产品AutoGLM[3] - 基座大模型偏向学术和toB场景 而AI产品侧重toC消费级场景的工程落地 两类创新均具备价值[7] - Agent赛道尚处早期阶段 产品需解决普通用户高频使用场景问题 当前案例集中在旅行规划、股票分析和品牌设计等中产需求[35] 产品技术架构 - 主模型主要基于Claude 3.5 利用Qwen对函数调用优化进行后训练 通过多Agent协作框架实现通用功能[5] - 实现LLM技术间互通 支持思维链和执行链可视化 允许用户一键分享对话流程及HTML格式输出结果[25] - 在GAIA跑分上超越OpenAI的DeepResearch 自称"通用性"Agent的核心在于模型自然演化能力而非预设工作流[33] 市场营销策略 - 采用"出口转内销"路径 通过全英文宣传片和Google账号登录设计优先 targeting海外自媒体圈 再反哺中文市场认知[20] - 邀请码机制被炒至万元人民币 引发饥饿营销质疑 但公司澄清未主动操纵流量[19][26] - 理性技术分析文章仅获2000阅读 而情绪化质疑文章获得近5万阅读 反映自媒体流量生态对负面内容的激励[27] 用户价值体现 - 实现从ChatBot被动工具到Agent主动交付的范式转变 用户干预需求大幅降低 类似L2到L3自动驾驶的升级[32] - 但产品必须在虚拟机运行 知识能力受浏览器边界限制 移动端高频场景如打卡、领红包等功能尚未覆盖[36] - 高度依赖用户提示词撰写技巧 存在幻觉数据生成和输出失真问题 普通用户上手门槛较高[36]
晚点播客丨硅谷怎么看 DeepSeek?与 FusionFund 张璐聊开源、Agent 和除了 AI
晚点LatePost· 2025-02-13 13:01
开源生态与AI模型发展 - DeepSeek发布开源推理模型R1,以较低成本在部分Benchmark上比肩甚至超越闭源模型o1,引发全球讨论[7] - DeepSeek的成功被视为开源生态的胜利,其创新建立在开源社区积累的基础上,同时推动了无监督强化学习和合成数据应用[11][12] - 开源生态有利于初创企业,促进多样性创新,而闭源更有利于大企业[13] DeepSeek的影响与行业反应 - DeepSeek改变了国际对中国AI公司的认知,展示底层架构创新能力而非仅工程优化[14] - AMD宣布与DeepSeek合作,但开源模型降低行业使用门槛可能长期增加算力需求而非利空英伟达[8][15] - Meta面临压力,其Llama架构受益于DeepSeek的结构探索,但品牌公关层面受到挑战[16] 闭源模型与开源模型的竞争 - OpenAI和Anthropic仍为行业Benchmark,但开源模型追赶速度超预期[16] - xAI凭借特斯拉和SpaceX的3D产业数据优势,内部迭代速度惊人[17] - 开源生态的多样性可能催生新架构,使AI模型在CPU上高效运行,改变芯片市场格局[19] Agent应用与行业机会 - OpenAI的Operator和Anthropic的Computer Use展示了智能体应用的潜力,但当前速度慢且存在信息编造问题[21] - Agent应用在医疗、金融、保险、太空科技等领域有垂直机会,与传统RPA的区别在于交互革新[24][23] - 用户对AI的信任度高于人类服务提供者,尤其在隐私信息分享方面,年轻一代行为模式变化显著[25] 中美AI投资差异 - 美国生态中巨头聚焦基础模型,初创企业在应用层与巨头形成协同,垂直领域受监管行业更倾向与初创合作[26][27] - 国内投资人担忧单一环节公司易受巨头挤压,而美国初创企业在高度监管行业有更多合作机会[26] 非AI领域的热点方向 - BioTech方向从延长寿命转向提升生命质量,AI加速医疗技术创新如数字化诊断和治疗[28] - SpaceTech因SpaceX降低发射成本,未来3-5年可能迎来爆发,洛杉矶形成太空科技聚集地[28][30] - 美国创新核心分布在硅谷、波士顿、纽约、奥斯汀和洛杉矶[30]