Agent技术
搜索文档
谷歌深夜重磅开源,深度研究Agent拿下SOTA,比GPT-5 pro便宜90%
36氪· 2025-12-12 00:49
核心观点 - 谷歌发布三项Agent相关重大更新,包括升级并向开发者开放Deep Research Agent、开源基准测试DeepSearchQA以及推出交互API,旨在强化其Gemini生态并简化Agent开发流程 [1][5][16] Deep Research Agent功能更新 - 该Agent基于Gemini 3 Pro模型构建,专为长期上下文和复杂信息综合任务优化,通过迭代式提问、搜索和识别知识空白来运行 [3][7] - 新版本功能更新包括:针对特定数据进行更深入的网页搜索、以更低成本生成深度研究报告 [3][7][9] - 在性能基准测试中,新Gemini Deep Research Agent在完整HLE测试中得分46.4%,优于Gemini 3 Pro的43.2%和GPT-5 Pro的38.9% [7] - 在成本方面,该Agent在BrowseComp基准上与GPT-5 Pro性能相当,但价格约为后者的十分之一 [3] - 该Agent已应用于金融服务、生物技术和市场调研等需要高精度的复杂领域,帮助完成初步调研任务 [9] - 为开发者提供的核心能力包括:统一信息综合(支持文件上传、网络数据分析和长上下文处理)、报告可控性(用户可定义结构和格式)、提供详细引用来源、支持JSON结构化输出以便下游应用解析 [9] - 该Agent将很快在谷歌搜索、笔记本、谷歌金融中提供,并在Gemini应用中升级 [5] DeepSearchQA基准测试 - DeepSearchQA是一个新开源的网络研究Agent基准,旨在测试Agent在复杂、多步查询任务中的全面性 [5][11] - 该基准包含900个手工设计的“因果链”任务,涵盖17个不同领域 [5][12] - 与传统的基于事实的测试不同,它衡量的是生成详尽答案集的全面性,评估研究的准确性和检索的记忆能力 [12] - 该基准还可作为衡量“思考时长”效率的工具,谷歌内部评估发现,允许Agent执行更多搜索与推理步骤时,其性能会显著提升 [12] 交互API (Interactions API) - 交互API是一个与Gemini模型和Agent交互的统一界面,通过Google AI Studio中的Gemini API公开测试版向开发者开放 [5][14] - 它原生集成了专为Agent应用开发设计的接口,可高效处理交错式消息、思维链、工具调用及状态信息等复杂上下文管理工作 [14] - 该API提供了首个内置Agent,即Gemini Deep Research Agent,未来将扩展更多内置Agent并支持开发者引入定制Agent [14] - 核心扩展功能包括:可选的服务器端状态(简化客户端代码并可能降低成本)、可解释和可组合的数据模型(便于调试和分析)、背景执行(支持长期运行的推理环路)、远程MCP工具支持(模型可直接调用MCP服务器) [15] - 它提供了一个单一的RESTful端点用于交互 [14] 战略与生态影响 - 此次更新是谷歌Gemini生态的再次扩容,通过发布交互API简化了与Gemini模型和Agent的交互流程,旨在构建更易用的开发生态 [16] - 公司未来的更新将聚焦于更丰富的输出(如原生生成图表以支持可视化分析报告)、通过MCP支持扩展连接性以更轻松访问自定义数据源,并努力将Gemini Deep Research引入企业用的Vertex AI平台 [16]
大模型开始“点击”屏幕!智谱、字节抢滩“手机操作”,AI超级入口争夺战升级
每日经济新闻· 2025-12-10 14:52
文章核心观点 - 2025年末,AI行业围绕终端入口的争夺战显著提速,焦点从云端大模型转向对手机等终端设备的直接操作与控制,旨在重构移动互联网的流量分发权和交互逻辑 [1] - 科技巨头通过不同技术路径(如开源模型、系统级嵌入)竞逐“AI超级入口”,竞争范围已从手机扩展至穿戴设备和原生App,试图把握下一代流量入口并可能引发行业格局变革 [1][5][6] 行业动态与竞争格局 - 行业竞争在2025年末突然提速,巨头们不约而同地将目光锁定在“Phone Use”(手机操作),目标是从被动问答升级为主动执行,重构移动互联网流量分发权和交互逻辑 [1] - AI超级入口的争夺是战略层面的生死之战,在移动互联网红利见顶的背景下,大模型厂商试图通过Agent技术将分散的App功能收敛到一个统一入口 [5] - 竞争已不仅限于手机,科技巨头正试探新的硬件形态以求弯道超车,例如AI眼镜,行业正押注下一代流量入口,可能颠覆手机的统治地位 [6][7] - 另一条竞争路径是将App本身进化为超级AI应用,例如阿里巴巴基于性能领先的AI模型和自身生态优势,打造面向C端用户的AI超级原生应用 [8] 主要参与者的战略与产品 - **智谱**:于12月9日正式宣布开源其自主研发的AutoGLM模型,口号是“让每台手机都能成为AI手机” [1]。其战略是通过开源核心模型和Phone Use能力框架,降低行业门槛,旨在将相关能力变为行业可共同打磨的公共底座 [2] - **字节跳动(豆包)**:于12月1日发布豆包手机助手技术预览版,选择与手机厂商在操作系统层面进行深度合作的系统级嵌入路径 [1][2]。官方演示展示了“所见即可问”和“所言即可为”的能力,能完成查票订票、商品下单等任务 [2]。公司明确表示目前没有自行开发手机的计划,而是选择生态共建 [3] - **小米**:于今年6月推出售价1999元的AI眼镜,雷军将其定义为随身AI入口,试图通过摄像头和语音交互成为连接人与数字世界的轻量化中介 [6] - **阿里**:旗下夸克于11月正式发布AI眼镜,试图将搜索场景从手机屏幕延伸至视觉场景 [6]。阿里在11月相继推出千问与灵光两大App,在AI to C领域,基于性能领先的AI模型和自身生态优势,打造面向C端用户的AI超级原生应用 [8] 技术发展现状与挑战 - **技术能力现状**:大模型开始能够点击手机屏幕、理解UI并执行任务,但距离完美仍有很长的路要走 [1][3]。智谱指出,行业希望Agent能完成数十分钟甚至数小时的长距离任务,但当前模型仍难以充分实现这一目标 [3]。豆包团队也提示,受限于大模型技术的不确定性,相关场景无法保证百分百复现,产品实际可用性与预期有差距 [3] - **核心挑战(智商瓶颈)**:智谱认为最大的问题在于模型本身的“智商”,需要算法和模型公司的持续努力 [3] - **工程与应用挑战**:如何为AI手机提供所需的操作系统和产品,以及建立Agent身份认证,需要行业共同协作 [3] 安全、隐私与部署模式 - **安全与隐私挑战**:当AI具备操作微信、支付软件等权限时,如何防止其随意操作是悬在行业头顶的达摩克利斯之剑 [3]。用户隐私是行业共同的关注点 [3] - **部署模式趋势**:出于对用户隐私、响应及时程度和云端使用成本等因素的考虑,轻量化本地部署是手机大模型的一个重要趋势 [3]。这意味着大模型将直接部署到手机内,并由手机芯片承担模型推理工作,这需要使用更少的数据量和计算资源 [4] - **智谱的安全策略**:采取了较为保守的云手机与强隔离策略,在算法和工程开发早期就融入了敏感操作和安全栅栏的设计理念,将可控性和隐私放在最优先位置考虑 [5] 对产业链的影响与未来展望 - **对手机厂商的影响**:AI技术可能带来一轮新的换机潮,但也可能让手机沦为大模型的躯壳 [6]。与国内领先的大模型厂商相比,手机厂商在算力基础设施上的储备往往不够充足,研发常遇算力受限,且投入巨大并面临技术挑战 [6] - **流量与生态变化**:智谱提出了“Agent流量”的概念,即由Agent自主执行带来的流量,为移动互联网注入新流量 [5]。Agent带来的生产力改变和更好的个性化服务能力,被认为是对整个生态的新流量和红利注入 [6] - **商业利益与开放问题**:当AI Agent成为超级入口,可能改写App开屏广告、推荐流广告的价值。但在商业利益分配机制理顺之前,拥有海量数据的头部App(如微信、美团、抖音等)是否愿意向Agent开放核心接口或数据,仍是巨大问号 [8] - **未来合作与参与方式**:智谱表示希望看到更多Agent应用、AI原生手机及硬件问世,未来的参与方式将是多种多样且超出当前想象的 [6]
AI入局,在re:Invent见证体育圈变天
创业邦· 2025-12-05 11:15
亚马逊云科技与NBA达成战略合作 - 2025年10月,美国职业篮球联盟宣布与亚马逊云科技达成多年合作伙伴关系,后者正式成为NBA及其附属联赛的官方云服务与云AI合作伙伴 [2] - 在2025年亚马逊云科技re:Invent大会上,双方合作的技术内涵得到全面展示,AI将彻底改写体育运动领域 [2] re:Invent大会设立体育科技专区 - 2025年亚马逊云科技re:Invent大会首次设立Sports Forum专区,该展区被打造为一座“未来体育馆” [3][4] - 整个Sports Forum像一个微缩的全球体育版图,全球顶尖的体育赛事和联盟在此汇聚,被亚马逊云科技的AI串联成一个完整的叙事 [8] NBA:AI驱动数据革命与价值量化 - AI通过每秒60帧捕捉球员身上29个身体点位,实时追踪并量化球员每一个动作,计算投篮难度系数,并识别传统数据无法体现的顶级防守贡献 [6] - 在2025-26赛季,NBA将推出三项革命性数据创新:防守数据统计、投篮难度指数和引力指标 [11] - 以“引力指标”为例,通过每秒60次的光学追踪和海量历史数据分析,将球员(如库里)通过无球跑动吸引防守、为队友创造机会的“引力”能力量化成具体数值 [11] - NBA将上线“战术探索”功能,该系统基于AI机器学习模型,能追踪进攻回合中五名球员和篮球的全部移动轨迹,并在历史数据中搜索相似战术,支持解说员实时调取案例或球迷用自然语言搜索特定战术 [11] 德甲:AI赋能全球内容生产与本地化 - 德甲与亚马逊云科技合作,利用Amazon Nova模型将解说自动转换成英语、日语、西班牙语等多种语言,让全球球迷以母语享受比赛 [6][20] - 双方打造的智能内容生产系统基于Amazon Nova系列模型,具备自动生成比赛报告、制作短视频内容及提供视频本地化方案的能力 [15] - 该系统将赛后报告生成时间从数小时缩减到几分钟,并通过分析观众音量变化智能判断比赛高潮以制作精彩集锦 [15] - Nova模型将内容制作效率提升90%,字幕处理速度提高60%,同时将成本降低70% [15] - 在用户体验层面,该技术使App停留时间延长40%,互动频率提升70%,周回访率增加20% [15] PGA Tour:AI实现自动化内容生成 - PGA Tour与亚马逊云科技合作,构建了一个智能化的内容生产系统,能够在赛事结束后5-10分钟内产出专业赛况文章 [13] - 该系统每周产出800篇专业文章,为全球数十亿球迷提供及时、专业的赛事报道 [13] - 系统采用Amazon Bedrock AgentCore作为运行环境,通过多个专门化的Agent协同工作,分别负责数据收集、内容生成、编辑校对、事实核查和图片选择 [12] NFL:快速开发AI教练辅助决策 - NFL与亚马逊云科技合作,在8周内打造出一位“AI教练”,旨在帮助NFL梦幻联盟玩家更好地理解比赛数据并做出决策 [16] - 该AI教练能在5秒内给出球员首发建议,并在30秒内完成深度战术分析,其准确率获得了90%以上分析师的认可 [16] - 该系统基于Amazon Bedrock提供大模型能力,通过MCP协议连接NFL Next Gen Stats等多个数据源,并采用Strands Agent框架构建 [18] F1:高性能计算突破物理极限 - F1与亚马逊云科技于2022年合作打造“数字风洞”,通过高性能计算模拟空气动力学下的新设计 [6] - 该技术将尾流下压力损失从50%降低到15%,并最终在2022赛季实现超车次数增加30% [6] 行业趋势:AI重塑体育多维度体验 - AI对体育的变革正在多个层次同时展开,涵盖内容生成、数据洞察和物理极限突破 [20] - 亚马逊云科技利用领先的AI与机器学习模型,将海量、混沌的数据提炼为清晰、可执行的“智慧” [21] - 通过极致的实时性技术,攻克延迟壁垒,让数据智慧在胜负毫秒间的赛场上产生价值 [22] - 顶级体育品牌的深度实践正在重塑运动员训练方式、教练决策模式,并将全球粉丝从“观赛者”转变为“洞察者” [22] - 亚马逊云科技首席执行官Matt Garman预测,未来Agent技术将带来10亿级别的应用机会,而单个Agent就能实现10倍的效能提升 [2]
技术创新如何驱动模式突围?科创未来行“AI+金融”沙龙探寻生态智慧
第一财经· 2025-09-22 04:47
论坛活动概况 - 2025年外滩大会期间举行"AI驱动金融创新新范式"论坛,由璞跃中国主办,第一财经参与推进,吸引500多位科创爱好者参加[1] AI+金融生态与机遇 - 金融机构数字化转型被视为AI时代金融创新的最大机遇[2] - 推动金融创新的核心能力是构建"即插即用"、高度开放的体系[2] - 璞跃中国发布金融机构六大创新场景需求,聚焦人工智能应用、场景化金融服务、数字化流程革新、数字货币体系等前沿方向[2] 技术商业化挑战与路径 - 技术成果进入量产阶段但面临技术、成本、场景等商业化难题[3] - 中国企业出海面临融入当地生态的"最后一公里"挑战,需缩短信任与文化距离[5] - 金融创新需从初始阶段构建完整商业闭环,携手股权市场、持牌机构等生态伙伴实现可持续发展[5] - 任何技术创新必须经得起实践检验,否则难以实现价值[5] - 在增长市场中企业需明确并持续投入巩固自身核心竞争力[5] - Agent技术正重塑金融服务与监管形态,需各方协同共建健康生态[5] 创新赛事与晋级情况 - 活动举行"InnoFuture 2025璞跃中国未来挑战赛·外围赛",评委来自多家投资机构及学术机构[6] - 路演参赛企业涵盖ESG碳中和、散热材料、智能传感芯片、多类Agent应用及AI理疗等热门领域[6] - 7家企业成功晋级,将于9月26日决赛角逐三大奖项[6]
腾讯邱跃鹏:面向Agent和全球化趋势,全面升级云基础设施
证券时报网· 2025-09-16 06:02
云基础设施升级 - 腾讯云升级云基础设施以支持Agent规模化落地和企业全球化发展 [2] - 公司自研FlexKV多级缓存技术降低KVCache占用并将首字时延降低70% [2] - 异构计算平台全面适配主流国产芯片并提供高性价比AI算力 [2] 推理加速技术突破 - 公司向DeepSeek/vLLM/SGLang等开源社区提交多项优化技术 [2] - 通过FlexKV技术解决大模型推理内存瓶颈问题 [2] - 云沙箱启动时间仅需100毫秒并支持数十万实例并发 [2] Agent技术应用 - 推出Agent Runtime解决方案集成执行引擎/云沙箱/安全可观测五大能力 [2] - 专家服务智能体Cloud Mate实现风险SQL拦截率95% [3] - Cloud Mate将故障排查时间从30小时缩短至最快3分钟 [3] 全球化基础设施布局 - 云基础设施覆盖全球55个可用区部署3200多个加速节点 [3] - 星星海服务器部署超2亿核 SA9服务器单机核数达768核 [3] - 专有云TCE实现2分钟级RTO接近金融六级容灾标准 [3] 数据库与安全能力 - 发布TDSQL Boundless数据库通过AI优化器将复杂查询时延降低80%以上 [3] - 为上万款游戏提供安全防护抵御DDoS攻击同比增长183% [3] - 低代码工具EdgeOne Pages可几分钟搭建电商网站 [3] 国际化业务拓展 - 在日本大阪和沙特新建可用区 全球设立9个技术支持中心 [3] - 获得400多项专业认证 完成印尼超大规模迁移项目 [3][4] - 5个月建成印尼第三可用区支持本土化服务 [4]
氪星晚报|强生Q2营收237.4亿美元,高于市场预期;黄仁勋:轻视华为和中国制造的人都极其天真;腾讯元宝上线图片AI编辑能力
36氪· 2025-07-16 14:51
京东健康 - 京东健康体检中心(亦庄店)医疗美容科服务项目上线京东App,进一步丰富医疗服务项目 [1] - 该体检中心自2023年7月开业以来已开设内外科、口腔科、中医科等特色门诊 [1] MiniMax - MiniMax即将完成近3亿美元新融资,融资后估值超40亿美元 [2] - 公司正寻求A股上市 [2] 亚马逊海外购 - 首届"海折节"整体订单量实现翻倍,鞋靴、电子、个人护理等品类销售额同比增长超200% [2] - 超2400个国际品牌销售额实现同期翻倍 [2] 施耐德电气 - 正洽谈收购淡马锡持有的施耐德电气印度私人有限公司35%股份,交易价格约10亿美元 [3] - 若交易达成,包括债务在内的合资企业估值约50亿美元 [3] 强生 - 2025年Q2营收237.4亿美元,高于市场预期的228.58亿美元 [3] - 预计全年销售额932亿美元至936亿美元,调整后每股收益10.8美元至10.9美元 [3] 阿斯麦 - 受美关税政策影响,可能无法在2026年实现增长 [3] - 地缘政治不确定性加剧,机器及芯片价格上涨,市场环境充满挑战 [3] 智能手机行业 - 2025年Q2全球智能手机出货量同比增长2%,主要受北美、日本和欧洲市场拉动 [4] - 三星出货量同比增长8%,苹果同比增长4% [4] 投融资 - 北方电力完成3亿元A+轮融资,资金用于电力行业高效节能技术研发、信息化建设和光伏技术推广 [5][6] - "无界方舟"连续完成Pre-A、Pre-A+轮亿元级别融资,资金用于多模态模型与Agent技术研发升级 [7] 新产品 - 腾讯元宝上线图片AI编辑能力,支持风格化作品生成 [8] - 盒马上线功能性HPP果蔬汁,采用HPP杀菌工艺保留营养成分 [9] - 智平方展示通用智能机器人爱宝的核心能力 [10] 众辰科技 - 公司应用于人形机器人相关产品的收入占比不超过1% [11] 行业观点 - 黄仁勋称华为是一家强大的科技公司,轻视中国制造能力的人极其天真 [12] - Strategy公司比特币策略经理表示即使比特币跌至2万美元,公司仍能偿还所有负债 [12] 新能源汽车 - 国务院常务会议听取规范新能源汽车产业竞争秩序情况的汇报,强调加强成本调查和价格监测 [13] AI芯片 - 英伟达H20出口解禁有望带动中国AI芯片需求,外购比例预估回升至49% [13]
AI+医疗:从蚂蚁 AQ 看产业发展
2025-06-30 01:02
纪要涉及的行业和公司 - **行业**:医疗AI行业 - **公司**:蚂蚁集团、美国Tempus AI公司、百度、腾讯、华为、阿里、京东、科大讯飞、美国Compass AI公司 纪要提到的核心观点和论据 1. **蚂蚁集团“AQ”应用** - **推出背景**:源于支付宝平台在医疗支付和数字化赋能的积累,以及AI健康管家小程序超7000万的用户基础,健康赛道潜力大[1][3] - **用户群体和功能**:面向大众用户,定位专业健康助手,覆盖健康科普、就诊咨询等上百项功能[2] - **资源整合和服务模式**:整合全国超5000家医院、近百万医生及200多位三甲专家资源,以AI为主导、专家为辅提供在线问诊,缓解医疗资源不均和看病难问题[1][5] 2. **医疗AI商业化应用** - **应用体现**:作为医生辅助和高效信息助手,诊前高效整理病历信息,提升就诊效率;辅助诊断方面,常见病诊断表现出色,专科病和复杂病提供评估方案辅助医生决策[1][8] - **商业收入来源**:主要来自三甲医院等大型医院,医院对数据安全敏感,对集成GPU的DeepSeeker一体机需求旺盛,订单金额几十万到几千万元不等[1][9] 3. **医疗AI架构模式**:倾向通用大模型与垂类大模型混合架构,结合特定数据特征和医生标注经验,提升AI诊疗质量[1][10] 4. **中美医疗AI差距**:全球医疗AI处于初级到中级阶段,美国产业落地领先中国约半年到一年,应用层面差距不大,科研维度美国领先程度更高[11][12] 5. **医疗AI付费意愿和爆发点**:目前ToC用户对医疗AI付费意愿不高,AI与专家问诊结合时付费意愿显著提升,AI与专家协作的增值服务模式有望成为爆发点[13] 6. **医疗数据安全与利用**:关键是匿名化处理患者数据,国家推动医疗数据共享,预计半年至一年逐步推进[14] 7. **AI与医疗结合的Agent技术**:能实现跨流程问题处理,为医疗行业带来广阔应用场景和蓝海市场,可辅助医生提供个性化诊疗支持[14][15] 8. **医院部署AI医疗意愿**:2025年开源模型及小尺寸模型使部署成本大幅降低,AI医疗项目门槛从千万元级别降至最低几万元,提升了医院部署意愿[15] 9. **AI一体机应用和成本效益**:应用于医生问诊辅助,每位医生配备一台搭载英伟达3060显卡的AI终端,单机成本约四五千元,提升问诊效率[16][17] 10. **开源模型作用**:DeepSeek等开源模型降低AI在医疗行业商业化落地门槛,促使医院进行小规模试点,推动大规模决策[3][17] 其他重要但是可能被忽略的内容 - 美国Tempus AI公司最初提供基因组检测服务,聚焦肿瘤基因检测,连接全美65%的医院,拥有近千万份临床记录数据,推出面向ToC的AI平台[6] - 国内大型科技公司在AI大模型技术出现前后均在医疗健康AI领域布局,2023年后结合垂直产业数据与大型医院合作研发医疗行业大模型[8] - 互联网大厂在医疗健康领域布局,数据是主要瓶颈,蚂蚁在医疗行业深耕,ToC服务将由互联网大厂主导[9][10] - 医疗行业AI一体机市场是整体一体机产业重要组成部分,整个一体机产业预计2025年产值约1000亿元[18]
离开百川去创业,8个人用2个多月肝出一款热门Agent产品,创始人:Agent技术有些玄学
36氪· 2025-06-26 11:09
公司背景与创始人经历 - 创始人徐文健毕业于南京工程学院,大学期间通过参与创业活动克服内向性格,塑造了创业者身份雏形 [4] - 曾就职于滴滴,耗时一年半重构技术架构并获得认可,这段经历使其对大厂"祛魅"并埋下创业种子 [4] - 早期参与两个创业项目:云Coding产品获200万美元投资但最终失败,AI教育产品因战略不清晰仅维持四个月 [5] - 加入百川智能半年后离职,期间接触Agent技术并确立其重要性,2023年底与合伙人冯雷创立火星电波 [6][8] 创业理念与团队管理 - 公司定位为AI Native团队,强调组织文化与价值观统一,创始人认为这是无法复制的护城河 [13][27] - 团队共8人,招聘注重品质而非履历,筛选标准包括成长性、自驱力,成员背景从大专到名校硕士 [12] - 采用扁平化管理,决策基于讨论与数据分析而非权威,目标导向下团队可实现高度自转 [13] - 计划维持20人以内规模,避免价值观稀释,追求"小而美"模式 [27] 产品与技术路径 - 核心产品ListenHub为AI音频生成工具,聚焦内容消费赛道,分三阶段实现"有人味"、"个性化"、"垂直深度" [10] - 技术架构包含三个引擎:意图分析、内容生成、音频转化,研发周期仅2个月,性能较Demo提升5-6倍 [15][19] - 采用多模型组合策略,参考创始人过往经验,暂未引入反思机制和RAG技术以优先保障核心功能 [16][17] - 产品理念强调轻量化,音频时长控制在10分钟内,避免信息过载 [21] 市场表现与商业化 - 发布后注册用户约1万,DAU超1000,首发日DAU达5000但未达预期峰值 [19][20] - 采用订阅制,国内定价70元/月但主攻海外市场,已吸引20+海外大V零成本转发 [23][24] - 商业逻辑不追求全民覆盖,专注服务高价值付费用户,自然流量增长显著 [22][23] - 定位全球化,自评国内领先但逊于谷歌NotebookLM,视大厂为合作伙伴而非竞对 [24][25] 行业洞察与竞争策略 - 创始人认为大模型与应用公司存在本质差异,模型公司做基建而应用公司深耕垂直领域 [26] - 应对大厂竞争的关键在于产品理念差异化,如豆包发布类似功能后仍坚持自身特色 [25] - Agent技术被视为与大模型同等重要,但行业尚无统一标准,各团队实践差异显著 [15] - 音频Agent赛道面临质疑,被指可能沦为"高级摘要工具",但团队认为用户使用即证明价值 [21][22]
Anthropic接棒OpenAI狙击谷歌,刷新AI编程模型热度
第一财经· 2025-05-23 11:20
Anthropic发布Claude 4系列大模型 - Anthropic在谷歌I/O大会次日发布Claude 4系列大模型,包括旗舰版Claude Opus 4与普适版Claude Sonnet 4,直接冲击谷歌Gemini 2 5 Pro在编程领域的热度 [1] - Claude Opus 4作为编码模型在复杂、长时间运行任务和智能体工作流中拥有持续的高性能,Claude Sonnet 4提供更强的代码和推理能力,同时更精确地响应用户指令 [2] - 两款模型新品均采用混合模型架构,提供快速响应和用于更深层次推理的扩展思维模式,可在Anthropic API、亚马逊云科技Bedrock和Google Cloud的Vertex AI上使用 [2] Claude 4系列技术性能对比 - Opus 4是Anthropic截至目前最强模型,专为复杂、长时间任务设计,适合需要深度推理和高级代理能力的场景 [2] - Sonnet 4平衡了性能与效率,响应速度更快,适合日常开发和高流量任务,同时提供了更高的性价比 [2] - 在SWE-bench Verifiedis测试中,Opus 4得分79 4%,Sonnet 4得分80 2%,Sonnet 3 7得分70 3% [6] - 在Graduate-level reasoning GPQA Diamonds测试中,Opus 4得分83 3%,Sonnet 4得分83 8%,Sonnet 3 7得分78 2% [6] AI编程行业近期动态 - 5月3日苹果与Anthropic联手开发由AI驱动的Vibe Coding平台 [7] - 5月6日OpenAI被曝将以30亿美元收购AI编程创业公司Windsurf [7] - 5月17日OpenAI推出编程智能体Codex,可实现自动生成、调试和优化代码 [7] - 5月20日美团宣布将上线一款AI编程类工具"NoCode" [7] - 5月21日腾讯披露公司已有约85%的程序员使用腾讯云代码助手CodeBuddy [7] AI编程行业发展趋势 - AI编程行业分拆为两大方向:Copilot助手(人主导、AI辅助)和Agent智能体(AI主动执行,人类扮演监督者角色) [7] - 近60%的投资项目分布在应用层,其中Agent方向占比近40%,属于目前行业讨论最热烈的方向 [8] - 长期来看行业有望借助代码这一通用工具向更通用的智能Agent发展 [8] - Anthropic CEO表示"不再教AI写代码,而是让它开始独立完成项目",Replit CEO表示AI将开始决定任务拆解和流程安排 [8] 用户体验与市场前景 - 用户反馈Claude Sonnet 4原型细节内容更丰富,适合日常编程选择 [3] - 在非编程的数学、推理等任务方面Opus模型比Sonnet模型更好,但也更贵 [3] - AI编程产品显著提高工作效率,原本三周工作量现在三天即可完成 [9] - 目前AI编程的不足在于机器还没有"自我意识",需要人类先提出核心要点与任务方向 [9] - AI coding市场非常大,大家都处在早期,还看不到终局 [9]