Workflow
Agent
icon
搜索文档
下周三!量子位的这件大事就要来了|MEET2026
量子位· 2025-12-04 07:35
文章核心观点 - MEET2026智能未来大会是一场不容错过的AI行业年度盛会,汇聚了产学研界的顶级嘉宾,探讨从大模型、多模态到具身智能、自动驾驶等主流AI议题,旨在揭示AI从技术热潮走向实际产业影响的路径[1][3][36][37] 大会基本信息 - 大会时间:2025年12月10日(周三)09:00-18:00[6][40][41] - 大会地点:北京金茂万丽酒店[6][40][41] - 大会主题:共生无界,智启未来[41] 大会核心亮点与议程 亮点一:聚焦前沿议题的高浓度对话 - 设置一场重磅GenAI Talk,主题为《第一批自动驾驶创业者的第二个八年》,由文远知行创始人兼CEO韩旭对话量子位总编辑李根,分享自动驾驶公司从2017年创业到2024年IPO后的实战经验,并探讨GenAI如何赋能自动驾驶及Robotaxi大规模商业化的前景[9][12][13] - 设置一场前沿Agent圆桌,主题为《距离AI Agent革新千行百业还有多久》,汇聚小宿科技、联汇科技、蚂蚁百宝箱等平台方、技术方与应用方嘉宾,探讨Agent技术架构及如何让AI从聊天工具进化为能理解业务目标的超级助理,解决应用落地的实际问题[14][17] 亮点二:覆盖产学研全栈的顶级嘉宾阵容 - 大会累计邀请近三十位重量级嘉宾[18] - 学术界代表包括清华大学智能产业研究院院长张亚勤(解读“人工智能+”趋势)、清华大学人工智能研究院常务副院长孙茂松(探讨大语言模型是否为自然语言处理终点)、智源研究院院长王仲远、交大高金教授朱宁等[18] - 产业界阵容覆盖芯片、云、模型到终端的全产业链,包括百度、高通、小米、蚂蚁集团、亚马逊云科技、谷歌云、昆仑万维、潞晨科技、PPIO、商汤、中关村科金等代表性企业[22] - 新生创业力量包括卓世科技、太初元碁、RockAI、自变量机器人、光轮智能、云徙科技、灵心巧手等[26] 亮点三:重要行业文件发布 - 大会将发布《2025年度AI十大趋势报告》,由量子位智库梳理总结年度AI代表进展并展望技术趋势,覆盖从算法、数据、算力的技术底座到产品解决方案及行业应用[38] - 大会将发布《2025人工智能年度榜单》,从企业、人物、产品/解决方案三大维度筛选出行业最具影响力、创新力和潜质的领军者代表[38] 大会议程概览 上午议程(部分) - 09:20-09:35 张亚勤:人工智能+趋势[43] - 09:35-09:50 王颖(百度):AI打造超级智能体,成就超级个体、团队、组织[43] - 09:50-10:05 王仲远(智源研究院):AI觉醒之年:从数字世界迈向物理世界[43] - 10:05-10:20 万卫星(高通):混合AI:从云端到边缘智能[43] - 10:20-10:35 陈晓建(亚马逊云科技):Agentic AI未来已来[43] - 11:05-11:20 Dennis Yue(谷歌云):AI时代领航:Google全链路赋能初创企业高效出海[44] - 11:20-11:35 朱宁(上海交大高金):AI时代的经济学思考[44] - 11:35-11:50 屠静(卓世科技):行业大模型及应用破局AI商业化落地[44] - 11:50-12:05 GenAI Talk:第一批自动驾驶创业者的第二个八年(韩旭,文远知行)[44] - 12:05-12:10 发布《2025人工智能年度榜单》[46] 下午议程(部分) - 14:00-14:15 方汉(昆仑万维):多模态与智能体:昆仑万维的AI技术突破与产业重塑[48] - 14:15-14:30 宣善明(商汤):商汤大装置,推进AI基础设施的深度演进与行业落地[48][49] - 14:30-14:45 Daniel Povey(小米):The Evolution of AI[50] - 14:45-15:00 姚欣(PPIO):从“思考的AI”到“行动的AI”:解锁Agent时代的基础设施[50] - 15:00-15:15 尤洋(潞晨科技):AI大模型赋能千行百业[51] - 15:45-16:00 王雁鹏(百度):昆仑芯的规模化应用之路[53] - 16:15-16:30 王潜(自变量机器人):构建物理世界的基础模型[53] - 16:30-16:45 毛健(云徙科技):Agentic AI时代企业运营新范式,锻造企业新质生产力[53][54] - 17:00-17:15 张延柏(灵心巧手):以灵巧手和云端智脑为核心的具身智能平台[54][57] - 17:15-17:50 孙茂松(清华大学):生成式人工智能和大模型:前沿态势、核心挑战及发展路径[58] - 17:15-17:50 前沿圆桌:距离AI Agent革新千行百业还有多久(杜知恒-小宿科技、赵天成-联汇科技、徐达峰-蚂蚁集团)[58] - 17:50-18:00 发布《2025年度AI十大科技趋势报告》[58] 大会影响力与参与情况 - MEET系列大会是业界最具代表性的年度智能商业峰会之一,每年获得数千万媒体曝光,吸引千位线下观众与超过300万名在线观众[39]
一朵诞生众多独角兽的云,正在用AI落地Agent
36氪· 2025-12-04 02:45
文章核心观点 - 亚马逊云科技通过提供从AI基础设施、推理平台、数据层到开发工具的完整“全家桶”服务,正在革新Agent(智能体)的开发与落地,旨在抓住AI价值释放的拐点并推动企业数字化转型 [1][9][19] - 公司以客户需求和技术前沿为创新源头,通过解决Agent落地过程中的一系列新痛点(如成本、数据理解、评估监管等),持续扩展其服务能力,巩固其在生成式AI和云计算领域的领导地位 [8][12][15] - Agent的普及将深刻改变企业运营和开发范式,大幅提升生产力,并催生新的创业组织形式,而亚马逊云科技通过其平台和服务,正成为支撑这场变革的关键基础设施提供商 [37][41][47] 亚马逊云科技的业务表现与市场地位 - 过去一年,亚马逊云科技营收达1320亿美元,同比增长20%,绝对增长额220亿美元超过了半数以上《财富》500强企业的年收入 [6] - 其生成式AI开发平台Amazon Bedrock服务了全球超过10万客户,其中50多家企业每天的Token处理量超过1万亿 [5] - 发布仅4个月的Agent开发工具Amazon AgentCore SDK下载量已超过2亿次 [5] - 在亚马逊云科技上诞生的独角兽初创企业数量处于断层第一的位置 [5] - 全球超过半数的初创企业、85%的福布斯“2025 AI 50”企业以及85%的CNBC“Disruptor 50”企业都运行在亚马逊云科技上 [40] Agent成为AI发展的核心趋势与机遇 - 亚马逊云科技CEO Matt Garman判断,Agent将成为AI价值释放的拐点,未来每家公司内部及各个领域都将有数十亿个Agent [9][10] - Agent通过其自主规划和执行能力,正在加速医疗研发、改善客户服务、提升账单处理效率等 [10] - 麦肯锡2025年11月报告显示,目前仍有32%的企业对AI应用停留在试点阶段,仅7%的企业实现了规模化落地,表明Agent落地仍处初期,市场潜力巨大 [12] 亚马逊云科技的AI基础设施层创新 - 新推出的服务器Amazon Trainium3 UltraServers将计算能力提升至4.4倍,内存带宽提升至3.9倍,每兆瓦功率能处理的Token数量增加至5倍 [21] - 运行OpenAI开源模型GPT-oss-120B时,在相同交互延迟下,Amazon Trainium3 UltraServers每兆瓦的Token输出量比前代高出5倍 [23] - 下一代芯片Amazon Trainium 4已开始设计,预计将提供6倍的FP4计算性能、4倍的内存带宽以及2倍的高内存带宽容量,以支持世界上最大的模型 [25] - 自研AI芯片Amazon Trainium已快速成长为一项价值数十亿美元的业务 [21] 亚马逊云科技的模型推理平台(MaaS) - 生成式AI开发平台Amazon Bedrock上的模型数量相较于去年几乎翻了一番 [26] - 平台上的中国模型玩家数量从原来的2个(Qwen和DeepSeek)增加到了4个,新增了月之暗面和MiniMax的模型 [26] - 推出了全新的自研Amazon Nova 2开源模型系列,包括适用于经济高效场景的Nova 2 Lite、复杂任务处理的Nova 2 Pro,以及实时拟人对话的Nova 2 Sonic [26] - 推出了业界首款统一的多模态推理和生成模型Amazon Nova 2 Omni,支持文本、图像、视频、语音四模态输入及文本和图像生成 [31] 亚马逊云科技的数据层与模型定制解决方案 - 传统企业定制模型方法(如外挂RAG、向量数据库、微调)存在短板,模型难以深入理解领域知识和业务决策所需专业知识 [30] - 推出了模型定制平台Amazon Nova Forge,开创“开放式训练”新范式,允许用户在模型训练的每个阶段(预训练、中期训练、后训练)融入自己的专有业务数据 [32] - 该平台通过开放Nova模型训练检查点的独家访问权限,降低了预训练门槛并提升了定制模型的性能 [32] - 索尼和Reddit的模型是基于Amazon Nova Forge训练而成,Adobe Firefly的训练数据存储在Amazon S3和Amazon FSx [4] 亚马逊云科技的Agent开发与管理工具 - 在Agent开发平台Amazon Bedrock AgentCore上,针对Agent的管理和评估推出了两项新服务:Gateway(策略控制)和Evaluations(行为评估) [35] - Gateway功能允许用户自定义Agent访问数据、调用工具的权限、执行任务的范围和环境,以控制和规范Agent行为 [36] - Evaluations功能如同Agent的绩效考核,允许用户通过自定义体系轻松评估Agent效果 [36] - 推出了三款全新的“前沿Agent”(Frontier Agent),旨在无人类干预情况下长时间工作,进一步解放开发者生产力 [42][44] - Amazon Kiro Autonomous Agent:用于自主开发 - Amazon Security Agent:用于安全评估 - Amazon DevOps Agent:用于解决和预防故障 [45] Agent如何改变开发范式与企业运营 - Agent对生产力的提高正在改变创业公司组织形式,例如“顶尖精益AI Native公司排行榜”中33家公司平均规模仅27人,但单个员工平均产值超过1亿美元 [41] - 亚马逊云科技自身案例:使用AI Coding工具Amazon Kiro,一个原需30人18个月的项目,仅用6人76天就完成架构重建 [47] - 要让Agent变革开发流程,需改变原有工作流:赋予Agent更多自主性;并行处理任务而非线性处理;拓展Agent同时处理更多任务的能力 [47] - “前沿Agent”需具备自主性、可扩展性,并能无人类干预连续长时间工作,以解放开发者生产力 [42] 客户案例与行业应用 - 索尼使用大模型将动画电影项目的合规审查和评估流程效率提高了100倍 [3] - Adobe推出的AI创意设计生成工具Adobe Firefly,今年以来已创造了290亿个创意资产 [3] - Reddit使用自研的社区管理AI对内容进行审核和筛选 [3] - 初创公司Audio Shake(2024年亚马逊云科技独角兽创投大赛冠军)研发的AI多扬声器分离器,被用于帮助ALS(渐冻症)患者分离并克隆本音 [39][40]
AI 越用越亏本,企业哪里做错了?
虎嗅APP· 2025-12-03 14:31
文章核心观点 - 2025年AI产业面临的核心矛盾是产业规模扩大未能充分转化为实际业务效用,企业端应用效率落后于市场期待[2] - AI应用的主要堵点从“智能能力”转向“工程化能力”,行业共识是AI需从“技术奇迹”转变为提供实际业务价值的实用工具[2] - 亚马逊云科技提出以Agent作为企业AI应用第一范式,并通过构建“AI操作系统”平台解决Agent的灵活性、安全性和效率评估问题[3][10][12] AI产业现状与挑战 - AI产品范式具有极简的端到端输入输出内核,但在企业场景下用户需花费大量时间构建应用、进行效果评估和安全审查,成本可能高于原有工作流程[2] - 企业难以利用AI提升效益的关键在于需要投入大量成本部署工作流程并对AI进行持续调整[5] Agent作为解决方案 - Agent是基于大模型的自动化行为框架,能形成感知、思考、决策、执行、反馈的完整循环,完成多步骤复杂任务[5] - Agent能解决用户不知如何编写准确prompt和验证输出结果的痛点,简化甚至自动化繁琐流程[5] - 亚马逊云科技将AI Agent比作需要培育的“小孩”,企业需保证其安全健康并传授经验,而非事无巨细管理[6] - 亚马逊云科技发布三大前沿Agent:Kiro自主Agent面向软件开发,能保持跨会话上下文连贯和用户需求记忆[7];Amazon Security Agent将深度安全知识嵌入开发全生命周期[9];Amazon DevOps Agent实现运维自动化和主动优化,分析历史时间模式转变运维体系[9] AI操作系统平台支撑 - Amazon Bedrock平台保持开放性,支持导入管理不同大模型并新增对Kimi、MiniMax的支持,提供最广选择面和最低适配门槛[12] - Amazon Bedrock让Agent匹配企业结构化和非结构化数据、权限系统,并设置全局安全合规策略进行评估监控,既是模型调度系统也是Agent安全围栏[12] - Amazon Bedrock AgentCore提供完整构建Agent工具,其“策略”功能将企业规范合规自动注入工作流,“评估”功能在模型切换升级时自动评估质量[13] - 亚马逊云科技从基础架构、模型、数据、工具等多层面为AI Agent提供运行支撑,确保算力可负担可扩展、模型有充分选择、AI可信任可治理[15] 未来展望 - 理想“AI操作系统”需算力作为燃料、模型作为发动机、Amazon Bedrock作为动力总成、Agent作为控制系统,协作运转使AI成为企业组织能力一部分[15] - AI要从“功能”变成企业“协作者”,其优势将来自企业独有的数据和流程知识[15]
一朵诞生众多独角兽的云,正在用AI落地Agent
36氪· 2025-12-03 13:41
亚马逊云科技AI战略与市场地位 - 公司认为AI Agent将成为AI价值释放的拐点,未来每家公司内部及各个领域都将有数十亿个Agent [10][11][48] - 亚马逊云科技是生成式AI开发的重要平台,其生成式AI开发平台Amazon Bedrock服务了全球超过10万客户,其中50多家企业每天的Token处理量超过1万亿 [6] - 公司营收达1320亿美元,同比增长20%,绝对增长额220亿美元超过《财富》杂志半数以上500强企业的年收入 [7] - 在亚马逊云科技上诞生的独角兽初创企业数量是断层第一,85%的福布斯“2025 AI 50”企业和85%的CNBC“Disruptor 50”企业均运行在其平台上 [6][51] AI基础设施层创新 - 自研AI芯片Amazon Trainium3 UltraServers将计算能力提升至4.4倍,内存带宽提升至3.9倍,每兆瓦功率能处理的Token数量增加至5倍 [27] - 下一代芯片Amazon Trainium 4已开始设计,将提供6倍的FP4计算性能、4倍的内存带宽以及2倍的高内存带宽容量,以支持世界上最大的模型 [31] - 在相同交互延迟下,GPT-oss-120B模型在Trainium3服务器上每兆瓦的Token输出量比Trainium2高出5倍 [29] 模型与推理平台进展 - Amazon Bedrock平台上的模型数量较去年几乎翻了一番,并引入了月之暗面和MiniMax等中国大模型玩家的模型 [32] - 推出自研Amazon Nova 2开源模型系列,包括适用于经济高效场景的Nova 2 Lite、复杂任务处理的Nova 2 Pro以及实时拟人对话的Nova 2 Sonic [35] - 发布业界首款统一的多模态推理和生成模型Amazon Nova 2 Omni,支持文本、图像、视频、语音四个模态的输入及文本和图像的生成 [37] 数据层与模型定制解决方案 - 推出定制模型训练平台Amazon Nova Forge,开创“开放式训练”范式,允许用户在模型训练的每个阶段融入自有专有业务数据以降低预训练门槛 [43] - 传统企业定制模型方法(如外挂RAG或微调)存在模型不理解深层领域知识或训练难度高的问题 [41][42] Agent开发工具与管理 - Agent开发工具Amazon AgentCore SDK发布仅4个月下载量已超过2亿次 [6] - 在Amazon Bedrock AgentCore上推出Gateway(策略控制)和Evaluations(行为评估)两项新服务,用于规范Agent行为和评估其效果 [46][47] - 发布三款前沿Agent:Amazon Kiro Autonomous Agent、Amazon Security Agent和Amazon DevOps Agent,分别承担自主开发、安全评估和故障处理工作 [55][56] 行业应用与客户案例 - 索尼使用大模型将项目合规审查和评估流程效率提高100倍,其模型基于Amazon Nova Forge训练 [4][5] - Adobe推出的AI创意设计生成工具Adobe Firefly已创造290亿个创意资产,其训练数据存储在Amazon S3和Amazon FSx [4][5] - Reddit使用自研的社区管理AI进行内容审核和筛选 [4] - 初创公司Audio Shake利用AI多扬声器分离技术帮助ALS病人克隆本音,是亚马逊云科技平台上的成功案例 [50][51] AI对开发范式与生产力的影响 - Agent技术正深刻改变创业公司组织形式,一份榜单显示33家AI Native公司平均规模仅27人,但单个员工平均产值超过1亿美元 [52] - 公司内部实践表明,使用AI Coding工具Amazon Kiro后,一个原需30人18个月的项目仅用6人76天即完成 [58] - 实现Agent对开发流程的变革需遵循三原则:赋予Agent更多自主性、并行处理任务而非线性、拓展Agent同时处理多任务的能力 [58]
数十亿AI员工上岗倒计时!云计算一哥“没有魔法,只有真能解决问题的Agent”
新浪财经· 2025-12-03 13:24
行业核心观点 - 生成式AI产业正经历从“模型能力展示”到“Agent实际部署”的根本性转变,价值实现路径发生关键转折 [2][26] - 亚马逊云科技CEO指出,Agent的出现标志着AI从“技术奇迹的时代”转向“真正获得价值的时代” [2][26] - 尽管生成式AI服务广泛(如Amazon Bedrock已服务超10万家企业),但许多企业仍未看到相匹配的业务回报,而Agent被视为获得实质性商业回报的关键 [2][26] 基础设施与算力革命 - 亚马逊云科技推出基于自研3nm芯片的Amazon EC2 Trainium 3 UltraServers服务器,最极致配置互联144颗Trainium 3芯片,提供362 PFLOPS(FP8)算力和超700TB/秒总带宽 [6][30] - Trainium 3服务器相比前代Trainium 2,计算性能提升4.4倍,内存带宽提升3.9倍,能效比(每兆瓦电力处理的AI token数量)提升5倍 [7][31] - 下一代Trainium 4芯片预计提供6倍的FP4性能,4倍的内存带宽,2倍的内存容量 [8][32] - 公司已部署超过100万颗自研Trainium芯片,且Trainium 2的量产速度是此前芯片的4倍 [6][30] - 推出Amazon AI Factories服务,允许企业在自有数据中心部署专用AI基础设施,同时享受全套云服务,以平衡数据主权、合规与性能需求 [8][32] 模型生态与战略 - 亚马逊云科技采取多元化模型战略,不相信“一个模型统治一切”,过去一年Amazon Bedrock平台提供的模型数量已翻倍 [9][33] - 在2025 re:Invent新增的18款全托管开源模型中,包含4款中国顶尖模型(千问、DeepSeek、Kimi、MiniMax),中国模型占1/4席位 [9][33] - 推出自研Amazon Nova 2系列模型,包含四款新型号覆盖全场景需求 [10][34] - **Nova 2 Lite**:在指令遵循、工具调用、信息提取、代码生成能力上全面超越Claude Haiku 4.5、GPT-5 mini、Gemini 2.5 Flash等轻量模型,仅编程能力略逊于GPT-5 mini [10][34] - **Nova 2 Pro**:支持文字、图像、视频、语音输入和文本输出,在两项Agent基准测试中表现超过GPT-5.1(high)、Gemini 3 Pro Preview(high) [10][34] - **Nova 2 Sonic**:语音转语音模型,在语音理解和推理任务上性能超过GPT Realtime、Gemini 2.5 Flash [10][34] - **Nova 2 Omni**:业界首个支持文本、图像、视频、音频输入,并支持文本和图像生成输出的推理模型 [11][35] 数据与模型融合技术 - 传统RAG技术存在局限,无法让模型真正“理解”企业深层次领域知识 [13][37] - 推出革命性服务Amazon Nova Forge,引入“开放式训练模型”概念,允许企业在模型训练任意阶段将专有数据与训练数据集混合,创建名为“Novellas”的定制模型 [14][38] - 该服务解决了传统微调中教授新知识与避免遗忘核心能力的矛盾,并支持使用远程奖励函数和强化学习进行微调 [17][41] - 索尼作为早期采用者,通过对Nova 2 Lite微调创建了深度理解自身业务的模型,目标是将合规审查和评估流程效率提升100倍 [17][41] 前沿Agent与应用 - 推出三类“前沿Agent”,代表AI能力向自主、可扩展、长期运行的阶跃式提升 [17][41] - **Kiro autonomous agent**:能自主处理复杂任务,如升级关键库时自动识别受影响服务、更新代码、运行测试等。一个内部案例显示,原需30名开发者18个月的重架构项目,使用Kiro后仅需6人76天完成 [18][42] - **Amazon Security Agent**:持续、主动的内置AI安全专家,将安全实践从“事后检查”变为“持续嵌入” [19][43] - **Amazon DevOps Agent**:重新定义运维响应机制,能立即诊断警报根本原因并提供修复方案 [19][43] - Agent开发基础设施Amazon Bedrock AgentCore SDK预览版发布5个月内,下载量超过200万次 [19][43] - 新增两项关键功能以应对企业部署核心关切: - **Amazon AgentCore Policy(预览版)**:为Agent与企业工具及数据的交互提供实时确定性控制,允许开发者通过自然语言定义行为界限 [19][43] - **Amazon AgentCore Evaluations(预览版)**:全托管服务,可根据实际行为持续检查Agent质量,支持内置评估器与定制评分系统 [22][46] 全栈能力与平台支撑 - 亚马逊云科技在2025 re:Invent上共公布25个新发布,覆盖计算、存储、数据库、大数据、安全等多个领域,为企业Agent部署提供支撑 [23][47] - 公司正在构建支持Agent从实验到落地生产的完整平台,其“全家桶”式的全栈能力被认为是企业将AI投资转化为实际业务回报所需的基础设施 [23][47]
DeepSeek杀出一条血路:国产大模型突围不靠运气
36氪· 2025-12-03 03:21
技术突破与架构创新 - 公司发布DeepSeek-V3.2和Speciale两款模型,推理性能对标GPT-5,在数学、逻辑和多轮工具调用中表现强势,成功刷新国内开源模型在推理能力上的最高纪录[1][2] - 突破核心在于引入稀疏注意力机制(DSA),通过“闪电索引器”快速预判关键token对,将核心注意力机制的计算复杂度从平方级降至近线性,在128K超长上下文中保持稳定计算负担[2][3] - 采用“密集预热—稀疏过渡”的双阶段训练策略,实现架构渐变式演进,在Fiction.liveBench、AA-LCR等长文本任务测试中信息召回、上下文一致性和压缩表达能力得分显著上升[3] Agent能力与战略转向 - 公司将“Agent能力”与“推理能力”并列为核心指标,视Agent为模型能力释放与产业落地的桥梁,而非附属模块[6] - 为打造Agent训练体系,合成了超过1800个智能体环境,设计了约85,000条高复杂度任务提示,通过自研的GRPO策略进行强化学习闭环训练[7][8] - 引入“Thinking in Tool-Use”工具使用范式,将执行链条改为交错逻辑,并设计上下文管理策略,使推理轨迹在工具调用过程中被完整保留,实现“状态延续机制”[4][8] 后训练策略与效率提升 - 采用“后训练三件套”策略:专家蒸馏、多轨强化学习、工具思维机制融合,通过六类专家模型生成高质量训练样本反哺主模型[10][11] - 后训练阶段算力投入占比超过预训练预算的10%,强化学习过程通过任务环境自带反馈机制与rubric自动评分,形成闭环学习路径[11] - 设计冷启动系统提示和上下文状态管理,显著降低token冗余,提升“单位token的智能密度”,实现在资源受限前提下提升模型效能[12] 行业竞争格局与路径选择 - 在规模红利见顶后,行业竞争焦点从“参数多少”回归到“思维组织力”与“能效比”[5] - 公司对Agent的理解从“任务执行插件”上升至“模型操作系统”组成部分,试图主导“交错式思维+工具使用”的统一范式,争夺平台话语权[9] - 与闭源阵营追求“更大、更快、更强”的路径不同,公司代表了一种“更轻、更稳、更聪明”的新路径,以更强的推理组织力和更高效训练范式重构开源模型竞争秩序[13]
DeepSeek V3.2 正式版发布,V4 还没来,但已经是开源模型里 Agent 能力最强了
Founder Park· 2025-12-01 13:14
DeepSeek-V3.2系列模型发布 - 公司于2025年12月1日发布了DeepSeek-V3.2和DeepSeek-V3.2-Speciale两个正式版模型,核心聚焦于推理与Agent能力的提升 [2] - 此次发布是V3系列持续一年的迭代,而非推出V4大版本,公司2025年采取了小版本迭代和功能累加的路线 [1][4][6] - 正式版模型已在网页端、App和API上线,Speciale版本以临时API形式开放 [3] 模型架构与技术特点 - DeepSeek-V3.2引入了DeepSeek Sparse Attention技术,大幅提升了长文本处理效率 [1] - 模型架构为MoE,并进行了强化与DSA等改进,目标是平衡推理能力与输出长度,适合日常问答和通用Agent任务 [9][10] - 本次更新的核心突破是将思考过程融入工具调用,模型能够同时支持思考模式和非思考模式的工具调用 [3][15] - 公司提出了一种大规模Agent训练数据合成方法,构建了大量“难解答,易验证”的任务,以提升模型泛化能力 [16] 模型性能表现:推理能力 - 在公开的推理类Benchmark测试中,DeepSeek-V3.2达到了GPT-5的水平,仅略低于Gemini-3.0-Pro [10] - DeepSeek-V3.2-Speciale作为开源模型,在IMO 2025、CMO 2025等主流推理基准测试上的性能表现媲美Gemini-3.0-Pro [3][11] - 相比Kimi-K2-Thinking,V3.2的输出长度大幅降低,显著减少了计算开销与用户等待时间 [10] - 基于V3.2-Exp-Base开发的数学模型DeepSeek-Math-V2实现了IMO金牌级的水平 [3] - Speciale版本在多项顶级学术竞赛中达到金牌水平,包括IMO 2025、ICPC 2025等,其中ICPC和IOI的成绩分别达到了人类选手第二名和第十名的水平 [11] 模型性能表现:工具调用与Agent能力 - 在各类智能体工具调用评测集上,DeepSeek-V3.2达到了目前开源模型的最高水平,大幅缩小了与闭源模型之间的差距 [3][18] - 模型未针对测试集进行特殊训练,在真实场景中显示出了较强的泛化能力 [3][18] - API支持DeepSeek-V3.2思考模式下的工具调用能力 [3] 不同版本模型定位与对比 - DeepSeek-V3.2目标为平衡推理与输出长度,适合日常使用 [10] - DeepSeek-V3.2-Speciale是V3.2的长思考增强版,并结合了DeepSeek-Math-V2的定理证明能力,目标是将开源模型的推理能力推向极致 [11] - Speciale版本针对高度复杂任务优化,消耗的Token更多、成本更高,目前仅供研究使用,不支持工具调用,未针对日常对话优化 [12] - 公司此前发布的V3.1版本统一了R1和V3,成为一个混合推理模型,这与当下闭源模型(Gemini、Claude和GPT-5)的大势所趋一致 [6] 行业影响与未来展望 - 公司自2025年1月20日发布DeepSeek R1后,正式引爆了国内开源模型的热潮,Kimi、MiniMax等也相继开源并取得了不错的成绩 [4] - 行业对DeepSeek下一个大版本(如V4或R2)抱有期待,潜在方向可能包括多模态、更长的上下文或更厉害的Agent能力 [8]
DeepSeek-V3.2系列开源,性能直接对标Gemini-3.0-Pro
量子位· 2025-12-01 12:13
模型发布概览 - 在ChatGPT发布三周年之际,DeepSeek同时发布了两款新模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale [1] - DeepSeek-V3.2聚焦平衡实用,适用于日常问答、通用Agent任务和真实应用场景下的工具调用 [1] - DeepSeek-V3.2-Speciale主打极致推理,推理基准性能媲美Gemini-3.0-Pro [3] 模型核心能力与定位 - DeepSeek-V3.2的推理能力达GPT-5水平,略低于Gemini-3.0-Pro [2] - DeepSeek-V3.2-Speciale在高度复杂数学推理、编程竞赛、学术研究类任务上能力出众 [13] - DeepSeek-V3.2-Speciale在指令跟随、数学证明、逻辑验证方面能力出众,但未针对日常对话与写作做专项优化,且仅供研究使用,不支持工具调用 [13][14][15] - 在高度复杂任务上,Speciale模型大幅优于标准版本,但消耗的Tokens也显著更多,成本更高 [16] 关键性能指标与竞赛表现 - DeepSeek-V3.2-Speciale斩获IMO 2025、CMO 2025、ICPC World Finals 2025、IOI 2025金牌 [4] - 在ICPC竞赛中达到人类选手第二、IOI竞赛中达到人类选手第十名水平 [5] - 在AIME 2025(美国数学邀请赛)中,DeepSeek-V3.2-Speciale得分为96.0,高于GPT-5 High的94.6和Gemini-3.0 Pro的95.0 [17] - 在HMMT Feb 2025(哈佛MIT数学竞赛)中,DeepSeek-V3.2-Speciale得分为99.2,显著高于GPT-5 High的88.3和Gemini-3.0 Pro的97.5 [17] - 在CodeForces(世界级编程竞赛)中,DeepSeek-V3.2-Speciale评分为2701,接近Gemini-3.0 Pro的2708,并高于GPT-5 High的2537 [17] 架构创新:DSA稀疏注意力机制 - DeepSeek-V3.2最大的架构创新是引入了DSA(DeepSeek Sparse Attention)机制 [21] - 传统注意力机制在处理长序列时计算复杂度是O(L²),而DSA将计算复杂度降低到O(L·k),其中k远小于L [22][23] - DSA包含两个组件:闪电索引器(lightning indexer)和细粒度token选择(fine-grained token selection)机制 [27] - 闪电索引器负责快速计算查询token和历史token之间的相关性分数,然后只选择top-k个最相关的token进行注意力计算 [28] - 团队采用了两阶段训练策略:第一阶段是Dense Warm-up,保持密集注意力,只训练lightning indexer,用了1000步,处理了21亿个tokens;第二阶段引入稀疏机制,每个查询token选择2048个键值对,训练了15000步,总共处理了9437亿个tokens [30][31][32][33] - 在128k长度的序列上,当序列长度达到128K时,预填充阶段每百万token的成本从0.7美元降到了0.2美元左右,解码阶段从2.4美元降到了0.8美元,推理成本比V3.1-Terminus降低了好几倍 [35] 强化学习与后训练 - 强化学习训练的计算预算已经超过了预训练成本的10%,这在开源模型中相当罕见 [37][38] - 团队开发了稳定、可扩展的RL协议,使训练后阶段的计算预算超过了预训练成本的10% [40] - 团队在GRPO算法基础上做了多项改进,包括无偏KL估计、离线序列掩码策略,并特别针对MoE模型设计了Keep Routing操作 [41][42][44][46] - 在具体训练上,团队采用了专家蒸馏的策略,先为数学、编程、通用逻辑推理、通用Agent任务、Agent编程和Agent搜索这6个领域训练专门的模型,然后用这些专家模型生成特定领域的数据来训练最终模型 [47][48] Agent能力突破 - DeepSeek-V3.2模型在Agent评测中达到了当前开源模型的最高水平 [8] - 团队找到了让模型同时具备推理和工具使用能力的方法 [50] - 团队设计了新的思考上下文管理机制:只有在引入新的用户消息时才丢弃历史推理内容,如果只是添加工具相关消息,推理内容会被保留 [54] - 团队开发了一个自动环境合成pipeline,生成了1827个任务导向的环境和85000个复杂提示 [58] - 在代码Agent方面,团队从GitHub挖掘了数百万个issue-PR对,成功搭建了数万个可执行的软件问题解决环境 [63] - 评测结果显示,DeepSeek-V3.2在SWE-Verified上达到73.1%的解决率,在Terminal Bench 2.0上准确率46.4%,都大幅超越了现有开源模型 [64] - 在MCP-Universe和Tool-Decathlon等工具使用基准测试上,DeepSeek-V3.2也展现出了接近闭源模型的性能 [65] 综合基准测试表现 - 在工具使用基准T2-Bench上,DeepSeek-V3.2得分为80.3,低于Claude-4.5-Sonnet的84.7和Gemini-3.0 Pro的85.4,但高于GPT-5 High的80.2 [12] - 在MCP-Universe基准上,DeepSeek-V3.2成功率为45.9%,低于Gemini-3.0 Pro的50.7%,但高于Claude-4.5-Sonnet的46.5%和GPT-5 High的47.9% [12] - 在Tool-Decathlon基准上,DeepSeek-V3.2得分为35.2,高于GPT-5 High的29.0和Gemini-3.0 Pro的36.4 [12] - 在MMLU-Pro(EM)基准上,DeepSeek-V3.2得分为85.0,低于Gemini-3.0 Pro的90.1,但高于Claude-4.5-Sonnet的88.2和GPT-5 High的87.5 [66] - 在GPQA Diamond(理工科博士生测试)基准上,DeepSeek-V3.2得分为82.4,低于Gemini-3.0 Pro的91.9和GPT-5 High的85.7 [66] - 在LiveCodeBench(世界级编程竞赛)基准上,DeepSeek-V3.2得分为83.3,低于Gemini-3.0 Pro的90.7和GPT-5 High的84.5 [66] 模型局限性 - 由于总训练FLOPs较少,DeepSeek-V3.2的世界知识广度仍落后于领先的闭源模型 [68] - Token效率是个挑战,通常情况下,本次上新的两个模型需要生成更长的轨迹,才能达到Gemini-3.0-Pro的输出质量 [69]
锦秋基金被投企业Hogi产品一码难求,动画 Agent 导演作品离「疯狂动物城」有多远?|Jinqiu Spotlight
锦秋集· 2025-12-01 11:15
产品概述与市场热度 - Hogi公司推出的AI动画生成Agent产品OiiOii在市场上引起现象级关注,7210个内测名额迅速被抢光[7] - 免费邀请码在二手平台闲鱼上被炒至30元人民币,内测群数量超过50个,按500人/群估算约有2万多人排队等待内测[7][8] - 内测用户中包括粉丝量达2000万的顶级创作者,显示产品对专业内容创作者的吸引力[7] 技术突破与产品差异化 - 产品成功攻克AI视频动画领域的核心痛点"人物一致性",这得益于Sora2和nanobanana2技术的突破[5][30] - 采用多Agent协同系统模拟专业动画制作流程,包含艺术总监、场景设计师、编剧、分镜师等7个AI Agent角色[15][18] - 与传统AI视频工具不同,OiiOii将用户定位为"甲方",只需提供需求而不需编写复杂提示词,大幅降低使用门槛[14][37] - 生成内容具备专业导演感,包含推拉摇移等镜头语言设计和景别变化,符合影视逻辑[28] 市场定位与需求分析 - 精准选择动画垂直赛道,规避真实世界视频生成的"恐怖谷效应",利用观众对动画风格更高宽容度的特点[34] - 将动画创作目标用户从1万专业人群扩展至20万泛创作者,显著扩大市场规模[5][73] - 满足短视频时代爆发式增长的视觉表达需求,为自媒体、博主、创业者等提供动画内容制作解决方案[70][41] 产品能力与用户体验 - 在30分钟内可将用户想法转化为60秒时长的动画短片,包含音频、画面和转场等完整要素[22][46] - 通过"托管模式"实现一键生成,用户仅需确认关键节点,极大简化操作流程[21] - 当前画质尚未达到工业级标准,但在自媒体短视频和MV概念片领域可达到70-80分水准[32] 行业洞察与发展趋势 - AI动画创作正从专业技能向基础能力转变,让非专业人士也能创作70分作品[51] - 技术发展类似摄影史演进轨迹:从专业艺术到大众创作工具,最终丰富整个内容生态[49] - 行业迎来技术窗口期,人物一致性问题的解决为AI视频动画爆发奠定基础[64][66] 核心竞争力与商业壁垒 - 核心壁垒在于行业Know How而非单纯技术,包括镜头语言、节奏感和角色一致性等隐性知识[54][55][56][57] - 团队具备动画行业背景,理解专业制作流程,这是纯技术团队难以复制的优势[60] - 产品开发周期仅两个月,展现团队快速将前沿技术产品化的能力[54] 商业模式与未来挑战 - 内测期间免费提供服务,但未来商业化面临定价挑战,据估算20秒视频成本接近2元[76] - 关键挑战在于找到产品市场契合点,验证用户付费意愿和可持续商业模式[76][77] - 需要平衡技术成本与用户接受度,确定合理的收费策略[76]
但斌:AI、Agent的实现很可能仅被几家公司所控制 他们的市值可能大得不可思议
新浪证券· 2025-11-30 04:29
文章核心观点 - 人工智能革命竞争激烈,其发展可能导致商业模式高度集中,甚至对现有巨头构成挑战 [1] - 领先科技公司在人工智能领域投入巨额研发资金,预示行业将发生重大变革 [1] 行业趋势与竞争格局 - 人工智能行业的竞争很可能导致更加垄断的商业模式,类似互联网和移动互联网的发展趋势 [1] - 人工智能和智能体(Agent)的实现可能使全球市场被少数几家公司控制,这些公司的市值可能达到不可思议的规模 [1] 公司动态与战略投入 - 亚马逊过去一年的研发投入为1250亿美元 [1] - 谷歌过去一年的研发投入为900亿美元 [1] - 微软与OpenAI联合宣布的投入规模约为1000亿美元 [1] - 人工智能革命可能对腾讯、微信等现有商业模式构成重大挑战 [1]