Claude系列 - 财报，业绩电话会，研报，新闻

Claude系列

搜索文档

20个企业级案例揭示Agent落地真相：闭源模型吃掉85%，手搓代码替代LangChain

36氪· 2025-12-10 12:12

核心观点 - 加州大学伯克利分校发布AI Agent领域迄今最大规模实证研究，基于306名从业者调研及20个企业级案例，覆盖26个行业，揭示了生产级AI Agent的部署现状、技术选择与核心挑战 [1] 部署动机与首要场景 - 73%的从业者部署Agent的首要目的是提高生产力 [2] - 其他主要动机包括：63.6%为减少人工工时，50%为自动化常规劳动 [4] - 相比之下，质性收益如风险规避(12.1%)和加速故障响应(18.2%)排名靠后 [4] - 部署优先考虑能带来直接、可量化回报的场景 [6] - 金融与银行业是Agent应用第一大战场，占比39.1%，其次是科技(24.6%)和企业服务(23.2%) [9] 应用角色与用户 - Agent的角色类似人类的“超级实习生”，深入严肃的商业流程，已走出写代码或聊天机器人范畴 [8][9] - 92.5%的Agent直接服务于人类用户，其中52.2%服务于企业内部员工 [11] - 仅7.5%的Agent服务于其他软件系统，Agent间全自动交互尚不成熟 [11] - 66%的生产系统允许分钟级或更长的响应时间，因相比人类工时仍是巨大效率提升，开发重心在质量与可靠性而非极限低延迟 [11] 技术选型与构建哲学 - 生产级AI Agent构建哲学是“大道至简”，优先选择简单、可控、可维护的技术路径 [12] - 模型选择上闭源是绝对主流：在20个深度案例中，85%(17个)使用了闭源模型，首选Anthropic的Claude系列和OpenAI的GPT系列 [13] - 选择闭源的核心逻辑是效率，对于辅助专家的场景，推理成本相比人力成本可忽略不计 [13] - 开源模型被视为特定场景补充，主要用于大规模高推理场景下的成本效益考量或受法规限制的数据隐私场景 [13] - 70%的案例直接使用现成模型，完全不进行权重微调，学术界热衷的微调和强化学习极少使用 [13] - 从业者精力集中于构建Prompt：78%的系统采用全手动或手动+AI辅助方式构建生产环境Prompt，12%的Prompt超过10,000个Token [16] 系统设计与自主性约束 - 为降低不可控性，Agent自主性被严格限制：68%的系统在需要人工干预前执行步骤不超过10步，47%的系统少于5步 [17] - 限制步数的主要原因包括保证可靠性、控制API调用成本以及控制延迟 [19] - 80%的案例采用预定义的静态工作流，Agent在固定流程内做决定，不能发明新步骤 [19] - 尽管60%的问卷调查者表示愿意用第三方框架，但在实际案例中，85%的团队选择完全自研，直接调模型API，以获得完全控制权并减少依赖臃肿 [19][20] 评估方法与基准测试 - 基准测试参考价值低：75%的团队完全不使用公开学术榜单，因企业业务高度特殊 [21] - 剩余25%的团队从零开始构建自定义基准 [21] - 人工循环验证是主导评估方法，被74.2%的从业者采用 [21] - 在开发阶段，领域专家直接审查输出正确性、安全性和可靠性；在运行阶段，人类作为最终决策者和安全护栏 [23] - 自动化评估也有应用：51.6%的团队使用LLM作为裁判，但所有团队都结合了人工验证，典型做法是LLM评分后高分自动通过、低分转人工，同时人工定期抽查高分样本 [25] 核心挑战与应对策略 - 可靠性是头号挑战：37.9%的人将“核心技术问题”（可靠性、鲁棒性）列为头号挑战，远超合规性(17.2%)和治理问题(3.4%) [26] - 可靠性挑战源于基准难建、测试难做（传统单元测试失效）以及反馈延迟 [27] - 安全与合规性问题通常通过“约束设计”解决，常见方法包括：限制Agent为只读操作、使用沙盒环境、构建API封装层限制抽象层、尝试实施权限控制 [27] - 系统能上线的答案是“约束性部署”，具体模式包括环境约束（如沙盒）和自主性约束（如限制步骤与预定义流程） [28] - 仅利用现有前沿大模型和相对简单的提示工程技术，就足以在超过26个不同行业中创造可观、可量化的商业价值 [29]

Artificial Intelligence

Artificial Intelligence

a16z 100万亿Token研究揭示的真相：中国力量重塑全球AI版图

36氪· 2025-12-08 08:33

报告核心观点 - 基于超过100万亿个真实生产环境Token数据的实证研究，揭示了AI领域正经历三大根本性转变：从单一模型竞争走向多元化生态系统；从简单文本生成迈向智能体推理范式；从西方中心向全球分布式创新格局演进 [3] 行业范式转变：从文本预测到机器思考 - 2024年12月5日OpenAI发布o1模型，标志着AI从“模式补全”转向“结构化内部认知”的关键转折点，该模型引入了扩展的推理时计算过程，包含内部多步思考、潜在规划和迭代优化 [6] - 推理优化模型所处理的Token量已从近乎零增长至占总量的50%以上，意味着半数以上的AI交互不再是简单问答，而是涉及多步思考、状态管理和工具调用的复杂过程 [4][18] - 交互序列长度显著增加，平均输入Token数从约1,500增长到超过6,000，输出Token数也从150左右增加到约400，反映了用户正在将更复杂的上下文交给AI处理 [20] 市场格局重塑：开源崛起与多元化竞争 - 开源模型使用量显著上升，打破了少数闭源巨头主导的市场格局，其中中国开源力量崛起尤为引人注目，其周使用量占比从2024年底的1.2%跃升至2025年后期某些周度的近30% [4][7][9] - 截至2025年底，开源模型市场呈现健康的多元化态势，没有任何单一开源模型能持续占据超过25%的市场份额，流量均匀分布在五到七个主要竞争者之间 [11] - 中型模型（参数规模在150亿至700亿之间）崛起，在能力与效率之间取得了更好的平衡，满足了大量实际应用场景的需求 [12] 主要参与者与市场份额 - 根据2024年11月至2025年11月的总Token使用量，DeepSeek以14.37万亿Token位居榜首，其次是Qwen（5.59万亿）、Meta LLaMA（3.96万亿）、Mistral AI（2.92万亿）和OpenAI（1.65万亿） [12] - 中国模型提供商如Minimax（1.26万亿）、Z-AI（1.18万亿）、Moonshot AI（0.92万亿）也进入了前十名，显示出中国在全球AI版图中的重要地位 [12] 应用场景分化：从生产力到情感陪伴 - 超过一半（约52%）的开源模型使用量流向了角色扮演、故事创作等创意对话场景，这一比例甚至超过了编程辅助，揭示了AI作为情感伙伴与创作引擎的巨大需求 [4][15] - 编程相关的查询量在2025年实现了稳定增长，从年初占总Token量的约11%攀升至年底的超过50%，成为推动输入Token增长的主要动力 [4][17][20] - 编程相关的提示平均长度是其他类别的3-4倍，且增长速率更快，表明软件开发者正以激进的方式探索AI能力的边界 [20] 全球化与区域市场动态 - 亚洲在全球AI使用量中的份额已从约13%显著提升至31%，反映了该区域企业采纳AI技术的加速和本地创新生态的成熟 [23] - 按大洲划分，北美以47.22%的份额领先，亚洲（28.61%）和欧洲（21.32%）紧随其后 [24] - 按国家/地区划分，美国以47.17%的份额占据绝对主导，新加坡（9.21%）、德国（7.51%）、中国（6.01%）位列其后 [24] - 从语言分布看，英语仍占据主导地位（82.87%的Token使用），但中文（简体）以4.95%的占比成为第二大使用语言 [25] 定价策略与市场分层 - 高端市场由Anthropic的Claude系列和OpenAI的GPT系列等闭源模型主导，其每百万Token成本在2美元（Claude）至35美元（GPT-4/5）之间，但在关键业务场景中用户对性能和质量的要求超过对成本的敏感 [29] - 大众市场以Google Gemini Flash、DeepSeek V3等高效模型为代表，以低于0.4美元每百万Token的成本吸引了海量日常使用 [29] - 市场呈现出复杂的价值分层，而非简单的成本驱动，研究显示价格弹性较弱，降价10%仅能带来0.5-0.7%的使用量增加 [29] - “技术”类查询的平均成本显著高于其他所有类别，但使用量依然保持高位，反映了高复杂性、高价值任务的特殊需求 [32] 用户行为与留存模式 - 报告提出“灰姑娘水晶鞋”理论，即当新模型恰好满足一类长期存在的高价值工作负载需求时，会形成“完美契合”，产生强大的用户锁定效应 [33][34] - 数据支持该理论，例如Claude 4 Sonnet在2025年5月的用户群体，在五个月后依然保持了约40%的留存率，显著高于后续用户群体 [34] - DeepSeek模型展现出“回旋镖效应”，部分用户在尝试其他模型后，会重新回归DeepSeek，暗示其在某些特定能力维度上建立了难以替代的优势 [4][35] 未来竞争焦点 - 行业竞争焦点正从对单一“最佳模型”的追逐，转向构建灵活、多样、适应性强的模型生态系统 [36] - 未来竞争将进一步转向运营卓越性，包括精确衡量真实场景下的任务完成率、降低模型性能波动、使AI行为更好对齐生产环境实际需求等 [36] - 开源模型的持续进步正在对闭源市场构成“底线压力”，推动整个行业的技术进步和成本优化 [32]