Workflow
智能密度
icon
搜索文档
国内大模型全面被“万亿参数”卷进去了?
36氪· 2025-09-29 04:46
9 月 24 日的云栖大会,阿里宣布通义千问 Qwen3-Max 达到"超万亿参数"规模,训练数据量高达 36T tokens。周靖人称它是"通义家族最强"。这是国产 大模型第一次,正式站在"万亿级"的门槛上。 这次发布会之所以格外受关注,是因为"万亿"这个词本身的象征意义。在 AI 发展史上,每一次参数数量的跨越,都会被视作行业新纪元的标志:从 GPT-2 的 15 亿参数,到 GPT-3 的 1750 亿参数,再到 GPT-4 被推测接近万亿。 如今,国内厂商第一次在舞台上宣布"我们也有万亿",这不仅是一次产品升级,更是一次"地位宣言"。 资本市场的推力最直接。2024 年,国内超过 50 家大模型公司融资总额突破 300 亿元。投资人最敏感的指标不是你能否落地,而是你是否能在技术指标 上追平国际巨头。参数数值,成了最能"安抚市场"的语言。于是,"万亿"成了过关口令,谁没到万亿,谁就可能被贴上"二线"的标签。 企业客户也加了一把火。在采购逻辑里,模型越大,意味着越靠谱。很多需求被天然等同于"只有万亿才行":跨语种客服、动辄 20 万字的合同审查、 跨行业知识整合等等。哪怕实际差距只是 92% 与 93% ...
DeepSeek与Anthropic的生存策略 | Jinqiu Select
锦秋集· 2025-07-04 15:35
文章核心观点 - AI行业的核心瓶颈是计算资源的稀缺,这制约了各家公司的发展 [1] - AI服务的定价本质上是延迟、吞吐量和上下文窗口三个性能指标的权衡游戏 [2][3] - DeepSeek和Anthropic采取了不同的策略来应对计算资源限制,反映了行业面临的共同挑战 [4][5] - 随着推理云服务的崛起,如何在有限计算资源下实现技术突破和商业成功的平衡成为关键 [5] AI服务定价机制 - AI服务的定价由三个关键性能指标决定:延迟(用户等待时间)、吞吐量(每秒生成token数)和上下文窗口(模型记忆容量) [3][22][23] - 通过调整这三个参数,服务商可以实现任何价格水平 [24] - 单纯比较每百万token价格意义不大,需结合实际应用场景和用户需求 [24] DeepSeek的策略分析 - DeepSeek选择极端配置:数秒延迟、每秒25个token输出速度、64K上下文窗口,换取极低价格和最大化研发资源 [4][26][28] - 官方平台用户流失29%(从614.7M降至436.2M),但第三方托管模型使用量暴增20倍 [15][16] - 公司主动牺牲用户体验,通过高batch率降低推理资源消耗,保留最大计算资源用于内部研发 [33] - 采用开源策略扩大全球影响力,让其他云服务商托管模型 [33] Anthropic的困境与应对 - Claude在编程领域成功导致计算资源紧张,API输出速度下降30%至每秒55个token [36] - 编程应用消耗更多计算资源,迫使提高batch处理规模 [36] - 与亚马逊达成合作获取50万片Trainium芯片,并向Google租用TPU资源 [37] - 通过提升"智能密度"优化资源利用,模型回答问题所需token数量远少于竞争对手 [40][42] 行业竞争格局变化 - OpenAI将旗舰模型降价80%,价格战加剧 [8][49] - 推理云服务崛起,更多公司将token作为服务直接销售而非打包订阅 [43] - DeepSeek R1编程能力显著提升,成本效益优势明显 [45][47] - Google凭借TPU计算优势提供免费大配额服务 [34] 技术发展趋势 - 强化学习持续迭代改进模型能力,DeepSeek R1-0528版本编程性能显著提升 [10][52] - 出口管制限制中国大规模部署推理服务能力,但未同等阻碍训练优秀模型的能力 [33] - 计算资源优化方式包括:提高batch规模、优化硬件使用(AMD/NVIDIA芯片)、提升token智能密度 [31][32][42]