Workflow
闭源大模型
icon
搜索文档
从开源最强到挑战全球最强:DeepSeek新模型给出了解法
观察者网· 2025-12-02 11:38
模型发布核心信息 - 12月1日,公司发布两个正式版模型:面向日常使用的DeepSeek-V3.2和面向极致探索的DeepSeek-V3.2-Speciale [1] - DeepSeek-V3.2是9月底实验版V3.2-Exp的正式版,平衡推理能力与输出长度,适合问答场景并强化了Agent能力,官方网页端、App和API均已更新 [1][4] - Speciale版本是V3.2的长思考增强版,结合了DeepSeek-Math-V2的定理证明能力,目标是将开源模型推理能力推向极致,目前仅以临时API服务形式开放 [1] 模型性能表现 - 在公开推理测试中,V3.2已达到GPT-5水平,仅略低于Google Gemini 3 Pro,相比Kimi-K2-Thinking输出长度大幅降低,减少计算开销与用户等待时间 [6] - Speciale在多个推理基准测试中超越Gemini 3 Pro,包括美国数学邀请赛(96.0分)、哈佛MIT数学竞赛(99.2分)和IMO(84.5分) [7] - 在编程与理工科博士生测试中,Speciale仍略逊于Google顶级模型,如LiveCodeBench(88.7分)和GPQA Diamond(85.7分)低于Gemini 3 Pro的90.7分和91.9分 [7] 技术架构创新 - 公司设计了DSA(DeepSeek稀疏注意力)机制应对长文本计算量爆炸,该机制像图书管理员通过“闪电索引器”只检索关键信息,大幅降低计算复杂度 [8] - V3.2的核心亮点是“Thinking in Tool-Use”(思考型工具调用),这是AI Agent领域的“Interleaved Thinking”(交错思维链)技术的重要背书 [8][9] - 该技术将冗长、重度依赖工具的任务转化为稳定的“计划→行动→反思”循环,通过复用假设与部分结论减少多轮任务中的“状态漂移”与重复性错误 [9] 战略方向与行业定位 - 公司将“Agent能力”提升到与“推理能力”同等重要的战略位置,试图通过Agent能力将模型从“聊天机器人”进化为真正的“数字劳动力” [13] - 从经济维度看,企业真正愿意付费的是“降本增效的行动”而非“更优美的回答”,Agent使LLM从“对话式AI”进化为“动作式AI”以产生商业闭环 [13] - 公司思路已从工具转变为基础设施提供商,大模型正演变成调度工具的通用操作系统,模型是内核,Agent是用户态程序,插件则是工具 [14] 行业竞争格局 - 过去一年开源大模型生态集体爆发,阿里云Qwen系列、月之暗面Kimi、智谱GLM和MiniMax M系列均取得超越当时顶级闭源模型的成果 [1] - Google Gemini 3.0 Pro的发布重新定义了“全球最强”,其强劲性能让开源和闭源的差距瞬间又变成了一道新的天花板 [2] - 开源模型存在三个关键缺陷:对标准注意力机制的过度依赖、后训练阶段计算投入不足、Agent领域泛化能力和指令遵循能力存在明显差距 [15] 未来发展路径 - 公司计划通过增加预训练计算量填补知识空白,并优化模型推理链的“智能密度”提高效率,让模型学会“少说话、多办事” [16] - 研究员Zhibin Gou表示,训练后的瓶颈需通过优化方法和数据解决,而非仅等待更好的基础模型,持续扩大模型规模、数据量、上下文和强化学习 [17] - 公司用实打实的模型证明Scaling没死只是换了战场,当行业讨论Scaling Law是否撞墙时,公司想证明持续扩展的可能性 [19]
中国GenAI市场洞察:企业级大模型调用全景研究
头豹研究院· 2025-09-03 12:31
报告行业投资评级 - 报告未明确给出行业投资评级 [1][2][3] 核心观点 - 中国企业级大模型市场呈现爆发式增长 2025年上半年日均调用量达101,865亿tokens 较2024年下半年21,999亿tokens增长约363% [8][9][11] - 开源模型快速获得企业认可 调用占比从2024年下半年未明确基数提升至2025年上半年的44.4% 接近闭源模型的55.6% [9][11] - 企业选型从追求单一最强模型转向业务场景适配 注重算力性价比 系统灵活性与安全可控性平衡 [5][6][13] - 开源模型凭借性能与闭源收敛 后训练灵活性及成本优势成为企业实现自主可控的优选路径 [5][13][16] - 闭源模型以商业闭环 黑盒可控 集中优化与高服务稳定性满足高可靠性需求企业 [13][24][26] - 阿里通义系列大模型以17.7%调用占比成为市场首选 字节豆包(14.1%)和DeepSeek(10.3%)分列二三位 [10][11] 中国企业级大模型发展综述 - 大模型形成开源与闭源并行发展的双轨格局 开源模型凭借算力性价比最优 系统集成灵活及透明可验特征成为企业低成本落地与自主可控优选路径 [13] - 闭源模型以商业闭环 黑盒可控 集中优化与高成本壁垒为特征 适合高可靠性需求企业客户 [13] - 开源模型正逐步取代闭源方案成为生态主导力量 2023年全球149个基础模型中开源占比达65.7% [15] - 参数规模轻量化趋势显著降低算力门槛 推动大模型向垂直行业与中小企业场景加速渗透 [16] - 预计超过80%企业将在智能化建设中采用开源大模型 开源生态成为驱动产业普及化与数字化转型核心力量 [16] 中国企业级大模型调用现状及趋势 - 调用量激增驱动因素包括供给端模型与算力扩容(如DeepSeek 通义等开源体系突破) 需求端金融 政务 制造等行业场景化渗透提速 以及生态外溢效应形成的规模扩散 [19] - 产业进入规模化应用驱动新阶段 竞争焦点从模型性能比拼转向算力保障 数据合规 生态整合与行业深度适配 [20] 中国企业级大模型调用行为分析 - 企业选型核心出发点为业务价值 闭源模型胜在省心可靠(稳定性能 成熟生态 技术支持) 开源模型更契合灵活性及自主可控性需求 [24][26][27] - 开源模型选择TOP因素:性能表现更佳 完整掌握模型知识产权 更容易进行定制 最佳实践丰富 [25] - 闭源模型选择TOP因素:性能表现更佳 最佳实践丰富 更新迭代快 品牌知名度 [25]
中国“霸榜”全球开源大模型:光环下的隐忧与挑战
证券时报· 2025-08-06 18:37
中国开源大模型集群式崛起 - 中国开源大模型近期呈现爆发态势,阿里两周内开源6款模型,腾讯、智谱、阶跃星辰等公司密集发布新模型,形成"井喷潮"[1][2] - Hugging Face榜单显示全球前十开源大模型中中国占据九席,包括智谱GLM-45(第一)、阿里通义千问系列(占5席)、腾讯混元等[2] - 行业认为中国AI从"技术追赶"转向"生态主导",核心优势在于中文语料数据、国产算力底座(如华为昇腾)与场景应用的闭环[3] 中美技术路径分化 - 中国厂商普遍选择开源路线,如阿里千问3在Chatbot Arena排名全球第三,超越Grok4等闭源模型[4] - 美国Meta等公司转向闭源策略,形成"先发者闭源巩固优势,后发者开源破局"的路径分化[4][5] - 中国开源模式通过降低使用门槛加速AI与实体经济融合,盈利方式包括定制化解决方案(智谱)、云服务(阿里)等[5][6] 技术迭代与行业挑战 - 当前模型创新主要基于Transformer架构微调,存在"微调内卷"和同质化问题,缺乏类似Transformer的底层架构突破[7][8] - 模型迭代速度过快导致开发者面临接口频繁变更、密钥管理割裂等问题,如开发者需反复重写调用脚本[1][8] - 行业呼吁建立统一API标准,推动基础算法创新和算力芯片突破,避免低水平重复建设[8] 生态影响与商业价值 - 开源模式打破技术垄断,降低中小企业AI应用成本,加速在智能制造、金融风控等场景落地[6] - 阿里与DeepSeek被称为"开源双子星",Kimi K2被《自然》杂志评价为"又一个DeepSeek时刻",显示国际影响力提升[2] - 开源社区飞轮效应显著,头部企业通过开放代码汇聚开发者智慧形成正向循环[3]
后DeepSeek时代:六小虎向左,BAT向右
投中网· 2025-04-09 02:27
国内大模型竞争格局变化 - DeepSeek开源大模型DeepSeek-R1以性能比肩GPT-4o、成本仅为十分之一的优势改写行业规则,引发技术门槛崩塌与B端客户分流[4][7] - 政企市场快速转向DeepSeek,45%央企已完成部署,传统IT服务商(如联想、中兴)抢占订单,部分订单明确要求支持DeepSeek接口[9] - 开源模型推动国产芯片替代趋势,DeepSeek代码库显示其对英伟达CUDA框架的适配性可能加速这一进程[11] AI六小虎现状与分化 - 智谱10天内融资15亿人民币,但团队规模从高峰期1000余人收缩,多名高管离职(如李惠子、张阔)[5][7] - 百川智能转向垂类医疗领域,联合创始人焦可离职;零一万物放弃超大模型训练,拆分业务寻求融资[11] - 月之暗面调整Kimi投流策略,暂停部分安卓渠道投放;阶跃星辰成为六小虎中唯一未现高管离职的企业[11] 互联网大厂应对策略 - 腾讯全线接入DeepSeek,微信、腾讯文档等产品倒戈;百度云、阿里云等春节加班上线DeepSeek版本[13] - 大厂云服务价格战加剧,DeepSeek-V3训练成本仅4070万人民币(Llama 3的7%),采用阉割版H800芯片[13] - 字节旗下豆包坚持未融合DeepSeek,周活用户1845万仅次于DeepSeek,显示流量优势的差异化竞争[14] 商业化与市场影响 - 智谱2024年商业化收入增长超100%,中标32个ToB/ToG项目(金额1.3亿元),但DeepSeek冲击其私有化部署市场[7][9] - 行业从狂热转向理性,开源成为生存必需,商业化需扎根真实场景而非依赖政府订单或资本泡沫[14]
大模型全开源了,那到底咋挣钱啊?
虎嗅APP· 2025-03-18 09:51
文章核心观点 - 开源大模型虽成市场主流,但外界对其盈利存争议,实际上有多种盈利途径,但当前行业谈赚钱尚早,企业当务之急是获关注、有用户和活下去 [5][7][42] 开源大模型盈利争议 - 闭源大模型会员费难维持自身,开源大模型技术免费取用,外界质疑其盈利 [5][6] - 盈利是企业经营要义,开源模式有多种赚钱途径 [8] 开源大模型盈利途径 部分模型使用权收费 - 开源不一定完全开源,很多企业只开源某层技术或早期、小参数量模型,或开发免费开源应用同时开发收费模型 [13][14][16] - Red Hat提供免费基础版Linux发行版系统,也有面向B端的收费系统,大模型可做B端定制化付费模型部署 [18][19] 卖算力 - DeepSeek通过tokens收费,理论上一天利润47万美元,利润率545%,但多数企业难达此理想状态,收入规模有限 [22][23][27] 服务收费 - 开源是商业化桥梁,生态是护城河,企业可通过服务收费盈利 [28][30] - 纽交所用Red Hat免费Linux系统,处理器更新时多选择购买其订阅服务,大模型企业可提供定制化模型及后续系统维护和升级服务 [30][31][33] 硬件设备及配套服务 - 云厂商可借开源大模型带动相关硬件设备及配套服务销售,如阿里云因千问大模型收入同比增长7%,达296亿 [36][38][39] 开源大模型盈利现状及挑战 - 行业激烈变化,谈赚钱为时尚早,开源界成功商业模式复刻难,需企业产品获认可、扩大开源社区影响力并建立生态 [42][43] - 大模型开发财力消耗高,资金链易断裂,2023年AI公司在英伟达GPU花费500亿美元,收入仅30亿美元,部分开源AI公司亏损严重 [44][45] 企业开源原因 - 企业抢着开源是为制造动静,让市场了解自身及产品,避免掉队失去市场机会 [47]