Workflow
混合推理
icon
搜索文档
从GPT-5到DeepSeek V3.1,顶尖AI大模型的新方向出现了!
硬AI· 2025-08-31 17:14
行业发展趋势 - AI行业从单纯追求模型能力转向追求计算效率 混合推理成为行业共识 [2][3][5] - 随着推理模式复杂化 完成任务所需token数量暴涨 导致实际成本不降反升 [2][8] - 顶尖模型厂商包括OpenAI DeepSeek Anthropic Google及国内阿里 快手 字节 智谱等均在探索混合推理方案 [13][14] 成本压力分析 - 虽然单个token价格下降 但复杂任务消耗token数量呈指数级增长 代码编写或法律分析需消耗数十万至百万token [8][9] - 最强模型价格保持稳定 99%需求转向SOTA模型 导致应用层公司利润率下降 Notion利润率下降约10个百分点 [7][10] - AI模型竞赛演变为成本竞赛 Theo Browne表示争夺最智能模型已成为争夺最昂贵模型的竞赛 [10] 技术解决方案 - 美团开源龙猫模型采用零计算专家机制 智能识别非关键内容直接返回 实现显著算力节省 [4] - OpenAI GPT-5采用路由器机制 根据问题复杂度自动选择模型 思考模式比前代少50-80%输出token [13] - DeepSeek V3.1推出单模型双模式架构 思考模式消耗减少25-50% token 保持相同答案质量 [13][14] 创新架构特点 - 混合推理模式让AI系统根据问题复杂度自动配置计算资源 避免简单任务浪费算力 [5][12] - 系统通过用户行为偏好反馈和正确率等真实信号持续训练路由机制 实现自我改进 [13] - 下一代混合推理将实现自我调节 让AI自主评估任务难度并以最低计算代价启动深度思考 [14]
从GPT-5到DeepSeek V3.1,顶尖AI大模型的新方向出现了!
华尔街见闻· 2025-08-31 13:07
行业趋势转变 - AI行业从追求更高更强转向更聪明更经济 重点发展混合推理与自适应计算 [2] - 行业痛点在于推理模式复杂化导致AI应用成本快速上升 混合推理模式成为共同应对策略 [5] - 顶尖模型厂商包括OpenAI DeepSeek Anthropic Google及国内阿里快手字节智谱等均在探索混合推理方案 [13] 成本结构变化 - 虽然单个token价格下降但复杂任务所需token数量呈指数级增长 消耗量可达数十万至百万级 [8][9] - 最强模型价格保持稳定 99%需求转向SOTA模型导致实际使用成本上升 [7] - 成本压力传导至应用层 Notion利润率下降约10个百分点 Cursor和Replit等公司被迫调整定价策略 [10] 技术创新与效率提升 - 美团龙猫模型采用零计算专家机制 智能识别非关键内容直接返回输入 实现显著算力节省 [3] - OpenAI GPT-5采用路由器机制 根据问题复杂度自动选择轻量级或高算力模型 输出token减少50-80% [12] - DeepSeek V3.1采用单模型双模式架构 思考模式在token消耗减少25-50%情况下保持相同答案质量 [12][13] 技术演进方向 - 混合推理下一个前沿是智能自我调节 使AI能自主评估任务难度并以最低计算代价启动深度思考 [14] - 系统通过用户行为偏好反馈和正确率等真实信号持续训练路由机制 实现随时间不断改进 [12]
从GPT-5到DeepSeek V3.1,顶尖AI大模型的新方向出现了!
华尔街见闻· 2025-08-31 02:26
行业发展趋势 - AI行业的发展重点正从追求更高性能转向更聪明和更经济 通过混合推理和自适应计算实现算力节省 [1] - 混合推理模式成为行业共识 各大模型厂商采用不同路径但目标一致 让模型根据问题复杂度自动选择合适的计算资源配置 [1][3] - 顶尖玩家包括Anthropic的Claude系列 Google的Gemini系列 以及国内的阿里Qwen 快手KwaiCoder 字节豆包和智谱GLM等都在探索混合推理方案 [4] 技术突破与创新 - 美团开源的龙猫大模型(LongCat-Flash)采用创新的零计算专家机制 智能识别输入内容中的非关键部分 如常见词语和标点符号 交由特殊专家处理直接返回输入 实现惊人算力节省 [1] - OpenAI的GPT-5采用路由器机制 根据问题复杂程度自动选择合适模型处理 简单问题交给轻量级模型 复杂任务调用高算力模型 [3] - DeepSeek的V3.1版本推出单模型双模式架构 将对话和推理能力合并到单一模型中 开发者和用户可通过特定标记或按钮在思考与非思考模式间切换 [4] 成本与效率挑战 - AI应用成本快速上升 尽管单个token价格在下降 但完成复杂任务所需的token数量以前所未有的速度增长 复杂代码编写或法律文件分析任务可能消耗数十万甚至上百万个token [2] - 成本压力已传导至应用层公司 生产力软件公司Notion的利润率因此下降约10个百分点 AI编程辅助工具初创公司如Cursor和Replit不得不调整定价策略 [2] - 人类认知贪婪导致99%的需求转向SOTA模型 而最强模型价格始终差不多 形成最智能模型竞赛演变成最昂贵模型竞赛的局面 [2] 性能与成本平衡 - OpenAI内部评测显示GPT-5使用思考模式能以比前代模型少50-80%的输出token完成任务 达到相同或更好效果 [4] - DeepSeek思考模式在消耗减少25-50% token的情况下 达到与前代模型相当的答案质量 为企业提供高性价比开源选择 [4] - 混合推理的下一个前沿将是更智能的自我调节 让AI模型精准自我评估任务难度 在无人干预情况下以最低计算代价在最恰当时机启动深度思考 [4]
广电21条提振长视频行业情绪,DeepSeek发布DS-V3.1
国盛证券· 2025-08-24 08:56
行业投资评级 - 增持(维持)[7] 核心观点 - 传媒板块本周上涨5.82%,主要受游戏板块二季度业绩及影视新政催化[1][11] - 2025年下半年继续看好游戏等基本面驱动板块,弹性方向关注AI应用及IP变现[1] - AI应用聚焦新应用的映射投资及成熟应用数据跟踪,重点关注AI陪伴、AI教育及AI玩具方向[1] - IP变现聚焦有IP优势及全产业链潜力的公司,传统文化IP价值挖掘是重点方向[1] - 广电21条政策取消剧集40集上限、取消季播剧间隔一年播出限制、调整古装剧播出政策,精准解决行业痛点[3][20] - 新政策推动市场资源向头部IP集中,提高长剧集制作水准,推动影视产业向积极健康方向发展[3][20] - DeepSeek发布DS-V3.1模型,参数规模达671B,编码实力显著优于Claude 4 Opus,采用UE8M0 FP8数据格式降低75%带宽开销[4][20] - vivo发布国产MR头显Vision Pro,重量仅398g(苹果Vision Pro为600g),价格目标万元内(约为苹果Vision Pro价格的1/3)[5][20] - 字节跳动开源大模型Seed-OSS-36B,参数达360亿,原生支持512K超长上下文窗口[20] 行情概览 - 本周(8.18-8.22)中信一级传媒板块上涨5.82%[1][11] - 涨跌幅前三板块:通信(10.47%)、电子(9.00%)、计算机(7.80%)[11] - 涨跌幅后三板块:煤炭(1.23%)、医药(1.17%)、房地产(0.98%)[11] - 传媒板块涨幅前五:顺网科技(24.2%)、昆仑万维(23.5%)、智度股份(20.5%)、利欧股份(19.8%)、惠程科技(17.6%)[12] - 传媒板块跌幅前五:吉视传媒(-5.9%)、上海电影(-5.6%)、游族网络(-4.0%)、长江传媒(-1.5%)、幸福蓝海(-0.3%)[12] - 教育&人服板块涨幅前五:科德教育(22.3%)、东方时尚(21.7%)、童程童美(16.3%)、佳发教育(16.2%)、民生教育(12.5%)[12] - 教育&人服板块跌幅前五:思考乐教育(-11.1%)、有道(-9.7%)、好未来(-5.0%)、高途集团(-3.4%)、新东方-S(-1.9%)[12] - 重点港股&中概股一周走势:泡泡玛特(18.1%)、爱奇艺(23.6%)、阅文集团(9.4%)、心动公司(4.8%)、网易-S(2.5%)、猫眼娱乐(2.8%)、腾讯控股(1.4%)、快手(0.1%)、腾讯音乐(-0.8%)、哔哩哔哩(-3.5%)[12] 板块观点与关注标的 - 游戏:重点关注ST华通、吉比特、恺英网络、巨人网络、神州泰岳、心动公司等,关注完美世界、冰川网络、华立科技等[2][18] - AI:豆神教育、盛天网络、上海电影、荣信文化、中文在线、易点天下、视觉中国、盛通股份、焦点科技、世纪天鸿、佳发教育等[2][18] - 资源整合预期:中视传媒、国新文化、广西广电、华智数媒、吉视传媒、游族网络等[2][18] - 国企:慈文传媒、皖新传媒、中文传媒、南方传媒、凯文教育、大晟文化等[2][18] - 教育:学大教育、粉笔、天立国际控股等[2][18] - 港股:关注阿里巴巴、腾讯控股、泡泡玛特、中旭未来,产业爆发在即的阜博集团[2][18] 重点事件回顾 - 广电总局召开关于广电21条的视频会议,取消剧集40集上限、取消季播剧间隔一年播出限制、调整古装剧播出政策,推动影视行业复苏[3][20] - 剧集市场产量接近200部/年"生死线",新政策从供给侧和消费侧两端发力,推动更多影视项目加速开机[3][20] - DeepSeek发布DS-V3.1模型,采用混合推理模式,实现单一模型在思考与非思考模式间自主切换[4][20] - vivo发布国产MR头显Vision Pro,支持眼手交互,眼动交互实现精准"看哪选哪",手势交互可识别26个自由度,垂直范围达175度[5][20] - 字节跳动开源大模型Seed-OSS-36B,创新引入"思考预算"机制,在BBH基准测试中取得87.7分,刷新开源模型纪录[20] 子板块数据跟踪 - 游戏:近期热门重点游戏包括《命运:群星》、《偃武-即时三国 全面开战!》、《地下城堡4:骑士与破碎编年史》、《新三国逐鹿》、《鹅鸭杀》、《溯回青空》等[21] - 院线:内地电影市场周总票房(8.16-8.22)约11.07亿元(不含服务费),票房前三:《浪浪山小妖怪》(3.05亿元)、《捕风追影》(2.94亿元)、《南京照相馆》(2.21亿元)[22][24] - 剧集周排名(8.16-8.22):《生万物》(播映指数84.7,爱奇艺独播)、《锦月如歌》(播映指数79.7,腾讯、芒果TV联播)、《凡人修仙传》(播映指数80.6,优酷独播)、《献鱼》(播映指数80.1,优酷独播)、《子夜归》(播映指数80.3,腾讯独播)[25] - 综艺周排名(8.16-8.22):《麻花特开心第二季》(播映指数66.7,优酷独播)、《披荆斩棘2025》(播映指数76.1,芒果TV独播)、《地球超新鲜》(播映指数79.1,腾讯独播)、《喜剧之王单口季第2季》(播映指数74.8,爱奇艺独播)、《心动的信号第八季》(播映指数76.7,腾讯独播)[25]
DeepSeek-V3.1震撼发布,全球开源编程登顶,R1/V3首度合体,训练量暴增10倍
36氪· 2025-08-21 12:04
模型技术特点 - 采用混合推理模式 一个模型同时支持思考与非思考两种模式并可自主切换[1] - 总参数量达671B 激活参数为37B 支持128K上下文长度[6][14] - 通过两阶段长上下文扩展策略构建 32K扩展阶段训练规模增加10倍达6300亿Token 128K扩展阶段增加3.3倍达2090亿Token[13] - 使用UE8M0 FP8缩放数据格式训练 确保与微尺度数据格式兼容性[14] - 基于DeepSeek-V3.1-Base通过后训练优化完成 而Base版本基于V3模型训练并进行了8400亿token持续预训练[6][12] 性能表现 - 在SWE-bench测试中获得66.0分 远超V3-0324的45.4分和R1-0528的44.6分[3][4] - 在SWE-bench Multilingual测试中获得54.5分 较V3-0324的29.3分提升86%[4] - Terminal-Bench测试得分31.3分 较V3-0324的13.3分提升135%[4] - Humanity's Last Exam测试获得29.8分 较R1的24.8分提升20%[20] - 在MMLU-Redux测试中 思考模式达93.7分 非思考模式达91.8分 均超过V3-0324的90.5分[15] - GPQA-Diamond测试思考模式获80.1分 接近R1-0528的81.0分[15] - AIME 2024数学测试思考模式获93.1分 超过R1-0528的91.4分[16] - LiveCodeBench测试思考模式获74.8分 超过R1-0528的73.3分[19] - Aider-Polyglot编码测试思考模式获76.3%准确率 超过Claude 4 Opus和Gemini 2.5 Pro[16] 效率提升 - 思考模式输出token减少20%-50% 与R1-0528性能持平但效率显著提升[6] - 推理速度较DeepSeek-R1-0528更快[3] - 在第三方Artificial Analysis基准测试中表现仅次于GPT-OSS[23] 应用能力 - 具备强大智能体能力 支持工具使用和多步骤任务处理[3] - 支持多种Code Agent框架 开发者可自主搭建智能体[16] - 支持Search Agent功能 可通过多轮工具调用流程完成复杂搜索任务[19][20] - 在BrowseComp测试中获30.0分 较R1的8.9分提升237%[20] - 在BrowseComp_zh中文搜索测试中获49.2分 较R1的35.7分提升38%[20] 行业地位 - 成为编程开源领域第一 编码实力超越Claude 4 Opus[1][16] - 是公司对OpenAI GPT-OSS的最强回应[8] - 开启智能体新时代 是迈向智能体时代的第一步[1][16]