Workflow
Seek .(SKLTY)
icon
搜索文档
DeepSeek等开源模型,更“浪费”token吗?
虎嗅· 2025-10-10 00:09
开源模型与闭源模型的Token效率差异 - 开源模型在回答简单知识问题时存在明显效率劣势,DeepSeek-R1完成任务消耗的token数量比基准水平高出4倍[2] - 在需要复杂推理的数学题和逻辑谜题上,开源模型的效率劣势收窄,DeepSeek-R1消耗的token数量仅高出基准水平2倍左右[3] - 中国领先开源模型如Qwen-3-235B和DeepSeek-R1通过"慢思考"方式提升解题准确率,代价是输出长度超过其他前沿模型,导致更多token消耗[5][6] Token消耗对经济性的影响 - AI任务经济性公式可归纳为:收益=token兑现的价值-单位token成本×消耗token数量,消耗数量是决定经济性的关键变量[9] - 过多token消耗会带来响应时间延长、用户体验下降,并可能耗尽模型上下文窗口,限制处理复杂长任务的能力[14] - 在实际工作场景中存在明显成本约束,随着多模型与智能体广泛落地,更多推理次数和更长推理时间将带来更高能耗[13] 中美在Token经济学上的技术路径分岔 - 中国开源模型首要目标是用较多token换取较高价值,从DeepSeek-R1到R1-0528的迭代往往伴随总token消耗上升[15][16] - 美国闭源模型专注于降低token消耗并提升token价值,Anthropic、OpenAI与xAI的模型迭代伴随着总token消耗降低[16] - 中国开源社区贡献主要体现在算法和架构改进,如阿里巴巴Qwen3-Next架构总参数80B仅需激活3B即可媲美旗舰版性能[10] 降低Token成本的技术措施 - 硬件改进带来1.5至2倍能耗降幅,模型改进带来3至4倍降幅,工作负载优化带来2至3倍降幅[11] - 工作负载优化包括KV缓存管理、批大小管理、用户手动设置token预算上限、智能路由调用合适模型等技术[11] - OpenAI采用实时路由系统根据对话类型、复杂度等快速决定调用哪个模型,字节跳动探索Knapsack RL预算分配策略[11] 基础设施对Token经济性的放大效应 - 在特定基础设施框架下,DeepSeek-R1成为碳排放量最高的前沿模型,远高于其他模型[18] - 该结果源于DeepSeek-R1大量依赖CoT深度思考,且被分配了H800等更低能效芯片以及更高PUE的数据中心[18] - 基于海外第三方API价格,DeepSeek等开源模型仍具备整体成本优势,但在最高API定价时优势不再显著[19]
蚂蚁、OpenAI、DeepSeek卷疯了!国产最强万亿参数旗舰模型Ling-1T开源
钛媒体APP· 2025-10-09 04:14
蚂蚁集团Ling-1T模型发布 - 蚂蚁集团发布并开源万亿参数通用语言模型Ling-1T,该模型是百灵大模型Ling 2.0系列的首款旗舰模型,也是其规模最大、能力最强的非思考大模型[2][3] - 在有限输出Token条件下,Ling-1T于多项复杂推理基准中取得SOTA表现,在代码生成、软件开发、竞赛数学、专业数学、逻辑推理等高难度基准测试上多项指标位居开源模型榜首[3] - 以竞赛数学榜单AIME 25为例,Ling-1T以平均4000+ Token消耗达到70.42%的准确率,优于Gemini-2.5-Pro的5000+ Token消耗和70.10%准确率,展现出更高的性价比、推理精度和思考效率[3] - Ling-1T沿用Ling 2.0架构,在20T+ tokens高质量高推理浓度语料上完成预训练,支持最高128K上下文窗口,通过演进式思维链提升高效思考和精准推理能力[11] - 该模型全程采用FP8混合精度训练,为已知规模最大的使用FP8训练的基座模型,带来显著的显存节省、更灵活的并行切分策略和15%+的端到端加速[11] - 在强化学习阶段,团队创新性提出以句子为粒度的策略优化算法LPO和新的混合奖励机制,在ArtifactsBench前端能力基准上得分达59.31,在可视化和前端开发任务领域位居开源模型榜首[12] - 除了非思考模型Ling-1T,蚂蚁百灵团队还在训练万亿参数级的深度思考大模型Ring-1T,并于9月30日开源了preview版[14] 全球AI大模型竞争格局 - 国庆中秋假期前后,OpenAI、阿里、智谱、DeepSeek等中美AI大模型加速竞争[4] - 零一万物创始人李开复指出,底座基础模型是一场千亿级别公司的"军备竞赛"[5] - OpenAI发布AI视频模型Sora2,并公布GPT-5 Pro、ChatGPT框架Apps SDK等[9] - DeepSeek发布DeepSeek-V3.2-Exp,全面适配国产算力卡,训练推理提效且API同步降价[9] - 阿里通义发布新一代原生全模态大模型Qwen3-Omni,以及全开源通义DeepResearch模型、框架、方案等[9] - 智谱发布旗舰模型GLM-4.6,凭借SOTA的Agentic Coding能力登顶Hugging Face Trending全球第一、LMArena开源第一全球第四,与Qwen Max Preview并列国内第一[9] AI行业投资与基础设施趋势 - 英伟达CEO黄仁勋指出过去六个月AI计算需求大幅上升,新一代架构Blackwell芯片需求"非常非常高",标志着"新一轮工业革命"开始[6] - 英伟达计划未来十年向OpenAI共计投资1000亿美元,支持部署需要10千兆瓦电力的英伟达系统,相当于400万至500万个GPU[6] - OpenAI CEO奥尔特曼表示技术突破关键在于更聪明的模型、更长的上下文处理能力和更好的记忆系统,AGI的核心在于发现新知识并扩展人类知识边界[6] - 今年以来全球AI领域初创公司已吸引创纪录的1927亿美元风险投资,2025年有望成为首个逾一半风投资金流入AI行业的年份[15] - 最近一个季度,美国风险投资将62.7%的资金投向AI领域公司,全球风险投资该比例为53.2%;今年以来全球风投总额为3668亿美元,其中美国风投达2502亿美元[16] - OpenAI近期完成66亿美元融资,目前估值达5000亿美元,成为全球最有价值的初创公司;其今年前七个月收入大约翻了一番,预计年收入将达120亿美元,并已签下总额近1万亿美元的算力采购协议[16] 蚂蚁集团AI技术战略 - 蚂蚁AGI团队由集团副总裁、首席技术官何征宇负责,其拥有佐治亚理工学院计算机博士学位,曾就职于谷歌并创立开源项目gVisor[11] - 百灵大模型计划聚焦在生活服务、金融服务、医疗健康等场景[11] - 蚂蚁团队认为模型需要能在异构计算单元和分布式集群间切换的技术框架,目标为"不使用高级GPU"来扩展模型[10] - 今年3月,蚂蚁集团利用AI Infra技术开发了两个百灵系列开源MoE模型Ling-Lite和Ling-Plus,参数规模分别为168亿和2900亿,并公布了语音AI框架Ming‑UniAudio、新一代推理模型Ring-flash-2.0等产品[10]
信创ETF(159537)涨近6%,DeepSeek-V3.2-Ex发布,国产云厂商day0适配
每日经济新闻· 2025-10-09 03:28
DeepSeek-V3.2-Exp模型发布 - 公司于9月29日正式发布实验性版本DeepSeek-V3.2-Exp模型,作为迈向新一代架构的中间步骤[1] - 新模型在V3.1-Terminus基础上引入DeepSeek Sparse Attention稀疏注意力机制,针对长文本训练和推理效率进行探索性优化和验证[1] - 公司在新模型研究过程中使用高级语言TileLang进行快速原型开发,以支持更深入探索[1] - TileLang是由北京大学计算机学院杨智副教授团队主导开发的开源AI算子编程语言,核心价值在于能将高级别数据流描述自动转换并优化为高效底层代码(如CUDA或AscendC)[1] - 华为云和寒武纪当日同时宣布Day 0适配DeepSeek-V3.2-Exp,最大可支持160K长序列上下文长度[1] 信创ETF及指数概况 - 信创ETF(159537)跟踪国证信创指数(CN5075),该指数从沪深市场选取涉及半导体、软件开发、计算机设备等信息技术领域上市公司证券作为指数样本[2] - 指数侧重反映信息技术创新主题整体表现,成分股平均市值较大,行业配置以半导体和软件开发为主[2] - 指数同时涵盖计算机设备及IT服务等领域,全面展现信创产业多元化发展格局[2]
DeepSeek与国产芯片的“双向奔赴”
21世纪经济报道· 2025-09-30 23:14
模型发布与技术更新 - 深度求索公司于9月29日晚间发布DeepSeek-V3.2-Exp模型,实验性引入DeepSeek Sparse Attention稀疏注意力机制,显著降低计算资源消耗并提升推理效率 [1] - 新模型发布后,公司同步更新官方App、网页端及小程序,并全面下调API价格,降幅在50%到75%不等 [1] - V3.2-Exp版本在V3.1-Terminus基础上引入稀疏注意力机制,针对长文本训练和推理效率进行探索性优化和验证 [7] 国产芯片生态协同 - 新模型发布后4分钟内,寒武纪率先宣布适配DeepSeek-V3.2-Exp,并开源大模型推理引擎vLLM-MLU源代码 [2] - 华为昇腾基于vLLM/SGLang等推理框架完成适配部署,实现DeepSeek-V3.2-Exp的0day支持,并向开发者开源所有推理代码和算子实现 [2] - 海光信息表示其DCU已实现对DeepSeek-V3.2-Exp的无缝适配和深度调优,新模型在海光DCU上展现出优异性能 [2] 行业标准与生态建设 - 深度求索公司通过发布DeepSeek-V3.1版本,明确模型将适配下一代“UE8M0”浮点格式的国产芯片,为国产芯片发展指明方向 [6] - 业内高管认为,应由DeepSeek定义国产芯片标准,让芯片厂商跟进,而非让模型去适配芯片,DeepSeek已成为国产开源模型的标杆 [2][5] - 中国本土AI行业对DeepSeek模型的高度共识,使深度求索公司敢于先行先试,组建国产芯片生态 [7] 技术创新与工具链 - DeepSeek-V3.2-Exp采用的稀疏注意力机制,疑似基于深度求索公司今年2月发表论文中的原创机制,公司CEO梁文锋位列作者名单 [7] - 模型在兼容CUDA基础上,使用专为AI算子开发设计的编程语言TileLang进行快速原型开发,该语言由北京大学团队主导开发并于2025年1月开源 [7][8] 云计算厂商的生态参与 - 腾讯云于9月16日宣布已全面适配主流国产芯片,并积极参与开源社区建设 [8] - 阿里云在云栖大会表示推动“一云多芯”战略,验证并深度适配多家国产AI芯片,将其纳入自身算力底座 [8] - 相比英伟达用二十年建立生态,DeepSeek用了不到一年时间飞速完成初步生态追赶 [8]
赋能的美妙:DeepSeek开源背后的商业野心和生态架构
搜狐财经· 2025-09-30 18:48
核心商业模式 - 通过开源AI模型和工具吸引开发者,建立生态,再通过技术支持、私有化部署和API市场分成实现商业转化 [2][3] - 为有更高要求的大企业提供收费的企业级服务,如私有化部署,目前至少98家央企已完成模型部署 [4] - 与硬件厂商和云服务商合作,通过技术分成实现高利润,成本利润率最高可达500%以上 [5][6] 生态构建与行业影响 - 开源策略大幅降低行业准入门槛,使AI应用开发从“重资产投入”转向“轻资产运营”,帮助下游客户以数万至十几万的费用获得过去需百万级定制的能力 [2] - 开源模型在HuggingFace累计下载量超千万次,通过“积分换算力”等机制激励开发者贡献,反哺公司积累行业数据和技术迭代资源 [3] - 开源加剧全球AI模型竞争,迫使闭源巨头如OpenAI在2024至2025年间多轮显著下调API价格,推动技术普及与价格普惠 [9] 技术协同与战略目标 - 与华为昇腾等国产芯片厂商深度技术协同,通过底层优化提升国产芯片推理性能,部分场景下直追英伟达H100,助力国产算力在关键领域规模化落地 [8] - 目标在于改变AI行业玩法,通过赋能构建生态优势,确立“基于DeepSeek技术=高效、低成本”的市场认知,形成难以复制的竞争力 [7][12] - 并非简单开源,而是通过严格的内容审核、安全协议和合规框架构建“护城河”,以开放能力换取生态主导权和可持续长期回报 [13]
智通港股解盘 | 有色金属迈出六亲不认的步伐 DeepSeek再度催化AI
智通财经· 2025-09-30 12:16
港股市场表现 - 恒生指数上涨0.87%至26855点,接近27000点大关 [1] - 有色金属板块表现强势,中国中冶大涨超10%,中国有色矿业、洛阳钼业、江西铜业、赣锋锂业、天齐锂业等均有上涨 [3] - 科技股持续发酵,华虹半导体大涨近11%,商汤上涨超5%,中芯国际涨近4% [3] - AI应用端公司涨幅显著,医渡科技、汇量科技、第四范式等均涨超10%,快手-W涨超7% [4] - 存储芯片供应商宣布涨价,三星电子LPDDR产品价格上升15~30%,美光产品涨幅达20%以上,上海复旦涨超6% [4] - 特斯拉概念股三花智控涨超6%,机器人概念股优必选涨近9% [5] 新股上市表现 - 紫金黄金国际上市首日收于120.6港元,较发行价71.59港元上涨68%,募资总额约250亿港元,为全球黄金开采行业规模最大IPO [6] - 博泰车联上市首日收于157港元,较发行价102.23港元上涨53% [7] - 西普尼上市首日收于106港元,较发行价29.6港元大涨268% [7] 行业动态与公司业绩 - DeepSeek发布V3.2-Exp大模型,训练效率提升,API输入/输出价格降低50%/70%以上 [4] - 特斯拉计划2025年底推出第三代机器人,2030年前目标年产100万台,董事会向马斯克授予最多4.237亿股限制性股票 [5] - 苹果iPhone17系列需求强劲,Pro和ProMax交货周期维持高位,平均交货周期仅缩短2天,远慢于去年 [8] - 哔哩哔哩第二季度营收73.4亿元,同比增长20%,净利润2.2亿元,去年同期亏损6.1亿元 [10] - 哔哩哔哩移动游戏业务上半年收入达33.4亿元,同比增长68.0%,主要得益于《三国:谋定天下》的出色表现 [11] - 哔哩哔哩2025年第一季度平台DAU和MAU达1.07亿/3.68亿,用户日均使用时长108分钟,公司大会员数超2350万人 [11][12]
DeepSeek 与国产芯片开启“双向奔赴”
21世纪经济报道· 2025-09-30 12:13
模型发布与技术更新 - 深度求索公司于9月29日晚间发布DeepSeek-V3.2-Exp模型,实验性引入DeepSeek Sparse Attention稀疏注意力机制,显著降低计算资源消耗并提升推理效率 [1] - 得益于技术创新,公司官方App、网页端、小程序同步更新为新模型,并全面下调API价格,降幅在50%到75%不等 [1] - 新版本在V3.1-Terminus基础上引入稀疏注意力机制,针对长文本训练和推理效率进行探索性优化和验证,所采用机制疑似基于公司2025年2月发表论文中的原创机制 [5] 国产芯片生态协同 - V3.2-Exp版本发布后几乎零时差引发华为昇腾、寒武纪、海光等国产芯片厂商“认领”适配,标志着国产AI软硬件生态协同初具雏形 [1][2] - 寒武纪在模型发布后4分钟即宣布同步完成适配并开源大模型推理引擎vLLM-MLU源代码,华为昇腾表示基于vLLM/SGLang等框架完成0day支持并开源所有推理代码和算子实现,海光信息称其DCU实现无缝适配加深度调优 [2] - 深度求索已成为新的生态建设者,其模型获得国产推理模型大部分份额,成为国产开源模型标杆,由公司定义国产芯片标准或组建生态被视为更合适做法 [2][3] 技术路线与生态发展 - 公司模型在兼容CUDA基础上,使用专为AI算子开发设计的编程语言TileLang进行快速原型开发,该语言由北京大学团队主导开发并于2025年1月开源 [5][6] - 8月下旬发布的V3.1版本明确模型将适配下一代“UE8M0”浮点格式国产芯片,为国产芯片发展指明方向,尽管当时未有企业认领此格式 [4] - 中国本土AI行业对DeepSeek模型形成高度共识,腾讯云、阿里巴巴等云计算大厂积极适配国产芯片并参与开源社区建设,推动“一云多芯”战略 [6] - 相比英伟达用二十年建立生态,DeepSeek用了不到一年时间飞速完成初步生态追赶,业界认为2025年国产芯片发展迅速归功于DeepSeek的横空出世 [3][6]
DeepSeek-V3.2上线国家超算互联网 开发者可免费下载
搜狐财经· 2025-09-30 11:58
模型发布与技术进展 - DeepSeek于9月29日正式发布实验性模型DeepSeek-V3.2-Exp [1] - 新模型在V3.1-Terminus基础上引入DeepSeekSparseAttention稀疏注意力机制 [1] - 该技术针对长文本训练和推理效率进行探索性优化验证 [1] - DeepSeekSparseAttention首次实现细粒度稀疏注意力机制 [1] - 新技术在几乎不影响模型输出效果前提下大幅提升长文本训练和推理效率 [1] 平台接入与开发者服务 - DeepSeek-V3.2-Exp于9月30日上线国家超算互联网AI社区 [1] - 模型依托国产深算智能加速卡及全国一体化算力网运行 [1] - 企业和开发者均可在AI社区免费下载模型文件进行快速开发 [1] - 超算互联网AI社区已汇聚700余款国内外优质开源模型 [2] - 平台提供API调用、Chatbot在线推理对话、国产大模型分布式训练及微调等MaaS服务 [2]
DeepSeek,与国产芯片开启“双向奔赴”
21世纪经济报道· 2025-09-30 11:52
模型发布与技术更新 - 深度求索公司于9月29日晚间发布DeepSeek-V3.2-Exp模型,实验性地引入DeepSeek Sparse Attention稀疏注意力机制,显著降低计算资源消耗并提升推理效率 [1] - 新模型在V3.1-Terminus基础上引入稀疏注意力机制,针对长文本训练和推理效率进行探索性优化和验证,所采用机制疑似基于公司2025年2月论文中的原创机制 [6] - 公司同步更新官方App、网页端、小程序至新模型,并全面下调API价格,降幅在50%到75%不等 [1] 国产芯片生态协同 - 新版模型发布后迅速获得寒武纪、华为昇腾、海光信息等国产芯片厂商适配,寒武纪在4分钟内率先宣布适配并开源大模型推理引擎vLLM-MLU源代码 [2] - 华为昇腾基于vLLM/SGLang等推理框架完成适配部署,实现0day支持并向开发者开源所有推理代码和算子实现 [2] - 海光信息表示其DCU已实现对模型的无缝适配和深度调优,验证了海光DCU高通用性、高生态兼容度及自主可控的技术优势 [2] 行业标准与生态建设 - DeepSeek已获得国产推理模型大部分份额,成为国产开源模型标杆,行业认为由深度求索定义国产芯片标准或组建国产芯片生态更为合适 [2] - 相比英伟达用二十年建立生态,DeepSeek用了不到一年时间飞速完成初步生态追赶,腾讯云、阿里巴巴等云厂商积极适配国产芯片并参与开源社区建设 [7] - 公司模型在兼容CUDA基础上使用专为AI算子开发设计的编程语言TileLang进行快速原型开发,该语言由北京大学团队主导开发并于2025年1月开源 [6] 技术发展路径 - DeepSeek-V3.1版本明确模型将适配下一代“UE8M0”浮点格式国产芯片,为国产芯片发展指明方向,但当时未有企业主动认领该格式 [5] - 业内专家认为发展顺序应是DeepSeek先定义国产芯片标准,让芯片厂商跟进,而非让模型去适配芯片 [3] - 国产芯片行业本质是“Know-How”行业,只要业界形成共识,芯片与算力生态围绕标准发展的进度将会异常快捷 [3]
PPIO首发上线DeepSeek-V3.2-Exp
证券日报网· 2025-09-30 06:17
模型技术更新 - DeepSeek发布新版本模型DeepSeek-V3-2-Exp 该模型在V3-1-Terminus基础上引入DeepSeek稀疏注意力机制 旨在优化长上下文场景下的训练和推理效率 [1] - 新模型架构在提升训练推理效率的同时 实现了API价格的大幅下降 [1] 产品定价与成本 - PPIO平台对DeepSeek-V3-2-Exp的定价为每百万输入tokens 2元 每百万输出tokens 3元 [1] - 新定价使开发者调用DeepSeek API的成本降低75% [1] 平台服务能力 - PPIO是致力于为企业及开发者提供高性能API的服务平台 拥有丰富的开源模型"超市" [2] - 平台已上线DeepSeek R1/V3、DeepSeek-Prover-V2-671B、MiniMax、Qwen等系列模型 支持仅需一行代码即可调用 [2] - 根据《2025大模型服务性能排行榜》 PPIO在DeepSeek-R1-0528的吞吐测试中排名第一 [2] - 公司通过2024年实践 已实现大模型推理的10倍以上降本 达成推理效率与资源使用的动态平衡 [2]