Artificial Intelligence

搜索文档
DeepSeek-V3.2-Exp模型正式发布并开源 官方大幅下调API价格
智通财经网· 2025-09-29 10:53
智通财经APP获悉,9月29日,深度求索正式发布DeepSeek-V3.2-Exp模型,这是一个实验性(Experimental)的版本。模型引入稀疏注意力架构,针对长文本 的训练和推理效率进行了探索性的优化和验证。目前,官方App、网页端、小程序均已同步更新为 DeepSeek-V3.2-Exp,同时API大幅度降价,有效降低开 发者调用DeepSeek API的成本。 据DeepSeek介绍,作为迈向新一代架构的中间步骤,V3.2-Exp 在 V3.1-Terminus 的基础上引入了一种稀疏注意力机制——DeepSeek Sparse Attention(DSA),针对长文本的训练和推理效率进行了探索性的优化和验证。 DSA首次实现了细粒度稀疏注意力机制,在几乎不影响模型输出效果的前提下,实现了长文本训练和推理效率的大幅提升。 目前,该模型已正式上架华为云大模型即服务平台MaaS,针对DeepSeek-V3.2-Exp模型,华为云此次仍沿用大EP并行方案部署,基于稀疏注意力结构叠加 实现长序列亲和的上下文并行策略,并兼顾模型时延和吞吐性能。 为了严谨地评估引入稀疏注意力带来的影响,DeepSeek团队特 ...
DeepSeek新模型上线!引入DSA新稀疏注意力,还又狙了CUDA一枪
量子位· 2025-09-29 10:44
模型发布与技术升级 - DeepSeek最新模型DeepSeek-V3.2-Exp官宣上线,引入新的注意力机制DeepSeek Sparse Attention [1][6] - 新模型基于上周更新的DeepSeek-V3.1-Terminus打造,V3.1-Terminus是V3.1基础上的强化版本,在稳定性、工具调用能力等方面有改进 [6][9] - 开源了更高效的TileLang版本GPU算子,主要算子包括TileLang和CUDA两种版本 [2][13][15] 性能表现与效率提升 - 在各领域公开测评集上,DeepSeek-V3.2-Exp与V3.1-Terminus表现基本持平,部分指标有提升:MMLU-Pro均为85.0,Codeforces-Div1从2046提升至2121,AIME 2025从88.4提升至89.3 [10][11] - 新注意力机制DSA首次实现细粒度注意力机制,能在几乎不影响模型输出效果的前提下,大幅提升长文本和推理效率 [7] - 使用DSA的模型在处理128K长上下文时,推理成本显著低于DeepSeek-V3.1-Terminus,尤其在解码阶段 [11] 产品部署与市场策略 - 官方App、网页端、小程序均已同步更新DeepSeek-V3.2-Exp模型 [3] - API价格实施5折起的大减价,新价格即刻生效 [3][17] - 公司建议社区在进行研究性实验时使用基于TileLang的版本以方便调试和快速迭代 [16] 行业竞争动态 - 除了DeepSeek-V3.2之外,智谱的GLM-4.6也在准备中,GLM-4.5已被标记为"上一代旗舰模型" [19][20]
刚刚,DeepSeek开源V3.2-Exp,公开新稀疏注意力机制DSA
机器之心· 2025-09-29 10:29
DeepSeek-V3.2-Exp 开源发布 - DeepSeek 在假期前发布实验版本 DeepSeek-V3.2-Exp 并开源 [1][3] - 模型参数量为 685B [3] - 同步公开论文及稀疏注意力机制技术细节 [3][5] 稀疏注意力机制架构创新 - DeepSeek 稀疏注意力机制(DSA)是 3.2 版本唯一架构改进 [6] - DSA 实现细粒度稀疏注意力 显著提升长上下文训练和推理效率 [9] - 在 MLA 架构下实例化 DSA [8] - 该机制代表对更高效 Transformer 架构的持续研究 特别注重扩展文本序列处理的计算效率 [10] 模型性能基准测试 - DeepSeek-V3.2-Exp 训练配置与 V3.1-Terminus 严格对比 [9] - 在公开基准测试中表现相当 例如 MMLU-Pro 均保持 85.0 [9][11] - 部分领域存在微小波动 如 GPQA-Diamond 从 80.7 降至 79.9 而 AIME 2025 从 88.4 升至 89.3 [11] - Codeforces 评分从 2046 提升至 2121 [11] - Agentic Tool Use 方面 BrowseComp-zh 从 45.0 升至 47.9 [11] 行业竞争动态 - 智谱 GLM-4.6 即将发布 GLM-4.5 被标识为上一代旗舰模型 [12]
DeepSeek-V3.2-Exp正式发布 API大幅降价
证券时报网· 2025-09-29 10:29
人民财讯9月29日电,DeepSeek今天宣布,正式发布DeepSeek-V3.2-Exp模型。官方App、网页端、小程 序均已同步更新为DeepSeek-V3.2-Exp,同时API大幅度降价。在新的价格政策下,开发者调用 DeepSeekAPI的成本将降低50%以上。 ...
DeepSeek-V3.2-Exp正式发布,API价格大幅下调
财联社· 2025-09-29 10:27
《科创板日报》记者注意到, DeepSeek-V3.2-Exp模型正式在Hugging Face平台发布并开源。 模型引入稀疏 Attention 架构,这种架构能够降低计算 资源消耗并提升模型推理效率。 目前,华为云已完成对 DeepSeek-V3.2-Exp模型的适配工作,最大可支持160K长序列上下文长度。 DeepSeek-V3.2-Exp API价格官宣大幅下调 DeepSeek宣布官方App、网页端、小程序均已同步更新为DeepSeek-V3.2-Exp。DeepSeek介绍,得益于新模型服务成本的大幅降低, 官方API价格也相应下调,新价格即刻生效。 在新的价格政策下,开发者调用DeepSeek API的成本将降低50%以上。 下载财联社APP获取更多资讯 准确 快速 权威 专业 7x24h电报 头条新闻 VIP资讯 实时盯盘 ...
DeepSeek-V3.2-Exp 发布,训练推理提效,API成本降50%以上
新浪科技· 2025-09-29 10:27
目前,官方App、网页端、小程序均已同步更新为DeepSeek-V3.2-Exp,同时API大幅度降价。在新的价 格政策下,开发者调用DeepSeek API的成本将降低50%以上。DeepSeek-V3.2-Exp 模型现已在 Huggingface 与魔搭开源。 责任编辑:刘万里 SF014 在各领域的公开评测集上,DeepSeek-V3.2-Exp 的表现与 V3.1-Terminus 基本持平。(文猛) 新浪科技讯 9月29日晚间消息,DeepSeek发布DeepSeek-V3.2-Exp模型。据悉,这是一个实验性 (Experimental)的版本,作为迈向新一代架构的中间步骤,V3.2-Exp在V3.1-Terminus的基础上引入了 DeepSeek Sparse Attention(一种稀疏注意力机制),针对长文本的训练和推理效率进行了探索性的优化 和验证。 ...
告别抽卡!全能&高度可控|藏师傅教你用即梦数字人 1.5
歸藏的AI工具箱· 2025-09-29 10:10
前几天即 梦在 Web 端上线 他们的数字人 Omnihuman 1.5 版本。 今天来做个测试,同时有个教程教大家怎么用图像模型配合生成名人数字人视频。 相较于之前的 Omnihuman 1.0, 这次 不只是上传音频和图片他帮你生成带有唇形同步的动态视 频,1.5 的控制能力大幅提升,你可以定义视频中的人物表演和运动方式。 昨天用这个做了一个比较搞的片子,最近不是模仿名人营销很火吗,我做了一个让乔布斯卖破拖鞋 的演讲,这种具有热门视觉标定和反差感的视频非常容易火。 我们先用 几个基础测试 来看一下 Omnihuman 1.5 的能力。 然后我会教一下大家如何用即梦图片 4.0 和数字人 1.5 配合生成这种连贯的数字人视频。 这次更新最明显的一个改动就是数字人不再死板,我们可以通过动作控制让镜头和人物动起来,包 括不只是主角也包括其他人物。 比如上面这个案例,我们就可以让女子先抬头,到一个合适可以看到嘴唇的角度,然后再开始说 话,同时镜头也在旋转到她的正脸,背后的其他人也在正常行走,这是纯粹的唇形同步模型不能做 到的。 几乎搞定了原来 AI 视频不好做的人物表现部分内容。 可以看到在设置部分多了一个动作描 ...
IBM Commits to Invest 20,000 Hours, an Expected Investment Value of $5,000,000, of Solution Architects and AI Engineers to Advance Datavault AI's Partnership
Businesswire· 2025-09-29 10:01
BEAVERTON, Ore.--(BUSINESS WIRE)--Datavault AI Inc. (Nasdaq: DVLT), leading the way in AI data experience, valuation, and monetization, today announced that IBM (NYSE: IBM) has made a multi-million dollar commitment of resources. IBM's commitment will allocate engineering, technical sales and quantum computing expertise to support the continued growth of Datavault AI's platform build and go-to-market initiatives. We believe the expanded collaboration will harness IBM's deep bench of technical r. ...
Bhashini: Overcoming the language barrier to deliver faster services
BusinessLine· 2025-09-29 09:56
Imagine you are at a railway station and trying to book a ticket. But you only know your local language, while the person at the counter speaks only English and Hindi. Enter Bhashini, a government initiative under Digital India which uses AI-powered technology to break down language barriers. So you speak without hesitation in your language — perhaps Kannada — and the person at the counter understands and issues a ticket for your desired destination. The whole process is instant and seamless, facilitated in ...
曝顶级AI大牛,加入阿里通义,事关下一代大模型
36氪· 2025-09-29 09:56
人才变动 - 全球顶尖AI科学家许主洪加盟阿里通义 转向通义大模型研发工作[2] - 许主洪拥有超20年AI产业和学术经验 发表300多篇顶级学术论文 被引用超过5万次 曾被评为全球顶尖1% AI科学家[2] - 许主洪曾担任Salesforce副总裁 从零构建亚洲AI研究生态系统 2023年创立多模态AI创企HyperAGI[2] 职务安排 - 2025年2月许主洪加入阿里 担任集团副总裁兼智能信息事业群首席科学家 负责AI To C业务多模态基础模型及智能体研究[4] - 原核心任务包括组建顶级AI算法团队 整合通义/夸克/天猫精灵等内部资源 促进多模态交互产品迭代[4] - 加入7个多月后转向通义实验室团队 可能从AI To C商业化研发转向更基础前沿的大模型研发[7] 战略布局 - 阿里通义大模型处于"拼迭代速度"和"多模态发展"关键阶段 需要顶尖产学研多栖AI人才[7] - 阿里云CTO周靖人透露 通义家族持续与全球AI领先者竞争 比拼模型迭代效率 多模态演进是必然趋势[7] - 公司期待在多模态方面进一步创新突破 许主洪被视作最适牵头人选[7] 技术方向 - 许主洪认为用统一框架做理解和生成是多模态大模型演进趋势 但该领域尚处初级阶段需实践验证[7] - 统一多模态模型面临全模态交互挑战 支持音/视/图/文全模态交互的公开单模型非常少见[10] - 图像和语意理解生成统一模型鲜有出现 理解与生成效果难以平衡[10] - 多模态Agent AI时代刚起步 需解决基础能力/智能体功能模块/数据世界连接/物理世界交互等技术难题[10]