Workflow
Seek .(SKLTY)
icon
搜索文档
DeepSeek最强开源Agent模型炸场;我国首艘火箭网系回收海上平台近日成功交付;字节跳动发布豆包手机助手技术预览版——《投资早参》
每日经济新闻· 2025-12-02 00:38
重要市场新闻 - 美股三大指数集体收跌,道指跌0.89%,纳指跌0.38%,标普500指数跌0.53% [1] - 热门科技股多数下跌,博通跌超4%,谷歌、微软跌超1%,英伟达、苹果涨超1% [1] - 加密货币、太阳能板块跌幅居前,Sunrun跌超8%,Bit Digital跌超5%,Coinbase跌超4% [1] - 中概股多数上涨,纳斯达克中国金龙指数涨0.87%,网易涨约5%,阿里巴巴涨超4%,微博涨逾3%,蔚来跌超5%,金山云跌超4%,贝壳跌逾3% [1] - 加密货币价格大幅走低,比特币盘中一度下跌8%至83824美元,自10月初以来累计跌幅近30% [1] - 国际金价走高,现货黄金涨0.38%报4239.15美元/盎司,COMEX黄金期货涨0.41%报4272.5美元/盎司 [1] - 国际油价走高,美油主力合约涨1.57%报59.47美元/桶,布伦特原油主力合约涨1.39%报63.26美元/桶 [1] - 欧洲三大股指全线下跌,德国DAX指数跌1.04%报23589.44点,法国CAC40指数跌0.32%报8097点,英国富时100指数跌0.18%报9702.53点 [1] 行业掘金:AI与智能终端 - 字节跳动豆包团队发布豆包手机助手技术预览版,是与手机厂商在操作系统层面合作的AI助手 [2] - 该产品基于豆包大模型能力,现阶段可在与中兴合作的工程样机nubia M153上体验 [2] - AI能力正从云端转向端侧,本地即可完成理解、生成和决策,AI agent是必经之路 [3] - 豆包大模型在推理、视觉理解、图像创作、视频生成、语音等方面性能达国际一流水平,图形界面操作能力在多项评测中获业界最佳成绩 [3] - 豆包手机助手打通系统原生相册,用户可直接在相册内通过语音对图片下达修图指令 [3] - 相关概念股包括汉得信息、大富科技、中兴通讯等 [3] 行业掘金:商业航天 - 我国首艘火箭网系回收海上平台被命名为“领航者”并成功交付,标志着可重复使用运载火箭技术从技术验证迈向工程应用 [3] - 国家航天局近期设立商业航天司,相关业务正在逐步开展,标志着商业航天产业迎来专职监管机构 [3] - 当前我国商业航天企业数量超600家,国家航天局公布推进商业航天高质量安全发展三年行动计划,提出将商业航天纳入国家航天发展总体布局 [3] - 卫星互联网已成为全球科技竞争新高地,未来太空经济将涉及卫星通信、导航、遥感、旅游等多个方面 [4] - 星地通信产业当前市场规模约400-500亿元,预计到2030年将突破2000-4000亿元,年均复合增长率在10%-28%之间 [4] - 星地通信产业正站在从“概念验证”向“规模化应用”的关键转折点,未来十年将形成“天地一体、万物互联”的新型通信格局 [4] - 相关概念股包括航宇微、天银机电、上海瀚讯等 [4] 行业掘金:AI大模型 - DeepSeek发布两款新模型DeepSeek-V3.2和DeepSeek-V3.2-Speciale,是其当前性能最强大的模型 [5] - 标准版DeepSeek-V3.2在公开推理类基准测试中达到GPT-5水平,输出长度大幅降低,减少了计算开销与用户等待时间 [5] - 长思考增强版DeepSeek-V3.2-Speciale结合了定理证明能力,在主流推理基准测试上性能表现媲美Gemini-3.0-Pro [5] - 在权威大模型测评平台Artificial Analysis的测试中,DeepSeek-V3.2在相同测试设置下领先于当前业内智能水平最高的开源模型Kimi-K2-Thinking [6] - 谷歌Gemini 3.0的技术突破被认为是对人工智能行业技术路线、竞争格局、应用边界的全方位重塑,终结了“OpenAI一家独大” [6] - 相关概念股包括汉得信息、每日互动、彩讯股份等 [6] 公司股东减持 - 中公教育:持股6.05%的股东王振东拟以大宗交易方式减持不超过1.23亿股,占公司总股本约2% [7] - 岳阳兴长:持股7.81%的股东湖南长炼兴长企业服务有限公司计划以集中竞价方式减持不超过220万股,占公司总股本0.6% [7] - 纽威股份:持股10.77%的股东席超计划减持不超过775.53万股,占公司总股本1% [7] - 沃尔德:公司实控人杨诺及其一致行动人、部分董事及高管拟减持合计不超过288.23万股,占公司总股本1.91% [7] - 福然德:控股股东一致行动人暨持股5%以上股东宁波人科创业投资合伙企业计划减持不超过1478.49万股,减持比例不超过公司股份总数的3% [7] - 芯原股份:股东兴橙投资方计划减持不超过525.86万股,占公司总股本不超过1.00%;国开基金计划减持不超过78.86万股,占公司总股本不超过0.15% [8]
A股盘前播报 | DeepSeek发布两款新模型 新版本强化Agent能力
智通财经网· 2025-12-02 00:38
人工智能与科技行业 - DeepSeek发布V3.2系列模型并开源,其中V3.2主打日常应用,推理能力达到GPT-5水平,首次实现思考模式与工具调用融合;V3.2-Special专注极致推理,在IMO、CMO、ICPC、IOI四项国际竞赛中斩获金牌 [1] - 银河证券认为市场仍处风格频繁切换阶段,可关注人工智能等明年景气方向 [7] - 申万宏源认为科技总体调整幅度到位,或出现普遍反弹,关注AI算力、存储等反弹机会 [7] - 兴业证券认为跨年行情已具备良好基础,关注AI产业等明年高景气行业 [8] - 摩根士丹利表示谷歌将大规模销售TPU芯片,上调2027年产量预测至500万块;中泰证券认为随着TPU出货量预期上修,相关硬件供应商将迎来重大发展机遇 [9] - 英伟达以20亿美元入股新思科技扩大合作版图;华福证券指出EDA工具是集成电路领域的上游基础工具,在先进制程驱动设计成本提升的背景下,EDA产业规模持续扩大 [11] 新能源汽车行业 - 11月多家新能源汽车品牌交付量公布:零跑汽车交付70327辆,同比增长超75%;小米汽车交付再超4万辆;小鹏汽车交付36728辆,同比增长19%;蔚来公司交付36275辆,同比增长76.3% [3] - 比亚迪1-11月汽车累计销量418万辆,同比增长11.30% [13] 大宗商品市场 - 现货白银价格突破历史新高至58.8美元/盎司,年内涨幅已翻倍(突破100%),背后推手包括供应紧张、投机逼空与宏观事件驱动 [2] - 现货黄金价格最高触及每盎司4264美元,为10月中旬创历史高位后的六周新高 [2] - 伦敦金属交易所钴价突破5万美元关口,刚果(金)出口禁令到期后仍未恢复出口;五矿证券认为钴供应危机持续,价格有望再上新台阶,全产业链库存持续消耗 [10] 宏观政策与消费 - 财政部部长蓝佛安在人民日报刊文指出,要更加有力有效实施积极的财政政策,全方位扩大国内需求,支持建设强大国内市场,多渠道增加居民收入,优化收入分配结构,大力提振消费 [4] 公司动态与公告 - 远东股份11月子公司中标/签约千万元以上合同订单合计23.83亿元 [13] - 恒逸石化控股股东及其一致行动人拟以15亿元至25亿元增持公司股份 [13] - 山子高科收到甘肃证监局警示函 [13] - *ST元成因市值不达标终止上市 [13] - 福然德控股股东、实际控制人的一致行动人拟减持不超过3%股份 [13] 海外市场动态 - 日债抛售引发风险资产震荡,美股三大指数集体收跌,终止“五连阳”;美股热门科技股多数下跌,加密货币大跌;阿里巴巴逆势涨超4%,拉动纳斯达克中国金龙指数走强 [12]
ChatGPT 三周年遭 DeepSeek 暴击,23 页技术报告藏着开源登顶的全部秘密
36氪· 2025-12-02 00:16
核心观点 - DeepSeek发布了两款开源模型DeepSeek-V3.2和DeepSeek-V3.2-Speciale,其推理能力分别直逼GPT-5和Gemini-3.0-Pro,并解决了开源模型长期存在的“深度思考”与“工具调用”难以协同的核心瓶颈 [1][4][5] 模型发布与定位 - 发布了两款模型:主打性价比与日常使用的标准版DeepSeek-V3.2,以及面向AI能力上限探索的终极增强版DeepSeek-V3.2-Speciale [1][5] - 两款模型的权重已在HuggingFace和ModelScope上开源,可供下载和本地部署 [3] - 标准版已升级至官网、APP和API,适用于日常问答、写作和智能体任务;增强版仅提供临时API,服务至2025年12月15日截止 [5] 技术创新与架构突破 - 针对开源模型处理复杂任务的三大瓶颈(架构问题、资源分配、智能体能力)提出了三项关键技术 [4] - 引入稀疏注意力机制,通过“闪电索引器”只关注文本中真正重要的部分,大幅提升了处理长上下文(128K)的速度和效率,且性能不输甚至优于传统注意力机制 [4][7] - 在后训练阶段投入的计算预算超过了预训练成本的10%,并构建了“稳定且可扩展的强化学习训练框架”以保证训练稳定性和可扩展性 [8] - 训练流程采用“专家蒸馏”和“混合强化学习训练”两步法,在数学、编程等六大专业领域训练专家模型生成数据,并使用GRPO算法统一训练推理、智能体和人类偏好对齐任务,避免了“灾难性遗忘” [8][10] 核心能力:思考与工具调用的融合 - 新模型首次实现了“边思考边用工具”,解决了以往模型进入思考模式后无法调用工具的尴尬问题 [5][12] - 专门设计了“思考上下文管理机制”:仅在用户发出新消息时清除历史推理内容,工具调用历史和结果会保留,使得AI可以反复查询、思考、验证,无需从头开始 [13] - 通过“冷启动”设计,利用已有的带推理过程数据和无推理过程的智能体数据,通过提示词让模型在推理中自然整合工具执行 [16] 性能表现与基准测试 - 在多项基准测试中,V3.2的推理能力追平GPT-5,Speciale版本性能逼近甚至超过Gemini-3.0-Pro [11][20] - 具体测试数据:在AIME 2025测试中,V3.2得分为93.1%,Speciale为96.0%;在HMMT Feb 2025测试中,V3.2为92.5%,Speciale为99.2%;在LiveCodeBench测试中,V3.2为83.3%,Speciale为88.7% [22] - 在智能体能力测试上,V3.2在开源模型中达到最高水平,大幅缩小了与闭源模型的差距,在τ²-Bench测试的航空、零售、电信类别分别获得63.8分、81.1分和96.2分 [22] - Speciale版本在未进行专项训练的前提下,在2025年IOI排名第10,ICPC世界总决赛排名第2,并在IMO和CMO达到金牌门槛 [24][25] 训练方法革新:AI自我进化 - 公司搭建了大规模智能体任务流水线,创造了超过1800个虚拟环境和8万多条任务,特点是“难解答,但容易验证”,让AI可以无限制地自我训练 [17] - 流水线包含代码智能体(24667个任务)、搜索智能体(50275个任务)、通用智能体(4417个任务)和代码解释器(5908个任务)等角色,负责挖掘问题、生成答案和验证答案 [18] - 在代码领域,直接从GitHub抓取真实Issue和修复补丁,让智能体搭建测试环境验证修复有效性,使模型获得可实战的编程能力 [18] - 通用智能体可以自动生成任务、工具和验证逻辑,实现了“AI创造数据、验证数据、用数据变强”的自我进化过程 [19] - 实验验证了该方法的有效性:在50个合成智能体任务实例中,仅使用合成任务进行强化学习的V3.2基础模型表现显著提升 [26][27] 当前局限与未来方向 - 与顶级闭源模型(如Gemini-3.0-Pro)相比,V3.2在世界知识覆盖广度上仍显不足,部分原因是训练总浮点运算量更少 [30] - V3.2的Token使用效率低于Gemini-3.0-Pro,往往需要更长的生成路径才能达到相似输出质量,未来需优化推理链的“智能密度” [30] - 在解决复杂任务方面,V3.2仍不及最前沿模型,这促使公司计划进一步优化底层基础模型与后训练方法 [30]
DeepSeek更新线上模型,大幅缩小与闭源模型差距
选股宝· 2025-12-01 23:20
公司产品发布与性能 - DeepSeek于12月1日推出DeepSeek V3.2正式版,强化了Agent能力并融入思考推理 [1] - 该版本在智能体评测中达到当前开源模型的最高水平,大幅缩小了开源模型与闭源模型的差距 [1] - 其中的V3.2-Speciale模型版本成功斩获IMO 2025、CMO 2025、ICPC World Finals 2025及IOI 2025金牌 [1] 行业趋势与市场展望 - 伴随阿里QWEN大模型等同类竞品快速迭代,国内包括豆包大模型、Deepseek后续同样有望实现迭代加速,AI产业整体景气度有望继续提升 [1] - 从科技浪潮演进角度,终局看AI赋能万物一定是通过应用端实现,应用端的爆发具有中期确定性,且空间较上游硬件更为广阔 [1] - 拥有AI全栈布局能力的大厂自研算力方案与英伟达GPU/NVL算力方案在不同应用场景中各有优势 [2] - 在当前AI宏伟叙事下,产业链对算力需求足够旺盛,市场空间足够广阔,算力基础设施市场尚未触及天花板,仍属于高速扩张的增量市场,远未进入存量零和博弈阶段 [2] 产业链相关公司动态 - 梦网科技旗下的天慧智汇台2.0集成了DeepSeek的能力,用于为客户提供富媒体内容生成、营销创意生成等,并为内部运营提供富媒体内容安全审核、内容数据标签标注、研发和运营提效等能力 [3] - 梦网科技于8月29日官微显示,公司成立了梦网云智算,以GPU、AI芯片等智能算力为核心,打造软硬件全栈环境云算力服务平台 [3] - 杭钢股份全资子公司浙江数据管理成功完成DeepSeek-R1的适配并实现DeepSeek-R1 70B参数及以下全部蒸馏模型的部署 [3]
DeepSeek又上新!模型硬刚谷歌 承认开源与闭源差距拉大
第一财经· 2025-12-01 23:13
模型发布概览 - 公司于12月1日晚发布两款新模型DeepSeek-V3.2和DeepSeek-V3.2-Speciale,推理能力全球领先 [1] 模型定位与性能对比 - DeepSeek-V3.2定位为平衡推理能力与输出长度,适合日常问答和通用智能体任务,在公开推理测试中达到GPT-5水平,略低于谷歌Gemini3 Pro [4] - DeepSeek-V3.2-Speciale是长思考增强版,结合数学定理证明能力,目标是将开源模型推理能力推向极致,在多个推理基准测试中超越谷歌Gemini3 Pro [4] - Speciale模型在美国数学邀请赛得分95.0(15k),哈佛MIT数学竞赛(HMMT Feb 2025)得分97.5(16k),国际数学奥林匹克竞赛(IMOAnswerBench)得分83.3(18k) [5] - 在编程能力上,Speciale在LiveCodeBench得分90.7(13k),CodeForces得分2708(22k),但在理工科博士生测试(GPQA Diamond)中得分82.4,略逊于谷歌模型 [5] - Speciale模型斩获IMO、ICPC World Finals及IOI金牌,ICPC成绩达人类选手第二名水平,IOI成绩达人类选手第十名水平 [5] 技术架构创新 - 公司提出稀疏注意力机制(DSA)以解决标准注意力机制对长序列处理效率的制约,大幅降低计算复杂度 [7] - 经过两个月实验确认稀疏注意力机制有效性,在不牺牲长上下文性能前提下解决关键计算复杂性问题 [7] - 两款新模型均引入稀疏注意力机制,使V3.2成为具有成本效益的智能体场景替代方案 [7] 产品部署现状 - 公司官方网页端、App和API均已更新为正式版DeepSeek-V3.2 [8] - 增强的Speciale版本目前仅以临时API服务形式开放,供社区评测与研究 [8] 行业竞争格局 - 公司承认其模型在世界知识广度、令牌效率及复杂任务解决能力方面仍落后于领先的专有模型如Gemini3 Pro [6] - 尽管开源圈持续进步,但过去几个月中闭源专有模型如谷歌、OpenAI、Anthropic的性能增长速度显著更快 [6] - 闭源模型与开源模型之间的性能差距日益扩大,专有系统在复杂任务中展现出越来越强的优势 [6] - 行业中存在三个关键缺陷:标准注意力机制制约长序列处理效率、后训练阶段计算投入不足、AI智能体泛化能力存在差距 [7]
DeepSeek 重大发布
证券时报· 2025-12-01 15:04
模型发布与更新 - DeepSeek于12月1日晚间正式发布两个模型:DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale [1] - 官方网页端、App 和 API 均已更新为正式版 DeepSeek-V3.2 [1] - DeepSeek-V3.2-Speciale 版本目前仅以临时 API 服务形式开放,供社区评测与研究 [1] 模型定位与核心能力 - DeepSeek-V3.2 的目标是平衡推理能力与输出长度,适合日常使用 [3] - 相比 Kimi-K2-Thinking,V3.2 的输出长度大幅降低,显著减少了计算开销与用户等待时间 [3] - DeepSeek-V3.2-Speciale 是 V3.2 的长思考增强版,目标是将开源模型的推理能力推向极致,探索模型能力边界 [3] - DeepSeek-V3.2-Speciale 结合了 DeepSeek-Math-V2 的定理证明能力 [3] 模型性能表现 - 在公开的推理类 Benchmark 测试中,DeepSeek-V3.2 达到了 GPT-5 的水平,仅略低于 Gemini-3.0-Pro [3] - DeepSeek-V3.2-Speciale 在主流推理基准测试上的性能表现媲美 Gemini-3.0-Pro [3] - DeepSeek-V3.2-Speciale 模型成功斩获 IMO 2025、CMO 2025、ICPC World Finals 2025 及 IOI 2025 金牌 [3] - 其中,ICPC 与 IOI 成绩分别达到了人类选手第二名与第十名的水平 [3] 基准测试数据详情 - 在 AIME 2025 测试中,DeepSeek-V3.2 得分为 93.1,DeepSeek-V3.2-Speciale 得分为 96.0 [4] - 在 HMMT Feb 2025 测试中,DeepSeek-V3.2 得分为 92.5,DeepSeek-V3.2-Speciale 得分为 99.2 [4] - 在 HMMT Nov 2025 测试中,DeepSeek-V3.2 得分为 90.2,DeepSeek-V3.2-Speciale 得分为 94.4 [4] - 在 IMOAnswerBench 测试中,DeepSeek-V3.2 得分为 78.3,DeepSeek-V3.2-Speciale 得分为 84.5 [4] - 在 LiveCodeBench 测试中,DeepSeek-V3.2 得分为 83.3,DeepSeek-V3.2-Speciale 得分为 88.7 [4] - 在 CodeForces 测试中,DeepSeek-V3.2 得分为 2386,DeepSeek-V3.2-Speciale 得分为 2701 [4] - 在 GPQA Diamond 测试中,DeepSeek-V3.2 得分为 82.4,DeepSeek-V3.2-Speciale 得分为 85.7 [4] - 在 HLE 测试中,DeepSeek-V3.2 得分为 25.1,DeepSeek-V3.2-Speciale 得分为 30.6 [4] 技术迭代与行业影响 - 中原证券研报认为,此前发布的实验性模型 DeepSeek-V3.2-Exp 基于 V3.1-Terminus 构建,引入了新的注意力机制 DSA [4] - 该机制在保持模型性能稳定的同时,在训练推理效率方面有较大提升,带来了模型较大幅度的降价 [4] - 考虑到当前大模型之间能力差距在缩小,成本的下降意味着模型具有更好的性价比和可推广性 [4] - 成本的下降也将促进应用端实现更多功能的落地 [4]
DeepSeek 上新
中国证券报· 2025-12-01 15:04
模型发布与定位 - 公司于12月1日正式发布两个模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale [1] - DeepSeek-V3.2定位为平衡推理能力与输出长度,适合日常问答和通用Agent任务 [1] - DeepSeek-V3.2-Speciale是V3.2的长思考增强版,结合了DeepSeek-Math-V2的定理证明能力,旨在将开源模型的推理能力推向极致 [1] 性能表现与基准测试 - 在公开推理类Benchmark测试中,DeepSeek-V3.2达到了GPT-5的水平,仅略低于Gemini-3.0-Pro [1] - 相比Kimi-K2-Thinking,V3.2的输出长度大幅降低,显著减少了计算开销与用户等待时间 [1] - DeepSeek-V3.2-Speciale在主流推理基准测试上的性能表现媲美Gemini-3.0-Pro [2] - 在AIME 2025测试中,Speciale模型得分为96.0,消耗约23k Tokens,表现优于GPT-5的94.6分和Gemini-3.0-Pro的95.0分 [3] - 在HMMT Feb 2025测试中,Speciale模型得分为99.2,消耗约27k Tokens,显著高于GPT-5的88.3分和Gemini-3.0-Pro的97.5分 [3] - 在IMOAnswerBench测试中,Speciale模型得分为84.5,消耗约45k Tokens,高于GPT-5的76.0分和Gemini-3.0-Pro的83.3分 [3] - 在CodeForces测试中,Speciale模型得分为2701,消耗约77k Tokens,接近Gemini-3.0-Pro的2708分,并大幅高于V3.2标准版的2386分 [3] - 在高度复杂任务上,Speciale模型大幅优于标准版本,但消耗的Tokens也显著更多,成本更高 [3] 竞赛成绩与能力边界 - DeepSeek-V3.2-Speciale在IMO 2025、CMO 2025、ICPC World Finals 2025及IOI 2025中取得金牌水平的成绩 [2] - 其中,在ICPC与IOI的成绩分别达到人类选手第二名与第十名的水平 [2] 技术特性与使用方式 - DeepSeek-V3.2是公司推出的首个将思考融入工具使用的模型,同时支持思考模式与非思考模式的工具调用 [4] - 公司通过提出一种大规模Agent训练数据合成方法,构造大量难解答、易验证的强化学习任务,以提高模型的泛化能力 [4] - V3.2思考模式增加了对Claude Code的支持,但未充分适配Cline、RooCode等使用非标准工具调用的组件,建议用户在使用此类组件时继续使用非思考模式 [4] - 目前DeepSeek-V3.2-Speciale仅供研究使用,不支持工具调用,暂未针对日常对话与写作任务进行专项优化 [3] 行业地位与影响 - DeepSeek-V3.2模型在智能体评测中达到了当前开源模型的最高水平,大幅缩小了开源模型与闭源模型的差距 [4] - 公司表示,V3.2并没有针对这些测试集的工具进行特殊训练,据此认为V3.2在真实应用场景中能够展现出较强的泛化性 [4]
DeepSeek发布最强开源新品,瞄向全能Agent,给GPT-5与Gemini 3下战书
钛媒体APP· 2025-12-01 15:03
产品发布与定位 - DeepSeek于12月1日发布DeepSeek-V3.2和DeepSeek-V3.2-Speciale两个正式版模型,其推理能力达到全球领先水平 [2] - V3.2定位为“常规军”,重在平衡推理能力与输出长度,适合日常使用,已在网页端、App、API全部更新 [2] - V3.2 Speciale定位为“长思考特种部队”,旨在将开源模型的推理能力推向极致,探索模型能力边界,但不支持工具调用和日常对话,仅供研究使用 [8][9] 性能表现与基准测试 - 在Benchmark推理测试中,V3.2与GPT-5、Claude 4.5在不同领域各有高低,只有Gemini 3 Pro对比前三者有较明显优势 [2] - 在智能体评测中,V3.2得分高于同为开源的Kimi-K2-Thinking和MiniMax M2,被称为目前的“最强开源大模型” [3] - V3.2在一些问答场景和通用Agent任务中表现突出,例如在一个旅游攻略场景中,通过深度思考和工具调用给出了详尽精确的建议 [5] - V3.2 Speciale在主流推理基准测试中取得了媲美Gemini 3.0 Pro的成绩 [9] - 具体基准测试数据:在ToolUse T2-Bench测试中,V3.2得分为80.3,高于GPT-5 High的80.2,低于Claude-4.5-Sonnet的84.7和Gemini-3.0-Pro的85.4 [4] 技术特点与创新 - V3.2引入了DSA(DeepSeek稀疏注意力机制),能在长上下文场景中显著降低计算复杂度,同时保持模型性能 [8] - 公司开发了新的合成流程,能系统性地大规模生成训练数据,促进了可扩展的智能体训练后优化,提升了复杂交互环境中的泛化能力和指令跟随能力 [8] - V3.2是DeepSeek推出的首个将思考融入工具使用的模型,其更新的API首次支持在思考模式下使用工具调用能力,提升了答案的丰富度和适用性 [5][8] - V3.2 Speciale结合了上周发布的数学大模型DeepSeek-Math-V2的定理证明能力,该模型在IMO-Proof Bench基准测试评估中得到了比Gemini 3更好的成绩 [8][9] - 公司强调V3.2“并没有针对这些测试集的工具进行特殊训练”,旨在证明模型在真实应用场景中具有较强的泛化性,而非仅擅长测试的“做题家” [6] 市场竞争与行业动态 - 对比国产大模型厂商月之暗面新近发布的Kimi-K2-Thinking,V3.2的输出长度大幅降低,显著减少了计算开销与用户等待时间 [3] - 2025年后半程,GPT-5、Gemini 3、ClaudeOpus 4.5相继发布,测试成绩一次好过一次,加上快速追赶的DeepSeek,使得“最牛大模型”的赛道变得拥挤 [10] - 头部大模型在训练上已有较明显的区别,表现上也各有特色,预示着2026年的大模型竞赛会更加精彩 [10]
DeepSeek发布V3.2正式版
新京报· 2025-12-01 15:01
公司产品发布 - DeepSeek于12月1日晚间发布两个正式版模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale [1] - DeepSeek-V3.2的目标是平衡推理能力与输出长度,适合日常问答场景和通用Agent任务场景 [1] - 在公开的推理类Benchmark测试中,DeepSeek-V3.2达到了GPT-5的水平,仅略低于Gemini-3.0-Pro [1] - 相比Kimi-K2-Thinking,V3.2的输出长度大幅降低,显著减少了计算开销与用户等待时间 [1] 产品性能与定位 - DeepSeek-V3.2-Speciale的目标是将开源模型的推理能力推向极致,探索模型能力的边界 [1] - V3.2-Speciale是DeepSeek-V3.2的长思考增强版,同时结合了DeepSeek-Math-V2的定理证明能力 [1] - 该模型具备出色的指令跟随、严谨的数学证明与逻辑验证能力 [1] - 在主流推理基准测试上的性能表现媲美Gemini-3.0-Pro [1]
DeepSeek,上新
中国证券报· 2025-12-01 14:48
模型发布与定位 - 公司于12月1日发布两个正式版模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale [1] - DeepSeek-V3.2定位为平衡推理能力与输出长度,适合日常问答和通用Agent任务 [1] - DeepSeek-V3.2-Speciale是V3.2的长思考增强版,结合了DeepSeek-Math-V2的定理证明能力,旨在将开源模型的推理能力推向极致 [1] 模型性能表现 - 在公开推理类Benchmark测试中,DeepSeek-V3.2达到了GPT-5的水平,仅略低于Gemini-3.0-Pro [1] - 相比Kimi-K2-Thinking,V3.2的输出长度大幅降低,显著减少了计算开销与用户等待时间 [1] - DeepSeek-V3.2-Speciale在主流推理基准测试上的性能表现媲美Gemini-3.0-Pro [2] - V3.2-Speciale在IMO 2025、CMO 2025、ICPC World Finals 2025及IOI 2025中取得金牌水平成绩,其中ICPC与IOI成绩分别达到人类选手第二名与第十名水平 [2] 基准测试数据对比 - 在AIME 2025测试中,V3.2得分为93.1(16k),V3.2-Speciale得分为96.0(23k),优于GPT-5的94.6(13k)和Gemini-3.0-Pro的95.0(15k) [3] - 在HMMT Feb 2025测试中,V3.2-Speciale以99.2(27k)的得分显著领先于GPT-5的88.3(16k)和Gemini-3.0-Pro的97.5(16k) [3] - 在CodeForces测试中,V3.2-Speciale得分为2701(77k),接近Gemini-3.0-Pro的2708(22k),远超V3.2的2386(42k) [3] - 在高度复杂任务上,Speciale模型大幅优于标准版本,但消耗的Tokens也显著更多,成本更高 [3] 技术特性与创新 - DeepSeek-V3.2是公司推出的首个将思考融入工具使用的模型,同时支持思考模式与非思考模式的工具调用 [4] - 公司通过提出一种大规模Agent训练数据合成方法,构造大量难解答、易验证的强化学习任务,提高模型的泛化能力 [4] - V3.2思考模式增加了对Claude Code的支持,但未充分适配Cline、RooCode等使用非标准工具调用的组件 [4] - DeepSeek-V3.2模型在智能体评测中达到了当前开源模型的最高水平,大幅缩小了开源模型与闭源模型的差距 [4] 应用与限制 - 目前DeepSeek-V3.2-Speciale仅供研究使用,不支持工具调用,暂未针对日常对话与写作任务进行专项优化 [3] - 公司表示,V3.2并没有针对测试集的工具进行特殊训练,据此认为V3.2在真实应用场景中能够展现出较强的泛化性 [4]