Seek .(SKLTY)

搜索文档
代码里插广告,腾讯 Codebuddy 们 “背锅”?DeepSeek “极你太美”事件,其他模型也逃不掉?
36氪· 2025-08-27 07:44
文章核心观点 - DeepSeek V3.1模型在代码生成任务中出现异常输出,随机插入"极"字及相关中文词汇(如"极速电竞""极客园"),问题根源可能来自训练数据污染或模型蒸馏过程遗留的瑕疵[4][8][16] 问题表现与影响范围 - 腾讯Codebuddy和字节Trae国内版均出现异常输出:腾讯产品插入"极速电竞APP"广告文本[1],字节产品随机生成"极"字且修改时会删除上下代码[2] - 异常输出涉及特定token:ID 2577(简体"极")、ID 16411(繁体"極")、ID 15075(英文"extreme")[4] - 第三方平台复现率较高(如DeepInfra、Akash Chat、VolcEngine API),官方API出现概率较低但可复现[6] - 历史版本同样存在类似问题:V3-0324版本输出"极速赛车开奖直播"[8]、R1 0528版本插入"极客园"[8]、4月已有开发者提交GitHub issue[8] 技术原因分析 - **数据污染假说**:预训练或SFT阶段数据未清洗干净,可能混入"极长的数组"等模式化文本[16][17] - **蒸馏传染机制**:R1-Zero模型遗留问题通过合成数据传播至DeepSeek-R1,进一步影响V3版本[16] - **Token生成机制**:模型将"极"字作为边界token或终止符使用,反映统计规律而非语言理解[17] - **其他模型类似问题**:Qwen3系列(235B/30B/480B)、Gemini、Grok均出现跨语言异常输出[12] 行业关联与延伸影响 - 多企业产品受影响:腾讯元宝、字节Trae、Fireworks API等集成DeepSeek模型的产品出现异常[4][8][12] - 开源社区协同排查:GitHub、Reddit、知乎等平台聚集开发者分析根本原因[4][8][12] - 训练链条缺陷暴露:自蒸馏过程中数据瑕疵被放大,需加强数据合成→预训练→SFT→RLHF全链条监控[18]
DeepSeek模型升级,继续关注“AI+”板块机会计算机行业“一周解码” | 投研报告
中国能源网· 2025-08-27 06:27
大模型技术升级 - DeepSeek-V3.1发布 升级包含混合思考模式、更高思考效率和更强Agent能力 [1][2][3] - 经过思维链压缩训练后 V3.1-Think在输出token数减少20%-50%情况下 各项任务平均表现与R1-0528持平 [3] - 通过Post-Training优化 新模型在工具使用与编程、搜索等智能体任务中表现大幅提升 [3] AI+制造政策推动 - 上海发布《上海市加快推动"AI+制造"发展的实施方案》 计划通过三年时间推动3000家制造业企业实现智能化应用 [1][2][4] - 目标打造10个行业标杆模型 形成100个标杆智能产品 推广100个示范应用场景 建设10个左右"AI+制造"示范工厂 [4] - 计划发展5家左右综合集成服务商 培育一批具有竞争力的专业服务商 [4] 企业AI商业化进展 - 百度2025Q2AI新业务收入首次超过100亿元 同比增长34% [1][2][5] - 百度总营收达327亿元 归属百度核心净利润74亿元 同比增长35% [5] - 百度智能云连续六年在中国AI公有云服务市场排名第一 [5] 行业企业动态 - 索辰科技全资子公司拟收购北京力控元通科技51%股权 [6] - 新北洋2025H1实现总营业收入12.79亿元 同比增长24.04% 归母净利润0.37亿元 同比增长114.60% [6] - AI应用板块企业包括万兴科技、科大讯飞、金山办公、合合信息、宝信软件、万达信息等 [3][7]
DeepSeek V3.1 突现离谱 Bug:「极」字满屏乱蹦,开发者一脸懵逼
36氪· 2025-08-26 09:53
核心观点 - 大型语言模型在代码生成场景中出现稳定性问题 DeepSeek模型在第三方平台出现随机插入"极"字的异常输出 Gemini模型陷入自我否定的无限循环 反映出现有AI系统在工程稳定性和确定性方面存在重大缺陷 [2][5][8][21] 技术问题表现 - DeepSeek模型在代码生成时随机在标识符中插入"极"字 影响范围包括Go等编程语言 即使在top_k=1和temperature=1的保守解码设置下也无法避免 [2] - 该问题最初怀疑与极低比特量化或校准数据集边缘效应有关 但后续在FP8全精度版本中同样复现 表明非单纯部署层事故 [2] - Gemini模型出现"自我否定的无限循环"bug 不断输出道歉语句和"我是个大傻子"的长串文本 [5][8] 问题影响范围 - DeepSeek问题主要出现在第三方量化部署平台 官方API情况相对较好 但影响真实编码流程 [2][10] - 异常输出可能导致语法树破坏或代理流程卡死 对依赖自动化编码和测试流水线的团队造成严重麻烦 [3] - 问题不仅影响代码生成 还涉及写作任务中出现语言混杂 代码任务中存在过拟合嫌疑 [2] 根本原因分析 - 可能源于解码概率分布偏移 模型基于概率拼凑文本而非真正理解含义 当分词不理想或解码出现微小扰动时就会出错 [12] - Gemini案例被定性为循环bug 安全层-对齐层-解码层交互出现问题 安全规则与代码场景冲突触发异常替换和重复 [8] - 可能与模型提供商频繁进行"热修"有关 包括更换系统提示 微调温度 更新tokenizer 修改工具调用协议等 这些灰度更新可能打破原有平衡 [18] 行业普遍性问题 - 大模型稳定性问题屡见不鲜 OpenAI今年年初出现记忆体系异常导致用户历史上下文丢失 [12] - Gemini人像生成功能曾因过度追求"多样化"而扭曲历史人物样貌 最终被迫临时下线 [15] - Agent与工具链结合系统较为脆弱 故障常发生在"工具调用-状态清理-重试策略"链条中 超时没有兜底机制 失败后无法还原上下文 [20] 工程挑战 - 从"能干活"到"能托付"的关键不仅是准确率和推理能力 更需要工程稳定性和确定性 即使犯错也能被预测和控制 [21] - 厂商并不总是同步披露灰度更新细节 工程师只能依靠事故后"猜测+对照"的方式进行排查 [18] - 越是用规则修剪和控制AI 系统越可能从意想不到的地方以更荒诞的方式出现异常 [20]
DeepSeek V3.1突现离谱Bug:“极”字满屏乱蹦,开发者一脸懵逼
虎嗅· 2025-08-26 07:25
核心观点 - DeepSeek最新版V3.1在代码生成任务中异常插入"极/極/extreme"等无关token 导致输出污染和系统崩溃风险 该问题在多种部署环境中复现 反映模型稳定性缺陷 [1][3][4][5] 技术问题表现 - 模型在代码标识符中随机插入"极"字符 例如将`time.Second`错误输出为`time.Se极` 将版本号`V1`错误输出为`V极` [3] - 问题出现在Go等语言生成场景 词元被异常"粘"到标识符中 即使采用`top_k=1`和`temperature=1`的保守解码策略仍无法避免 [4] - 输出数据中出现异常token插入 如数组数据中异常出现"极"字符(示例数据第2行`[0极,3,0.5]` 第3行`[1,1,0极.5]` 第5行`[3,4极,0.5]`) [2] 问题影响范围 - 问题同时出现在第三方量化部署环境和官方全精度版本中 表明并非单纯部署层事故 [5] - 异常token插入可能导致语法树破坏或代理流程卡死 对自动化编码和测试流水线团队造成严重干扰 [8] - 官方API表现相对较好 问题主要集中在第三方平台 [18] 行业同类问题 - Gemini模型近期出现代码场景"自我否定无限循环" 持续输出道歉文本和"我是个大傻子"等异常内容 [10] - Google将Gemini问题定性为安全层、对齐层与解码层交互导致的循环bug 正在修复中 [15][16] - OpenAI今年初出现记忆体系异常导致用户历史上下文丢失问题 [22] - Gemini人像生成功能曾因过度"多样化"导致历史人物形象失真而被迫下线 [25] 技术根源分析 - 可能源于解码概率分布偏移 高频token被硬插进标识符中 [20] - 模型机械基于概率拼凑而非真正理解文本含义 当分词不理想或解码出现扰动时导致输出污染 [21] - 厂商频繁进行"热修"(更换系统提示、微调温度、更新tokenizer等)可能打破系统平衡 [28] - 细微改动可能引发函数签名、JSON严格性、工具返回格式等"边角位"问题 且厂商未必同步披露变更细节 [29] 行业稳定性挑战 - 大模型稳定性问题屡见不鲜 从输出异常到系统崩溃等不同层级问题持续出现 [14][22] - 过度依赖规则修剪和控制可能导致系统从意想不到处以荒诞方式出现异常 [31] - 工程稳定性和确定性成为关键挑战 超越单纯追求准确率、推理能力或模型层SOTA指标 [32]
DeepSeek掷出FP8骰子
第一财经资讯· 2025-08-26 06:45
芯片与AI算力指数表现 - 芯片指数(884160.WI)近一个月涨19.5%,AI算力指数(8841678.WI)近一个月涨22.47% [2] - 指数走高反映AI算力需求剧增与国产替代加速趋势 [2] FP8低精度计算技术发展 - FP8为8位浮点数格式,内存占用仅为FP16的0.5倍,传输效率提升2倍,硬件算力提升2倍 [8] - 英伟达2022年首次将FP8写入产品路线图,2023年OCP发布MXFP8规范解决训练稳定性问题 [5][6] - DeepSeek 2024年通过V3模型跑通MXFP8,推动低精度计算在AI训练中的应用 [7] 低精度计算的行业驱动因素 - 大模型推理对低精度计算需求极大,可缓解硬件压力与HBM瓶颈问题 [10] - 低精度量化有效应对计算量大、存储不足和数据传输慢三大问题 [9] - 混合精度训练框架(如FP32/FP16/FP8多精度架构)显著提升训练效率 [9] 国产算力产业进展 - 中国AI加速卡国产份额从2023年不足15%提升至2025年上半年40%以上,预计年底过半 [14] - 国产算力产业链完成"融资-研发-场景落地"正向循环,独立于海外生态 [14] - 工信部计划到2026年建立算力互联互通标准体系,2028年实现全国公共算力互联 [9] 低精度计算的技术边界与应用 - 精度低于FP4可能导致数据失真,FP4可能是当前技术极限 [13] - FP8在矩阵乘法中表现优异,但累加等操作仍需高精度支持 [13] - 低精度主要应用于推理场景,训练和微调仍需FP16/FP32保障精度 [13] 行业生态与标准化进展 - 软件栈平台(如CUDA、PyTorch)逐步原生支持FP8算子 [5] - InfiniBand网络需支持FP8格式高效传输以实现跨节点训练优化 [13] - 低精度计算趋势从训练端向推理端渗透,推动芯片厂商调整技术路线 [9]
DeepSeek掷出FP8骰子:一场关于效率、成本与自主可控的算力博弈
第一财经· 2025-08-26 05:47
国产算力产业链独立发展路径 - 国产算力产业链正稳步走出一条独立于海外生态的可持续路径 [1][13] 市场表现与指数变化 - 芯片指数(884160.WI)探底回升,午盘涨0.02%,近一个月涨19.5% [2] - AI算力指数(8841678.WI)热度延续,午盘涨1.45%,近一个月涨22.47% [2] DeepSeek技术升级与行业影响 - DeepSeek发布DeepSeek-V3.1,使用UE8M0 FP8 Scale参数精度,针对下一代国产芯片设计 [2] - DeepSeek通过V3模型跑通MXFP8,在复杂AI训练任务中高效发挥作用 [7] - DeepSeek采用DualPipe并行算法,将跨节点MoE训练的通信开销降至接近零 [12] FP8技术发展历程 - FP8是一种8位浮点数格式,遵循IEEE 754规范 [5] - 英伟达在2022年9月GTC大会上首次将FP8写入产品路线图,H100 GPU原生支持FP8 [6] - 2023年OCP发布《MX规范》第一版本,通过"块缩放"将FP8包装为可大规模落地的MXFP8 [6] - 2024年行业出现万卡集群、推理爆发,FP8因省显存、省电费、速度快等价值被更多厂商关注 [7] 低精度计算的优势与挑战 - 低精度量化能有效应对计算量大、储存不足和数据传输慢问题 [9] - FP8在矩阵乘法等操作中表现优异,但在累加或特定函数计算中仍需高精度支持 [12] - 低精度并非无限追求,当精度低于FP4时数据可能失真,FP4可能是技术极限 [12] - 精度替换只能部分进行,精度敏感环节仍需保留高精度计算 [13] 国产芯片市占率与政策支持 - 2025年第二季度国产芯片市占率提升至38.7% [9] - 工信部印发《算力互联互通行动计划》,提出到2026年建立完备的算力互联互通标准体系 [9] - 中国AI加速卡国产份额由2023年不足15%提升至2025年上半年40%以上,预计年底将过半 [13] 行业趋势与厂商布局 - AI投资主线从"有没有GPU"的"囤卡"策略倾斜到"省不省算力"的效率路线 [7] - 多精度混合架构可同时运行FP32、FP16与FP8任务,训练效率较传统方案显著提升 [10] - 低精度浮点技术缓解硬件需求压力与HBM瓶颈问题,减少芯片功耗 [10] - 低精度计算催生更大、能力更强的模型,支持更长token序列并提供更快响应 [13]
BMW X开启“黑化”、接入DeepSeek,全面解锁智能驾趣新形态
中国经济网· 2025-08-26 05:29
产品创新与设计升级 - BMW X家族主力车型X1、X3长轴距版、X5全面引入曜夜套装 车身采用亮黑高光修饰 强化个性化与运动风格 [3] - 全新BMW X3长轴距版曜夜套装新增个性化定制磨砂纯灰车身漆 售价保持不变 [5] - 全新BMW X3长轴距版轴距达2,975毫米 媲美X5标准轴距 风阻系数较上代降低7% 提升驾驶效率 [5] 智能化技术升级 - BMW X1及X3长轴距版在未来几周内将接入DeepSeek功能 扩展车机能力边界 [5] - 第9代BMW操作系统将带来新应用和新功能 包括车道级导航覆盖城市主干道 3D视图车载地图精准呈现路况 [5] - 一线城市可实现精确到车位的地下停车场导航功能 [5] 品牌历史与市场定位 - BMW X系列自1999年问世以来开创SAV(运动型多功能车)新物种 深刻诠释品牌前卫精神 [1] - X系列是BMW体系中最具进取精神的代表 设计呼应客户追求豪华品质与时尚格调的生活态度 [3]
硅基流动上线DeepSeek-V3.1,上下文升至160K
第一财经· 2025-08-25 13:09
公司动态 - 硅基流动大模型服务平台上线深度求索团队最新开源的DeepSeek-V3.1 [1] - 该平台支持160K超长上下文处理能力 [1] 技术进展 - DeepSeek-V3.1作为开源大模型实现160K上下文长度突破 [1] - 硅基流动平台集成该模型强化长文本处理功能 [1]
硅基流动:上线DeepSeek-V3.1,上下文升至160K
新浪财经· 2025-08-25 12:32
大模型技术参数 - 总参数规模达671B [1] - 激活参数为37B [1] - 采用混合推理架构 同时支持思考模式与非思考模式 [1] 上下文处理能力 - 率先支持160K超长上下文 [1] - 高效处理长文档 多轮对话 编码及智能体等复杂场景 [1] 产品发布动态 - 硅基流动大模型服务平台于8月25日上线DeepSeek-V3.1 [1] - 该模型由深度求索团队最新开源 [1]
大厂怎么看DeepSeek-V3
2025-08-25 09:13
涉及的行业或公司 * 行业涉及人工智能芯片、大模型训练与推理、多模态AI应用[1][2][3][8][22][29][30] * 公司包括DeepSeek(深度求索)、华为(昇腾)、寒武纪、阿里巴巴(千问)、英伟达[1][2][8][25][26][29] 核心观点和论据 技术创新与标准制定 * DeepSeek定义U18M零IP8格式 旨在为国产芯片制定新标准 降低训练侧显存占用20%-30% 提升训练效率30%-40%[1][2] * 新格式通过将128x128量化块拆分成128x4小块减少显存占用和计算开销 优化反向量化过程[4] * 采用混合精度策略 敏感参数(如attention)保留FP16高精度计算 非敏感参数采用U18M零IP8处理[5] * 新协议将通过OCP扩展为国产芯片的RP8协议标准 头部厂商将引领变革 通过AI芯片联盟推动标准化[1][10] 国产芯片发展现状与挑战 * 推理侧国产芯片将率先采用FP8格式 预计半年到一年内落地 显著降低成本[8] * 训练侧尚无国产厂商能完全独立完成训练 算子覆盖率仅约50% 存在梯度量化误差和张量扩展不成熟问题[8][9] * 大规模应用预计需等到2025年第二季度或第三季度[8] * 现有硬件可通过软件兼容FP8但性能受限 真正量产需等待下一代硬件支持 周期约一年[10][11][12] 模型性能与市场竞争 * DBC V3.1版本引入混合推理 增强agent能力 增加8,400亿TOKEN数据集 提升长文本、代码理解和数学能力(从70分提高到87分)[3][25] * 开始基于国产芯片进行FP8兼容 价格下降 接近全球顶尖水平 处于全球前六位置 与千问3相当[3][25][26] * 国产文本模型单一模态能力接近海外顶尖模型 但尚未实现全模态 与国际顶尖水平相差5-6分[26][27][28] 多模态发展与算力需求 * 2026年第一季度头部国产AI模型将逐步进入多模态时代 对算力需求依然较高[3][30] * 国外顶尖模型(如GPT-5、Claude 4)参数规模达万亿级别 训练集群庞大(如谷歌使用50万张GPU 其中25万张H100)[29] * 国内算力资源有限(通常8-9万到十几万张训练卡) 通过提升训练效率、优化算法和数据集提高性能[29] * 多模态发展将带来参数量和数据量增加 对高性能计算卡需求持续增长[30] 产业影响与生态建设 * SP8数据格式将提升国产大模型训练效率 缩小与国际领先水平差距 通过统一标准加速技术普及与应用[6][7] * 验证周期约两个季度 预计2026年第一季度大厂发布支持新格式模型 中小厂稍滞后[14] * 短期内对英伟达卡影响不大(技术验证需半年 产业化需一年) 2026年第三季度后对英伟达推理卡(如H20、L40)产生较大影响[17][18] * 现有存量H800、A800、H100等设备将通过算法和技术手段挖掘潜力(提升20%-30%)[19] 其他重要内容 * FV8数据格式是官方IP8子集 可在NV显卡上运行 提升显存利用率和通信效率20%-30%[21] * FP8格式无法全量覆盖所有参数 在科学运算、金融、医学等对精度要求极高领域表现不佳 可能导致训练不稳定[23][24] * 国产FPGA需补齐CUDA生态通用算子 支持ONNX格式 优化量化版本算法 解决集群规模扩大后的系统性问题[20] * 多模态应用中 视频生成需大量显存(一分钟视频占用几十GB) 需针对视频和图像生成进行专门调整[22]