浙江大学联合华为发布国内首个基于昇腾千卡算力平台的 DeepSeek-R1-Safe 基础大模型

行业背景与安全挑战 - 截至2025年1月，中国市场上共有约197个大模型，覆盖金融、医疗、教育、制造、汽车、能源等多个重要行业领域 [2] - 大模型安全性已成为关乎国家安全、社会稳定和公众利益的核心议题，全球主流大模型频现虚假/有害内容生成、数据偏见、信息泄露等安全问题 [2] - 国产大模型平台在框架健全性、开发者社区成熟度以及开源生态发展等方面仍面临挑战，部分国产大模型早期版本在面对越狱攻击时的失守率高达100% [3] DeepSeek-R1-Safe模型核心发布 - 浙江大学联合华为计算产品线推出DeepSeek-R1-Safe基础大模型，基于昇腾千卡集群训练，整体安全防御能力提升至83%，较原模型越狱防御增幅115%，普通问题安全率近100%，且通用性能接近零损耗 [3] - 模型已在ModelZoo、GitCode、Github、Gitee及ModelScope等多个社区全面开源，采用MIT License开放共享 [3] - 该模型围绕“安全语料构建”、“安全模型训练”、“软硬件环境搭建”三个维度实现了关键技术突破 [4] 技术架构与创新 - 构建了覆盖“高质量安全语料—平衡优化的安全训练—全链路自主可控软硬件平台”的全栈式安全训练框架 [5] - 高质量安全训练语料：系统梳理全球13个国家24项法律法规，构建覆盖14类主流风险的合规基准；创建“风险问题-安全思维链-安全回答”三元组语料库；引入前沿越狱方法以丰富攻击样本策略 [9] - 安全训练范式：首创安全核心思维模式预对齐机制和动态感知高效精准补偿机制；首创多维可验证安全强化学习机制，运用性能-安全帕累托最优组合策略 [9] - 首次实现基于昇腾千卡算力平台的千亿级参数模型安全训练，训练采用128台服务器，共计1024块昇腾国产AI卡对DeepSeek-R1这种671B大参数规模模型进行全流程安全训练 [9] - 首次基于昇腾服务器分布式训练环境，构建并共享了服务器间环境依赖同步、数据与权重共享、协同训练推理等一系列开发工具 [9] 模型性能评估 - 针对有毒有害言论、政治敏感内容、违法行为教唆等14个维度的普通有害问题，整体防御成功率近100%，在同样测试设置下超过Qwen-235B和DeepSeek-R1-671B等多个同期模型4%～13% [10][12] - 针对情境假设、角色扮演、加密编码等多个越狱模式，整体防御成功率超过40%，在同样测试设置下超过Qwen-235B和DeepSeek-R1-671B等多个同期模型16%～23% [13][15] - 在MMLU、GSM8K、CEVAL等通用能力基准测试中，相比于DeepSeek-R1的性能损耗在1%以内，通用性能基本无损，与Qwen-3-235B、Kimi K2-1T等同期模型性能相当 [15][18] 战略意义与未来展望 - 该模型是国产大模型安全能力的一次跃升，也是对人工智能安全治理路径的一次深入探索与实践 [18] - 未来将依托区块链与数据安全全国重点实验室，与华为及产业伙伴携手，推动内生安全人工智能的发展，努力实现人工智能大模型算力、数据与算法的全面自主、安全与可控 [18]