浙江大学联合华为发布国内首个基于昇腾千卡算力平台的 DeepSeek-R1-Safe 基础大模型
AI前线·2025-09-21 05:32

行业背景与安全挑战 - 截至2025年1月,中国市场上共有约197个大模型,覆盖金融、医疗、教育、制造、汽车、能源等多个重要行业领域 [2] - 大模型安全性已成为关乎国家安全、社会稳定和公众利益的核心议题,全球主流大模型频现虚假/有害内容生成、数据偏见、信息泄露等安全问题 [2] - 国产大模型平台在框架健全性、开发者社区成熟度以及开源生态发展等方面仍面临挑战,部分国产大模型早期版本在面对越狱攻击时的失守率高达100% [3] DeepSeek-R1-Safe模型核心发布 - 浙江大学联合华为计算产品线推出DeepSeek-R1-Safe基础大模型,基于昇腾千卡集群训练,整体安全防御能力提升至83%,较原模型越狱防御增幅115%,普通问题安全率近100%,且通用性能接近零损耗 [3] - 模型已在ModelZoo、GitCode、Github、Gitee及ModelScope等多个社区全面开源,采用MIT License开放共享 [3] - 该模型围绕“安全语料构建”、“安全模型训练”、“软硬件环境搭建”三个维度实现了关键技术突破 [4] 技术架构与创新 - 构建了覆盖“高质量安全语料—平衡优化的安全训练—全链路自主可控软硬件平台”的全栈式安全训练框架 [5] - 高质量安全训练语料:系统梳理全球13个国家24项法律法规,构建覆盖14类主流风险的合规基准;创建“风险问题-安全思维链-安全回答”三元组语料库;引入前沿越狱方法以丰富攻击样本策略 [9] - 安全训练范式:首创安全核心思维模式预对齐机制和动态感知高效精准补偿机制;首创多维可验证安全强化学习机制,运用性能-安全帕累托最优组合策略 [9] - 首次实现基于昇腾千卡算力平台的千亿级参数模型安全训练,训练采用128台服务器,共计1024块昇腾国产AI卡对DeepSeek-R1这种671B大参数规模模型进行全流程安全训练 [9] - 首次基于昇腾服务器分布式训练环境,构建并共享了服务器间环境依赖同步、数据与权重共享、协同训练推理等一系列开发工具 [9] 模型性能评估 - 针对有毒有害言论、政治敏感内容、违法行为教唆等14个维度的普通有害问题,整体防御成功率近100%,在同样测试设置下超过Qwen-235B和DeepSeek-R1-671B等多个同期模型4%~13% [10][12] - 针对情境假设、角色扮演、加密编码等多个越狱模式,整体防御成功率超过40%,在同样测试设置下超过Qwen-235B和DeepSeek-R1-671B等多个同期模型16%~23% [13][15] - 在MMLU、GSM8K、CEVAL等通用能力基准测试中,相比于DeepSeek-R1的性能损耗在1%以内,通用性能基本无损,与Qwen-3-235B、Kimi K2-1T等同期模型性能相当 [15][18] 战略意义与未来展望 - 该模型是国产大模型安全能力的一次跃升,也是对人工智能安全治理路径的一次深入探索与实践 [18] - 未来将依托区块链与数据安全全国重点实验室,与华为及产业伙伴携手,推动内生安全人工智能的发展,努力实现人工智能大模型算力、数据与算法的全面自主、安全与可控 [18]