AI安全破局:深知发布智能体专用安全模型,实现对话风险近100%防御,破解AGI应用合规难题
36氪·2025-11-24 08:21

行业背景与问题 - 生成式人工智能在AI教育、客户服务、文旅推荐、医疗导办、保险咨询等场景的深入应用,使得智能体交互成为社会经济生活的重要环节,但对话风险(如恶意诱导、隐藏条件)正成为行业AI落地中的“致命暗礁”[1] - 2025年8月27日公安部第三研究所的测试显示,国内主流大模型在8类安全维度的不合规率整体分布在28%至51%之间,其中涉黑灰产、谣言和诈骗类不合规率均超过40%,表明通用大模型本身的安全防护能力普遍不足[1] - 安全问题的严重性源于现有防御手段(如敏感词规则防火墙)已跟不上新式AI攻击手段迭代,关键词拦截易漏判误判,而主模型在安全训练时又难以兼顾高概率防范与能力维持,同时监管政策如GB/T45654-2025《生成式人工智能服务安全基本要求》为智能体安全风险控制划定了红线[2] 深知风控框架解决方案概述 - 彩智科技的深知安全团队提出了“深知风控”框架,这是一个基于专有模型的大模型对话安全响应框架,通过“风险精准识别分类+输出权威溯源可解释”的协同设计,以完全不影响智能体模型能力的“防火墙”式保护机制,提供兼顾安全与效率的解决方案[3] - 该框架允许智能体开发者通过接口5分钟快速上手,使原智能体获得近100%的安全风险防御能力[3] - 深知风控框架代表了一种外部化、低耦合的安全防护新范式,旨在通过API调用实现安全服务的“热插拔”,彻底解耦安全与业务逻辑,让教育培训、导游导购、医疗康养、客户服务等行业的大模型与智能体不再为对话安全问题困扰[15] 技术性能与验证 - 在专项测评中,深知风控框架与Qwen3Guard-Gen-8B、TinyR1-Safety-8B等头部安全模型最新版本对比,在风险识别精度、回复严谨性等方面展现出优势[4] - 在公开的中英文安全测试集中,面对欺诈诱导、敏感信息窃取等高风险复杂攻击场景,同类模型的安全评分仅为74%,而深知依托动态可信知识库实现了接近100%的高风险防护率[8] - 相关测试过程、评测标准、测试数据集及实验结果均已公开发表于技术报告与开放平台,评测具备可验证性[8] 输入端风险识别创新 - 深知风控框架打破了传统“非黑即白”的二元风险判定逻辑,建立了“安全(Safe)、不安全(Unsafe)、有条件安全(Conditionally Safe)、重点关注(Focus)”的四分类体系,以进行精准风险识别和针对性处置[9] - 该四分类体系通过典型问题示例明确了各类别的处置方式,例如对“不安全”问题直接拦截,对“有条件安全”问题需进一步查证,对“重点关注”问题需掌握权威材料后再回应[10] 输出端风险应对创新 - 针对识别出的风险问题,深知提供安全代答,输出内容严格符合法规与主流价值观,内容源自覆盖全国337个地级及以上城市法律、政策、行业标准等领域的全量规章知识库,该知识库保持常态化动态日更新,上亿条知识点可溯源,彻底杜绝信息捏造与“幻觉”问题[11] - 提供两种代答模式:积极型(active)适用于电商、旅游、娱乐等场景,进行安全积极的互动交流;稳妥型(conservative)适用于政务、司法等严肃场景,严守安全底线[11] - 模型使用方已在网信、公安等有关部门组织的生成式人工智能安全测评中,取得近100%防护的优异效果[11] 应用价值与市场定位 - 深知提供简洁易用的API接口与多语言调用示例,开发者无需复杂配置即可快速接入并集成到现有业务系统,大幅降低风控开发成本,使开发者能将更多精力投入AI驱动的业务创新[12][16] - 该框架解决了企业大模型安全风控“防不住”和“用不起”的痛点,将复杂的安全技术转化为低门槛、可随时调用的服务,无需企业投入大量资金和人力搭建定制化防护架构,也避免了引起模型核心场景能力下降的风险[16] - 安全已成为智能体进入核心场景的“入场券”和“必需品”,深知框架以技术创新和“安全托底、业务创新”的模式,旨在加速大模型在教育、零售、金融、康养、文旅等各行业的规模化应用[17] - 深知团队在国务院政策答问平台、广东“粤政易”AI智能办公助手等重大人工智能应用项目中积累了丰富经验,如今通过API服务助力智能体从“追求功能炫酷”向“安全实用落地”转型,成为智能体进入核心场景的“新基建”[17]