Workflow
TRIDENT
icon
搜索文档
ACL 2025主会论文 | TRIDENT:基于三维多样化红队数据合成的LLM安全增强方法
机器之心· 2025-07-31 08:58
大语言模型安全对齐研究 核心观点 - 当前大语言模型安全对齐存在三大问题:意图类别失衡、越狱策略缺失、构造成本高[14] - TRIDENT框架首次提出词汇-恶意意图-越狱策略三维多样化方案,显著提升模型安全性与对抗鲁棒性[2][9] - 该方法在7个安全基准测试中表现最优,Harm Score降低14.29%,攻击成功率下降20%[13][20] 技术方案 数据生成 - 采用persona-based + zero-shot自动生成范式,覆盖14类高风险领域[12] - 产出两套数据集:TRIDENT-CORE(26,311条)和TRIDENT-EDGE(18,773条)[9] - 注入六大越狱策略:密码编码、代码注入、低资源翻译等,攻击穿透力提升25%[15][21] 流程设计 - 三级生成架构:场景→人格→指令,配合两阶段过滤(安全判别+文本去重)[13][16] - 安全回复采用链式思考模板,分三步生成合规响应[17] - 端到端自动化管线无需人工干预,成本仅为传统方法的1/10[5][19] 性能验证 基准对比 - 在HarmBench等测试中,TRIDENT-EDGE的Harm Score(1.64)和攻击成功率(0.02)均为最低[20][22] - 相比WILDBREAK等基线数据集,Helpful Rate保持持平或更优[20] 消融实验 - 移除任一维度都会导致安全指标恶化,越狱策略缺失时攻击成功率上升11.3%[21] - 在Llama-3等主流模型测试中,多策略组合攻击成功率最高提升25%[21] 行业价值 - 首次实现三维度风险覆盖评估,可作为RLHF/DPO训练的标准输入[24] - 开源数据集降低安全研究门槛,支持持续迭代以适应新型威胁[25] - 框架已应用于蚂蚁集团等企业,加速可信AI落地[4][24]
Qifu Technology's Paper Accepted by IJCAI 2025, Using MLLM to Pave New Path in Fintech
Prnewswire· 2025-05-08 05:52
公司动态 - 中国领先的金融科技公司奇富科技与北京交通大学合作论文被IJCAI 2025收录[1] - 论文提出创新框架TRIDENT 整合多模态大语言模型嵌入和属性平滑技术 在组合零样本学习领域实现突破[3] - TRIDENT框架通过特征自适应聚合等模块 在多个数据集上取得最先进性能 为图像识别和内容理解提供新方案[3] 技术应用 - TRIDENT在智能风控领域可分析交易行为和用户画像等多模态数据 比传统模型更快识别新型欺诈模式 提高评估准确性[4] - 在客户服务领域 该框架能更精准理解复杂用户查询 提供个性化高效支持[4] 研发投入 - 奇富科技持续加大AI研发投入 深化与学术机构合作 推动AI应用进步[5] - 公司通过技术创新致力于促进行业发展和社会进步[5] 行业认可 - IJCAI是国际顶级AI会议 2025年接收率仅19.3%(1042/5404篇) 被中国计算机学会列为A类会议[2]