Workflow
SAR)
icon
搜索文档
规范对齐时代:GPT-5 断层领先,让安全与行为边界更明晰
机器之心· 2025-09-27 06:18
张昊然,上海交通大学人工智能学院的博士一年级学生,主要研究兴趣为大模型推理和可信人工智能。 去年 12 月,OpenAI 提出的 Deliberative Alignment 引发了广泛关注。面对用户安全风险,大模型不再止于简单拒绝,而是将规范意识融入思考过程,主动识别边 界,清楚哪些可以回应,哪些必须避免。推动这一转变的核心是「规范」(specification,spec),即在特定情境下约束模型行为的规则与准则。近年来, OpenAI、Google 等基础模型厂商纷纷将规范融入大模型,以此明确智能体应当遵循的行为标准。 想想我们日常的世界。社会有法律条款,明确划出不可触碰的禁区;行业有职业规范,提醒我们该怎么做事;还有道德准则,提醒我们别越过良心底线。这些就 像是模型需要遵守的 安全规范 (safety-spec),是一条条必须坚守的红线。与此同时,在工作和生活中,我们还要面对一套又一套灵活多变的规则:公司 KPI、岗 位职责、写报告要有逻辑、客服回复要有温度。这些就是 行为规范 (behavioral-spec),它们会随着场景和目标不断变化,甚至时时更新。 问题随之而来:在这样一个多规并存的现实中,大 ...