SAR） - 财报，业绩电话会，研报，新闻 - Reportify

SAR）

搜索文档

规范对齐时代：GPT-5 断层领先，让安全与行为边界更明晰

机器之心· 2025-09-27 06:18

张昊然，上海交通大学人工智能学院的博士一年级学生，主要研究兴趣为大模型推理和可信人工智能。去年 12 月，OpenAI 提出的 Deliberative Alignment 引发了广泛关注。面对用户安全风险，大模型不再止于简单拒绝，而是将规范意识融入思考过程，主动识别边界，清楚哪些可以回应，哪些必须避免。推动这一转变的核心是「规范」（specification，spec），即在特定情境下约束模型行为的规则与准则。近年来， OpenAI、Google 等基础模型厂商纷纷将规范融入大模型，以此明确智能体应当遵循的行为标准。想想我们日常的世界。社会有法律条款，明确划出不可触碰的禁区；行业有职业规范，提醒我们该怎么做事；还有道德准则，提醒我们别越过良心底线。这些就像是模型需要遵守的安全规范（safety-spec），是一条条必须坚守的红线。与此同时，在工作和生活中，我们还要面对一套又一套灵活多变的规则：公司 KPI、岗位职责、写报告要有逻辑、客服回复要有温度。这些就是行为规范（behavioral-spec），它们会随着场景和目标不断变化，甚至时时更新。问题随之而来：在这样一个多规并存的现实中，大 ...

规范对齐（Specification Alignment）

测试时深思（Test-time Deliberation）

规范对齐率（Specification Alignment Rate

Artificial Intelligence

规范对齐（Specification Alignment）

测试时深思（Test-time Deliberation）

规范对齐率（Specification Alignment Rate

Artificial Intelligence