Workflow
OpenAI没开源的gpt-oss基础模型,他去掉强化学习逆转出来了

OpenAI模型发布与社区反应 - OpenAI发布了两个推理模型gpt-oss-120b和gpt-oss-20b,但未发布未经强化学习的预训练基础模型[1] - Meta研究员Jack Morris成功逆转gpt-oss-20b的对齐阶段,发布了基础模型gpt-oss-20b-base[2][5] - 该模型基于gpt-oss-20b混合专家模型,使用低秩适应(LoRA)技术微调而成[5] 模型特性与功能对比 - gpt-oss-20b-base是基础模型,可生成任意文本,而OpenAI发布的版本仅限推理[6] - 对比显示基础模型能生成更自然的文本,而原版模型回答更格式化[7] - 基础模型不再对齐,可能输出不当内容如脏话或非法活动指南[8][9] 技术实现原理 - 采用低秩性原理:对齐更新仅涉及少量权重变化,可通过低秩更新逆转[15][16] - 数据不可知性:使用20,000份FineWeb文档训练,不要求学习新内容[17] - 具体技术:对第7/15/23层MLP进行LoRA微调,秩为16,仅占原模型参数的0.3%[19] 模型测试结果 - 记忆测试显示模型记得6本被测书籍中的3本,包括《哈利・波特》[9] - 生成内容与训练数据无关,证明是恢复基础能力而非模仿[22] - 训练参数:学习率2e-6,批次16,序列长度8192,1500步微调[20] 未来计划与行业影响 - 研究者计划检查更多记忆内容,尝试逆转gpt-oss-120b模型[22] - 将进行指令微调,并与GPT-2/GPT-3进行对比研究[22] - 模型发布后获得开发者社区积极反馈,多人表示将尝试微调[5]