Unified-GRPO训练策略 - 财报，业绩电话会，研报，新闻 - Reportify

Unified-GRPO训练策略

搜索文档

张祥雨发现的多模态AI内耗难题，北大找到了解法

36氪· 2025-09-19 10:52

今年6月，阶跃星辰首席科学家张祥雨在访谈中谈及了他在近两年模型训练中遇到的最大困境——多模态AI的内部，一直有一场"内战"。具体是，在大一统多模态模型训练中，视觉的"理解"与"生成"能力可以共存，却很少协作，甚至时常内耗。在联合训练时，一方能力的提升甚至还会导致另一方性能的下降。这和我们的认知完全相反。对于一个人类来讲，他对画面的理解越深入，作画也就可能更精妙。但在多模态模型中，理解和生成，二者之间没有形成有效的"信息增益"和"相互促进"。张祥雨对此作出的解释是，图像生成太复杂了，得有极其复杂的空间规划、物理常识和语义推理。而Transformer模型虽然强大，但它在一次前向传播中能执行的逻辑推理步骤是有限的。你让它根据"画一个宇航员在月球骑方形轮子的自行车"这个指令，一次性生成符合所有物理、几何、语义约束的图像太难了。而在训练过程中，因为这种单次推理，导致梯度信号太粗糙，训练出来的理解模型根本没法给生成模型有效指导，而反向亦然，生成模块的失败，也无法有效地帮助理解模块进步。因此张祥雨给出的解决方法是多模态模型应该像语言推理一样，引入"思维链"（Chain-of-Thought）。让模 ...

思维链（Chain-of-Thought）

自编码器（Auto-Encoder）

Unified-GRPO训练策略

思维链（Chain-of-Thought）

自编码器（Auto-Encoder）

Unified-GRPO训练策略