易学性
搜索文档
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law
量子位· 2025-12-22 04:41
一水 发自 凹非寺 量子位 | 公众号 QbitAI MiniMax海螺视频团队不藏了! 首次开源 就揭晓了一个困扰行业已久的问题的答案—— 为什么往第一阶段的视觉分词器里砸再多算力,也无法提升第二阶段的生成效果? 翻译成大白话就是,虽然图像/视频生成模型的参数越做越大、算力越堆越猛,但用户实际体验下来总有一种微妙的感受——这些庞大的投入 与产出似乎不成正比,模型离完全真正可用总是差一段距离。 So why?问题,大概率就出在 视觉分词器(Tokenizer) 这个东西身上了。 当算力不再是答案时,真正需要被重新审视的,其实是生成模型的"起点"。 在当前主流的两阶段生成框架中 (分词器+生成模型) ,业界已经在视觉分词器的预训练上投入了大量算力与数据,但一个尴尬的事实是: 这些成本,几乎没有线性地转化为生成质量的提升 。 而MiniMax海螺视频团队,不止挑战了这一现实——用实验证明"Tokenizer的scaling能够提升模型性能"。 更关键的是,还带来了一款 开箱即用、专为"下一代生成模型"打造的可扩展视觉分词器预训练框架——Visual Tokenizer Pre-training (以下简称VTP) ...