EMU3.5世界模型
搜索文档
中国曾经也有一家“OpenAI”
虎嗅APP· 2025-11-16 09:08
智源研究院的战略定位与模式 - 智源研究院是一家非营利性研究机构,拒绝成立商业化子公司,坚持其非营利的纯粹性[5][14][16] - 该机构通过“成果孵化”模式支持内部人才创业,并提供学术与资源支持,已孵化出智谱AI和月之暗面等公司,二者估值均达约300亿元人民币[5][13] - 智源形成了“科研—孵化—成果转化”的闭环体系,通过早期孵化和后期股权退出获得造血能力,以维持研究的长期独立性[15] 研究方向从“悟道”到“悟界”的转变 - 智源的研究重点已从大语言模型(“悟道”系列)转向多模态模型(“悟界”系列),因大语言模型技术路径已收敛,而多模态路线尚未确定[5][6] - 2024年10月发布了EMU3.5世界模型,该模型具备Scaling范式的潜力,但尚未达到真正的“Aha Moment”,因此版本号为3.5而非4[7][8][25] - EMU3.5的参数量约为三百多亿,相当于语言模型GPT-3.5之前的水平,接近多模态领域的“ChatGPT时刻”[25] 多模态模型的技术路径与核心理念 - 多模态模型EMU3.5模拟人类智能构建过程,主张智能应通过视觉、听觉等多模态感知长期学习而来,而非从文本开始[21][24] - 模型使用海量视频数据训练,在视觉、语言、时间、空间等多维度联合学习,实验显示随着数据量增加,多模态理解能力显著提升[23][24] - 当前EMU3.5仅使用不到全网1%的视频数据,参数量远未达上限,若算力和资源增加十倍,有望训练出下一代模型[25][26] Scaling范式的进展与挑战 - EMU3.5已展现出明确的Scaling趋势,即数据量、参数量与性能之间存在正相关,但尚未形式化为可定量关系的Scaling Law[27][28][29] - 从EMU3到EMU3.5的研发周期约一年,期间重点解决了自回归架构误差累积、视觉token表达方式等核心技术问题[31] - 多模态模型的Scaling范式已被验证可行,但后续更大规模的数据和算力投入更适合企业或资本推动[26] 人才组织与文化吸引力 - 高人才密度组织的共性是使命愿景驱动和价值观一致,早期OpenAI和智源均靠此凝聚顶尖研究者[11][12] - 智源能吸引放弃大厂高薪的研究员,因其提供长期科研价值的工作环境,筛掉只追求物质回报的人,留下技术信仰者[12][13] - 机构鼓励科研人员自由流动、创业或去企业,只要延续其技术路线,这种开放性被视为保持机构生命力的关键[18]