贾佳亚教授:模型不必一味求大!优化神经元连接方式同样是智能跃升的「关键密码」丨GAIR 2025
雷峰网·2025-12-16 08:28

冯诺依曼研究院的技术成果 - 2023年发布全球首个32K长文本上下文理解大模型技术LongLoRA,使大模型首次能阅读并分析长达四万多个Token(约两三万字)的书籍内容[5][13][16] - 2024年推出开源多模态模型Mini-Gemini,在GitHub上获得超3000个Star,曾是开源社区中性能最强的模型,具备高性能图像理解与推理式图片生成能力[5][18] - 2024年推出Mini-Gemini新版本,新增完整中文语音系统,支持长视频理解、无样本音色克隆及跨语言生成,解决了中文语音系统混乱的痛点[5][20] - 推出轻量化智能图像生成编辑技术ControlNeXt,可实现图像风格转换、动效生成和超级分辨率等功能,无需大量预训练资源[6][34] - 推出全球领先的智能图像生成编辑统一系统DreamOmni2,在开源系统中与投入超50亿美金、使用10万张卡的Nano Banana对齐,而该研究院仅由2名学生用500张卡、耗时半年完成开发[6][36] - DreamOmni2具备广告设计、图像编辑、虚拟试衣、一键美容、改变光照、产品设计等强悍功能,在部分评测中超越了Nano Banana、GPT-4o等模型[37][59] - 该研究院的图像生成编辑技术可实现精准的像素级编辑,例如将图片中的油灯替换成狗、替换人物、改变发型、一键试衣、改变物体材质或光线等复杂操作,处理时间从专业美工的三天缩短至约10秒[38][40][43][45][48][51] - 该研究院的技术可对图像、视频生成进行6到20倍的加速,有望为全行业节省95%的能源[61] 大模型与人工智能的发展方向 - 大模型的智力是综合多因素的结果,神经元数量不代表更聪明,更重要的是神经之间的连接方式、大脑皮层的复杂度以及大脑与其他器官的配合程度[7][70] - 大模型未来发展有两个关键要点:遵循Scaling Law是基本方向,同时需聚焦“改善神经元连接方式”,让模型在同等神经元数量上变得更聪明[7][70] - 从早期的卷积神经网络到后来的Transformer,都是在改变神经元的连接方式,这种改变让大模型的智能提升了约1万倍[7][71] - 未来还会有比Transformer更优的架构,能将智能再提升1万倍[2][72] - 未来人工智能发展的两大重心:一是训练方法要从一次性学习转为像人一样的连续终身学习;二是要结合机器人、机械臂等作为人工智能的感知载体,弥补当前AI无实体的短板[7][75] - AI与大模型的未来发展模式会走向感知机器与终身学习结合的训练模式,这一发展将在未来五到十年持续发生,并带来巨大进步[7][75]