阿里巴巴集团副总裁许主洪:多模态大模型是通往AGI的关键路径|直击MWC上海2025
多模态大模型技术发展趋势 - 多模态大模型通过整合文本、语音、图像、视频等多种模态输入与输出,提供更强大的处理能力和多样的生成能力 [3] - 现实世界本质上是多模态的,多模态技术是实现通用人工智能(AGI)的必经之路 [3] - 该技术能提供更丰富的上下文理解能力,提升模型性能和准确率,显著改善人机交互体验,创造更多元的应用场景 [3] 技术分类与演进路径 - 多模态大模型技术分为理解与生成两大类 [3] - 多模态理解任务主要解决模态编码对齐、融合理解与推理等难点 [3] - 多模态生成任务主要解决如何有效遵循指令,生成高质量的多模态内容如图片、视频、音频等 [3] 技术发展现状 - 多模态理解模型技术主要经历多个不同阶段,目前主要基于预训练大模型技术 [3] - 不同多模态理解模型主要差异在于连接器设计和模态对齐融合等方法 [3] - 目前大模型理解模型主要聚焦在视觉和语言方面,但希望处理更多模态 [3] 模型框架差异 - 多模态理解模型主要基于自回归模型框架 [4] - 多模态生成模型更多采用基于扩散的模型框架,利用UNet和DiT等架构,以及CLIP和T5等先进文本编码器 [4] 未来发展方向 - 多模态大模型将朝着理解与生成相统一的方向发展 [4] - 主干网络设计、模态对齐融合等关键技术仍需深入研究 [4] - 行业整体仍处于早期阶段,但在搜索、创作、机器人等领域具有广阔应用前景 [4] 技术挑战与机遇 - 达到AGI需要解决多模态大模型基础能力、数据细节连接与操作、物理世界控制与交付等技术难题 [1] - 这些技术挑战同时代表着未来多模态大模型行业的重大发展机会 [1]