Workflow
阿里通义千问再放大招 多模态大模型迭代 加速改写AGI时间表

阿里通义千问多模态模型更新 - 阿里推出Qwen-Image-Edit,基于20B参数的Qwen-Image,支持双语文本修改、风格迁移及物体旋转,拓展生成式AI在专业内容创作中的应用 [1] - 阿里半年内连续推出Qwen2.5-VL、Qwen2.5-Omni、Qwen-Image等多模态模型,Qwen2.5-VL 72B版本在13项权威评测中视觉理解能力超越GPT-4o与Claude3.5 [3] - Qwen-Image-Edit将输入图像同时输入到Qwen2.5-VL和VAE Encoder,兼具语义与外观双重编辑能力,在中文图像编辑领域树立新标杆 [3] 多模态AI行业发展趋势 - 大模型发展从单一语言模型迈向多模态融合新阶段,被认为是通向AGI的必经之路 [1] - 谷歌研究报告显示,预计2025年全球多模态AI市场规模将飙升至24亿美元,2037年底预计达989亿美元 [1] - 2025年被业内人士普遍视为"AI应用商业化元年",多模态技术是核心驱动力,已在数字人直播、医疗诊断、金融分析等场景应用 [6] 国内厂商多模态布局 - 阿里、智谱、阶跃星辰等大模型厂商密集布局多模态,从视觉理解到全模态交互,2025年迭代加速 [1] - 阶跃星辰发布Step 3基础大模型,原生支持多模态推理,多模态模型占基座模型矩阵7成 [4] - 商汤发布日日新V6.5大模型,从6.0开始全部为多模态模型,多模态推理与交互性能大幅提升 [4] - 智谱推出开源视觉推理模型GLM-4.5V,昆仑万维一周内发布六款多模态模型,覆盖数字人生成、世界模拟等核心场景 [5] 多模态技术发展现状与挑战 - 多模态领域仍处于发展初期,基础性问题尚未解决,复杂性远超自然语言处理 [7] - 视觉数据表征空间达百万维度连续空间,与文本数万维度低维问题存在本质差异 [7] - 当前多模态模型主要依赖逻辑推理,缺乏空间感知能力,面对简单空间问题表现不佳 [9] - 技术瓶颈需要类似ChatGPT、强化学习范式的大技术变迁才能解决 [8]