阿里通义千问再放大招

多模态大模型发展现状 - 阿里通义团队推出Qwen-Image-Edit模型，基于20B参数的Qwen-Image，支持双语文本修改、风格迁移及物体旋转，拓展生成式AI在专业内容创作中的应用 [1] - 阿里半年内连续推出Qwen2 5-VL、Qwen2 5-Omni、Qwen-Image等多模态模型，行业多模态大模型在2025年迭代加速 [1] - 谷歌研究报告显示，预计2025年全球多模态AI市场规模将达24亿美元，2037年底将达989亿美元 [1] 国内厂商布局 - 阿里开源升级版视觉理解模型Qwen2 5-VL，72B版本在13项权威评测中视觉理解能力超越GPT-4o与Claude3 5 [3] - 阿里发布首个端到端全模态大模型Qwen2 5-Omni，支持文本、图像、音频、视频实时交互，可部署于手机等终端 [3] - 阶跃星辰发布Step 3基础大模型，原生支持多模态推理，其Step系列基座模型矩阵中多模态模型占比达70% [5] - 商汤发布日日新V6 5大模型，多模态推理与交互性能大幅提升，从6 0版本开始全部为多模态模型 [5] - 智谱推出开源视觉推理模型GLM-4 5V，涵盖图像、视频、文档理解等任务 [5] - 昆仑万维一周内发布六款多模态模型，覆盖数字人生成、世界模拟等核心场景 [5] 技术进展与挑战 - 多模态模型Qwen-Image-Edit基于20B参数模型训练，实现图片中文字精准编辑，兼具语义与外观双重编辑能力 [4] - 当前多模态领域仍处于发展初期，视觉数据表征空间达百万维度连续空间，远超文本数万维度的离散符号系统 [7] - 视觉数据缺乏天然语义信息，需建立跨模态映射关系，但缺乏标注数据支持 [8] - 当前多模态模型主要依赖语言推理，图形和空间结构推理能力薄弱，无法解决简单空间问题 [9] 行业趋势 - 业内普遍认为多模态融合是通向AGI的必经之路，2025年下半年或将迎来多模态模型全面普及 [1] - 中国企业在多模态领域集体崛起，改变由OpenAI、Google主导的AI创新叙事，在视觉推理、视频生成等细分领域领先 [7] - 2025年被视为AI应用商业化元年，多模态技术驱动数字人直播、医疗诊断、金融分析等场景落地 [7]