Workflow
大模型七连发,外国人馋透了!阿里云栖大会全栈升级够狠

全栈AI体系升级 - 公司在2025云栖大会上发布全系列新模型 实现全方位技术突破 覆盖基础大模型、模型架构、代码专用模型、视频生成模型和全模态模型[2] - 新模型在智能水平、Agent工具调用、Coding能力、深度推理和多模态方面相较以往有大幅进步 多数已可直接上手使用和体验[4] - 公司宣布未来三年将投入超过3800亿元用于建设云和AI硬件基础设施 持续升级全栈AI能力[43] 基础模型突破 - 新一代旗舰模型Qwen3-Max正式发布 总参数量超过1万亿 分为指令和推理两大版本[7][8] - 模型在中英文理解、复杂指令遵循、工具调用和编程能力上实现突破 大幅减少大模型幻觉[8] - 在SWE-Bench评测中获得69.6分位列全球第一梯队 在Tau2 Bench测试上取得74.8分超过Claude Opus4和DeepSeek V3.1[8] - 推理增强版本Qwen3-Max-Thinking-Heavy实现结合工具的深度思考 在AIME25、HMMT等数学能力评测中获得满分 为国内首次[10] - 发布下一代基础模型架构Qwen3-Next 总参数80B仅激活3B 性能媲美千问3旗舰版235B模型[12][14] - 训练成本较密集模型Qwen3-32B大降超90% 长文本推理吞吐量提升10倍以上[14] 专用与多模态模型 - 编程模型Qwen3-Coder结合Qwen Code与Claude Code进行联合训练 具备强大代码生成和补全能力[17] - 该模型在OpenRouter平台调用量激增1474% 全球第二[18] - 视觉理解模型Qwen3-VL成为系列最强大视觉语言模型 核心模型Qwen3-VL-235B-A22B现已开源[19][21] - Instruct版本在关键视觉基准测试中优于Gemini 2.5 Pro Thinking版本在多模态推理任务上达到SOTA性能[21] - 模型具备视觉智能体、视觉编程及3D检测能力 能自主进行电脑和手机界面操作[22][23] - 上下文拓展至百万tokens 视频理解时长拓展到2小时以上[25] - 全模态模型Qwen3-Omni开源三大版本 在36项音视频领域公开评测中获32项开源最佳性能SOTA[26] - 音频识别、理解、对话能力比肩Gemini2.5-pro 支持文本、图像、音频、视频全模态输入[26] - Qwen3-Omni-30B-A3B-Captioner为全球首次开源的通用音频caption模型[27] 生成模型与语音技术 - 通义万相累计生成3.9亿张图像和7000万个视频[29] - 推出Wan2.5-preview系列模型 涵盖文生视频、图生视频、文生图和图像编辑四大功能[31] - 视频生成时长达到10秒 支持24帧每秒的1080P高清视频生成[31] - 首次实现音画同步的视频生成能力 能生成匹配的人声、音效和音乐BGM[31] - 新增语音大模型通义百聆Fun 包括语音识别模型Fun-ASR和语音合成模型Fun-CosyVoice[33][35] - Fun-ASR由数千万小时真实语音数据训练而成 Fun-CosyVoice提供上百种预制音色[35] 开源生态与战略布局 - 公司已开源300余款通义大模型 全球下载量突破6亿次 衍生模型突破17万个 稳居全球第一[41] - 超过100万家客户接入通义大模型[41] - 通义大模型家族覆盖从0.5B到480B的全尺寸和基础模型、编程、图像、语音、视频的全模态[37] - 公司战略路径包括坚定通义千问的开源开放路线打造AI时代的安卓系统 以及构建作为下一代计算机的超级AI云[45] - 大模型将替代现代操作系统地位成为链接所有真实世界工具的接口[45]