Workflow
阿里一口气发了N款新模型,让我们向源神致敬。

阿里云栖大会AI模型发布概览 - 阿里在云栖大会上密集发布多个AI模型 涵盖文本、视觉、音频、视频全模态领域 展示其全面的AI技术布局 [1][68] - 发布会期间公司股价出现显著上涨 反映市场对此次技术发布的积极态度 [1][2] Qwen3-Max模型性能 - Qwen3-Max为万亿参数MoE模型 使用36万亿tokens预训练 支持100万token上下文 直接对标GPT-5和Claude Opus 4等顶尖模型 [3][6][8] - 在LMArena全球权威模型对战平台排名前三 评分1430分 超越GPT-5-Chat的1430分 [4][5] - Instruct版本在专业测试集表现卓越:AIME2025领先 LiveCodeBench v6泛化能力突出 τ²-Bench以74.8分超越Claude Opus 4 SWE-Bench获69.6分居世界第一梯队 [9][11] - Thinking版本在AIME 25和HMMT数学推理竞赛获满分100分 与GPT-5 Pro持平 目前尚未开放体验 [13][15] Wan2.5视频生成突破 - 支持1080P分辨率和10秒时长生成 新增"音画同出"能力 可上传图片+音频直接生成带角色音频的视频 [23][25][27] - 解决音色一致性问题 支持音频驱动 显著增强数字人和人物表演能力 为AI短剧提供技术基础 [32] - 已上线通义万相平台供用户体验 [28] Qwen3-VL视觉语言模型 - 支持256K token上下文 可扩展至100万token(约2小时视频) 今日凌晨已开源 [33][34] - 235B-A22B版本在多项评测超越Gemini2.5 Pro 具备视觉Agent能力 可理解按钮和调用工具完成PC/手机端任务 [37][40] - 在复杂表格推理测试中一次性正确解析包含31省市8年经济数据的多维表格 [42][43] Qwen3-Omni全模态模型 - 端到端支持文本、图像、音频、视频输入 支持119种文本语言交互和19种语音理解语言 [48] - 语音对话延迟仅211毫秒 集成function call和MCP工具调用能力 [49][50] 其他模型技术亮点 - Qwen3-Coder-Plus提升推理速度并增强代码安全性 [54] - Qwen3-Next采用80B参数仅激活3B 性能媲美235B模型 训练成本降超90% 长文本推理吞吐量提升10倍 [54] - 通义百聆语音模型家族包含Fun-ASR(支持10+种语言实时处理)和Fun-CosyVoice(百种预制音色) [55][57][58] - 实时多模态翻译Qwen3-LiveTranslate-Flas延迟仅3秒 安全审核模型Qwen3Guard支持RL奖励建模 [59][60] 战略意义与行业影响 - 阿里通过此次发布会构建从底层模型到上层应用的全模态AI生态 展现其技术储备和产业化能力 [65][68] - 大规模开源行为旨在推动AI生态繁荣 强化行业影响力 [63][67]