Workflow
刚刚,阿里最强编程模型开源,4800亿参数,Agent分数碾Kimi K2,训练细节公开
36氪·2025-07-22 23:53

模型发布与性能 - 阿里巴巴Qwen团队开源最新旗舰编程模型Qwen3-Coder-480B-A35B-Instruct,拥有480B参数,激活参数35B,原生支持256K上下文并可扩展至100万上下文,最大输出6.5万token [1] - 该模型在Agentic Coding、Agentic Browser-Use和Agentic Tool-Use三类任务中获得开源SOTA,性能超过Kimi K2、DeepSeek V3等开源模型和GPT-4.1等闭源模型,与Claude Sonnet 4相当 [1] - 模型参数量超过阿里旗舰模型Qwen3的235B,小于Kimi K2的1T,官方称可帮助新人程序员一天完成资深程序员一周的工作,生成品牌官网最快只需5分钟 [2] 技术细节与训练 - 预训练使用7.5万亿token数据,其中代码占比70%,保留通用和数学能力,原生支持256K上下文并通过YaRN扩展至1M,针对仓库规模和动态数据优化 [16] - 后训练阶段在20000个独立环境中进行大规模强化学习,自动扩展多样化编程任务的测试用例创建高质量训练实例,提高代码执行成功率 [18][20] - 引入长视距强化学习(智能体强化学习),构建可扩展系统并行运行20000个独立环境,在SWE-Bench Verified中实现开源模型最佳性能且无需推理 [20] 产品化与商业化 - 模型已在阿里云百炼平台上线,API采用阶梯计费,256K~1M档输入价格6美元/百万token,输出60美元/百万token,高于Claude Sonnet 4同档价格 [4][5] - 提供多种部署方式:Qwen Chat网页版免费体验,480B版本在Hugging Face、魔搭等开源社区发布可供下载和本地部署 [6] - 同时开源智能体编程命令行工具Qwen Code,基于Gemini Code分叉而来,进行定制提示和函数调用协议适配以更好释放模型能力 [3][22] 应用案例与表现 - 实测案例显示模型在指令遵循、UI设计、动画方面能力突出,开发Wordle游戏、3D旋转立方体展示台等任务完成度高 [7][9][12] - 开发速度极快,如中英文术语库20多秒完成初步结果,但存在未完全遵循技术栈指令等问题,真实部署可扩展性需优化 [11] - 支持图像生成、视频生成等功能,可上传文档、图片、视频、音频等内容,可能通过工具调用实现 [12]