Qwen开源版Banana来了！原生支持ControlNet

新图像编辑模型Qwen-Image-Edit-2509 - 支持多图融合功能包括人物+人物、人物+商品、人物+场景等多种玩法[2] - 增强单图一致性涵盖人物、商品、文字等要素的一致性处理[2] - 原生支持ControlNet 可通过关键点图改变人物姿势并实现换装需求[4] 多图输入应用场景 - 人物+人物生成结婚照支持中式及西式婚礼场景定制[7][12] - 人物+场景实现环球旅行自动适配场景细节如神态、光影等[14][16] - 人物+物体快速生成奢侈品展示如豪车与包包的高精度合成[17] 高级图像编辑能力 - 支持关键点姿势编辑与同步换装适用于证件照、形象照及生活照[20][22][25] - 多姿势编辑功能涵盖俏皮动作、比心、举黑板等场景[29] - 长文字渲染与老照片修复包括照片上色及破损修复[33][36][40] 文字与物体处理增强 - 文字一致性支持字体类型、颜色及材质编辑[50] - 定点文字修改功能可精确修正圈出的错字[55] - 多物体处理能力成功处理含14只猫的复杂图片[47][49] 深度控制与草图生成 - 深度图控制保持物体与场景一致性生成泥泞道路、丛林等复杂场景[60] - 关键点生成支持全类型人物涵盖不同性别、时代及着装[60] - 草图控制生成功实现时空穿梭感的高氛围图像生成[64] 全模态模型Qwen3-omni - 跨模态领先性能在36项音频及音视频基准测试中获32项开源SOTA及22项总体SOTA[69] - 文本性能表现突出 WritingBench得分83.0 超越GPT-4o的75.5及Gemini-2.5-Pro的80.5[70] - 音频处理能力卓越 Fleurs-zh错误率仅2.19% 低于Qwen2.5-Omni-7B的2.54%及Gemini-2.5-Pro的2.71%[70] 实时与长音频处理 - 端到端音频对话延迟低至211ms 视频对话延迟低至507ms[72] - 支持长达30分钟音频理解具备长上下文处理能力[73] 个性化与工具集成 - 支持system prompt定制可修改回复风格及人设如广东幼儿园老师或四川女汉子[74][75] - 支持function call工具调用实现与外部服务高效集成[76] - 开源通用音频Captioner模型具备低幻觉及详细描述能力[77] 多模态应用扩展 - 实时翻译与网页内容总结支持多语言输出[71] - 音乐风格分析与数学推理兼容器语音助手功能[78]