即梦4.0
搜索文档
让 AI 三巨头给锦秋设计 IP 形象,结果是翻车还是惊喜? | 锦秋AI实验室
锦秋集· 2025-12-08 06:28
文章核心观点 - 文章记录了锦秋AI实验室利用多轮AI模型协作,从品牌理解到视觉生成,为自身设计品牌IP形象的实验过程,旨在探索AI在品牌设计领域的应用潜力与通用方法 [4][5][6] - 实验表明,当前AI在IP形象生成上并非简单的“输入-输出”,其效果高度依赖于提供的“语境”而非“控制”,通过提供明确的风格引导比提供具体形象参考更能激发AI的原创性,但最终的选择和意义赋予仍需依赖人类 [4][35][36][48][50][51] 实验设计与方法 - 实验采用“策略组”与“执行组”分工协作的流程模拟人类设计工作室,策略组负责分析品牌并撰写视觉指令,执行组负责图像渲染,这是目前尝试下来生成最稳定的方法 [6][8] - 策略组使用了Google Gemini 3 Pro、Claude Sonnet 4.5和GPT-5.1三个大语言模型,视觉执行组使用了Nano Banana和即梦4.0两个文生图工具 [8] - 实验向AI投喂了包括品牌Logo、官方介绍、过往发布的343条深度内容以及内部价值观等全方位内容语料,旨在让AI深度理解品牌内涵 [7] 三轮测试过程与发现 第一轮:自由发挥测试 - 测试方法:不给任何视觉参考,完全依赖AI对文本的理解进行自由生成 [9] - 核心发现:生成的9个方案均陷入“蓝色发光体”的刻板印象,AI潜意识里将机器人、科技感、蓝色光效等同于AI行业IP公式,导致方案千篇一律,缺乏品牌独特辨识度 [16][22][23] - 技术局限:存在语言与视觉的断裂,文字描述的丰富细节在转化为图像时大量损失,可能因基础版工具对复杂概念理解不够精准 [23] 第二轮:引入参照物测试 - 测试方法:为打破刻板印象,向AI投喂了具体的IP角色偏好参考,包括Labubu(凶萌态度)、华为AI陪伴IP憨憨(情感守护)、AI山海经(想象力),并升级使用Nano Banana Pro和即梦4.0工具 [24][26] - 核心发现:虽然视觉精度提升,但AI陷入了“过度拟合”陷阱,倾向于模仿甚至复制参考对象(如Labubu),而非进行创造性融合,同时生成的形象偏向冰冷、有距离感的机械神兽审美,偏离了品牌“陪伴”的初衷 [30][31][33] - 工具差异:不同工具特性导致风格割裂,Nano Banana Pro更易模仿参考图风格,即梦生成的图像质感细腻但易流于通用盲盒公仔风 [34] 第三轮:风格引导测试 - 测试方法:核心策略从提供具体“角色参考”转向提供“风格引导”,从外部平台选取四种截然不同的视觉风格模板,要求AI先学习风格再与品牌内核融合 [36][37] - 核心发现:此轮进步显著,AI生成了具有清晰面部特征和辨识度的形象,并开始理解视觉元素的隐喻(如卫衣代表硅谷极客文化,外骨骼象征硬核技术) [46][48] - 成功关键:通过界定具体的风格范式,AI实现了从照搬参考图到提取风格特征进行原创性跨越,证明了提供“Vibe”(氛围/语境)比提供具体形象更有效 [35][48] - 工具应用场景:Nano Banana Pro在艺术风格化上表现突出,适合主视觉探索;即梦生成的图像接近成熟商业3D渲染,适合作为实体周边开发蓝本 [48] AI对品牌的人格化解读 - **Gemini 3 Pro**:将品牌比作动物“边境牧羊犬”(智商第一、敏锐、忠诚陪伴)和电影角色“托尼·斯塔克/钢铁侠”(硬核技术控、钞能力与资源、生活家与组局者、未来主义) [10][11] - **Claude Sonnet 4.5**:将品牌比作动物“蜂鸟”(体型小但能量密度极高,翅膀每秒振动80次,代表高频高效、敏锐反应)和电影角色《超能陆战队》中的“Baymax(大白)迷你工程师版”(技术陪伴与成长照护者) [10][12][13] - **GPT-5.1**:将品牌比作动物“章鱼/墨鱼”(多条触手并行多赛道、高智商灵活适应)和“猫头鹰”(站在高处看全局、安静洞察),以及电影角色组合《头号玩家》系统向导 + TARS机器人 + 《超能陆战队》工程团队(游戏规则解读者、硬核工程能力、温柔陪伴) [11][14][15][16]
你还在晒AI图,有人已经在靠“提示词”收款了
36氪· 2025-11-27 09:40
即梦4.0产品升级 - 即梦4.0版本在图像生成的真实感上实现重大突破,尤其补齐了人物眼神的短板,使瞳孔有光、表情带情绪,营造出偶然抓拍的错觉,显著减少了此前版本的"AI味"[8] - 技术层面实现"快、准、真"三大优势:采用多模态统一架构实现理解、生成、编辑一步到位;通过一致性算法锁定人物核心特征并在不同角度下保持稳定;支持4K高清生成,细节真实到衣料纹理和皮肤质感可见[11] - 与即梦3.x版本相比,4.0版本生成的图片使外人第一反应不再是"这图P得不错",而是质疑"真的假的",这种真假模糊地带成为传播的最佳温床[11] 市场热度与用户采用 - 即梦4.0功能结合明星流量形成爆火出圈现象,例如詹姆斯中国行期间用户广泛使用该工具生成与明星的合影在朋友圈传播[2] - 产品火爆的条件包括技术突破使虚拟合影跨过"像不像人"的坎、集成在月活达1.57亿的豆包应用中极大降低使用门槛,以及明星自带的天然流量加成[12] - 该应用的火爆程度已扩展到广泛用户群体,甚至父辈用户也开始使用其为孩子进行换装或与明星合影[12] 提示词经济生态 - 围绕AI生图工具形成了提示词交易生态,网上存在大量P图指令帖子,单个帖子可获得大几百个赞,提示词模板成为一门生意[4] - 部分店铺以几块钱的价格出售提示词模板,可卖出几百份,形成一笔不小的收入,好的提示词被视为能直接生成杂志质感的"新滤镜"[4][16] - 由于普通人缺乏时间精力调试参数,购买现成提示词成为需求,提示词交易本身已是一门小生意[16] 行业趋势与产品定位 - AI图像生成工具正推动行业进入"所想即所得"时代,传统需要摄影棚、灯光、化妆师、后期师的复杂流程,现在一个提示词即可实现[17] - 即梦4.0被定位为超越生图工具的"人生生成器",用户可生成与18岁的自己同框、未来60岁的自己或未曾选择的人生道路可能样貌等场景[17] - 行业趋势显示未来将出现更多"所见未必为实"的时刻,工具本身已成为大众可用的基础能力,关键在于用户如何创造性地使用[18]
我们用21款AI修图工具修了100张图:谁才是真正的“修图神器”?|Jinqiu Scan
锦秋集· 2025-11-10 11:38
文章核心观点 - 文章对21款AI修图工具进行了六轮严格测评,旨在评估其在真实场景下的图像编辑能力,核心观点是当前AI修图工具能力差距悬殊,尚无产品能完美应对所有需求,但用户可根据特定任务选择合适工具以提升效率[4][141][149] 测评工具与思路 - 测评涵盖21款主流AI修图工具,包括Nano banana(Gemini 2.5 Flash)、即梦4.0、Kling、腾讯元宝(混元模型)、美图秀秀、文心一言、Sora、Qwen Image edit、Runway等[8][9][10] - 测评采用六轮测试,每轮使用相同提示词,模型均采用最新版默认配置,不调整任何参数[11] - 通用测评维度包括视觉一致性、局部质量和内容一致性,每项评分0-5分[12][13][14][15] 局部擦除/修补测评结果 - 腾讯元宝、美图秀秀和Qwen Image edit获得15分满分,完美满足提示词要求且图片更清晰无违和感[18][23] - Nano banana、Sora、Lovart、Manus和Runway获得14分,主要扣分点为未完全消除干净人物[18][28][29] - 即梦4.0、醒图、像素蛋糕和Genspark得分在10-11分,能较好完成需求但出现明显错误如格局改动或图片模糊[18][30][31][32] - Kling、文心一言、Grok、智谱清言和天工得分在5-7分,存在未按原图修改或人物面貌改动等问题[18][32][33] - CanvaAI、Pixlr和SenseMirage未完成需求,出现严重错误如图片卡通化或随机生成[18][34] 图片抠图测评结果 - Qwen Image edit与Genspark获得15分满分,后者是唯一完全使用抠图技术保持原图格局与元素的产品[41][42] - Nano banana、即梦4.0、腾讯元宝、美图秀秀、Lovart、Manus、天工和Runway为第二梯队,多数产品存在少提取或多提取机器人问题[47][48][49] - Kling、CanvaAI、Grok、文心一言、SenseMirage和智谱清言得分在4-7分,普遍问题为生成动漫图而非抠图,或元素处理错误[50][51][52][53][54][55][56] - 醒图和像素蛋糕无此功能未参与测评,Pixlr完全随机生成图片[57] 图片替换测评结果 - 即梦4.0、腾讯元宝、Qwen Image edit、Manus和Runway获得15分满分,完美完成服饰更换和细节重建[62][65] - Nano banana和美图秀秀得分14分,前者因绳子未清除扣分,后者因人物面部特征改变扣分[62][70][71] - Kling、文心一言、Sora、Grok、Genspark和智谱清言得分在4-7分,普遍问题为未按原图修改或人物面貌改变[62][72][73] - CanvaAI、Pixlr和SenseMirage产生严重错误,如完全不符合要求或图片卡通化[62][74] 图片合成测评结果 - 本轮无满分产品,Sora和Runway表现最佳,得分14分,仅存在轻微面部变形或违和感[78][81][82][83] - Nano banana、即梦4.0和Manus得分13分,存在违和感或人物面貌改变问题[78][84][85] - Qwen Image edit、Lovart、智谱清言和天工得分10分,出现元素遗漏或人物生成错误[78][86][87][88][89][90] - Kling和Genspark得分较低,分别为7分和6分,存在未按要求生成或割裂感高问题[78][91][92][93] - CanvaAI、文心一言和Grok表现最差,生成图片不符合要求或元素错误[78][94][95][96][97] 图上文字修改测评结果 - 本轮所有产品均不达预期,无高分产品,第一梯队得分11-12.5分,包括Nano banana、即梦4.0、美图秀秀、Qwen Image edit、Manus、天工和Runway[106][107] - 产品普遍存在英文未改变、时间未修改、地点乱码或排版错误等问题[108][109][110][111][112][113] - 第二梯队得分7-10分,包括Lovart、Genspark和智谱清言,问题包括文字乱码或重新生成图片[114][115][116][117] - 文心一言和Grok得分5分左右,细节修改部分几乎全军覆没[118][119][120][121] - Kling、CanvaAI、Pixlr和SenseMirage表现最差,细节处理基本错误且改变原格局[122][123] 画质增强/修复测评结果 - 美图秀秀、Sora、Qwen Image edit、Lovart、Genspark和Manus获得10分满分,完美实现图片清晰化和彩色化[127][133] - Nano banana、即梦4.0、腾讯元宝、醒图、像素蛋糕和Runway得分8-9分,问题包括分辨率不足或无法自动上色[127][136][137][138][139] - CanvaAI、文心一言、智谱清言和SenseMirage重新生成图片,人物面貌或格局发生改变[127][140] 行业洞察与挑战 - 专业工具与通用模型对比明显,美图秀秀等传统软件在核心功能上保持优势,而Qwen等通用模型展现后发优势[141][147] - AI修图最大挑战是“修图”与“生图”的混淆,部分模型如文心一言、智谱清言倾向于重新生成图片而非修改原图[141][148] - 文字处理能力是行业短板,所有产品在文字修改测试中均未高分,显示精细化编辑能力不足[141][148] - 复杂合成能力不足,多元素理解力欠缺,导致结果违和或元素遗漏[141][148]
你还在晒AI图,有人已经在靠「提示词」收款了
36氪· 2025-09-25 23:55
即梦4.0技术突破 - 即梦4.0版本在图像生成质量上实现显著提升,特别是补齐了眼神呆滞、面部不真实等短板,使生成人物瞳孔有光、表情带情绪,营造出被抓拍的真实感[13][14] - 与即梦3.x版本相比,4.0版本生成的图片成功消除了"AI味",人物能够自然融入画面,达到以假乱真的效果[13][16] - 技术突破体现在快、准、真三方面:采用多模态统一架构实现理解、生成、编辑一步到位;通过一致性算法锁定人物核心特征;支持4K高清生成,细节可呈现衣料纹理和皮肤质感[20] 产品传播与市场表现 - 即梦4.0集成于豆包应用,该应用月活用户达1.57亿,位居中国原生AI应用第一,大幅降低用户使用门槛[18] - 产品通过明星合影等社交货币式功能引爆传播,用户生成内容在朋友圈等平台形成真假难辨的模糊地带,加速病毒式扩散[16][18] - 与早期爆火的Nano Banana等工具相比,即梦4.0因技术临界点突破和平台流量加持,实现更广泛出圈,覆盖至家庭用户等非专业群体[17][18] 提示词经济生态 - 围绕AI生图工具的提示词交易已形成商业模式,社交平台和二手市场出现售价几元至几十元的提示词合集及定制服务,单份模板可售出数百份[9][21][25] - 提示词被类比为传统摄影时代的PS滤镜或Lightroom预设包,成为AI创作时代的核心生产要素,优质提示词可直接决定生成图像质感[22][25] - 该经济形态满足用户需求:普通人缺乏参数调整精力,愿意支付小额费用获取现成提示词模板以快速生成高质量内容[25][26] 行业趋势与未来展望 - AI图像生成技术正推动"所想即所得"时代到来,传统依赖摄影棚、灯光师、后期师的复杂流程被一个提示词简化[27][28] - 技术应用场景从娱乐性合影扩展至人生模拟,如与年轻自我同框、预览未来形象或未选择的人生道路,呈现情感价值潜力[28][29] - 即梦4.0被视为阶段性产品,其发展预示未来将出现更多"所见未必为实"的数字化内容,工具普及化使创造权移交至用户手中[29]