文生图

搜索文档
让AI作画自己纠错!随机丢模块就能提升生成质量,告别塑料感废片
量子位· 2025-08-23 05:06
技术突破 - 清华大学、阿里巴巴AMAP(高德地图)、中国科学院自动化研究所联合推出S²-Guidance方法 通过随机丢弃网络模块动态构建弱子网络实现生成过程自我修正 避免繁琐参数调整并实现即插即用效果 [1][3] - 该方法在文生图和文生视频任务中显著提升生成质量与连贯性 具体表现为动态感增强、细节更精致、伪影减少、艺术表达丰富及物体协调性改善 [4][6][19] 技术原理 - S²-Guidance通过随机模块丢弃策略在前向传播时临时跳过部分网络模块 动态构建轻量化内生子网络 利用模型冗余特性暴露完整模型在高不确定性区域的错误倾向 [10] - 采用负向引导修正机制 通过引导公式"最终引导方向=标准CFG引导方向-子网络预测的高不确定性方向"实现自我纠错 精准规避低质量生成区域 [11][12] 性能优势 - 在SD3模型T2I-CompBench基准测试中 S²-Guidance在颜色(59.63%)、形状(58.71%)、纹理(56.77%)维度得分均超越CFG-Zero(52.70%/52.84%/53.37%)和CFG(53.61%/51.20%/52.45%) [27] - 在VBench视频评测中 Wan1.3B模型总分80.93分超越CFG-Zero(80.71) Wan14B模型总分82.84分超越CFG(82.65) 且在语义一致性(74.65)和对象类别(89.08)指标表现突出 [28] 应用效果 - 视频生成解决CFG两大痛点:物理真实性方面消除卡车横向漂移等失真现象 复杂指令遵循方面完整还原"金线环绕人脸+发光粒子"等复杂描述细节 [24][25] - 计算效率几乎无损耗 实验证明单次随机丢弃(N=1)效果与多次平均相当 通过多步迭代自然平均随机抖动实现高质量输出 [36][37]
Qwen-Image 模型上线基石智算,快来体验超强文本渲染能力
搜狐财经· 2025-08-14 15:48
公司动态 - 青云科技旗下基石智算CoresHub率先上线20B参数的MMDiT模型Qwen-Image,该模型由阿里通义千问团队开源[1] - Qwen-Image是Qwen系列首个文生图基础模型,在复杂文本渲染、图像编辑、多行布局等方面表现突出[1] - 该模型适用于通用图像生成、艺术风格创作及海报设计等场景[1] - 基石智算提供强大算力支持与便捷平台服务,帮助用户快速体验Qwen-Image[1] 技术亮点 - Qwen-Image具备超强文本渲染能力,支持中英文多行排版与段落级布局,实现高度保真视觉输出[2] - 模型通过强化多任务训练范式,在图像编辑中能精准修改目标区域并保持整体一致性[2] - 在多项公开基准测试中取得业内顶尖(SOTA)成绩,验证其卓越综合实力[2] 应用场景 - 可生成西部酒吧门口的柴犬形象,包含手写体文字与褪色英文标语等细节[9] - 支持创作云端棉花糖城堡场景,包含曲奇大门、巧克力文字等元素[11] - 能呈现复古街机厅像素风格画面,包含霓虹灯牌与日文贴纸等设计[12] - 可生成海底图书馆场景,包含发光海藻文字与羊皮卷轴等细节[12] - 支持创作太空飞船驾驶舱场景,包含多语言混合提示与俄文警告标识[13] 使用流程 - 登录coreshub平台进入模型广场选择Qwen-Image进行部署[3] - 部署时选择单卡4090D资源类型并复制外网链接访问[4] - 在Comfy UI页面加载成功后选择Qwen-Image模板并输入提示词[6]
“过气”的Sora,凭什么想做AI版的抖音?
新财富· 2025-06-24 08:10
Sora的战略转型与AI社交趋势 - OpenAI通过Sora开辟视频大模型赛道,但初期因产品延期导致竞争格局反转,国产AI视频模型如快手可灵1.0和MiniMax海螺AI迅速抢占市场[1][2][3][4] - Sora从视频生成工具转型为AI社交平台,新增图像生成模块GPT-Image-1,上线一周吸引1.3亿用户,日均生成1亿张图像,带动付费用户增长[15][16][17][18] - 新版Sora强化社交功能:提高图片作品占比、增加推荐/点赞/复制等交互组件、支持提示词复用和内容公开分享,接近完整图像社区形态[21][22][23][24] AI社交平台的行业逻辑 - 头部AI公司如马斯克xAI、月之暗面Kimi、OpenAI均布局社交领域,核心动机包括获取用户反馈提升模型能力及构建流量入口[7][8][10][11][12][40] - 社交平台通过UGC内容形成数据飞轮,Meta、Google、抖音已验证流量变现模式,OpenAI创始人Sam Altman认为10亿用户平台价值超越顶尖模型[43][44] - OpenAI 2024年营收40亿美元但亏损50亿美元,依赖ChatGPT订阅服务(2000万付费用户,年化营收50亿美元),需拓展高级会员提升收入[45][48][49][52] 图像/视频的社交属性与竞争格局 - GPT-Image-1通过高度风格化图像(如吉卜力画风)突破文生图审美瓶颈,满足个性化表达需求,实现跨文化传播[27][29][30][32] - 移动互联网时代Instagram、Snapchat等成功案例证明图像/视频是社交核心载体,当前短视频人均单日使用时长达138.4分钟,远超聊天应用[33][34][36][37][62] - AI社交面临传统社交巨头的阻击(如抖音整合豆包、微信接入元宝),新入局者需依赖AI技术突破存量竞争壁垒[56][60][61][64][65]
2025年中国多模态大模型行业模型现状 图像、视频、音频、3D模型等终将打通和融合【组图】
前瞻网· 2025-06-01 05:09
多模态大模型技术发展 - 行业聚焦视觉等重点模态领域突破,探索"Any-to-Any"大模型技术路径,如Google Gemini和Codi-2处于早期阶段,需实现跨模态知识学习与信息对齐 [1] - 当前主要工作集中在Transformer架构向图像、视频、3D等模态扩展,完善单模态感知/生成模型后再推进跨模态融合 [1] 图像模型进展 - 2023年前已建立CLIP、Stable Diffusion、GAN等基础模型,衍生Midjourney、DALL·E等成熟文生图应用 [2] - 近年重点探索ViT、DiT等视觉Transformer架构,推动GLIP、SAM、GPT-V等LLM与视觉模型融合成果 [2] 视频模型技术 - 基于图像生成模型(如扩散模型)叠加时间维度对齐,形成VideoLDM、W.A.L.T.等文生视频方案 [5] - Sora采用Diffusion Transformer架构实现突破性视频生成,首次展现"智能涌现"特征 [5] - 主流技术路径为文生图模型+时序对齐,辅以插帧超分、噪声对齐、LLM增强描述等方法提升质量 [5] 3D模型开发现状 - 技术路线延伸自2D图像生成(GAN/Diffusion/VAE等),产生3D GAN、MeshDiffusion、Instant3D等早期成果 [8][9] - 数据表征以NeRF(神经辐射场)为核心技术,支持网格、点云、体素等多种形式 [9] - 数据集稀缺,ShapeNet含5.1万3D CAD模型,Objaverse-xl达1000万对象规模 [9] 音频模型创新 - Transformer架构推动Whisper large-v3、VALL-E等项目突破,增强多语种/自然声/零样本学习能力 [11] - Omni模型通过neural audio codec编码,结合扩散模型实现音频合成技术迭代 [11]
鹅厂放大招,混元图像2.0「边说边画」:描述完,图也生成好了
量子位· 2025-05-16 03:39
腾讯混元图像2.0模型发布 - 腾讯发布混元图像2.0模型(Hunyuan Image 2.0),首次实现毫秒级响应,支持边说边画实时生成,用户描述与绘制过程同步进行,体验流畅[1] - 模型支持实时绘画板功能,用户可手绘元素并辅以文字说明,系统根据草图实时生成图像[2][3] - 提供多种交互方式包括语音输入(中英文)和上传参考图,参考图可提取主体或轮廓特征并调整约束强度[18][19][21] 模型性能特点 - 模型参数相比HunyuanDiT提升一个数量级,更大模型尺寸保障性能上限[37] - 采用自研超高压缩倍率图像编解码器,优化信息瓶颈层并强化对抗训练,显著降低生图时耗[38] - 适配多模态大语言模型(MLLM)作为文本编码器,语义遵从能力大幅提升,在GenEval测试中指标远超竞品[39][40] 技术创新点 - 通过强化学习后训练(包括通用后训练与美学后训练)提升图像生成真实感[41] - 采用自研对抗蒸馏方案,基于隐空间一致性模型实现少步高质量生成[42] - 模型经过全尺度多维度强化学习训练,在多轮图像生成和实时交互方面表现突出[36][46] 应用功能展示 - 支持16:9比例生图效果更佳,保持角色一致性能力优秀,输入补充描述时主体特征稳定[12][13] - 可处理多种风格包括真实场景、动漫风、编织风等,提供画面优化功能自动调整构图、景深和光影[14][16][27] - 示例显示上传简笔画可一键上色,上传蛋糕照片可结合文本指令生成新图像[22][25] 行业动态 - 腾讯混元团队预告将发布原生多模态图像生成大模型,重点关注多轮生成和实时交互体验[45] - 模型技术细节将通过后续技术报告披露,官网已开放访问[43][47]
文生图开源模型黑马,来自合肥
AI研究所· 2025-05-09 17:44
文生图赛道竞争格局 - AI文生图赛道近期竞争激烈,OpenAI的GPT-4o凭借强大文生图功能引爆科技圈,支持自然语言描述生成多帧连贯画面,对设计、影视、广告等行业传统模式产生冲击[1] - 中国公司智象未来(HiDream.ai)凭借HiDream-I1图像生成大模型和HiDream-E1交互编辑模型成为行业焦点,是首个登顶ArtificialAnalysis图像竞技场榜单的中国自研生成式AI模型[2][3] - HiDream-I1在HuggingFace趋势榜排名第二(图像榜第一),在DPG-Bench、GenEval和HPSv2.1等评测中表现领先,复杂提示理解、对象执行能力、图像美感等达业界SOTA水平[3][6] HiDream-I1技术架构与性能 - 模型采用SparseDiffusionTransformer(SparseDiT)架构,融合SparseMixture-of-Expert(MoE)技术,精准捕捉文本细节并降低计算成本[3] - 在扩散模型蒸馏中融入生成对抗学习(GAN),提升图像真实感和清晰度,ELO评分1123分,仅比GPT-4o低0.8%[3][6] - HPSv2.1测试得分33.82,超越MidjourneyV6(30.29)、DALL-E3(31.44)和SD3(31.53);GenEval综合得分0.83,关系理解DPG-Bench得分93.74[6] 商业化落地与场景应用 - 与寒武纪合作完成多模态大模型在MLU加速卡适配,性能达国际主流水平;与中国移动联合推出AI视频彩铃产品"AI一语成片",日曝光量超7亿次[11] - 在影视领域可快速生成概念设计、场景布局和角色建模;教育领域生成生物结构图等教学素材;电商领域生成产品展示图和广告海报[11] - 计划推出多模态Agent产品,支持自然对话生成编辑图片视频并串联故事情节[12] 合肥AI产业生态 - 合肥高新区为智象未来提供算力支持,通过"中国声谷""科大硅谷"整合产业链资源,形成算法研发到场景应用的全链条支撑[14][15] - 合肥人工智能产业2023年营收超2000亿元,中国声谷入园企业超2200家,十亿级企业20余家,专精特新企业近200家[16] - 产业竞争力全国第五,形成"龙头引领+新锐突围"格局,集聚企业超千家,2024年总营收超千亿元[18][20]
文生图进入R1时刻:港中文MMLab发布T2I-R1
机器之心· 2025-05-09 02:47
核心观点 - 提出T2I-R1模型,基于双层次CoT推理框架(Semantic-CoT和Token-CoT)与强化学习,显著提升文本生成图像的质量和语义对齐 [1][3][9] - 首次将思维链(CoT)推理策略应用于自回归图片生成领域,解决跨模态对齐和细粒度视觉细节生成问题 [1][7] - 通过BiCoT-GRPO强化学习方法联合优化Semantic-CoT和Token-CoT,利用多专家模型集成作为奖励机制提升生成效果 [11][12] 方法架构 Semantic-CoT - 在图像生成前进行文本推理,设计全局结构(如对象外观和位置),显式规划Prompt以降低生成难度 [7][9] - 示例:生成冰屋时推理其"空气动力学穹顶形状""光滑半透明表面""入口斜坡隧道"等语义细节 [6][14] Token-CoT - 在离散空间中逐块生成图像Token,专注于底层像素细节和视觉连贯性 [7] - 与文本CoT类似,基于先前Token输出后续Token,维持相邻Patch的一致性 [7] 技术突破 - 统一理解与生成能力:基于ULM(Janus-Pro)框架整合双层次CoT,避免独立模型带来的计算成本增加 [8][9] - 奖励机制创新:集成多专家模型(如目标检测器、VQA模型)从提示对齐、美学吸引力、对象存在性等维度综合评估 [12] 性能表现 - 定量结果:在T2I-CompBench和WISE Benchmark上分别比基线模型提升13%和19%,部分子任务超越FLUX-1 [16] - 定性优势:处理非常规场景(如"火车底部的小猪")时展现更强鲁棒性,生成结果更符合人类意图 [13][14]
AI生成字体设计我有点玩明白了,用这套Prompt提效50%。
数字生命卡兹克· 2025-04-13 17:16
即梦3.0文字生成功能 - 核心功能是通过输入文字内容自动生成具有视觉设计效果的图文作品,涵盖多种风格如抽象概念、电竞动力、清逸笔迹等[2][3] - 支持中英文双语输入,并自动匹配适合的视觉风格和排版布局[3][4][6][8] - 生成效果包括文字边界溶解、字体半透明层叠、背景纹理融合等高级视觉处理技术[3][4] 风格分类与应用场景 - 抽象艺术风格:适用于哲学思考类文字,采用留白解构和意识流碎片化排版[3][14] - 电竞科技风格:适合热血竞技主题,使用尖锐俐落字体搭配深色科技背景[4][22] - 甜美可爱风格:针对轻松活泼内容,采用圆润蓬松字体和粉彩色调[8][41] - 历史文化风格:融合书法笔触与虚拟空间技术,适合国风题材[10][12] - 工业机械风格:适用于硬核科技主题,呈现金属切割感和霓虹光效[22][52] 技术实现原理 - 采用智能匹配系统分析输入文字的情感与内涵,自动选择对应风格集合[58] - 通过高频提示词反推机制优化输出效果,结合质量词提升生成稳定性[57] - 支持多模态输入,用户可上传图片辅助AI识别并生成匹配风格[59][62] 行业应用价值 - 教育培训领域可快速制作具有文化深度的视觉教材[12][35] - 娱乐产业能高效产出电竞、动漫等垂直领域宣传素材[4][45] - 文创行业可批量生成融合传统书法与现代设计的商业作品[10][12] - 营销领域适用于制作社交网络迷因和病毒式传播内容[17][67] 产品优化方向 - 当前在专业字体设计领域仍有提升空间,如书法五大书体的精确还原[51][56] - 需加强印刷字体类别的输出稳定性,如宋体、黑体等核心字体的准确生成[54][56] - 未来可拓展方向包括增强多语言支持、提升排版精细度等[69]
高速事故发酵,雷军首次回应;OpenAI估值3000亿美元,孙正义投的;金价连续新高,老铺黄金收入和利润也是丨百亿美元公司动向
晚点LatePost· 2025-04-01 15:36
小米SU7高速交通事故 - 小米SU7标准版在德上高速公路发生严重交通事故,造成3人死亡,事发时车辆处于NOA智能辅助驾驶状态,时速116km/h [1] - 事故路段因施工封闭自车道,车辆检测障碍物后减速,驾驶员接管车辆后与隔离带水泥桩碰撞,碰撞前时速97km/h [1] - 小米汽车公告称车辆起火非自燃,推测系猛烈撞击导致,尚未能分析起火原因及车门状态 [1] - 雷军承诺配合调查并回应社会关切 [1] OpenAI动态 - OpenAI向免费用户开放基于GPT-4o的文生图功能,可能限制每日生成次数 [1][2] - 用户需求激增导致GPU资源紧张,生成吉卜力风格图片引发版权讨论 [2] - GPT-4o模型拒绝生成可能侵权图片,使用量下降缓解算力压力 [2] - 新功能上线1小时新增百万用户,每周活跃用户5亿,每月7亿 [2] - 完成软银领投400亿美元融资,投后估值超3000亿美元 [2] - 计划未来几个月开源推理语言模型,参数较小可本地部署 [2] 老铺黄金业绩 - 2024年营业收入85.06亿元,同比增长167.5%,净利润14.73亿元,增长253.4% [3] - 增长主因品牌影响力扩大、门店新增扩容及产品迭代 [3] - 研发费用同比增长78.8%,销售及分销开支12.37亿元,增长113.5% [3] - 新增7家高端商场门店,优化扩容4家门店 [3] 英特尔战略调整 - 新任CEO陈立武计划剥离非核心业务,开发定制芯片,打造代工厂业务 [4] - 目标与重要客户建立关系,推动文化变革吸引人才 [4] - 英特尔市值缩水至不足1000亿美元,面临研发落后、管理混乱等问题 [4] 台积电扩产计划 - 高雄新建晶圆厂将新增7000个技术岗位,计划下半年量产2nm芯片 [5] - 新竹也将生产2nm芯片,持续在中国台湾扩展投资 [5] - 此前宣布在美国投资1000亿美元建2nm晶圆厂,预计2030年前建成 [6] 比亚迪方程豹新车 - 方程豹推出紧凑型SUV钛3,预售价13.98万元起 [7] - 配备高阶智驾系统,提供单电机后驱和双电机四驱,CLTC续航501公里 [7] - 2024年总销量56388辆,豹5占比超80% [7] 新势力车企交付量 - 零跑汽车3月交付37095台,同比增长154% [8] - 理想汽车交付36675台,增长26.5%,小鹏交付33205台,增长268% [8] - 极氪集团销量40715台,蔚来交付15039台,增长40.1% [8] 永辉供应链改革 - 叶国富提出聚焦核心供应商、大单品和长期主义 [9] - 计划三年孵化100个亿元级单品,亲自筛选200家核心供应商 [9] - 反对采购腐败,建立供应商直接反馈渠道 [9] 消费贷利率调整 - 多家银行个人信用消费贷利率上调至3%以上 [10] - 此前利率持续降低导致部分银行不良贷款率上升 [10] 宇树科技融资传闻 - 传闻蚂蚁集团和中国移动将投资宇树科技,创始人称消息不实 [11] - 相关沟通从去年开始,交易尚未完成 [11] 折叠屏手机市场 - 机构预计今年折叠屏手机市场将首次下滑 [12] - 三星和OPPO表现不及预期影响市场,上游订单仍在增长 [12] - 苹果预计明年发布折叠屏产品 [12] 蓝领与白领收入 - 2013-2024年蓝领月均收入从2868元增至6150元,增速114.4% [13] - 白领2024年月均收入8400元,增速仅0.1%,较2022年峰值下滑超500元 [13] - 直播行业头部0.25%主播获得90%以上收益,九成主播月收入不足3000元 [13]
OpenAI复制吉卜力,大模型正在吞噬一切产品?
创业邦· 2025-03-28 10:32
GPT-4o文生图功能升级 - OpenAI发布GPT-4o文生图功能,付费用户可直接在ChatGPT调用生成和修改图片,无需使用DALL-E模型[4] - 新功能发布后迅速流行,宫崎骏吉卜力画风成为最热门生成风格,部分源于OpenAI创始人演示引导[7] - 相比竞品,GPT-4o在图像文字生成、细节一致性等方面表现更优,显著超越Midjourney和Stable Diffusion等对手[7] 技术实现与优势 - 采用全模态架构和自回归生成方法,区别于传统扩散模型技术[13] - 大幅提升文本-图像对齐能力,能准确理解复杂提示词中的多对象关系和属性描述[14][16] - 可能采用"组合-分解式"生成方案解决传统模型颜色混淆等问题[16] - 控制门槛降低,用户可用自然语言指令替代复杂提示词工程[10] 行业影响与竞争格局 - 直接冲击文生图创业公司,原有调优算法和工作流程被大模型更新取代[10] - Midjourney等公司面临挑战,其基于CLIP模型和社区反馈建立的商业模式受到威胁[21] - 大模型能力持续进步可能使垂直领域优化产品失去存在价值[22] - 行业未来格局取决于技术演进方向,可能向资源集中的大公司倾斜[23] 多模态应用扩展 - GPT-4o具备处理文本、视觉、音频等多模态数据能力,但目前尚未完全开放所有功能[13] - 类似编程领域的"氛围编程"趋势,文生图领域也出现专业化流程简化的现象[10][19] - 大模型正在吞噬依赖它的应用层,从代码生成到图像创作均呈现此趋势[17][20]