Workflow
文生图
icon
搜索文档
ChatGPT引入PS 用一句话即可修图
北京商报· 2025-12-16 03:11
核心观点 - Adobe宣布将其核心创意软件(Photoshop、Express、Acrobat)集成至ChatGPT平台,用户可通过自然语言指令在聊天界面内直接使用这些工具进行图像美化、设计和PDF编辑,此举旨在触达ChatGPT超8亿的周活跃用户并降低创意工具的使用门槛 [1] - 此次合作是OpenAI将ChatGPT打造为数字服务“入口”战略的一部分,通过集成第三方应用来扩展平台功能,Adobe是继Spotify、Zillow、Figma之后加入该生态的公司 [2] - 尽管通过ChatGPT调用,Adobe强调其生成能力基于自研的Firefly模型,以确保生成内容的商业使用权和版权保障,避免第三方模型的潜在版权争议 [2] - 行业观点认为,AI技术(如OpenAI的GPT-4o)正持续降低高质量图片生成的门槛和成本,有望在广告等下游场景广泛应用,同时AI对生产力效率的提升将持续赋能传媒、数字营销、电商等多个应用领域 [3][5] 公司动态与合作 (Adobe & OpenAI) - **产品集成详情**:Adobe推出适用于ChatGPT的Photoshop、Express和Acrobat,用户可直接在聊天机器人中通过文字描述使用这些工具,例如美化照片、设计信函、编辑PDF,且无需离开ChatGPT界面 [1] - **用户获取与策略**:此次合作为Adobe提供了将其产品展示给ChatGPT超8亿周活跃用户的机会,目标是帮助新手用户轻松上手,若需更强大功能可跳转至独立应用 [1] - **技术实现与用户体验**:在ChatGPT的“扩展模式”下,用户输入自然语言指令(如“把照片背景换成夕阳海滩”)即可自动调用Adobe Express生成初稿,并支持在聊天界面内直接微调色调、字体等参数 [2] - **版权与核心技术**:Adobe强调,即使通过ChatGPT调用,所有生成内容均基于其自研的Firefly系列模型,用户享有商业使用权与版权保障,避免了潜在的第三方模型版权争议 [2] - **OpenAI的平台战略**:集成Adobe应用是OpenAI将更多第三方应用引入ChatGPT的一部分,旨在将其打造为数字服务的“入口”,该应用集成功能于今年10月首次推出 [2] 行业趋势与竞争格局 - **AI图像生成技术进展**:OpenAI发布的GPT-4o在图像生成方面具有更好的文本集成、上下文理解及多样化风格等优势,其“吉卜力风格”图像生成功能曾在社交媒体引发热潮 [3] - **技术应用与影响**:GPT-4o原生图片生成功能被认为跨越了文生图的提示词和效果两大门槛,有望在广告等下游场景广泛使用,降低高质量广告图片的生成成本 [3] - **基础设施需求**:AI生成图片的普及需要巨量推理算力支撑,例如OpenAI GPUs未能广泛支撑用户对GPT-4o图片生成功能的需求,体现了推理算力对AI应用的重要保障作用 [3] - **产品同质化与竞争焦点**:在AI技术成为产品功能迭代基础的情况下,图片编辑产品在技术积累上差别不大,竞争更多体现在功能玩法的丰富以及如何通过营销吸引用户使用和留存 [4] - **AI赋能广泛领域**:AI拉动的生产力效率提升有望持续赋能传媒应用,包括优质内容生产、数字营销、电商、文化科普及版权保护等多个领域的公司均有望受益 [5]
美团开源LongCat-Image模型,在文生图与图像编辑核心能力上逼近更大尺寸的头部模型
新浪财经· 2025-12-08 07:24
公司动态 - 美团LongCat团队于12月8日宣布开源其最新研发的LongCat-Image模型 [1] - 该模型参数规模为6B,通过高性能模型架构设计、系统性的训练策略和数据工程实现 [1] - 模型在文生图与图像编辑核心能力上逼近更大尺寸的头部模型 [1] 技术优势 - LongCat-Image采用文生图与图像编辑同源的架构,结合渐进式学习策略 [1] - 在客观基准测试中,其图像编辑得分与中文渲染能力均领跑参评模型 [1] - 在文生图任务上,GenEval与DPG-Bench的表现证明其相比头部开源与闭源模型具备强竞争力 [1] 市场定位 - 该模型旨在为开发者与产业界提供“高性能、低门槛、全开放”的选择 [1]
BFL 创立一年估值 32.5 亿美金,AI 原生版 Dropbox 来了
投资实习所· 2025-12-02 05:12
产品传播与商业转化 - 图片和视频的传播效果良好 但长期持续使用取决于能否转化为生产力工具或帮助企业及用户赚钱的产品[1] - OpenAI的Sora早期获得大量自发传播 但近期用户使用量已大幅下跌 表明即使是知名公司单独推出新产品也存在挑战[2] - Google将Nano Banana能力整合到现有产品中是明智做法 单独推出产品希望不大[2] Elevenlabs财务表现 - 语音AI公司Elevenlabs过去12个月收入达到1.93亿美元 其中50%来自思科和Twilio等企业客户 另外50%来自YouTuber、播客主播和作家等早期用户[2] - 公司已经实现盈利 利润率约为60%[2] Black Forest Labs融资与估值 - AI图片生成创业公司Black Forest Labs完成3亿美元B轮融资 估值达到32.5亿美元[3] - 公司成立于2024年8月 估值增长迅速[3] - 融资由Salesforce Ventures和Anjney Midha联合领投[3] BFL技术愿景与定位 - 公司致力于构建像素级前沿模型 创造相机无法捕捉的画面 开发理解意图而不仅仅是执行提示的系统[3] - 长期目标是统一视觉感知、生成、记忆和推理 为视觉智能奠定基础[3] - 定位为模型企业 不直接推出面向用户的产品 而是通过API与Adobe、Canva、Meta和微软等公司合作[6] BFL团队背景与技术策略 - 三位联合创始人都是Stable Diffusion系列模型的原始共同创作者 也是潜在扩散模型的先驱[4] - 其研究成果为开源图像生成社区奠定基石 并影响了DALL-E 2/3和Sora等闭源模型的架构[4] - 采用开放权重方式发布核心模型FLUX.2 允许研究人员和开发者免费使用、定制和部署[6] - 技术成为Hugging Face上最受欢迎的图像模型之一 成功将研究成果转化为生产力工具[6] AI原生存储产品 - 有团队开发AI原生版Dropbox 种子轮融资近800万美元[6] - 与Google Drive和Dropbox基于文本的AI搜索不同 该产品愿景是成为文件操作系统 从存储优先变为理解优先[7] - 团队从零开始构建完全不同的技术架构[7]
让AI作画自己纠错!随机丢模块就能提升生成质量,告别塑料感废片
量子位· 2025-08-23 05:06
技术突破 - 清华大学、阿里巴巴AMAP(高德地图)、中国科学院自动化研究所联合推出S²-Guidance方法 通过随机丢弃网络模块动态构建弱子网络实现生成过程自我修正 避免繁琐参数调整并实现即插即用效果 [1][3] - 该方法在文生图和文生视频任务中显著提升生成质量与连贯性 具体表现为动态感增强、细节更精致、伪影减少、艺术表达丰富及物体协调性改善 [4][6][19] 技术原理 - S²-Guidance通过随机模块丢弃策略在前向传播时临时跳过部分网络模块 动态构建轻量化内生子网络 利用模型冗余特性暴露完整模型在高不确定性区域的错误倾向 [10] - 采用负向引导修正机制 通过引导公式"最终引导方向=标准CFG引导方向-子网络预测的高不确定性方向"实现自我纠错 精准规避低质量生成区域 [11][12] 性能优势 - 在SD3模型T2I-CompBench基准测试中 S²-Guidance在颜色(59.63%)、形状(58.71%)、纹理(56.77%)维度得分均超越CFG-Zero(52.70%/52.84%/53.37%)和CFG(53.61%/51.20%/52.45%) [27] - 在VBench视频评测中 Wan1.3B模型总分80.93分超越CFG-Zero(80.71) Wan14B模型总分82.84分超越CFG(82.65) 且在语义一致性(74.65)和对象类别(89.08)指标表现突出 [28] 应用效果 - 视频生成解决CFG两大痛点:物理真实性方面消除卡车横向漂移等失真现象 复杂指令遵循方面完整还原"金线环绕人脸+发光粒子"等复杂描述细节 [24][25] - 计算效率几乎无损耗 实验证明单次随机丢弃(N=1)效果与多次平均相当 通过多步迭代自然平均随机抖动实现高质量输出 [36][37]
Qwen-Image 模型上线基石智算,快来体验超强文本渲染能力
搜狐财经· 2025-08-14 15:48
公司动态 - 青云科技旗下基石智算CoresHub率先上线20B参数的MMDiT模型Qwen-Image,该模型由阿里通义千问团队开源[1] - Qwen-Image是Qwen系列首个文生图基础模型,在复杂文本渲染、图像编辑、多行布局等方面表现突出[1] - 该模型适用于通用图像生成、艺术风格创作及海报设计等场景[1] - 基石智算提供强大算力支持与便捷平台服务,帮助用户快速体验Qwen-Image[1] 技术亮点 - Qwen-Image具备超强文本渲染能力,支持中英文多行排版与段落级布局,实现高度保真视觉输出[2] - 模型通过强化多任务训练范式,在图像编辑中能精准修改目标区域并保持整体一致性[2] - 在多项公开基准测试中取得业内顶尖(SOTA)成绩,验证其卓越综合实力[2] 应用场景 - 可生成西部酒吧门口的柴犬形象,包含手写体文字与褪色英文标语等细节[9] - 支持创作云端棉花糖城堡场景,包含曲奇大门、巧克力文字等元素[11] - 能呈现复古街机厅像素风格画面,包含霓虹灯牌与日文贴纸等设计[12] - 可生成海底图书馆场景,包含发光海藻文字与羊皮卷轴等细节[12] - 支持创作太空飞船驾驶舱场景,包含多语言混合提示与俄文警告标识[13] 使用流程 - 登录coreshub平台进入模型广场选择Qwen-Image进行部署[3] - 部署时选择单卡4090D资源类型并复制外网链接访问[4] - 在Comfy UI页面加载成功后选择Qwen-Image模板并输入提示词[6]
“过气”的Sora,凭什么想做AI版的抖音?
新财富· 2025-06-24 08:10
Sora的战略转型与AI社交趋势 - OpenAI通过Sora开辟视频大模型赛道,但初期因产品延期导致竞争格局反转,国产AI视频模型如快手可灵1.0和MiniMax海螺AI迅速抢占市场[1][2][3][4] - Sora从视频生成工具转型为AI社交平台,新增图像生成模块GPT-Image-1,上线一周吸引1.3亿用户,日均生成1亿张图像,带动付费用户增长[15][16][17][18] - 新版Sora强化社交功能:提高图片作品占比、增加推荐/点赞/复制等交互组件、支持提示词复用和内容公开分享,接近完整图像社区形态[21][22][23][24] AI社交平台的行业逻辑 - 头部AI公司如马斯克xAI、月之暗面Kimi、OpenAI均布局社交领域,核心动机包括获取用户反馈提升模型能力及构建流量入口[7][8][10][11][12][40] - 社交平台通过UGC内容形成数据飞轮,Meta、Google、抖音已验证流量变现模式,OpenAI创始人Sam Altman认为10亿用户平台价值超越顶尖模型[43][44] - OpenAI 2024年营收40亿美元但亏损50亿美元,依赖ChatGPT订阅服务(2000万付费用户,年化营收50亿美元),需拓展高级会员提升收入[45][48][49][52] 图像/视频的社交属性与竞争格局 - GPT-Image-1通过高度风格化图像(如吉卜力画风)突破文生图审美瓶颈,满足个性化表达需求,实现跨文化传播[27][29][30][32] - 移动互联网时代Instagram、Snapchat等成功案例证明图像/视频是社交核心载体,当前短视频人均单日使用时长达138.4分钟,远超聊天应用[33][34][36][37][62] - AI社交面临传统社交巨头的阻击(如抖音整合豆包、微信接入元宝),新入局者需依赖AI技术突破存量竞争壁垒[56][60][61][64][65]
2025年中国多模态大模型行业模型现状 图像、视频、音频、3D模型等终将打通和融合【组图】
前瞻网· 2025-06-01 05:09
多模态大模型技术发展 - 行业聚焦视觉等重点模态领域突破,探索"Any-to-Any"大模型技术路径,如Google Gemini和Codi-2处于早期阶段,需实现跨模态知识学习与信息对齐 [1] - 当前主要工作集中在Transformer架构向图像、视频、3D等模态扩展,完善单模态感知/生成模型后再推进跨模态融合 [1] 图像模型进展 - 2023年前已建立CLIP、Stable Diffusion、GAN等基础模型,衍生Midjourney、DALL·E等成熟文生图应用 [2] - 近年重点探索ViT、DiT等视觉Transformer架构,推动GLIP、SAM、GPT-V等LLM与视觉模型融合成果 [2] 视频模型技术 - 基于图像生成模型(如扩散模型)叠加时间维度对齐,形成VideoLDM、W.A.L.T.等文生视频方案 [5] - Sora采用Diffusion Transformer架构实现突破性视频生成,首次展现"智能涌现"特征 [5] - 主流技术路径为文生图模型+时序对齐,辅以插帧超分、噪声对齐、LLM增强描述等方法提升质量 [5] 3D模型开发现状 - 技术路线延伸自2D图像生成(GAN/Diffusion/VAE等),产生3D GAN、MeshDiffusion、Instant3D等早期成果 [8][9] - 数据表征以NeRF(神经辐射场)为核心技术,支持网格、点云、体素等多种形式 [9] - 数据集稀缺,ShapeNet含5.1万3D CAD模型,Objaverse-xl达1000万对象规模 [9] 音频模型创新 - Transformer架构推动Whisper large-v3、VALL-E等项目突破,增强多语种/自然声/零样本学习能力 [11] - Omni模型通过neural audio codec编码,结合扩散模型实现音频合成技术迭代 [11]
鹅厂放大招,混元图像2.0「边说边画」:描述完,图也生成好了
量子位· 2025-05-16 03:39
腾讯混元图像2.0模型发布 - 腾讯发布混元图像2.0模型(Hunyuan Image 2.0),首次实现毫秒级响应,支持边说边画实时生成,用户描述与绘制过程同步进行,体验流畅[1] - 模型支持实时绘画板功能,用户可手绘元素并辅以文字说明,系统根据草图实时生成图像[2][3] - 提供多种交互方式包括语音输入(中英文)和上传参考图,参考图可提取主体或轮廓特征并调整约束强度[18][19][21] 模型性能特点 - 模型参数相比HunyuanDiT提升一个数量级,更大模型尺寸保障性能上限[37] - 采用自研超高压缩倍率图像编解码器,优化信息瓶颈层并强化对抗训练,显著降低生图时耗[38] - 适配多模态大语言模型(MLLM)作为文本编码器,语义遵从能力大幅提升,在GenEval测试中指标远超竞品[39][40] 技术创新点 - 通过强化学习后训练(包括通用后训练与美学后训练)提升图像生成真实感[41] - 采用自研对抗蒸馏方案,基于隐空间一致性模型实现少步高质量生成[42] - 模型经过全尺度多维度强化学习训练,在多轮图像生成和实时交互方面表现突出[36][46] 应用功能展示 - 支持16:9比例生图效果更佳,保持角色一致性能力优秀,输入补充描述时主体特征稳定[12][13] - 可处理多种风格包括真实场景、动漫风、编织风等,提供画面优化功能自动调整构图、景深和光影[14][16][27] - 示例显示上传简笔画可一键上色,上传蛋糕照片可结合文本指令生成新图像[22][25] 行业动态 - 腾讯混元团队预告将发布原生多模态图像生成大模型,重点关注多轮生成和实时交互体验[45] - 模型技术细节将通过后续技术报告披露,官网已开放访问[43][47]
文生图开源模型黑马,来自合肥
AI研究所· 2025-05-09 17:44
文生图赛道竞争格局 - AI文生图赛道近期竞争激烈,OpenAI的GPT-4o凭借强大文生图功能引爆科技圈,支持自然语言描述生成多帧连贯画面,对设计、影视、广告等行业传统模式产生冲击[1] - 中国公司智象未来(HiDream.ai)凭借HiDream-I1图像生成大模型和HiDream-E1交互编辑模型成为行业焦点,是首个登顶ArtificialAnalysis图像竞技场榜单的中国自研生成式AI模型[2][3] - HiDream-I1在HuggingFace趋势榜排名第二(图像榜第一),在DPG-Bench、GenEval和HPSv2.1等评测中表现领先,复杂提示理解、对象执行能力、图像美感等达业界SOTA水平[3][6] HiDream-I1技术架构与性能 - 模型采用SparseDiffusionTransformer(SparseDiT)架构,融合SparseMixture-of-Expert(MoE)技术,精准捕捉文本细节并降低计算成本[3] - 在扩散模型蒸馏中融入生成对抗学习(GAN),提升图像真实感和清晰度,ELO评分1123分,仅比GPT-4o低0.8%[3][6] - HPSv2.1测试得分33.82,超越MidjourneyV6(30.29)、DALL-E3(31.44)和SD3(31.53);GenEval综合得分0.83,关系理解DPG-Bench得分93.74[6] 商业化落地与场景应用 - 与寒武纪合作完成多模态大模型在MLU加速卡适配,性能达国际主流水平;与中国移动联合推出AI视频彩铃产品"AI一语成片",日曝光量超7亿次[11] - 在影视领域可快速生成概念设计、场景布局和角色建模;教育领域生成生物结构图等教学素材;电商领域生成产品展示图和广告海报[11] - 计划推出多模态Agent产品,支持自然对话生成编辑图片视频并串联故事情节[12] 合肥AI产业生态 - 合肥高新区为智象未来提供算力支持,通过"中国声谷""科大硅谷"整合产业链资源,形成算法研发到场景应用的全链条支撑[14][15] - 合肥人工智能产业2023年营收超2000亿元,中国声谷入园企业超2200家,十亿级企业20余家,专精特新企业近200家[16] - 产业竞争力全国第五,形成"龙头引领+新锐突围"格局,集聚企业超千家,2024年总营收超千亿元[18][20]
文生图进入R1时刻:港中文MMLab发布T2I-R1
机器之心· 2025-05-09 02:47
核心观点 - 提出T2I-R1模型,基于双层次CoT推理框架(Semantic-CoT和Token-CoT)与强化学习,显著提升文本生成图像的质量和语义对齐 [1][3][9] - 首次将思维链(CoT)推理策略应用于自回归图片生成领域,解决跨模态对齐和细粒度视觉细节生成问题 [1][7] - 通过BiCoT-GRPO强化学习方法联合优化Semantic-CoT和Token-CoT,利用多专家模型集成作为奖励机制提升生成效果 [11][12] 方法架构 Semantic-CoT - 在图像生成前进行文本推理,设计全局结构(如对象外观和位置),显式规划Prompt以降低生成难度 [7][9] - 示例:生成冰屋时推理其"空气动力学穹顶形状""光滑半透明表面""入口斜坡隧道"等语义细节 [6][14] Token-CoT - 在离散空间中逐块生成图像Token,专注于底层像素细节和视觉连贯性 [7] - 与文本CoT类似,基于先前Token输出后续Token,维持相邻Patch的一致性 [7] 技术突破 - 统一理解与生成能力:基于ULM(Janus-Pro)框架整合双层次CoT,避免独立模型带来的计算成本增加 [8][9] - 奖励机制创新:集成多专家模型(如目标检测器、VQA模型)从提示对齐、美学吸引力、对象存在性等维度综合评估 [12] 性能表现 - 定量结果:在T2I-CompBench和WISE Benchmark上分别比基线模型提升13%和19%,部分子任务超越FLUX-1 [16] - 定性优势:处理非常规场景(如"火车底部的小猪")时展现更强鲁棒性,生成结果更符合人类意图 [13][14]