豆包・图像编辑模型SeedEdit 3.0

搜索文档
腾讯研究院AI速递 20250731
腾讯研究院· 2025-07-30 16:03
ChatGPT学习模式 - OpenAI推出"学习模式"新功能,采用苏格拉底式引导方式帮助用户理解复杂概念 [1] - 所有版本用户均可免费使用,功能包括交互式提示、分步解答和个性化支持 [1] - 系统会根据用户教育背景和知识基础自动调整教学策略 [1] Grok视频功能 - xAI即将为Grok iOS应用推出"Imagine"视频生成功能,支持带音频的视频生成 [2] - 可一次性生成4段视频,效果逼真细节丰富,支持多种风格生成 [2] - 提供近乎实时的图像生成,支持Spicy、Fun和Normal等预设模式 [2] 昆仑万维开源模型 - 开源多模态统一模型Skywork UniPic仅需1.5B参数即可实现与百亿参数专用模型相当效果 [3] - 在单一模型中实现图像理解、文生图和图像编辑三大能力深度融合 [3] - 在GenEval和DPG-Bench等多个基准测试中达到行业SOTA水平 [3] 群核科技3D数据集 - 发布全球首个大规模3D语义数据集InteriorGS,包含1000个精细3D高斯语义场景 [4] - 覆盖超过80种室内环境,将3D高斯技术与自研空间大模型SpatialLM深度融合 [4][5] - 已与谷歌、斯坦福、英特尔等机构合作,为智元机器人等企业提供仿真数据训练 [5] 拓竹科技3D打印 - 3D模型平台MakerWorld全面接入腾讯混元3D,预计月调用量突破10万次 [6] - 混元3D实现0.1毫米级高精度建模,几何分辨率达1024级 [6] - 支持文字图片输入快速生成,具备物理级材质建模能力 [6] WPS办公智能体 - 实现AI与办公软件深度融合,一站式完成文案写作、PPT制作等办公任务 [7] - 采用原子化操作技术智能识别修改边界,精准锁定内容范围 [7] - 提供AI搜索、知识库和AI聊文档等功能,支持随身语音助手 [7] 豆包图像编辑 - 发布SeedEdit 3.0模型,支持通过自然语言指令进行多种图像编辑操作 [8] - 在文字修改、背景替换等场景表现对标GPT-4o和Gemini 2.5 Pro [8] - 采用多阶段训练策略实现8倍推理加速,运行时长从64秒降至8秒 [8] NotebookLM视频功能 - 推出"视频总览"功能,可将笔记、PDF、图片自动生成结构清晰的视频 [10] - 用户可定制视频内容,增强个性化学习体验 [10] - 已向所有英文用户开放,Studio面板同步升级 [10] 理想汽车VLA模型 - 推出业内首个量产VLA司机大模型,8月OTA推送至AD Max车型 [11] - 能理解自然语言指令、根据记忆设定路段速度、复杂路况下判断风险 [11] - 开发依靠12亿公里有效数据和13 EFLOPS训练平台 [11] 中国AI发展 - 中国AI技术在两年内取得巨大进步,多个大模型达到全球领先水平 [12] - "开放权重"策略被认为是推动中国AI快速发展的关键因素 [12] - 提倡加强中美AI合作,共同应对技术滥用风险 [12]
P图手残党有救了,豆包·图像编辑模型3.0上线,一个对话框搞定「增删改替」
机器之心· 2025-07-30 05:13
行业趋势 - 图像编辑需求日益个性化,对工具智能化要求提升[2] - AIGC领域技术持续突破,头部厂商在图像/视频生成领域保持活跃[83] - 国内厂商通过多样化平台触达用户,推动"模型即产品"模式[84] 产品发布 - 火山引擎发布豆包・图像编辑模型SeedEdit 3.0,主打"全能且可控"[3][4] - 模型三大优势:指令遵循能力强化、主体保持优化、生成质量提升[5] - 支持人像编辑、背景更改、光影转换等复杂场景,关键指标平衡性突出[5] 技术能力 - 基于Seedream 3.0架构,解决语义一致性/局部编辑/细节保留等技术难题[66][67] - 采用多阶段训练策略(预训练+微调),引入特定奖励模型优化高价值属性[78] - 实现8倍推理加速,运行时长从64秒降至8秒[80] - CLIP评估显示编辑保持效果领先Gemini 2.0/Step1X/GPT-4o等SOTA模型[68] 应用场景 - 电商领域:一键生成商品海报,自动匹配背景与文案[45][47] - 影视创作:快速调整镜头画面/替换背景/添加特效[87] - 游戏开发:高效修改角色与场景设计元素[87] - 个人用户:支持消除路人/变色/风格转换等17种编辑功能[18][34][39] 竞品对比 - 文字编辑任务中精准率显著优于GPT-4o(乱码)和Gemini 2.5 Pro(指令偏离)[55] - 风格转换时人物特征保持度优于竞品,避免儿童涂鸦式失真[58][60] - 复杂消除任务中完整执行指令,背景修复自然度领先[61][62] 数据与架构 - 采用合成数据/专家数据/视频帧等多源数据,多粒度标签策略提升鲁棒性[72][74] - 视觉理解模型+因果扩散网络架构,新增连接模块对齐编辑意图[76] - 支持原生1K-2K分辨率生成,强化人脸与物体细节保留[77] 市场影响 - 推动图像创作从专业化工具向智能化/自动化转型[86] - 降低C端用户创作门槛,释放非专业人群创意潜力[85] - 预计在影视/广告/电商等B端市场激发新应用场景[87]