即梦 3.0

搜索文档
谷歌nano banana正式上线:单图成本不到3毛钱,比OpenAI便宜95%
机器之心· 2025-08-27 00:46
产品发布与定位 - 谷歌正式推出图像生成与编辑模型Gemini-2.5-Flash-Image-Preview,具备SOTA图像生成与编辑能力、角色一致性和高速性能 [2][3] - 该模型在Google AI Studio和Gemini API中提供免费预览,支持32k上下文长度及温度等高级参数控制 [5][9] - 模型暂不支持中文输入图像生成与编辑功能,仅返回文本响应 [6] 技术能力与创新 - 核心突破在于跨图像的人物形象一致性保持,支持对人物、宠物等主体进行换装、换场景编辑而不改变特征 [16][17] - 支持多轮迭代编辑(如从空房间逐步添加家具)、多图合成新场景、风格迁移(如将花瓣纹理应用于雨靴) [21][22][23] - 集成Gemini原生世界知识,可结合教育场景实现交互式应用(如画布生成教育内容) [24] 商业化与成本 - 定价为文本输入/输出每百万token 0.3/2.5美元,图像输入/输出每百万token 0.3/30美元 [10] - 单张图像生成成本约0.039美元(约0.28元),显著低于OpenAI同类服务成本 [11] - 所有生成图像均附带可见水印及隐形SynthID数字水印以标识AI生成属性 [26] 市场表现与竞争地位 - 在Artificial Analysis图像编辑排行榜以1212 ELO分数位列第一,超越GPT-4o(1101分)和FLUX.1 Kontext(1092分) [37][38] - 在文生图榜单中位列第三(1161分),仅次于字节跳动Seedream 3.0(1166分)和GPT-4o(1164分) [39] - 在LM Arena榜单中同时获得文生图(1147分)和图像编辑(1362分)双料冠军,投票量超220万次 [40] 应用生态与案例 - 谷歌提供定制化演示模板(如“Past Forward”展示年代变换效果、“CoDrawing”教育工具) [19][24] - 公司高层及行业专家(如Jeff Dean、Demis Hassabis)公开测试并展示足球运动员卡牌、个人形象编辑等用例 [27][28] - 用户可基于单张照片生成视频内容,或通过多轮编辑实现渐进式场景构建 [16][22]
77万人围观的吉卜力风「游戏」视频,我们用3个国产AI整出来了(含提示词)
机器之心· 2025-06-19 02:28
AI在游戏开发中的应用潜力 - 网友通过AI工具生成吉卜力风格游戏视频并登上Reddit热榜,展示AI在游戏视觉创作中的潜力[2][3] - a16z合伙人Justine Moore指出,通过提示词创建虚拟世界并与AI驱动的角色互动将带来革命性体验,暗示AI在动态虚拟环境生成中的价值[4] - 视频制作流程涉及Midjourney、Kling 2.1等工具生成图像和视频,并添加HUD元素和音效,技术门槛较低[7][8] 国产AI视频生成模型的竞争 - 即梦3 0在文生图测试中表现优异,支持复杂提示词并实现高质量输出,中英文字体生成效率高[11][12] - 国产视频模型如可灵2 1、即梦视频3 0 Pro和Hailuo 02密集发布,竞争加剧,部分模型已集成AI音效功能[20][21] - 多模型对比测试显示,国产模型在动态场景生成(如市场、海岸驾驶)中具备差异化能力[23][24][25][26] AI对游戏产业的颠覆性影响 - 传统3A游戏开发成本高昂(如《黑神话·悟空》每小时成本1500万-2000万元),AI生成技术可大幅降低制作成本[29] - 谷歌GameNGen等模型实现无引擎动态画面生成,玩家可体验个性化剧情和开放世界,打破预设内容限制[30] - AI工具如Buildbox 4 Alpha降低开发门槛,非专业用户可通过提示词生成游戏资产,可能催生新商业模式[31] 技术挑战与未来展望 - 实时生成需解决算力瓶颈和质量平衡问题,现有模型仅支持简单游戏且存在图像故障[32] - 版权归属和虚拟角色行为规范等法律问题待明确[32] - 行业预测未来5-10年可能出现完全由AI生成的游戏,技术演进方向明确[33]