Workflow
nano banana
icon
搜索文档
周鸿祎:语言是最重要的,语言掌握了就一通百通
新浪科技· 2025-09-24 05:09
责任编辑:江钰涵 新浪科技讯 9月24日下午消息,今日,罗永浩与周鸿祎深度对谈,周鸿祎表示,Meta的杨乐坤说要做什 么世界模型,李飞飞为什么要做世界模型?我觉得他们弄错了一个问题,就是语言是最重要的。因为人 类拿语言来干这么几件事,一个是来交流,一个是来做知识的传承,第三是做逻辑的推理,还有来描述 这个世界。其实通过语言,基本上你这个世界模型就能了解了。原来人工智能之所以不能取得进展,就 是因为没有了解语言这个金钥匙。一旦把语言了解了,就意味着对人类的知识了解了,对人类的世界能 有了解了,对人类的这个推理能力有了解了,就一通百通。 最近你看Google新出了一个叫nano banana的产品。他为什么很惊艳,就是说他对图形的理解超越了视 觉,他还是加了很多知识的这种融会贯通。所以为什么语言一旦突破,你看什么音乐模型、视频模型、 这种图形模型、视觉模型都获得很大的进展。(罗宁) ...
GOOGL's $3T Valuation & Gemini's A.I. "Momentum"
Youtube· 2025-09-19 13:00
I'm joined by Austin Lions, senior analyst, creative strategies. Austin, always appreciate when we get to chat with you and our wide-ranging conversations. So, Alphabet joined the $3 trillion and beyond club this week.Uh, what's your take on that first. I mean, I'm I'm not surprised. Who doesn't use Google, right.They've got a triedand-true revenue model, ad online advertising. They've got several apps with billions of daily users. Of course, we're in this new AI era, so they have to figure out how to infus ...
为了让大家用好nano banana,谷歌发布了一份官方提示词教程
Founder Park· 2025-09-03 12:21
文章核心观点 - 谷歌官方发布了针对nano banana(Gemini 2.5 Flash Image)的6套Prompt模板,帮助用户快速生成高质量图像 [1][4] - 模板设计基于讲故事式场景描述,覆盖写实摄影、贴纸插图、文本渲染、商业摄影、极简留白和漫画分镜六大应用场景 [3][4] - 通过结构化Prompt模板(包含主体描述、环境设定、光线参数、镜头细节等要素),可显著提升图像生成质量 [8][10][19][29][39][48][56] 写实摄影模板 - 需模拟专业摄影师思维,明确机位、镜头类型、光线和细节要素 [6][7] - 标准模板结构:A photorealistic [shot type] of [subject], [action or expression], set in [environment]. The scene is illuminated by [lighting description], creating a [mood] atmosphere. Captured with a [camera/lens details], emphasizing [key textures and details]. The image should be in a [aspect ratio] format [10] - 示例生成日本陶艺家特写肖像:使用85mm人像镜头、黄金时刻光线、竖版构图 [12][13] 插图与贴纸模板 - 需明确声明风格类型、关键特征、配色方案及背景要求(如白底) [19][20] - 标准模板结构:A [style] sticker of a [subject], featuring [key characteristics] and a [color palette]. The design should have [line style] and [shading style]. The background must be white [20] - 示例生成小熊猫贴纸:采用kawaii风格、粗壮描边、赛璐璐上色和鲜艳配色 [22][23] 文本渲染模板 - nano banana在文本渲染任务表现突出,需明确文字内容、字体风格和整体设计 [28][29] - 标准模板结构:Create a [image type] for [brand/concept] with the text "[text to render]" in a [font style]. The design should be [style description], with a [color scheme] [30] - 示例生成咖啡店Logo:极简风格、无衬线字体、咖啡豆图标与文字融合的黑白配色方案 [32][33] 商业摄影模板 - 商业感图像需具备干净背景、可控布光和展示产品卖点的机位 [38] - 标准模板结构:A high-resolution, studio-lit product photograph of a [product description] on a [background surface/description]. The lighting is a [lighting setup] to [lighting purpose]. The camera angle is a [angle type] to showcase [specific feature]. Ultra-realistic, with sharp focus on [key detail]. [Aspect ratio] [39] - 示例生成陶瓷咖啡杯产品照:三点柔光箱布光、45度仰角拍摄、聚焦蒸汽细节的方形构图 [41][42] 极简主义与留白设计模板 - 适合创建背景图像以便叠加文字,需明确主体位置、背景色和光线方向 [47][48] - 标准模板结构:A minimalist composition featuring a single [subject] positioned in the [position] of the frame. The background is a vast, empty [color] canvas, creating significant negative space. Soft, subtle lighting. [Aspect ratio] [48] - 示例生成枫叶图像:右下角构图、米白色背景、左上方向柔光的方形画幅 [50][51] 漫画分镜模板 - 适用于视觉叙事创作,需明确艺术风格、场景分层、对话文本和氛围营造 [55][56] - 标准模板结构:A single comic book panel in a [art style] style. In the foreground, [character description and action]. In the background, [setting details]. The panel has a [dialogue/caption box] with the text "[Text]". The lighting creates a [mood] mood. [Aspect ratio] [56] - 示例生成黑色电影风格漫画:高反差黑白墨线、雨景环境、硬光氛围和横向画幅 [59][60] 技术实现方式 - 提供完整Python API调用代码示例,通过修改Prompt内容和文件名即可实现批量生成 [15][17][27][46][53][64] - 代码基于google.genai库开发,支持图像保存与后期处理 [16]
「香蕉革命」首揭秘,谷歌疯狂工程师死磕文字渲染,竟意外炼出最强模型
36氪· 2025-08-29 07:53
产品核心功能 - 多图像融合生成全新画面,最多支持13张图片合并 [2] - 二维地图转化为三维景观,理解地理等高线知识 [19][25] - 从图像中提取物理结构,精准转化线稿和上色 [38][40] - 多轮交错生成技术,实现有记忆的连续创作 [53][57] - 支持逆向图像处理,包括黑白线框重新上色和破损照片修复 [37][44] 技术架构突破 - 集成Gemini世界知识引擎,具备地理建筑识别与标注能力 [6][10][12] - 采用原生与交错式生成技术,13秒内生成五张风格统一图像 [57][59] - Gemini团队负责逻辑推理与指令遵循,Imagen团队负责美学优化 [68][70] - 通过文字渲染训练提升图像宏观与微观结构理解力 [64][65][67] 应用场景创新 - 影视制作分镜生成,实现AI辅助拍电影 [10] - 建筑设计视角转换,支持工程绘图与三维视图生成 [26][29] - 虚拟试衣与动作复刻,达成摄影棚级效果 [28][33] - 室内设计与花园改造,生成多种风格方案 [59] - 机器人视角人物轮廓勾勒,实现终结者风格图像 [17] 市场反响与测试表现 - 在LMArena平台上线后迅速风靡社区 [46][48] - 盲测中Gemini 2.5 Flash Image成绩一骑绝尘 [48] - 网友创作涵盖超人COS、奥特曼整蛊等多样化内容 [2][42] - 内部测试处理芝加哥街景等现实场景精度获验证 [50] 开发方法论 - 基于推特用户反馈建立"差评榜"优化模型 [62] - 通过多模态上下文理解实现创意指令执行 [53][55] - 团队目标开发具备事实准确性的智能办公辅助功能 [74] - 追求超越用户指令的智能涌现与创造性输出 [76][78]
魔法再现,谷歌发布最强图片模型 nano banana,劈柴一秒回印度老家
36氪· 2025-08-27 08:19
产品性能与市场地位 - Google DeepMind实验室推出的Gemini-2.5-Flash-Image-Preview(别称Nano Banana)以1362分位列LMArena图片编辑模型排行榜榜首,显著领先第二名Black Forest的flux-1-kontext-max模型(1191分)[1][3] - 该模型在投票中获得2,521,035次支持,远超第二名模型的357,196次,且评分95%置信区间为±2,显示数据稳定性高[1] - 支持多模态输入(文本、图像、视频、音频),图像输出定价为每百万tokens 30美元,单张图像处理成本约0.3元人民币[48] 技术能力突破 - 实现通过文本指令精准编辑图像,包括更换背景、视角、色调及添加衣物,并保持主体特征高度一致(人物转圈后面部变化微小)[6][11][23] - 具备多轮次编辑与多图叙事能力,支持连续修改图像而不丢失原始特征,可生成漫画分镜、多角色互动及技术插图[6][25][27] - 处理速度达1-2秒/张,显著快于同类模型10-15秒的处理时长,且集成Veo3工作流后可快速生成高质量视频[47] 应用场景与用户反馈 - 在动漫领域表现突出,能根据手绘示意图生成多角色姿态一致的三视图及消费级漫画[25][27][33] - 支持科学插图绘制,具备高保真文本渲染与几何题目解答能力,5秒内完成复杂插图生成[43][44][45] - 用户实测反馈一致性极强(普通人物照片难以察觉面部变化),但名人面部处理偶有轻微失真,且过滤器存在误拒正常请求的情况[35][36][47]