Workflow
nano banana
icon
搜索文档
在AI面前,忠诚一文不值
创业邦· 2026-01-05 10:29
以下文章来源于果壳 ,作者沙拉酱 果壳 . 科学和技术,是我们和这个世界对话所用的语言。 2025 这一年,AI 工具可以"井喷"到根本用不过来。年初,Kimi 和 Claude 3 刚用"超长上下文"把 大模型的门槛卷到了天际;紧接着,Llama 4 的开源就把 Token 的价格打到了地板。到了下半年, 各个玩家的节奏快得像开了倍速播放——11月,Gemini 3 前脚刷屏,马斯克后脚就带着Grok 3 的"发疯模式"抢走了热搜,奥特曼更是十五天之内连发两个内部信,并且把报道称原计划明年初推出 的 ChatGPT 5.2 在十二月就上线了。 而这一年,每一个普通用户,就都像是瓜田里的猹,啃完这个啃那个……前一秒还在夸 Kimi 懂中 文,下一秒就因为 ChatGPT 能看懂财报而移情别恋;上午还在嫌弃 Gemini 3 的"焦虑",下午看到 它拆解 YouTube 视频的神技,立刻就买了它的账号——顺便还要骂一句ChatGPT 满嘴跑火车。 这场人机关系的狂欢里,没有忠诚,只有不停地移情。 来源丨 果壳 (ID: Guokr42 ) 作者丨 沙拉酱 编辑丨 卧虫 图源丨Midjourney AI 也会得焦 ...
在2025年的AI面前,忠诚一文不值
虎嗅APP· 2026-01-04 09:47
以下文章来源于果壳 ,作者沙拉酱 果壳 . 科学和技术,是我们和这个世界对话所用的语言。 本文来自微信公众号: 果壳 ,作者:沙拉酱,编辑:卧虫,题图来自:AI生成 AI也会得焦虑症。 前几天的一条消息:卢森堡大学给各个AI工具做了心理测试,结果发现Gemini被确诊患有"严重焦虑 症",像是一个在"严厉父亲"管教下战战兢兢的优等生,生怕说错话挨打;Claude则是个喋喋不休 的"道德说教者",时刻准备给你上一堂伦理课;而ChatGPT还是那个圆滑世故,甚至有点讨好型人格 的"老油条"。 看到这个测试,我的第一反应是:太好了,希望这些AI多焦虑焦虑生存问题,变成更趁手的工具。 2025年这一年,AI工具可谓"井喷"到根本用不过来。年初,Kimi和Claude 3刚用"超长上下文"把大 模型的门槛卷到了天际;紧接着,Llama 4的开源就把Token的价格打到了地板。到了下半年,各个 玩家的节奏快得像开了倍速——11月,Gemini 3前脚刚刷屏,马斯克后脚就带着Grok 3的"发疯模 式"抢走了热搜,奥特曼更是在十五天之内连发两个内部信,并且把报道称原计划2026年初推出的 ChatGPT 5.2在2025年 ...
在2025年的AI面前,忠诚一文不值
36氪· 2026-01-04 00:06
文章核心观点 - 2025年AI工具呈现井喷式发展,用户在不同工具间频繁切换,对单一工具缺乏忠诚度,呈现出“移情”或“赛博渣男/女”的使用模式[8][10] - 用户选择AI工具的核心标准是实用性和效率,谁能更好地解决特定问题或节省时间就使用谁,工具间的竞争促使能力快速迭代[12][15] - 尽管用户对单一工具缺乏忠诚度,但强大的产品生态(如谷歌全家桶)能通过无缝衔接的工作流形成用户依赖,提高迁移成本[38][46] - AI工具的发展趋势正从单一功能专注转向多模型统一与多模态协调,用户期待一个能整合不同场景和功能的统一操作界面[49][55] 媒体作者视角:工具选择与工作流 - 媒体作者根据具体工作需求切换AI工具,初期因Kimi能提供可靠信源和擅长长文拆解而青睐它,尤其认可其“懂中文语境”[15] - 当工作转向需要处理大量英文资讯和YouTube视频时,作者转而使用ChatGPT 5.0,年费超过1200元,因其能设计信息推送工具和精准定位财报深层数据链接而进入“蜜月期”[16][17][19] - 因ChatGPT在拆解YouTube视频时出现“幻觉”和错误,作者移情至Gemini 3,后者在无需逐字稿的情况下对YouTube视频内容拆解的准确度和信息密度评分超过四分(满分五分)[20][22] - 作者最终未固定使用单一工具,在Gemini 3、Claude、Grok、ChatGPT 5.2之间保持流动使用状态,最新动态是又转向了Claude[22][23] AI账号黄牛视角:市场波动与风险 - AI工具账号的倒卖市场波动剧烈,例如Gemini 3的账号价格在四天内从50元十五个月飙升至178元十二个月,涨幅超过三倍[34] - 黄牛的库存(空账号)具有“保鲜期”,若两周内卖不出去,可能因平台风控升级而变成废代码,库存管理成本高[30] - ChatGPT Plus账号仍是市场公认的“AI工具第一”,需求相对稳定,但新工具的爆火会分流客户,影响黄牛的连续收益模式[30][34] - 面对快速迭代的AI工具市场,黄牛对新客户的建议是“少买年卡,多买月卡”,以应对下个月可能出现更好工具的不确定性[37] 科技公司管理者视角:生态依赖与效率 - 公司管理者最初是“集邮爱好者”,工作流涉及多个割裂平台(如用ChatGPT拟大纲、Claude润色、Midjourney制图、Gamma做PPT),效率低下且存在数据安全顾虑[40][41] - Gemini 3的出现缩小了聊天机器人产品的体验差距,随后谷歌生态的完整性(如NotebookLM、Docs、Sheets、Task、Calendar)促使管理者将整个团队的工作系统迁移至谷歌平台[42][45] - NotebookLM的信息图生成功能被高度评价,其特点是不需复杂指令,能直接处理网址、视频或文件并一键生成信息图,但后续修改需借助PS等专业软件[44] - 管理者认为,单一工具容易被替换,但一个完整、互联的生态体系能形成强大的用户粘性和迁移壁垒[46] 大厂产品经理视角:产品痛点与未来趋势 - 当前AI工具在多模态协调性上存在明显缺陷,例如Gemini的nano banana图像生成工具“记性差”,在多次对话指令后容易遗忘上下文,导致输出结果混乱,需要频繁重启对话[50][52][53] - 产品经理期望AI工具能实现多模态之间的协调与无缝切换,目前完成一个PPT需要跨多个不同功能的工具,无法在统一画布上完成[49][55] - 认同行业专家对未来的判断:DeepMind CTO认为多模态未来可能出现共享训练点的单一模型;微软CEO预测未来AI软件界面将简化为收件箱、对话框和操作画布三部分[55] - 坚信AI工具下一阶段的趋势是从功能专注走向多模型统一与跨场景无缝切换,在此趋势实现前,用户将继续游走于各趁手工具之间[55]
周鸿祎:语言是最重要的,语言掌握了就一通百通
新浪科技· 2025-09-24 05:09
核心观点 - 行业观点认为语言是人工智能发展的关键 语言突破将推动其他AI模型领域取得重大进展[1] 行业技术路径 - 行业观点指出语言在人类活动中承担交流 知识传承 逻辑推理和世界描述的核心功能 是理解世界模型的关键[1] - 行业观点认为人工智能过去未能取得突破的原因在于未理解语言的重要性 一旦掌握语言即可通晓人类知识 世界和推理能力[1] - 行业观察到Google近期发布的nano banana产品在图形理解方面表现惊艳 其能力超越了视觉层面并融合了知识[1] 技术突破影响 - 行业观点强调语言技术取得突破后 音乐模型 视频模型 图形模型和视觉模型等领域均获得显著进展[1]
GOOGL's $3T Valuation & Gemini's A.I. "Momentum"
Youtube· 2025-09-19 13:00
公司市值与财务表现 - Alphabet公司本周市值突破3万亿美元 [1] - 公司拥有成熟可靠的在线广告收入模式 [2] - 上个财季收入增长,通过销售效果更好的广告实现盈利提升 [2] AI产品发展里程碑 - Google Gemini在应用商店的排名超越ChatGPT成为榜首应用 [3] - 公司在AI领域具备从硬件到软件的全栈研发团队 [4] - 图像模型"nano banana"实现实用功能,如更换照片中衬衫颜色 [5] AI技术优势与数据资产 - 公司在图像AI处理方面表现突出,源于拥有世界顶级研究人员和数据集 [8] - 通过Google图片搜索和Google Photos等产品积累大量图像数据 [8] - 数据优势为创造个性化体验提供基础,如定制化广告展示 [6][9] 商业模式与市场拓展 - 采用广告支持的免费模式有利于AI技术在全球范围的普及 [11] - 广告商业模式可覆盖全球70亿人口,而付费订阅模式会限制用户规模 [12] - 公司已建立完善的广告销售和分发体系,可轻松将AI整合至现有广告平台如YouTube [13] 公司战略与文化转型 - 近期在英国进行AI投资,考虑业务发展、产品优化和监管关系等多重因素 [13] - 公司历史上虽发明了Transformer架构但未率先商业化,最近六个月出现文化转变 [16] - 目前展现出快速构建并推出受市场欢迎产品的能力,产品开发节奏加快 [16] 行业竞争地位 - 在AI消费产品领域,OpenAI早期革命性突破但Google已强势进入市场 [3][4] - 公司与Meta在"科技七巨头"中年内表现并驾齐驱,处于领先地位 [17] - 品牌影响力和现有用户基础为AI产品推广提供优势,表明市场可容纳多个竞争者 [4]
为了让大家用好nano banana,谷歌发布了一份官方提示词教程
Founder Park· 2025-09-03 12:21
文章核心观点 - 谷歌官方发布了针对nano banana(Gemini 2.5 Flash Image)的6套Prompt模板,帮助用户快速生成高质量图像 [1][4] - 模板设计基于讲故事式场景描述,覆盖写实摄影、贴纸插图、文本渲染、商业摄影、极简留白和漫画分镜六大应用场景 [3][4] - 通过结构化Prompt模板(包含主体描述、环境设定、光线参数、镜头细节等要素),可显著提升图像生成质量 [8][10][19][29][39][48][56] 写实摄影模板 - 需模拟专业摄影师思维,明确机位、镜头类型、光线和细节要素 [6][7] - 标准模板结构:A photorealistic [shot type] of [subject], [action or expression], set in [environment]. The scene is illuminated by [lighting description], creating a [mood] atmosphere. Captured with a [camera/lens details], emphasizing [key textures and details]. The image should be in a [aspect ratio] format [10] - 示例生成日本陶艺家特写肖像:使用85mm人像镜头、黄金时刻光线、竖版构图 [12][13] 插图与贴纸模板 - 需明确声明风格类型、关键特征、配色方案及背景要求(如白底) [19][20] - 标准模板结构:A [style] sticker of a [subject], featuring [key characteristics] and a [color palette]. The design should have [line style] and [shading style]. The background must be white [20] - 示例生成小熊猫贴纸:采用kawaii风格、粗壮描边、赛璐璐上色和鲜艳配色 [22][23] 文本渲染模板 - nano banana在文本渲染任务表现突出,需明确文字内容、字体风格和整体设计 [28][29] - 标准模板结构:Create a [image type] for [brand/concept] with the text "[text to render]" in a [font style]. The design should be [style description], with a [color scheme] [30] - 示例生成咖啡店Logo:极简风格、无衬线字体、咖啡豆图标与文字融合的黑白配色方案 [32][33] 商业摄影模板 - 商业感图像需具备干净背景、可控布光和展示产品卖点的机位 [38] - 标准模板结构:A high-resolution, studio-lit product photograph of a [product description] on a [background surface/description]. The lighting is a [lighting setup] to [lighting purpose]. The camera angle is a [angle type] to showcase [specific feature]. Ultra-realistic, with sharp focus on [key detail]. [Aspect ratio] [39] - 示例生成陶瓷咖啡杯产品照:三点柔光箱布光、45度仰角拍摄、聚焦蒸汽细节的方形构图 [41][42] 极简主义与留白设计模板 - 适合创建背景图像以便叠加文字,需明确主体位置、背景色和光线方向 [47][48] - 标准模板结构:A minimalist composition featuring a single [subject] positioned in the [position] of the frame. The background is a vast, empty [color] canvas, creating significant negative space. Soft, subtle lighting. [Aspect ratio] [48] - 示例生成枫叶图像:右下角构图、米白色背景、左上方向柔光的方形画幅 [50][51] 漫画分镜模板 - 适用于视觉叙事创作,需明确艺术风格、场景分层、对话文本和氛围营造 [55][56] - 标准模板结构:A single comic book panel in a [art style] style. In the foreground, [character description and action]. In the background, [setting details]. The panel has a [dialogue/caption box] with the text "[Text]". The lighting creates a [mood] mood. [Aspect ratio] [56] - 示例生成黑色电影风格漫画:高反差黑白墨线、雨景环境、硬光氛围和横向画幅 [59][60] 技术实现方式 - 提供完整Python API调用代码示例,通过修改Prompt内容和文件名即可实现批量生成 [15][17][27][46][53][64] - 代码基于google.genai库开发,支持图像保存与后期处理 [16]
「香蕉革命」首揭秘,谷歌疯狂工程师死磕文字渲染,竟意外炼出最强模型
36氪· 2025-08-29 07:53
产品核心功能 - 多图像融合生成全新画面,最多支持13张图片合并 [2] - 二维地图转化为三维景观,理解地理等高线知识 [19][25] - 从图像中提取物理结构,精准转化线稿和上色 [38][40] - 多轮交错生成技术,实现有记忆的连续创作 [53][57] - 支持逆向图像处理,包括黑白线框重新上色和破损照片修复 [37][44] 技术架构突破 - 集成Gemini世界知识引擎,具备地理建筑识别与标注能力 [6][10][12] - 采用原生与交错式生成技术,13秒内生成五张风格统一图像 [57][59] - Gemini团队负责逻辑推理与指令遵循,Imagen团队负责美学优化 [68][70] - 通过文字渲染训练提升图像宏观与微观结构理解力 [64][65][67] 应用场景创新 - 影视制作分镜生成,实现AI辅助拍电影 [10] - 建筑设计视角转换,支持工程绘图与三维视图生成 [26][29] - 虚拟试衣与动作复刻,达成摄影棚级效果 [28][33] - 室内设计与花园改造,生成多种风格方案 [59] - 机器人视角人物轮廓勾勒,实现终结者风格图像 [17] 市场反响与测试表现 - 在LMArena平台上线后迅速风靡社区 [46][48] - 盲测中Gemini 2.5 Flash Image成绩一骑绝尘 [48] - 网友创作涵盖超人COS、奥特曼整蛊等多样化内容 [2][42] - 内部测试处理芝加哥街景等现实场景精度获验证 [50] 开发方法论 - 基于推特用户反馈建立"差评榜"优化模型 [62] - 通过多模态上下文理解实现创意指令执行 [53][55] - 团队目标开发具备事实准确性的智能办公辅助功能 [74] - 追求超越用户指令的智能涌现与创造性输出 [76][78]
魔法再现,谷歌发布最强图片模型 nano banana,劈柴一秒回印度老家
36氪· 2025-08-27 08:19
产品性能与市场地位 - Google DeepMind实验室推出的Gemini-2.5-Flash-Image-Preview(别称Nano Banana)以1362分位列LMArena图片编辑模型排行榜榜首,显著领先第二名Black Forest的flux-1-kontext-max模型(1191分)[1][3] - 该模型在投票中获得2,521,035次支持,远超第二名模型的357,196次,且评分95%置信区间为±2,显示数据稳定性高[1] - 支持多模态输入(文本、图像、视频、音频),图像输出定价为每百万tokens 30美元,单张图像处理成本约0.3元人民币[48] 技术能力突破 - 实现通过文本指令精准编辑图像,包括更换背景、视角、色调及添加衣物,并保持主体特征高度一致(人物转圈后面部变化微小)[6][11][23] - 具备多轮次编辑与多图叙事能力,支持连续修改图像而不丢失原始特征,可生成漫画分镜、多角色互动及技术插图[6][25][27] - 处理速度达1-2秒/张,显著快于同类模型10-15秒的处理时长,且集成Veo3工作流后可快速生成高质量视频[47] 应用场景与用户反馈 - 在动漫领域表现突出,能根据手绘示意图生成多角色姿态一致的三视图及消费级漫画[25][27][33] - 支持科学插图绘制,具备高保真文本渲染与几何题目解答能力,5秒内完成复杂插图生成[43][44][45] - 用户实测反馈一致性极强(普通人物照片难以察觉面部变化),但名人面部处理偶有轻微失真,且过滤器存在误拒正常请求的情况[35][36][47]