歸藏的AI工具箱

搜索文档
可灵 2.1 首尾帧藏师傅外挂教程:两张图→大片,附万能提示词
歸藏的AI工具箱· 2025-08-22 09:10
可灵2.1首尾帧模型技术能力 - 模型在提示词理解和遵循以及图片转换自然度方面表现优异 基本达到首尾帧功能天花板[1] - 支持完全无关两张图片的顺滑转换 但前后关联图片能带来更强视觉冲击[2] - 生成效率极高 单条视频从制作到生成仅需半小时 期间可并行处理其他任务[2] 图片素材获取方法论 - 采用相同提示词抽卡方式 利用模型多图生成时种子一致特性 可获得相似度高图片 特别适合展示类视频[9] - 通过修改提示词抽卡 先生成尾帧图片后再逆向调整部分元素 实现人物或物品的移动与消失效果[12] - 运用FLUX Kontext等图像编辑模型 通过自然语言指令精确控制图片编辑 实现材质添加与背景更换[15] 提示词生成系统 - 开发差异化提示词生成策略 自动判断图片关联性(A类关联性强/B类差异巨大)并匹配对应转场方案[28] - A类图片采用"原地演变"策略 聚焦主体状态风格或环境变化 避免使用摄像机移动[29] - B类图片采用"运镜驱动转场"策略 强制使用推拉摇移等镜头运动连接画面 并附加特效变化增强关联性[29][32] 商业化应用场景 - 电商领域可实现模特产品一致性展示 解决手部细节问题 可用性极高[18] - 支持文字特效生成 通过材质替换和环境同步变化提升视觉表现力[21][23] - 玩偶变装等娱乐化应用展现技术泛化能力[25] 工作流优化方案 - 建议将流程固化为标准化模板(首尾帧链接+差异分类+提示词+成片链接) 实现10秒出提示词和半小时出片的高效生产[39] - 强调从"特效思维"转向"叙事思维" 通过构建因果关联使视频单价提升5倍[41] - 三张王牌拿图法(同提示词/改提示词/图像编辑)结合万能提示词形成完整解决方案[40]
今天起,不用下载飞书也能用飞书多维表格了!
歸藏的AI工具箱· 2025-08-21 04:50
产品战略升级 - 飞书多维表格作为独立产品开放 无需下载或注册飞书即可使用 支持跨平台接入第三方IM系统[3][4][6] - 产品保留完整功能 包括仪表盘、工作流、高级权限及AI能力 有效降低企业数字化成本[8] - 目标成为零代码自主定制业务系统的新起点 适用于不同规模企业[6][18] 核心功能优势 - AI功能全面覆盖 包括AI字段捷径、仪表盘AI分析和AI生成公式 大幅降低使用门槛[11] - 专业级BI分析能力 具备BI主题和组件 完整覆盖专业软件常用功能[13] - 高性能数据库底座 可承载高速增长且结构复杂的核心业务[15] - 零代码搭建系统 无需编程能力即可实现业务创新[17] 市场应用案例 - 永旺使用产品替代亿元级自研派遣员工管理系统[17] - 伊芙丽与珂蒂丝的会员管理系统周活超2000人[17] - 海底捞、雅迪等国内外知名企业均已落地应用[17]
谷歌Pixel发布汇总:硬件与软件全面AI化,那谁你就学叭
歸藏的AI工具箱· 2025-08-21 04:50
核心观点 - 谷歌2025年硬件发布会全面展示AI与硬件深度融合 产品覆盖手机、手表、耳机及智能家居设备 端侧模型广泛部署 功能聚焦健康管理、影像处理和多设备协同 [1][30][32] - AI功能实现从被动触发到主动建议的转变 系统级应用深度整合 支持自然语言交互和实时数据分析 [17][24][32] - 公司通过自研Tensor芯片强化本地AI算力 但芯片架构选择导致性能提升受限 [15] AI健康管理功能 - Gemini驱动个人健康教练 提供个性化健身计划 实时调整训练目标 基于睡眠数据生成适应性睡眠计划 [4][5] - 健康教练支持实时签到调整 主动分享健康趋势洞察 解答科学依据的个性化问题 [5] - Pixel Watch 4集成Gemini健身教练 通过抬腕交谈功能提供主动健身指导 基于手表指标数据 [26] AI影像处理能力 - 自然语言修图功能支持语音或文字指令编辑照片 可实现背景替换、添加创意元素等操作 [7] - 拍照教练提供构图、光线等逐步引导建议 帮助提升拍摄质量 [9] - Pixel 10 Pro系列配备100倍数码变焦 通过本地扩散模型补充放大后的细节 [11] 多模态端侧AI部署 - 所有Pixel 10手机搭载Tensor G5芯片 本地运行Gemini Nano模型 [15] - Voice Translate功能实现实时通话翻译 模仿对方音色 目前不支持中文 [19] - 录音机应用可基于哼唱生成音乐 支持风格选择 [26] 智能家居与设备协同 - Gemini for Home智能大屏设备支持环境视觉识别 模糊指令媒体播放 复杂智能家居控制 [13] - Magic Cue功能串联谷歌应用信息 在合适场景建议一键分享 [17] - NotebookLM与截图、录音应用整合 自动建议内容收藏至笔记本 [24] 硬件产品AI升级 - Pixel Buds Pro 2耳机内置Tensor A1芯片 支持嘈杂环境通话 自动调节降噪 通过头部动作接听电话 [28] - Call Screen功能为未接来电提供实时转录 AI识别留言并建议后续操作 [21] - Gemini Live更新支持摄像头物品高亮 Veo3模型生成视频 [23]
手机“自动驾驶”时代来了,智谱还让手机拥有“云替身”
歸藏的AI工具箱· 2025-08-20 08:54
核心观点 - 智谱推出新版AutoGLM 实现全球首个手机通用Agent 通过云手机技术跨平台操控设备 支持复杂多应用任务执行 显著提升移动端操作效率并拓展AI应用场景 [1][3][4] 技术能力 - 云手机Agent在云端运行任务 解放用户本地设备资源 支持iOS、安卓和网页全平台客户端 [4] - 实现跨应用程序自动泛化任务执行 即将新增定时任务功能 [4] - 多模态内容识别能力突出 能处理高德地图等界面复杂、元素密集的应用 [9] - 通过手机虚拟机解决权限控制问题 避免与用户设备权限冲突 [24] 应用场景 - 生活服务: 自动规划行程 例如跨大众点评和高德地图完成餐厅筛选与通勤查询 涉及20余次点击操作 [7][9] - 比价购物: 同步搜索京东和拼多多商品 例如大疆无人机 京东最低价4837.9元 拼多多百亿补贴价4219元 提供优惠详情和购买建议 [11][14] - 内容运营: 检索小红书、抖音热门内容并整合加工 提供发布策略和互动数据侧重点 [16][17] - 适老化支持: 帮助老人操作腾讯视频等复杂APP 例如通过筛选功能找剧集并加入收藏 [19][21] 行业影响 - 中国互联网80%流量集中于移动端 AutoGLM通过云手机技术突破用户时间限制 创造无限注意力经济增长通道 [24][28] - 解决国内特殊环境需求: 必需操作依赖手机APP 与海外以网页为主的服务模式存在显著差异 [22] - 面临验证码和反爬机制等执行障碍 需与互联网巨头协同构建稳定Agent运行环境 [26] - 手机Agent化成为不可避免趋势 模型能力已达标 生态建设成为关键发展因素 [26]
桌面端已经过时了,这个 AI 直接在手机开了 Agent 商店
歸藏的AI工具箱· 2025-08-15 10:01
产品定位与核心功能 - 产品定位为具有陪伴感的AI生活助手,通过情感化设计和个性化交互提升用户体验 [26][27][28] - 核心功能分为两部分:个性化AI聊天陪伴和移动端应用生成能力 [4] - 应用生成采用"微信+小程序"模式,用户可通过自然语言指令创建定制化应用 [4][16] 差异化设计特点 - 采用马卡龙形象作为视觉载体,通过颜色和形象定制强化用户归属感 [3][11] - 交互设计突出情感元素,包括动态思考动画、侧边栏半展示等细节 [6] - 通过前期用户偏好问卷定制AI对话风格,与主流AI形成差异化 [3][6] 应用生成生态系统 - 内置"灵感库"功能作为应用分发平台,涵盖生活工作多个场景 [9] - 应用生成过程完全由AI完成,支持即时修改和迭代 [16][17] - 已展示的应用案例包括健身记录、股票分析等复杂功能 [17][23] - 系统内置OCR、多模态API等技术支持应用开发 [19][20] 经济模型设计 - 采用"杏仁"作为内部流通货币,形成创作者经济闭环 [11] - 用户可通过应用创作、社区贡献、邀请等方式获取杏仁 [11] - 优质应用创作者可持续获得杏仁收益,降低使用成本 [11] 市场定位洞察 - 瞄准移动端生活场景需求,填补桌面端AI工具的市场空白 [15] - 聚焦个性化需求强烈的垂直领域如美妆、健身、钓鱼等 [15] - 通过降低应用开发门槛,将创造权赋予普通用户 [28] 技术实现特点 - 具备长期记忆能力,可自动记录用户习惯和偏好 [4] - 支持复杂功能如Apple Watch数据解析、股票数据分析等 [17][23] - 集成图片生成API,可自动创建多种风格的分享图片 [20]
超绝文字生成+一键公众号排版,扣子空间新功能解决所有日常设计
歸藏的AI工具箱· 2025-08-12 10:09
核心功能特点 - 通过自然语言描述即可生成70分设计结果 无需设计风格或字体等提示词[3] - 支持精细修改功能 包括改字 消除 超分 抠图和AI修改[8] - 具备搜索功能 可批量生产小红书风格知识卡片[6] - 支持上传参考图学习排版 无需提示词生成定制化封面[8] - 直接生成公众号图文排版 实现一键复制功能[8] 高级应用场景 - 基于文档生成12张连续性漫画 保持服装和人物特征一致性[13][14] - 将文档转换为多种形式包括PPT 播客和网页[15] - 生成完整公众号文章 包含所有素材图和文案排版 支持3:4封面和2:1图片标签[18][19] - 制作实用海报如小区停水通知 包含时间 楼栋影响 建议和联系电话[22] - 创建商业宣传材料如秋季校招9:16海报和1:1群发配图[25] - 生成超市蔬菜促销海报含三类蔬菜促销信息[28] - 制作教育培训海报如亲子科学实验营含时间 地点 年龄 名额 费用和二维码[31] 技术实现细节 - 超分功能提升2倍清晰度且文字显示不受影响[41] - 无痕改字功能保持字体一致性且准确率极高[39] - 擦除功能实现重绘效果 消除物体后无违和感[36] - AI修改功能针对单张图片生效 提升定位精度[34] 市场价值定位 - 满足日常设计需求包括小店海报 物业通知和小红书帖子[42] - 解决传统设计服务高成本和高沟通门槛问题[42] - 免费提供四张可用设计图 操作成本极低[33] - 使商业智慧能通过视觉呈现 突破设计费和设计师门槛[42]
不吹不黑,GPT-5代码能力究竟怎么样?跟 Gemini 和 Claude 的对比测试给你答案
歸藏的AI工具箱· 2025-08-08 09:44
GPT-5前端能力测试 - GPT-5在Bento Grid风格网页设计中展现出较强的视觉设计能力,能够满足复杂的设计要求包括响应式布局、色彩渐变和高亮元素处理[5] - 在微信公众号封面设计任务中,GPT-5相比其他模型能更好地控制内容不超出画布并保持基本设计元素[16] - 测试显示GPT-5在提示词遵循方面表现稳定,不会出现类似Claude 4.1违反设计约束使用emoji的情况[6] 多模型对比测试 - 在库存管理系统开发中,GPT-5将所有功能集成到单页面但牺牲了用户体验,而Claude 4.1采用分页设计更符合常规交互逻辑[30] - BI画布定制开发中GPT-5是唯一完整实现拖放和调整大小功能的模型,Claude 4.1和Gemini 2.5 Pro均存在功能缺陷[35] - 奢侈品电商结账流程测试中GPT-5在页面一致性、响应式设计和流程完整性方面表现最优,Claude 4.1存在布局问题,Gemini 2.5 Pro样式处理较差[53] 技术能力评估 - GPT-5在复杂前端任务中展现出显著进步,特别是在约束条件下的样式执行和功能实现方面优于前代模型[54] - 模型仍存在上下文窗口限制问题,32K上下文在多次交互后容易出现遗忘现象影响持续开发体验[55] - 不同版本GPT-5存在功能差异,Pro版及以上才支持128K上下文窗口和更灵活的思考模式[56]
藏师傅暴论:AI工具尽头是生态|即梦AI 创作者成长计划介绍
歸藏的AI工具箱· 2025-08-07 09:12
行业现状分析 - AI图像视频模型能力已具备产出优秀作品的条件,但行业进入瓶颈期,表现为内容质量和创作者质量平台化[1][3] - 行业面临"富饶中的贫困"现象:工具多但门槛高、创作易但变现难、产出易但成长难[3] - 技术门槛与创作自由存在矛盾,创作者需同时掌握传统工具和AI提示词技能[4] - 优质AI作品缺乏曝光渠道,内容平台存在打压或原创保护问题,导致商业变现困难[5] - 创作生态碎片化,作品完成需跨多个平台,即梦是目前整合较完善的产品[7] 即梦平台解决方案 - 平台定位从AI工具扩展为内容平台和创作者交流平台[9] - 功能覆盖全链路AI内容生产,包括图像生成、视频生成、唇形同步等10余种工具[10] - 首页探索页面活跃度高,作品发布与探索流程顺畅[11] - 提供分层创作者扶持计划(潜力新星/进阶探索/超创),最高奖励达每条2万积分和每周2000元现金[13][15] - 对接稀缺资源如国际影节、字节系商单等[15] - 覆盖全类型创作者,解决行业重视频轻平面问题[15] 行业启示 - AI创作工具需同时关注产品功能和用户成长体系[19] - 应建立从创作到商业化的完整闭环,而非仅关注工具本身[17] - 平台运营和创作者归属感可能成为未来竞争壁垒[17] - 即梦已完成从工具平台到内容生态的转型,形成模型-社区-商业化闭环[18] - 行业竞争重点已从工具使用转向内容曝光能力[22] 创作者现状 - 早期优秀创作者逐渐沉寂,缺乏持续支持体系[7][21] - 部分创作者虽获得短期成功但难以持续(如短片爆红后删号、接单后退回传统领域)[21] - 大量创作者陷入"作品优质但无人知晓"的困境[21] - 创作门槛降低后,核心挑战转变为如何让作品获得持续曝光[22]
藏师傅教你做即将爆火的AI玄学祈福壁纸,不止提示词还有创作思路
歸藏的AI工具箱· 2025-08-04 06:42
AI许愿祈福壁纸教程 核心观点 - 教程展示了如何利用AI生成融合传统神仙与现代元素的许愿祈福壁纸 通过结构化提示词实现创意发散 [4][9][17] - 创作核心在于三部分提示词组合:画面结构 人物描述 排版内容 各部分可独立修改产生新变体 [9][10][12] - 模态扩展(静态图转动态壁纸)与文化跨界(游戏 影视IP)能显著提升内容表现力与传播性 [17][19][20] 提示词结构分析 **画面主要结构** - 基础模板采用复古票据原型 米黄底色配繁复绿纹边框 可替换为符纸等传统载体 [5][9] - 关键视觉元素包含粗糙纸张纹理 红色篆刻印章 以及中英文混合排版(如"小人退散"粗体居中) [5][10] **人物描述** - 神仙角色需结合现代道具(钟馗持电话 财神用吸尘器)消解宗教严肃性 避免AI绘制误差争议 [12] - 通过特征强化辨识度(月老配桃花红线)弥补AI对冷门神仙的识别不足 [12][20] **排版内容** - 文字层级优先保证核心大字准确(如"GOOD LUCK") 装饰性小字容错率较高 [10] - 英文内容可采用谐音双关(大展宏兔→兔子关羽)增强趣味性 [20] 创意发散路径 - 文化符号跨界:结合热门影视IP(哪吒2鹿童)或游戏元素(战锤40K机械神甫) [20] - 模态创新:静态壁纸升级为解锁播放的动态视频 提升视觉冲击力 [3][17] - 细分场景定制:针对电子设备祈福 电竞场景等垂直需求设计专属形象 [20]
BFL&Krea重磅开源新图像模型,专注于极致真实细节去 AI 感
歸藏的AI工具箱· 2025-07-31 16:19
开源图像模型FLUX.1-Krea - Black Forest Labs与Krea合作开源了FLUX.1-Krea图像模型,专注于生成具有独特美感且无"AI效果"的自然细节图像 [1] - 该模型完全兼容现有的FLUX开源模型生态系统,并发布了详细的技术报告解释模型实现思路和训练过程 [1] - 模型训练目标是"制作看起来不像AI的AI图像",旨在解决当前AI图像常见的模糊背景、蜡质皮肤质感等问题 [11] AI风格问题分析 - 当前AI生成图像存在明显的"AI风格"问题,包括过于模糊的背景、蜡质皮肤质感和乏味构图等 [9] - 过度追求技术指标和基准优化导致早期图像模型的真实感、风格多样性和创造性融合被忽视 [10] - 现有评估基准主要关注提示词遵从性(空间关系、属性绑定等),而忽视了美学评估 [12] 模型训练方法 - 训练分为预训练和后训练两个阶段:预训练注重"模式覆盖"和"世界理解",后训练则聚焦美学优化 [17][20] - 预训练阶段使用包含"劣质"数据的多样化数据集,使模型能够理解负面提示词 [21] - 后训练采用监督微调(SFT)和基于人类反馈的强化学习(RLHF)两阶段方法 [28] - 后训练数据量少(<1M)但质量高,偏好标签由专业标注员精心收集 [31] 技术实现细节 - 使用flux-dev-raw作为基础模型,这是一个12亿参数的扩散变换器模型,具有丰富的世界知识和多样化输出能力 [26][27] - 在RLHF阶段采用TPO偏好优化技术,进行多轮优化以校准模型输出 [29] - 发现将模型过拟合到特定风格比使用"全球"用户偏好数据更有效 [32] - 模型下载和完整公告已发布在Hugging Face和公司官网 [33]