Workflow
歸藏的AI工具箱
icon
搜索文档
不看这藏师傅篇深度拆解,你永远不知道Lovart AI有多可怕(有邀请码)
歸藏的AI工具箱· 2025-05-13 08:42
Lovart AI产品能力分析 - 产品定位为通用设计Agent 兼顾设计小白和专业用户 大幅降低设计门槛 [2][3] - 用户群体覆盖个体户老板 营销人员 设计师 电商从业者等 仅需文字描述即可获得高质量设计产出 [3] - 测试案例显示 仅用几十字提示词就能生成完整视频广告所需的分镜素材 完成度极高 [4] 工作流程深度解析 - 分析阶段远超预期 包括产品信息提取 视觉风格定义 视频脚本创作等专业流程 [6] - 设计前进行详细调研 包括广告主角设定 分镜场景描述等 专业度超过多数调研Agent [9] - 图片生成阶段自动选择合适模型和Lora 主动维持人像一致性 技术实现难度高 [13] - 创新性生成解释性网页 以长截图形式展示分镜设计 保持统一视觉风格 [19] 视频生成技术突破 - 在超长上下文环境下稳定运行 8个分镜生成耗时十几分钟 体现强大技术优化能力 [22] - 实现全流程自动化 包括分镜生成 背景音乐创作 口播语音合成等 完成度远超行业水平 [24] - 测试案例中成功将T恤图像移植到模特身上 并自动生成多分辨率广告图 展示强大图像处理能力 [28] 行业竞争壁垒分析 - 专业度构成核心壁垒 需深度理解垂直领域需求 图像视频模型工作流及Agent技术 [29] - 非依赖预训练模型 而是通过各环节专业优化建立竞争优势 形成难以追赶的技术积累 [29] - 产品响应速度快 能迅速实现用户反馈的功能改进 如4o图片去黄处理等 [28]
AI也需要"记笔记":Karpathy从Claude 1.6万字提示词中看到的未来
歸藏的AI工具箱· 2025-05-12 08:28
系统提示词对比分析 - Claude的系统提示词长达16,739个单词,远高于OpenAI的ChatGPT中o4-mini系统提示的2,218个单词(仅为Claude的13%)[2][3] - Claude的提示词包含大量非结构化修改痕迹,疑似针对热点事件或问题修复的临时补丁,维护复杂度高[5] - 提示词中工具定义占比最高,详细规定了14个MCP工具的使用规范(如谷歌Drive搜索说明超1700字),其次是用户偏好和风格指引[8] 大语言模型学习范式革新 - 当前LLM主要依赖预训练(获取广泛知识)和微调(优化行为习惯),均需调整模型参数[9] - Karpathy提出"系统提示学习"新范式:类比人类通过显式笔记总结经验,而非直接改写大脑参数[10] - 理想状态下模型应自动生成/优化提示词,但当前Claude提示词仍完全由人工编写,效率低下[10][18] 系统提示学习的潜在价值 - 优势包括:更高维的数据利用(通过显式复盘吸收反馈)、更强的任务泛化能力[19] - 可能解决LLM现存痛点:如《记忆碎片》式依赖参数记忆,缺乏外部备忘录机制[12] - 需攻克技术难点:自动编辑提示词算法、提示编辑系统的自学习机制、显式知识向参数习惯的转化[20] 提示工程实践启示 - 结构化指令效果更优:Claude提示词使用列表/格式/示例,明确工具调用规则和用户交互边界[8][15] - 精准指令胜于模糊表达,需具体说明需求与限制条件(如知识截止日期、诗歌创作规范)[8][14] - 提示工程本质是沟通技巧延伸,非高深技术,普通用户可通过学习Claude提示词提升效果[16][17] 行业资源链接 - Karpathy推文探讨系统提示学习[21] - 第三方网页解析Claude提示词内容与结构[21]
生成网页可以垫视频了?教你用 Gemini 2.5 最强大的能力
歸藏的AI工具箱· 2025-05-09 08:34
Gemini 2 5 Pro 0506版本核心能力 - 根据网页交互视频生成还原度极高的网页效果 显著提升前端开发效率[1][4] - 多模态能力与代码生成产生化学反应 实现复杂交互动画的自动还原[5][6] - 在AI Studio中选择Gemini 2 5 Pro 05-06版本可体验该功能 需注意视频压缩和长度控制[13] 技术特性 - 前端代码美观度显著提升 仅需设计稿无需优化提示词即可生成完美还原网页[4] - 视频多模态理解能力行业领先 可捕捉Hover动画、图标高亮等复杂交互细节[7][8] - 输出格式支持HTML/CSS/JS三合一文件 浏览器直接预览简化开发流程[12] 应用案例 - 邮箱地址交互案例: 成功还原图标高亮效果 但存在间距和变色细节缺失[7] - 翻译工具Hover案例: 完美捕捉动态翻译卡片效果 仅字体大小需微调[8] - YouTube科普视频转化案例: 实现从视频到互动网页的端到端生成[5] 使用优化建议 - 提示词需明确标注重点效果(如淡蓝色圆角背景)以弥补视觉细节识别不足[11][12] - 动画效果需增加缓动参数 图标库通过CDN引用提升还原度[11] - 适用场景包括但不限于动效生成 开发者可拓展更多创新应用[14]
设计师的 ChatGPT 时刻:Figma 这次把“设计即代码”玩成现实
歸藏的AI工具箱· 2025-05-08 08:55
AI编程产品分类 - AI编程产品分为两类:一类是Cursor和Windsurf等AI IDE,具备完整IDE功能并附加AI补全、chat、Agents能力,即使不用AI也能正常开发[1][2] - 另一类是V0和Lovable等Vibe Coding产品,主要依赖与AI编码Agents对话生成代码,用户覆盖范围更广但存在语言描述需求不精准、术语理解有限等问题[3][5] - Vibe Coding产品当前多模态能力不足,如Gemini 2.5 Pro仍难以从设计稿精准还原颜色、描边等细节[5] Figma Make产品特性 - Figma基于设计生态推出Vibe Coding产品Figma Make,支持左右分栏交互界面,左侧采用Claude 3.7模型处理图片/Figma画板/文字输入,右侧实时预览和修改[7][8] - 核心能力包括直接导入Figma设计稿生成网页,自动传递布局/变量/组件语义,完美还原设计稿中的插画和图片素材,显著提升生成网页表现力[10] - 提供设计稿编辑工具精准迭代,支持点击修改元素样式或通过AI指令局部调整,避免全局重写造成的Token浪费和错误扩散[11][12] Figma战略布局 - 公司同步推出可视化低代码工具Figma Site,结合Make的AI能力实现设计稿到网站的快速发布,并支持复杂逻辑功能补充[18] - 产品战略聚焦设计生态优势,明确"Design as Prompt"方向,相比Adobe更清晰界定技术边界[19] - 未来可能开放API和私有大模型接入,强化企业级定制能力,推动设计师角色向Prompt Engineer转型,前端工程师转向架构整合[19]
一图展示全部信息:提示词 + Figma 十秒精修,让长网页秒变封面(内有白嫖福利)
歸藏的AI工具箱· 2025-05-06 08:09
生成网页教程 - 利用Gemini高级版免费福利可试用至2026年 需通过edu邮件验证[1] - 基于藏师傅3.0网页生成提示词拓展 新增"尽量在一页展示全部信息"要求[6][8] - 需准备模型论文/博客文档 支持PDF或Markdown格式[4][5] - 首次生成结果至关重要 需调整主题色匹配品牌调性(如Qwen用白底紫高亮 Grok用暗底橙高亮)[6] 设计规范 - 采用苹果发布会Bento Grid风格 响应式兼容1920px以上屏幕[9] - 视觉元素要求:超大字体突出核心数据 中英文混用(中文粗体大字号) 高亮色4D6BFE[9] - 技术实现:HTML5+TailwindCSS 3.0+ 禁用emoji图标 引用专业图标库[9] - 布局问题示例:标题未加卡片边框 部分卡片未占满空间(如Deepseek案例)[8][9] Figma优化流程 - 使用html.to.design插件导入网页 需替换中文字体为Pingfang SC[12][14] - 删除冗余元素(如Youware导航栏) 解构Iframe图层保留有效内容[15][16] - 调整技巧:统一卡片宽度1472px 复制属性快速应用样式[18][19] - 数学公式计算间距(如350+398-24自动修正模型规模卡片宽度)[21] - 导出前统一边距32px 使用postspark工具添加渐变边框[22][23] 案例验证 - 已验证方法适用于Gork 3和千问3模型介绍 生成单页展示效果[2] - Orange成功将千问3内容转化为苹果风格PPT一图流[1]
设计速度提升100倍,质量翻10倍:豆包超能创意1.0体验
歸藏的AI工具箱· 2025-04-29 08:18
豆包超能创意1.0升级核心功能 - 图片生成效率和修改效率大幅提升 显著降低设计门槛 [1] - 新增批量生成能力 支持不同内容、比例和风格的批量生成 速度比4o模型快很多 [2][5] - 智能增强功能使模型能自动联想和获取知识 无需详细提示词 [12] - 具备上下文理解能力 可基于前序生成结果进行连续修改 [19] - 支持从小说内容直接转换分镜图片 保持人物形象一致性 [19][23] 批量生成能力 - 可针对同一设计生成不同比例的社交媒体图片 [5] - 基于同一内容生成不同风格图片 或同风格不同内容图片 [5] - 一次性生成10个不同品牌的胶囊图片 自动识别品牌主营业务 [1][2] - 一次性生成10种不同风格的字体设计海报 [8] - 基于线稿批量生成12张同风格空状态插图 [10] 智能增强功能 - 模型自动补充常识性内容 如根据3个样机案例生成其他样机 [12] - 根据示例自动发散生成其他案例 如基于星巴克门店生成4个国内茶饮品牌门店 [17] - 模仿图像风格生成8个世界著名景点插画 自动替换地标和景色 [14] 上下文理解能力 - 保持角色形象一致性 如星尘猫IP可变换为不同风格 [20][23] - 自动规划分镜脚本 如30秒洗发水广告的12个连贯分镜 [25] - 支持风格转换 如将写实分镜变为日式赛璐璐风格 [25] 应用场景拓展 - 营销图片生成 如品牌胶囊图片 [1] - 字体设计 如10种风格字体海报 [8] - UI设计 如空状态插图 [10] - 广告创意 如洗发水分镜脚本 [25] - IP形象设计 如星尘猫系列 [20][23]
AI 工具堆里最豪横的那一个:纳米 MCP 万能工具箱上手(内有邀请码和藏师傅手搓智能体)
歸藏的AI工具箱· 2025-04-28 10:45
MCP工具热度及纳米AI的布局 - 上周是MCP诞生以来热度最高的一周,多家公司集中发布MCP Agents工具 [1] - 纳米AI发布"MCP万能工具箱",包含自研的十几个MCP工具和近百个第三方MCP工具,工具总量位居国内第一 [1] - MCP工具覆盖办公协作、学术研究、生活服务、金融、媒体娱乐等众多领域 [1] 纳米AI的MCP核心能力 - 深度研究智能体:具备自主规划能力,可生成PPT/PDF/Word/网页等多种形式的报告,47万Token的搜索和思考过程完全免费 [5][7] - MCP万能工具箱:内置丰富工具,用户无需配置API即可直接调用 [7] - Agents自定义功能:支持用户基于纳米MCP能力创建个性化工具 [7] 特色MCP服务 - Minimax MCP服务支持免费生成视频/图片/音频,如为5岁儿童生成高质量绘本 [8] - 纳米AIbrowser MCP可访问和抓取任何网页内容,支持本地调用浏览器绕过机器人验证 [10] - 智能体广场提供大量预置MCP服务,降低用户使用门槛 [12] 自定义Agents功能 - 用户可创建个性化智能体,需填写角色介绍并选择对应MCP服务和知识库 [14] - 调用MCP时需明确调用顺序和具体名称以确保功能实现 [14] - 示例案例"藏师傅的AI网页生成"可将搜索结果或上传文件转化为定制网页 [15] 用户体验设计 - 通过"深度研究智能体-智能体广场-自定义智能体"的三步走策略,满足不同能力用户需求 [16] - 完全不懂开发的用户也可通过多MCP调用和提示词实现强大Agents效果 [16] - 提供5个邀请码(J83VU4等),每个可用10次 [16]
从搜索到解决方案:解锁火山 DeepSearch 的“三连跳” MCP 玩法
歸藏的AI工具箱· 2025-04-24 09:34
火山开发者见面会发布内容 - 公司发布RTC硬件和DeepSearch服务 其中DeepSearch服务将AI搜索信息加工和再整理能力应用化 大幅降低开发者使用门槛 [3] - 公司正式发布豆包深度思考模型Doubao-1.5-thinking-pro和视觉理解模型Doubao-1.5-vision-pro 其中视觉推理能力表现突出 [5] - 推出方舟×RTC硬件解决方案 实现端侧自动唤醒与云端大模型语音能力打包 可快速升级智能设备对话能力 [5] - 深度搜索复合应用服务DeepSearch集成联网搜索、知识库、网页解析、Python代码执行器等丰富MCP服务 开发者无需配置即可直接调用 [5] DeepSearch服务功能特点 - 在旅游规划场景中 服务能精准搜索实时信息 如交通安排、行程顺序、危险项目注意事项等 避免输出景点介绍的冗余内容 [4] - 针对特定需求(如必须前往雨崩村和南极洛) 服务会分步骤精准搜索相关信息 避免一次性搜索导致上下文遗忘 [6] - 在新能源汽车行业数据查询测试中 服务诚实反馈未找到17-24号上险量数据 但准确提供13-20号数据 并合理组织产业新闻、总体数据、厂家动态等内容 [10] - 服务能根据问题复杂度自动调整任务拆解层数 最多支持10步 并支持通过提示词优化实现个性化 [16] 技术实现方案 - 底层同时挂载Doubao-1.5-thinking-pro、Doubao-1.5-pro和DeepSeek-R1等多模型 实现复杂逻辑与摘要生成的协同 [20] - 采用API网关安全鉴权 Supervisor Agent生成Planning并分配子任务 Work Agent调用外部能力的技术架构 [20] - 所有MCP插件符合统一协议 新插件可被Supervisor自动编排 开发者可一键复制广场模板并部署 [21] - 服务对外暴露OpenAI兼容接口 实现前端、Bot、业务后台的零改动集成 [21] 开发者生态建设 - 公司上线MCP Servers广场 提供大量MCP服务 支持一键体验和安装 并提供Trae等IDE的安装命令 [23] - 通过火山方舟平台 开发者可快速体验和应用DeepSearch等能力 大幅降低MCP使用门槛 [12][16][18] - 行业趋势显示 国内大厂正加速拥抱MCP技术 并通过生态整合降低使用门槛 使AI能力探索周期从月级缩短 [24]
不会 3D 也行?教你用AI创建非常酷炫的 NFT 3D 卡片动画
歸藏的AI工具箱· 2025-04-23 08:32
3D卡片生成教程 核心观点 - 利用4o和可灵工具生成风格一致的3D装备卡片 并通过视频剪辑增强展示效果 整套工作流可应用于NFT类数字收藏品创作 [3][5][17] 技术实现流程 4o图片生成 - 采用JSON格式提示词模板 将卡片主题、材质、颜色等参数抽象为变量 仅需修改parameters部分即可批量生成同风格图片 [5][7] - 示例提示词包含未来感赛博朋克风格设计要素:半透明全息玻璃材质、霓虹光晕、物品3D模型悬浮效果及底部反射等 [9][10] - 关键参数包括:物品名称(item_name)、稀有度(rarity)、材质描述(item_material)、颜色组合(colors)等 中英文混合输入确保AI理解 [10] 可灵视频合成 - 使用可灵1.6版本的首尾帧功能 输入相同图片生成循环动画 提示词需指定卡牌水平轴360度旋转效果 [11][13] - 视频特性包括:静态镜头、环境霓虹光、卡片边缘光泽反射、平滑运动循环 需多次抽卡获取最佳效果 [13][15] 剪映后期处理 - 将不同运动类型的视频片段(光效变化/旋转)通过时间轴拼接 采用子弹时间和蒙太奇曲线变速实现动态过渡 [16] - 使用智能补帧技术(光流法)解决变速导致的帧率不足问题 最终输出流畅的展示视频 [17] 应用扩展 - 生成的3D卡片可配合背景故事构建网站展示 增强数字藏品的叙事性和商业价值 [3][17] - 该方法适用于游戏装备、数字收藏卡等场景 通过修改JSON模板的style和parameters部分快速切换主题 [5][7]
藏师傅的网页生成提示词 3.0| 原来 Gemini 2.5 Pro 这么强
歸藏的AI工具箱· 2025-04-23 08:32
特斯拉Q1 2025财报分析 - 2025 Q1财务状况严峻 营收和EPS显著低于预期 汽车业务营收同比下降20% 净利润骤减71% 交付量下降13% [1] - 汽车业务营收13.97亿美元 同比下降20% 能源业务营收2.73亿美元 环比增长67% 服务及其他业务营收2.64亿美元 同比略增 [1] - 总毛利率(GAAP)为16.3% 低于上季度的17.4% 汽车毛利率(除信贷)为11.3% 能源业务毛利率达28.8%创历史新高 [1] - 自由现金流为+0.66亿美元 期末现金储备达370亿美元 运营利润率为2.1% 大幅下滑 [1] 战略调整与未来规划 - 公司加速推出经济型车型 时间提前至2024年底/2025年初 强调FSD、Robotaxi和Optimus的潜力 [1] - FSD(Supervised)V12已推出 中国区上线 Robotaxi/Cybercab将于2024年6月在奥斯汀试点 专用车辆计划2026年推出 [1] - Optimus机器人计划2025年底工厂应用 2026年销售目标 公司裁员超10%以节省成本 [1] - 利用现有平台生产线加速产品上市 降低资本支出 比原计划更节省成本 [1] 市场反应与估值争议 - 尽管业绩不佳 财报后股价大幅上涨4%-13% 市场更关注未来叙事而非Q1数据 [1] - 财报前分析师情绪谨慎/看跌 财报后初步反应转为谨慎乐观 投资者关注战略转向 [1] - 估值争议持续 汽车公司vs科技(AI)公司定位未决 Q1业绩支持汽车公司观点 但电话会议叙事偏向科技公司 [1] 能源业务表现 - 能源业务创纪录盈利 预计增长快于汽车业务 2025年全年增长目标20.4GWh [1] - 能源业务显著提升整体毛利率 掩盖了核心汽车业务的疲软 [1] 风险与挑战 - 公司撤回2025年新量增长指引 承认存在不确定性 [1] - 已识别风险包括贸易政策/关税 变化的政治情绪(品牌影响) 宏观经济环境 [1] - 核心汽车业务面临压力 盈利能力依赖监管信贷(5.95亿美元) [1]