歸藏的AI工具箱 - 财报，业绩电话会，研报，新闻

歸藏的AI工具箱

搜索文档

歸藏的AI工具箱· 2025-06-15 08:02

多智能体系统概述 - 多智能体系统由多个大型语言模型(LLM)智能体协同工作组成主智能体(协调器)负责规划任务并委托给并行操作的子智能体具体步骤包括任务分解、子智能体执行和结果合并[4][6] - 该系统特别适合开放式研究任务因其具备动态调整和并行探索能力在广度优先查询中性能比单智能体提升90.2%[14][27] - 核心架构采用协调者-工作者模式主智能体(LeadResearcher)负责策略制定和结果综合子智能体(Subagents)并行执行具体任务[29][30] 多智能体系统优势 - 并行操作优势显著：子智能体通过独立上下文窗口并行运行主智能体可同时启动3-5个子智能体使复杂查询研究时间缩短90%[16][17] - 信息处理效率提升：通过关注点分离和并行推理系统能更彻底地调查问题在识别S&P 500公司董事会成员等任务中表现优于单智能体[27] - 动态适应能力强：研究过程中可根据新发现调整方法支持先广后深的搜索策略模仿人类专家研究模式[33][34] 多智能体系统挑战 - 架构脆弱性问题：子智能体可能误解任务导致结果不一致早期系统出现过为简单查询生成50个子代理等协调问题[10] - 上下文共享难题：子智能体间缺乏充分上下文共享可能基于冲突假设行动如分别构建不同风格的《飞扬的小鸟》游戏元素[19][20] - 资源消耗巨大：多智能体系统token消耗达聊天交互的15倍仅适用于高价值任务编码等依赖性强任务目前不适用[17][28] 解决方案与优化措施 - 严格领域限定：仅应用于适合并行化的研究任务排除编码等依赖性强领域通过专用提示工程明确子智能体职责[8][12] - 高级上下文管理：采用文件系统直接存储输出建立记忆机制保存关键信息在上下文接近限制时生成新智能体交接[16][30] - 精细化提示工程：包含7项核心原则如教导协调器明确委派任务根据查询复杂度动态调整工作量优先使用专用工具等[33] 行业应用现状 - 主要应用场景包括：专业软件开发(10%)、技术内容优化(8%)、商业策略制定(8%)、学术研究辅助(7%)和信息验证(5%)[38] - 实际效果显著：用户反馈显示能发现新商业机会解决技术难题在医疗保健等领域节省数天研究时间[38] - 评估方法创新：采用LLM作为裁判评估事实准确性等维度结合人工测试发现边缘案例需同时关注结果正确性和过程合理性[36]

多智能体系统

上下文工程

Artificial Intelligence

Claude Code

多智能体系统

上下文工程

Artificial Intelligence

Claude Code

40秒生成1080P视频，3.6元一条，字节这次又要掀桌子了？藏师傅Seedance 1.0 Pro实测

歸藏的AI工具箱· 2025-06-11 08:42

字节跳动Seedance 1.0 Pro视频生成模型发布 - 字节跳动在火山引擎Force原动力大会上发布Seedance 1.0 Pro视频生成模型[1] - 该模型是即梦视频3.0 pro模型的升级版本[1] 模型性能表现 - 在Artificial Analysis评测中，Seedance 1.0在文生视频和图生视频两项指标均排名第一[2] - 文生视频ELO评分1299，显著高于Google Veo 3 Preview的1252分[3] - 图生视频ELO评分同样领先竞品[3] 核心技术特点 - 支持原生1080P分辨率视频生成[2] - 单次生成可输出最长10秒视频[8] - 支持多镜头无缝切换叙事，保持人物场景一致性[6][8] - 在多主体动作和复杂运镜提示词表现优异[8] - 画面动态效果自然，结构性好，崩坏率低[8] - 生成速度极快，5秒1080P视频仅需40秒[8] - API调用价格优势明显，5秒视频仅需3.67元[8] 多镜头生成能力 - 支持单次生成包含不同景别和运镜的分镜视频[6] - 人物装束和场景风格在多分镜中保持高度一致[9] - 示例1：战术撤离场景三镜头叙事[10] - 示例2：餐饮宣传片三镜头叙事[12] - 示例3：咖啡馆紧急回复场景三镜头叙事[14][15] 图生视频测试表现 - 怪兽场景测试中毛发质感和光照效果逼真[21] - 环绕镜头运动中保持人物运动模糊效果[22] - 水中人物转身动作流畅，头饰细节完美[23] - 高风格化场景下维持风格一致性[24] - 2D动漫风格大景别变化表现稳定[25] 文生视频测试表现 - 复杂POV运镜场景细节清晰无崩坏[27] - 北非古城猫咪探索场景叙事连贯[28] - FPV无人机运镜森林追逐场景动态流畅[29] - 中国书法场景运笔姿势和墨迹晕染准确[31] - 地铁急刹车多人物理碰撞效果自然[33][34] 商业化进展 - 6月11日通过火山引擎向企业用户开放[36] - 已上线豆包App"照片动起来"功能[36] - 模型在速度、稳定性和价格三方面具备竞争优势[35] 行业影响 - 显著降低普通用户视频创作门槛[18] - 在文化特色内容生成方面具有本土优势[16] - 预计将推动AI视频应用受众大幅拓展[35]

人工智能

视频生成

人工智能

Seedance 1.0 Pro 视频生成模型

人工智能

视频生成

人工智能

Seedance 1.0 Pro 视频生成模型

眼馋苹果刚发布的液态玻璃效果？藏师傅教你提示词一键实现

歸藏的AI工具箱· 2025-06-10 06:49

苹果WWDC2025发布会液态玻璃效果分析 - 苹果在WWDC2025发布会上重点更新视觉与交互设计，核心创新为液态玻璃（Liquid Glass）效果，其边缘渲染真实细腻，但卡片中心可读性存在缺陷[1] - 液态玻璃效果预计将引发行业广泛模仿，短期内高频出现在各类设计中[1] 多平台液态玻璃效果实现对比 - **Lovable平台**：折射效果自然，但描边处理较生硬[1] - **谷歌平台**：边缘厚度不足但整体可读性更优[2] - **Claude Opus 4平台**：输出不稳定，倾向添加模糊效果且质量波动较大[2] 液态玻璃网页实现技术规范 - 采用Bento Grid风格单页布局，白色文字搭配苹果标志性渐变高亮色，玻璃质感卡片需避免深色背景[3] - 设计需包含超大字体/数字突出核心信息，并通过大小元素比例反差强化视觉焦点[5] - 响应式设计需兼容1920px及以上宽屏，中英文混排需以中文粗体大字为主[5] - 技术栈要求：HTML5 + TailwindCSS 3.0+ + JavaScript，引用Apache ECharts 5图表组件[5][4] - 字体与图标资源需分别调用Google Font和Font Awesome CDN[5] 液态玻璃CSS关键实现逻辑 - 容器层（`.liquidGlass-wrapper`）通过多重阴影和贝塞尔曲线过渡实现动态悬浮效果[4] - 扭曲层（`.liquidGlass-effect`）应用3px模糊滤镜，色调层（`.liquidGlass-tint`）设置25%白色透明度[4] - 光泽层（`.liquidGlass-shine`）采用内外阴影叠加模拟材质反光，内容层（`.liquidGlass-text`）缩放动画增强交互反馈[4] 生成式AI应用建议 - 提示词需明确引用WWDC2025发布会关键信息，背景图片深度影响风格辨识度[6] - Gemini 2.5 Pro为首选生成工具，DeepSeek R1 0528无法处理图片扭曲效果[6] - 开源项目`liquid-glass-effect-macos`提供底层技术参考[7]

Liblib AI上线Kontext，门槛大幅降低！藏师傅手把手教你用它解决图片问题

歸藏的AI工具箱· 2025-06-09 06:44

FLUX Kontext功能与应用 - FLUX Kontext是一款全能图像编辑应用，支持图片局部修改、去水印、去除背景人物等操作 [1] - 该工具已集成至Liblib平台，支持Web UI和Comfyui两种使用方式，用户无需本地部署即可在线处理图片 [2] - 即将上线多图参考功能，可实现人物服饰更换、道具添加等复杂编辑 [11][12] Web UI基础操作指南 - 使用流程：在Liblib首页添加F1 Kontext模型→进入在线生成界面→选择图生图模式→输入提示词（支持中文自动翻译）→调整图像比例→生成图片 [4][6][7] - 典型应用案例：通过提示词生成"厨房中的Labubu"形象，包含厨师帽、围裙、烘焙道具等细节 [9] Comfyui高级功能实现单图处理 - 工作流获取后直接拖入界面，通过"加载图像"节点上传图片，中文提示词自动翻译功能简化操作 [14][16] - 智能优化能力：可自动调整车身角度、环境光线（如黄昏车灯提亮）及运动模糊效果，实现场景转换 [18][19] 多图融合 - 双图/三图融合支持将产品植入指定环境或模特穿戴指定服饰，优先保持产品细节（如化妆品瓶身透明度、文字保留） [21][24] - 关键技术参数：aspect_ratio控制输出比例，环境元素自动重组确保画面自然度 [16][22] - 典型场景：化妆品瓶与橘子和花丛融合、模特在拱门建筑前手持产品等 [24][29] 图像后处理优化 - 内置放大工作流可提升分辨率，整合FLUX Lora模型改善肤质、材质和色彩表现 [31][32] - 工作流获取地址：通过指定链接下载预置模板 [34]

Artificial Intelligence

FLUX Kontext

Web UI

Comfyui

Artificial Intelligence

FLUX Kontext

Web UI

Comfyui

从今天起，奶奶也能一句话做出爆款设计了｜即梦AI图片3.0智能参考指南

歸藏的AI工具箱· 2025-06-06 10:53

核心观点 - 即梦AI图片3 0的智能参考功能突破传统设计工具限制用户仅需提示词即可完成各类图片设计包括海报电商封面视频封面等 [1] - 新功能支持基于原图生成内容实现照片编辑风格转换文字添加等复杂操作大幅降低设计门槛 [1][16] - 模型在电商营销物料 IP人像封面等商业场景展现强大应用潜力支持商品还原与排版复刻 [26][30][37] 基本能力测试人像编辑 - 支持从背景更换到配饰调整的全方位人像修改融合度达到人眼无法识别的水平 [2] - 成功实现姿势调整滤镜添加拍立得风格转换等操作保留原图核心特征 [5] 风格化图片处理 - 对潮流玩偶Labubu实现换装改造精准保持材质纹理并同步更新阴影效果 [7][8] 文字生成与修改 - 可精准生成金色立体书法字体等复杂文字样式位置控制准确 [10][11] - 支持将原有3D Q版挤压效果文字从3字扩展为5字保持风格一致性 [13][14] 日常应用场景照片处理 - 覆盖美图软件四大核心需求：加滤镜改内容调比例增装饰 [16] - 一键生成撕拉片风格照片支持连续编辑添加手写文字 [16][18][19] 自动化设计 - 输入"海报"提示词即可自动生成契合原图风格的设计方案 [21] - 支持自定义文字内容如咖啡打卡标记等个性化应用 [23] 商业场景应用电商营销 - 解决商品还原度问题保持产品ID不变的同时优化背景融合 [26][29] - 输入简单文案如"29 9元蛋糕新品海报"即可生成完整营销素材含自动补充的广告语 [32] 视频/IP封面 - 实现探店类封面人物抠图+场景合成的复杂效果单次提示完成 [37] - 支持复刻影视飓风等专业视频封面的排版结构与视觉元素 [39][40] 技术实现 - 功能由SeedEdit3 0和DreamPoster双模型驱动后者专攻文字修改与海报生成 [41] - 操作流程简化：上传图片后输入提示词直接生成全量上线在即 [41][42]

对普通人最有用的一次！藏师傅教你用FLUX Kontext解决一切图片问题

歸藏的AI工具箱· 2025-06-03 06:53

模型功能 - 黑森林工作室发布生成式流匹配模型FLUX Kontext，具备对图片进行编辑而不影响未编辑区域的能力，支持多张图片参考生成新图像并保持高度一致性[1][2] - 模型支持通过简单英文提示词实现精细修改，包括添加配饰、改变姿势、更换背景和服装，修改后的人物面部一致性与环境融合良好[3] - 模型可处理复杂水印去除、身体瑕疵优化、电商商品展示图生成、景区游客去除、真实照片与动漫风格转换、海报文字修改等多样化需求[4][18][26][9][11][13] - 模型在修复老照片上色和风格转换方面表现优异，能自然处理色彩和明暗关系，并保持人物主要特征[7][9][11] - 模型支持修改海报内容，包括文字和背景色更换，且不影响原有其他内容，字体风格保持一致[13][15] 技术细节 - 模型分辨率为固定值，画全身照时面部可能因像素区域过小而变糊[5] - 模型不支持中文提示词，需通过翻译软件转换，但修改图片中的中文文字不受影响[3][15] - 多图参考时人脸ID保持会下降，最佳方式是避免修改面部[44] - 模型可识别图片中的涂鸦标记，通过圈定修改区域实现精确编辑[44] 应用场景 - 电商领域：一键生成商品展示图，支持复杂商品与模特合成，还原细节如服装文字和配饰[26][31] - 平面设计：为Logo添加材质和背景，替代3D渲染需求，还原笔画细节[21] - 旅游摄影：去除景区照片中无关游客，保留主体或纯风景[24] - 个人修图：自然实现瘦脸、瘦身、增肌等美颜美体效果，避免传统修图的生硬感[34][37][38] 使用渠道 - 简单操作推荐FLUX官方Playground和Krea平台，前者提供200积分，单图消耗4积分[40] - 开发或多图参考推荐Fal渠道，支持Comfyui插件，无需本地算力，适合Mac用户[42][43] 成本优势 - 单图编辑成本为0.08美元（约0.5元人民币），显著低于GPT-4o的1.4元人民币[45] - 未来将开源Dev版Kontext模型，进一步降低成本[45]

近期必读，Mary Meeker 340页PPT分析AI现状和未来

歸藏的AI工具箱· 2025-06-01 04:37

人工智能发展趋势概述 - Mary Meeker最新发布340页《人工智能趋势报告》，标志着其研究方向从互联网转向AI领域[1] - 报告显示AI技术演进速度和范围前所未有，变革速度远超历史任何时期[27] - ChatGPT达到1亿用户仅用24个月，速度是TikTok的375倍、Netflix的515倍[16][32] 技术发展加速特征 - 计算专利授权量在ChatGPT发布后两年激增6000份，增速超1995年互联网泡沫时期[4][5] - AI模型训练计算量(FLOP)年均增长超360%，15年累计增长100亿倍，远超摩尔定律[10] - 基础设施从CPU转向GPU，NVIDIA数据中心收入2024年占全球数据中心资本支出25%[7][45] 市场应用与商业化 - OpenAI年化收入92亿美元但估值达3000亿美元，收入倍数33倍；Perplexity估值倍数高达75倍[24][25] - 摩根大通预计AI/ML创造价值两年内增长65%，已在投行服务、运营优化等领域全面部署[19] - 全球AI公司融资总额达950亿美元，年收入仅110亿美元，呈现高增长高消耗特征[61] 技术性能与成本动态 - AI推理成本两年下降997%，每百万代币价格从数美元降至美分级[51] - 顶级模型性能差距缩小，中国DeepSeek R1在MATH测试达93%接近OpenAI的95%[55][76] - 训练成本八年增长2400倍，100亿美元级模型训练或于2025年启动[45][51] 行业竞争格局演变 - 中美竞争白热化，中国MAU前十AI应用均为本土开发，DeepSeek四个月获5400万用户[82] - 开源模型数量两年增长33倍，Meta Llama下载量八个月增长34倍[60][72] - 六大科技公司资本支出2024年占收入15%，较十年前提升7个百分点[45] 物理世界融合进展 - Waymo自动驾驶市场份额20个月从0%增至27%，特斯拉FSD里程33个月增长100倍[88] - 农业AI应用累计除草23万英亩，减少10万加仑农药使用[91] - 卫星互联网推动全球网络普及，Starlink用户32年实现202%年增长[97][103] 工作模式变革 - 72%美国职场人士认为AI显著提升工作质量和效率[38] - GitHubAI开发者仓库16个月增长175%，使用AI开发者比例从44%升至63%[55] - 美国AI职位发布量七年增长448%，非AIIT职位下降9%[108] 基础设施投资 - 全球数据中心支出2024年达4550亿美元，美国新建容量四年增长16倍[45] - 六大科技公司自由现金流十年增长263%至3890亿美元，现金储备4430亿美元[45] - AWS将49%收入投入AI基建，远超2013年云基建27%的投入比例[45]

四大顶尖模型对决！6000 字测评带你看Deepseek R1有多强

歸藏的AI工具箱· 2025-05-29 14:54

DeepSeek-R1 0528模型性能表现 - 在LiveCodeBench上表现接近OpenAI的o3(high)水平在Aider多语言基准测试中与Claude Opus相当[1] - 前端开发能力测试中稍逊于Opus4 但全面超越Sonnet4和Gemini 2.5 Pro 部分任务完成度甚至超过Opus4[3] - 价格仅为竞品的1/30 性价比优势显著[51] 技术能力测试结果仓库管理系统 - 唯一完整实现商品管理/库存管理/看板三页面架构包含假数据生成功能其他模型均出现功能缺失或报错[11] - 采用专业SaaS平台侧边栏设计竞品界面简陋且存在保存失败等基础功能缺陷[11] 点阵动画编辑器 - 完美实现P5.js全屏互动点阵支持5种动画模式和5种点形状夜间模式切换正常[17] - 竞品普遍存在点阵不动/缺失等严重问题 Opus4夜间模式配色异常[17] 图片渐变色提取工具 - 美学设计最佳添加SEO优化内容和应用场景介绍但未实现核心取色功能[20] - Claude系列完成基础功能但界面简陋 Gemini完全报错[19][21] 白噪音日签网站 - 美学表现仅次于Opus4 存在音乐按钮扁平化/名言遮罩过度等问题[27] - Opus4在字体排版/动效细节上表现最优 Gemini加入图片切换动效[27][28] 睡眠监测APP - 单页面完成度最高实现响应式导航设计卡片和图标处理专业[34] - 仅Opus4完成多页面架构但移动端图标尺寸过小 Gemini生成四个无法交互的页面[34] 复杂俄罗斯方块 - 完整实现主题切换功能但遗漏特殊方块设计界面组件标准化程度高[48] - Claude系列完成特殊方块逻辑但缺少主题切换 Gemini存在落点判定Bug[48][49] 行业影响 - 开源模型性能突破30倍价格差距显著降低AI应用门槛[51] - 在多模态任务中展现差异化优势前端开发/创意设计领域潜力突出[3][17] - 持续迭代能力值得期待 R2版本可能带来更大技术跃升[4]

搜攻略到凌晨3点？飞猪AI“问一问”用1张表谋杀废话

歸藏的AI工具箱· 2025-05-29 06:10

飞猪旅行Agent产品分析产品核心功能 - 独家上下文构建能力显著优于同类产品能生成真正可执行的旅行规划方案包含景点详情打卡点机票酒店路程耗时等关键信息[1] - 采用多Agent并行处理架构包括"路线制定师"、"预算管理师"、"智慧交通顾问"等专业模块大幅提升查询效率但消耗较高Token成本[8] - 支持动态预算调整用户修改预算后可自动更新酒店机票选择并重新生成方案[13] 行程规划特性 - 初始生成3种差异化方案按探险程度文化体验奢华等级等维度分类标注总预算(￥3568-7801区间) 耗时(7天)及推荐指数[6][7] - 提供可视化地图标注显示景点间距路线及每日行程节点方案一详细标注每日景点名称及位置信息[4][9] - 行程卡片集成直接预订功能支持收藏景点/机酒信息每个节点可快捷编辑提问酒店机票附带AI推荐理由[11] 数据呈现方式 - 费用明细表拆分交通(￥2682) 住宿(￥2225) 门票(￥2894)等类别方案三总预算达￥7801包含高端服务[7] - 每日行程结束推送必要注意事项涵盖高海拔适应天气变化宗教禁忌等实用建议[13] - 特价机票查询功能可识别节假日出行需求如端午节特价机票检索[20] 技术实现优势 - 深度整合通义等大模型能力在路线合理性机酒匹配等垂直领域建立数据壁垒[18] - 交互设计优化输入体验复杂地名可通过点击编辑简化输入流程[11] - 方案生成逻辑透明化每个推荐方案均注明设计理由及适用人群标签[6]

文旅新玩法！藏师傅教你做食物微缩景观宣传海报&视频

歸藏的AI工具箱· 2025-05-28 08:06

AI生成内容创新应用 - GPT-4o的图片生成功能被用于创造超现实风格的食品键盘键盘按键采用微缩甜点设计包括马卡龙迷你蛋糕水果挞等色彩鲜亮质感逼真场景设定为烘焙坊灯光环境 [1][2] - 该技术进一步拓展至城市主题微缩场景将城市代表性食物与景观结合例如成都主题中辣椒和青花椒排列成"成都"汉字火锅红油形成河流食材化作山峦糍粑熊猫在香菜竹林嬉戏 [5][8] 多模态AI工具协同 - 豆包和GPT-4o均可实现类似场景生成但GPT-4o输出的场景更简洁 [3] - Veo3视频生成技术可扩展应用通过延时摄影风格动态展现微缩景观的组装过程支持从无到有的渐进式构建但需注意其对中文支持有限城市名称需用拼音表示 [6][7] 文旅产业应用潜力 - 该技术特别适合制作文旅宣传素材可诱导用户生成代表各自城市的特色食物微缩场景具有较强视觉吸引力和传播性 [4] - 成都案例展示完整技术路径包含3D等距渲染 Q版设计元素符号化处理（如豆腐皮乌篷船）等手法形成热辣安逸的整体氛围 [5][8] 技术实现优化方向 - 可通过Flow功能实现一镜到底的连贯视频效果但需考虑抽卡机制带来的成本问题 [6] - 建议结合《Veo3和FLOW一手实测》中的技巧利用20美元Gemini Pro会员在Gemini App和FLOW中使用Veo3功能 [9]