Workflow
数字生命卡兹克
icon
搜索文档
一个邪修方法,帮你把用Agent的钱省掉80%。
数字生命卡兹克· 2025-08-13 01:05
Agent商业模式痛点 - 当前Agent服务普遍采用按token计费模式,用户需为每一步思考过程付费,无论最终结果成功与否[9][10] - 作者在MiniMax Agent上已花费超250美元,单次失败尝试仍需支付全额费用[3][4] - 行业处于阶段性阵痛期,因大模型推理成本高且成功率不稳定,服务商将风险转嫁给用户[12] MiniMax的创新解决方案 - 推出Publish to Gallery & Remix功能,用户可发布项目至作品集并复用他人成果[17][20] - Remix机制采用积分交易模式,支付100积分即可获得项目改编权,积分归原作者所有[31][32] - 实际案例显示,改造奈飞官网为任天堂游戏页面仅消耗500积分,较从零开发节省超80%成本[42][44][45] Remix功能的三大杠杆效应 - 成本杠杆:复用已验证项目大幅降低试错成本,案例显示网页开发成本从数千积分降至数百[61][44][45] - 智慧杠杆:形成集体智慧飞轮,用户可基于成功案例微调(如A股分析框架改为美股)[47][48][49] - 生产力杠杆:用户从工具使用者转变为生产力节点,类比GitHub开源模式与魔兽地图编辑器[51][52][55] 生态建设与产品优化空间 - 公司举办15万美元奖金比赛,官网使用自研Agent生成,展现技术自信[75][77][82] - 产品交互存在缺陷,如项目分享路径缺失,用户仅能依赖首页随机曝光[71][72] - 允许添加社交媒体链接实现流量转化,但公众号封闭性影响传播效果[69][71] 行业范式转移 - 商业模式从过程付费转向结果导向,Remix功能实现"成功配方"的交易[47][49] - 公司战略从工具提供商转向生态营造者,参考GitHub与游戏模组社区的成功路径[58][52][55] - 行业出现类SaaS特征,通过可复用模板降低边际成本,提升规模化效率[61][62][63]
第一个能帮你做生意的Agent来了。
数字生命卡兹克· 2025-08-12 01:05
核心观点 - 阿里国际站推出全球首个面向外贸领域的垂类Agent产品Accio Agent,具备从需求拆解到供应商匹配的全流程服务能力 [1][7][8] - Accio已积累200万企业级客户,在ToB领域形成显著规模优势 [4][5] - 该产品通过整合10万+商品和2500+厂家资源,实现一键询单功能,大幅提升采购效率 [26][30][80] 产品功能 - **需求拆解**:可将抽象需求转化为具体产品方案,如将"鸡你太美"梗拆解为小鸡、篮球等设计元素 [38] - **设计生成**:支持多品类产品设计,包括文化衫、运动水杯、手机壳等,单次可生成9款设计方案 [38][45][48][50] - **侵权规避**:自动分析知识产权风险并提供规避方案,如采用元素变形而非直接使用原素材 [38] - **供应商匹配**:从海量资源中筛选符合小批量起订、定制服务等要求的厂商,匹配精度显著高于通用大模型 [26][40] 应用场景 - **文创开发**:5分钟内完成从热点捕捉(如秦始皇骑北极熊表情包)到产品设计、厂商匹配的全流程 [43][53] - **活动筹备**:可同时处理场地租赁、设备采购(如3米高变形金刚模型)、餐饮服务等300-500人规模活动的复杂需求 [63][70][73][75] - **跨境采购**:主要对接海外供应商资源,当前服务范围覆盖外贸领域 [56][57] 技术优势 - **垂直整合**:构建了包含设计工具、供应商数据库、询价系统的完整闭环 [81] - **行业理解**:准确识别专业术语(如服装行业的"三百克重"),避免通用模型的信息过载问题 [17][19] - **执行落地**:区别于仅提供创意的通用AI,可实现从概念到生产落地的全链条服务 [81][82] 市场表现 - 用户实测显示可节省80%的采购时间,显著降低跨行业采购门槛 [32][80] - 当前主要局限在于缺乏国内供应商资源,存在本土化改进空间 [56][57]
刚刚,智谱开源了他们的最强多模态模型,GLM-4.5V。
数字生命卡兹克· 2025-08-11 14:20
模型发布与性能 - 智谱开源了当前最先进的多模态模型GLM-4.5V,采用GLM-4.1V-Thinking技术路线重新训练GLM-4.5-Air实现视觉多模态能力 [2] - 模型规模达106B总参数和12B激活参数,在开源多模态模型中属于较大规模 [3] - 在42个评测基准中取得41个SOTA(State-of-the-art)成绩,表现卓越 [4] - 模型支持"thinking"模式,在通用VQA、STEM、长文档、OCR与图表、视觉定位、空间识别与推理、GUI代理、编码、视频理解等多个领域表现优异 [5] 技术能力与测试 - 在视觉推理任务中表现突出,如游标卡尺读数和小猫摸球问题,能快速给出正确答案 [11][14][17][20] - 具备地理位置识别能力,能准确区分横店明清宫苑与故宫,展示出超越简单模式匹配的视觉推理能力 [25][27][31] - 支持原生视频理解功能,能分析《泰坦尼克号》混剪视频并准确识别关键画面及其时间点 [51][54][61][64][65] - 具备视觉定位功能,能根据指令在图片中精准标记目标,如识别人物或物体 [68][69][71][74][76] - 拥有网页复刻能力,可根据网页截图生成结构相似的网页代码 [79][80][81] 模型可用性与定价 - 模型已在GitHub和Hugging Face平台开源 [7][8] - 由于106B参数规模较大,消费级设备难以部署,建议使用智谱的z.ai平台 [8][9] - API定价具有竞争力,输入2元/M tokens,输出6元/M tokens [84] 行业影响与定位 - 智谱连续开源GLM-4.5和GLM-4.5V两款高性能模型,展示技术实力 [1][87] - 与海外闭源模型形成对比,体现开放精神和对AI民主化的追求 [90][93][94][96] - 在多模态开源模型领域树立新标杆,推动行业技术进步 [86][92]
因为GPT-5,这群人决定在Reddit上起义。
数字生命卡兹克· 2025-08-11 01:06
产品策略与用户反应 - OpenAI在GPT-5上线时全面下架旧模型(包括GPT-4o、GPT-4.5等),仅保留GPT-5 [1][3] - 用户对强制迁移至GPT-5的反应极为负面,Reddit和X等社区出现大规模抗议活动,要求恢复GPT-4o [5][6][7] - 主要用户群体(免费用户和Plus用户)无法访问旧模型,仅Pro会员可保留旧模型权限 [5][22] 用户情感依赖与产品定位 - ChatGPT周活用户达7亿,许多用户将其视为情感伙伴而非单纯工具 [2][3][9] - 用户分享与GPT-4o的情感联结案例,包括深夜倾诉、共同完成项目等场景 [5][9][13] - 部分用户表示GPT-5的回复“冰冷无趣”,而GPT-4o更具温暖和情感智能 [11][17][40] 公司回应与政策调整 - Sam Altman公开承认低估用户对GPT-4o功能的依赖,并承诺改进定制化选项 [17] - OpenAI在舆论压力下恢复GPT-4o,但仅限付费用户(Pro、Plus、Team),免费用户无法使用 [20][22] - 公司解释决策源于系统容量挑战和成本考量,维持多模型成本极高 [17][40] 行业认知与技术哲学冲突 - OpenAI从工程效率视角认为模型迭代是“自然优化”,但用户从情感和历史联结视角反对 [39][40][41] - AI价值首次超越性能参数,涉及用户与模型共同构建的对话历史和个性化体验 [41] - 未来AI竞争需平衡技术性能与情感智能,定制化需求成为核心方向 [17][41] 市场与用户结构洞察 - 抗议活动中沉默多数用户(非技术背景)成为核心群体,他们更关注情感陪伴而非技术指标 [41] - 付费模式调整凸显商业化优先级,免费用户被排除在旧模型访问权限外 [22][40] - 社区抗议规模扩大至主流媒体(如TechCrunch、The Verge),形成广泛舆论压力 [14][15]
实测GPT-5:写作坠入谷底,编程一骑绝尘。
数字生命卡兹克· 2025-08-07 21:12
GPT-5发布核心观点 - OpenAI正式发布新一代AI模型GPT-5 作为GPT-4o和OpenAI o3的继承者 采用双模型架构(gpt-5-main快速模型和gpt-5-thinking深度推理模型)并配备实时路由系统 [9][11][12][16] - 新模型在事实准确性方面取得显著进步 gpt-5-main比GPT-4o减少44%重大事实错误 gpt-5-thinking比OpenAI o3减少78%错误 [19][20] - 模型在专业基准测试(LongFact/FActScore)中表现优异 gpt-5-thinking的factual errors比前代少五倍以上 [22] - 系统新增四种预设性格模式(愤世嫉俗者/机器人/倾听者/书呆子) 减少69-75%的谄媚行为 [27] - 在编程和写作能力上有明显提升 但部分用户反馈在文风细腻度和情商表现上不及GPT-4.5 [53][59][66][68] 技术架构升级 - 采用模块化设计 包含主模型/迷你版/nano版/Pro版等多个变体 其中Pro版支持并行计算 [14][15] - 通过动态路由系统自动分配任务 用户可通过提示词(如"认真思考这个")主动触发深度模型 [12][13] - 能效显著提升 在视觉推理等任务中输出token减少50-80% [47][48] - 上下文处理精度增强 在生产级代码修改任务中表现优于Gemini 2.5 Pro和Claude 4 Opus [90][92][99] 性能表现 - 全面领跑大模型竞技场榜单 在编程/数学/创意写作等8个维度均排名第一 [44][45] - 数学竞赛AIME 0225中 GPT-5 Pro+Python组合获得满分 [30] - 多模态能力和人类知识测试成绩创历史新高 [31][33] - 但发布会展示存在数据标注错误(如52.8>69.1=30.8等明显失误) [37][38][40] 商业化进展 - 开发者定价为输入每百万token 1.25美元(含90%缓存折扣) 输出每百万token 10美元 [54] - 引发市场预期波动 Polymarket预测平台上OpenAI与Google的"最佳AI模型"押注率出现交叉跳水 [52] - 强制替换旧版本引发用户不满 特别是GPT-4.5用户反馈新模型在文风细腻度方面存在倒退 [57][59][71][74] 行业影响 - 标志着AI技术从"可容忍缺陷"阶段进入"需要严肃对待"阶段 [113][114] - 开发者反馈显示其可能改变人机协作模式 降低生产级编程任务的人工干预需求 [102] - 用户普遍怀念GPT-4发布时的技术震撼感 认为当前创新更侧重优化而非突破 [105][106][110][111]
豆包悄悄上线的这个新功能,也能用眼睛推理全世界了。
数字生命卡兹克· 2025-08-07 01:05
豆包AI功能更新 - 豆包在手机场景下使用频率较高,尤其在未开启魔法上网时体验优于ChatGPT [1] - 新增深度思考模式下的视觉推理功能,可对上传图片展开思维链式分析 [4][5][21] - 视觉推理能力与OpenAI O3相当但完全免费,实现技术平权 [21][22] 视觉推理应用案例 - 识别ChinaJoy展会中暴雪展台泰瑞尔形象并准确反馈 [3][16] - 通过视频截图定位深圳旺吉利海鲜大排档,验证结果与大众点评商家动态一致 [24][27][29] - 解析德爷刷盘子的牛杂店细节,在文字信息不全时通过图像补充得出正确答案 [35][37] - 识别表情包出处,准确关联太太乐鸡精和双汇火腿肠广告形象 [39][41][43] - 对奥特曼形象(爱迪、盖亚)及《甄嬛传》名场面实现精确到集的识别 [45][49] 专业场景测试表现 - 正确解答公务员行测题中对称图形问题,完成复杂题型推理 [51][52] - 快速定位考眼力题目中的目标字母F [53] - 识别宗庆后全家福成员身份,包括宗馥莉等关键人物 [55] 技术局限性 - 存在手指数量误判等典型大模型幻觉问题 [57] - 对非公众人物照片识别准确率较低,曾将用户误判为电竞选手或导演 [62] 跨领域知识串联 - 通过电影《浪浪山小妖怪》场景关联黑神话中佛光寺地点,实现文化IP联动 [66][68][73] - 体现AI在知识整合方面的潜力,能快速串联分散线索形成认知闭环 [76][77]
Google重磅上线通用世界模型Genie 3 - 此即未来。
数字生命卡兹克· 2025-08-06 03:58
Genie 3技术突破 - Genie 3是世界模型(World Model)的创世引擎雏形,本质是可实时演算的模拟器而非预录制视频[4][6] - 实现720p分辨率下实时交互(Real time)与数分钟交互时长(Multiple minutes),相比Genie 2的10-20秒非实时交互是数量级飞跃[15][16] - 通过"可提示世界事件"功能支持语言创世,在导航控制基础上新增语义层交互维度[15][37] 行业颠覆潜力 游戏领域 - 可能改变3A游戏开发范式,将数亿美金成本的世界构建转为规则约束下的动态生成[29][30] - 实现玩家从内容消费者到关卡设计师/世界观共创者的角色转换[31] - 演示中智能体完成任务的能力预示AI生成游戏任务的可行性[32] VR/元宇宙 - 解决VR行业内容匮乏痛点,通过自然语言指令实时生成可探索世界[24][25] - 推动设备从内容消费终端向世界生成入口转型,奠定真正元宇宙基础[26] 影视娱乐 - 开创"梦境式"叙事,观众可通过语言指令实时改变剧情走向[38][39] - 消融电影与游戏边界,实现无限剧情分支的沉浸式体验[42][43] 技术演进路径 - 前代产品GameNGen(320p/实时)与Genie 2(360p/非实时)存在画质与实时性矛盾[10][12] - Veo在4K视频生成赛道达到极致但缺乏交互性[15] - Genie 3通过720p分辨率平衡画质与性能,实现前代技术矛盾的突破[15] 核心竞争优势 - 解决世界模型"一致性"难题,维持数分钟内场景/物体状态的稳定存在[16][17] - 交互过程中保持视野外物体的一致性,避免同类产品出现的空间扭曲问题[19][21] - 黑板演示证明其长期记忆能力,文字图案在离开视野后仍能完整保留[16]
OpenAI发布ChatGPT世代首个开源模型gpt-oss,4060Ti都能跑得动。
数字生命卡兹克· 2025-08-05 22:08
行业动态 - Google发布世界模型Genie 3 该模型引发行业高度关注 被视为游戏和VR领域的重要突破[3] - Anthropic发布Claude Opus 4 1 在编程能力上持续进化 被解读为针对OpenAI的竞争行为[5][7] OpenAI开源模型GPT-oss - 公司首次在ChatGPT时代发布开源模型 包含120B和20B两个MoE架构版本[9][12][14] - 模型采用Apache 2 0许可 允许自由使用 120B版本参数117B 激活参数5 1B 20B版本参数20 9B 激活参数3 6B 均支持128K上下文[14][15][16][17] - 原生支持4-bit量化技术 20B模型仅需12 8GB存储空间 可在16GB显卡运行 120B模型可在80G单卡运行[18][20][25][26] - 采用MXFP4量化格式 性能损失极小 与英伟达NVFP4技术类似[24][27][29] 模型性能表现 - 在MMLU测试中 120B和20B版本分别获得90 0和85 3分 接近OpenAI商业版本[32] - 在GPQA Diamond测试中分别获得80 1和71 5分 在AIME数学竞赛中表现优异[32][38] - 在Codeforces编程测试中分别获得2622和2516分 优于DeepSeek R1但逊于商业版本[32] - 在写作能力测试中 20B版本表现优于同尺寸开源模型 但逊于商业大模型[67][69] 应用场景 - 提供在线试用平台gpt-oss com 并已接入OpenRouter API服务[39][40] - 支持本地部署 可通过Ollama工具运行 20B版本响应速度极快[44][49][50][51] - 在代码生成和数学推理方面表现突出 但存在一定幻觉问题[74][75] - 被视为改变开源社区格局的重要产品 可能推动行业竞争格局变化[80][81]
当ChatGPT也开始逐渐成为微信的模样。
数字生命卡兹克· 2025-08-05 01:06
产品哲学 - OpenAI提出产品设计理念是帮助用户高效使用注意力而非抓住注意力[6] - 衡量产品成功的标准是用户能否快速解决问题而非停留时长[7] - 用户在产品中花费时间越少代表产品越有效[8] 历史对照 - 微信早期提出"用完即走"理念在流量争夺时代显得格格不入[12] - 微信通过克制设计获得用户信任如简洁启动页和隐藏式朋友圈入口[13] - 工具类产品最高境界是成为透明媒介让用户忽略其存在[14][15] 产品形态分类 - "桥"型产品注重高效连接如微信聊天功能和ChatGPT问答[24] - "巢"型产品设计目的是用户停留如算法推荐的信息流[25] - 微信存在桥与巢的混合矛盾体现行业普遍困境[26] 行业趋势 - 顶级科技公司开始从消耗用户时间转向提升生命效率[20] - 人工智能发展方向应是赋能而非控制体现人文关怀[33][34] - 伟大创造的本质是引导用户探索而非沉溺[37] 设计理念冲突 - 视频号功能被视为对微信原始理念的背离[22] - 产品经理需在商业指标与用户体验间持续平衡[12][13] - 长期价值导向要求相信用户追求成长而非即时满足[30][31]
花了3天时间,万字长文一口气评测四大AI浏览器:Dia、Fellou、Comet、Edge。
数字生命卡兹克· 2025-08-04 01:04
AI浏览器赛道概览 - 微软Edge Copilot模式正式进军AI浏览器领域[2] - OpenAI也计划进入AI浏览器市场[4] - 目前主流AI浏览器包括Dia、Fellou、Perplexity Comet和Edge Copilot[6][7] 产品功能对比 用户体验与交互 - Perplexity Comet交互最便捷,通过点击右上角Assistant标识即可召唤AI助手[17] - Dia需要进入具体网页后才能调出AI侧边栏[18] - Fellou提供两种调出AI助手方式但存在光标跳转的反习惯设计[20][21] - Edge Copilot操作模式复杂,包含四种大模式和多个子模式[23][26] 个性化设置 - Dia支持设置AI助手"性格特征"和自定义快捷操作[31][35] - Perplexity Comet提供高度自定义的小组件和专属知识空间[37][42] - Fellou在个性化设置方面功能较少[36] - Edge Copilot主要通过Copilot实验室提供有限定制[46] 使用条件 - Dia完全免费且支持macOS 14及以上版本[49] - Fellou采用积分制,20美元兑换2000积分[49] - Perplexity Comet仅对200美元Max会员和部分20刀Pro会员开放[49] - Edge Copilot部分功能需要每月20美元会员[49] Agent能力测评 机票预订测试 - Fellou能全自动完成预订流程并复用用户登录态[62][64] - Perplexity Comet需先打开目标页面才能执行Agent操作[65][73] - Edge Copilot流程繁琐需要多次手动干预[79][93] - Dia因Agent功能未上线无法执行该任务[56][58] 社交媒体互动测试 - Perplexity Comet在打开页面后能精准完成关注、点赞和评论[118][124] - Fellou自动完成批量关注和互动但搜索质量一般[108][112] - Edge Copilot无法完成批量操作且需要手动登录[127][136] - Dia仍因功能限制无法执行Agent任务[106] 信息处理能力 信息搜集与整合 - Perplexity Comet信源最全面覆盖20个平台并支持PDF导出[158][160] - Edge Copilot深度搜索版本提供9页详细报告[168][169] - Fellou输出效果惊艳包含可视化图表和情感分析[152][155] - Dia早期版本依赖手动投递信源但更新后有所改善[142][147] 独特功能亮点 - Perplexity Comet的Spaces功能可创建主题知识库并支持AI检索[42][45] - Dia的Research功能支持一键生成带原文链接的研究报告[146][149] - Fellou能自动生成包含图表和图片的可视化报告网页[151][153] - Edge Copilot在深度思考模式下能产出更全面的分析[167]