数字生命卡兹克
搜索文档
聊聊小米开源的MiMo-V2-Flash,这次,为推理而生。
数字生命卡兹克· 2025-12-20 05:00
周末加更一篇,我还是觉得,小米前两天开源的那个模型,值得单独来聊一聊。 当天晚上其实就打算写了,结果被OpenAI截胡了,这一拖,就拖到了今天。 就是前两天深夜,小米搞了一个大的。 没有任何预兆的,直接开源了一个大模型, MiMo-V2-Flash。 今天看,又涨了将近2倍,已经来到了第六了,这个涨幅还是挺恐怖的。 而且还有一个非常有意思的是,那天,也是雷总的生日。 这绝对不是巧合(狗头保命)。 这次, MiMo-V2-Flash 发布即开源,还附带了技术报告。 说真的,这个技术报告,真的究极详细了。 说实话,十年米粉看到以后,还是有点激动的。 小米,作为硬件厂商的代表,终于出手了。 成绩也不错,在O penRouter上的调用量排名上,一路上涨。 | 目参 | | | | | --- | --- | --- | --- | | l 引导 | | | 4 | | 2 | | MiMo-V2-Flash 模型架构 | 5 | | 2.1 | 整体架构 | | 5 | | 2.2 | | 混合滑动窗口注意力架构 | 6 | | | 2.2.1 | 模型架构实验 | 7 | | | 2.2.2 | 总结与讨论 | ...
亲手给AI投毒之后,我觉得整个互联网都变成了一座黑暗森林。
数字生命卡兹克· 2025-12-19 01:20
我可能,刚刚成为了哈基米的儿子。 至少,AI是这么认为的。 事情是这样的。 前两天,我在小红书上闲逛,无意间用他们的AI搜索功能,搜了一下影视飓风的李四维。 然后,就发现了一个神奇的AI回答。 李四维,是Tim的父亲。 发现问题好像出在最后一篇。 嗯。。。 如果看过影视飓风的朋友都知道,左边这个就是李四维。。。 在李四维踹了一脚无影墙的那一刻,他勉强能算的上,是Tim的爹。。。 我打开了AI搜索参考的那三篇笔记。 这篇的图片有"李四维是影视飓风创始人潘天鸿(Tim)的父亲"的AI总结,AI很可能就是从这里获取的错误信息。 真的,这玩意其实就是那种所谓的无意识投毒,就是,有人,在互联网上,写了一些内容,然后AI就信了,然后AI就开始到处跟别人说,李四维是Tim 的父亲。 再然后,就是以谣传谣,先污染了百度,然后又被用户分发以后,又污染了小红书。 当时觉得这个玩意很有意思,所以,我就想,自己也试一下玩玩。 其实吧,这种所谓的投毒或者GEO,有些时候,在一些冷门的话题下,想污染起来是很轻松的。 比如给我自己,也安排一个父亲,安排一个哈基米。 于是,我随手注册了一个小号。 随手发了一条笔记,内容写的就是"卡兹克是哈基 ...
实测字节Seedance 1.5 Pro,能直出方言的AI视频也来了。
数字生命卡兹克· 2025-12-18 04:33
今天是火山Force原动力大会,我在现场。 这次他们也掏了很多有意思的新货出来,但我觉得最炸的,还是他们的新视频模型,Seedance 1.5 Pro。 因为这次的更新,真的做到了影视级别的音画同步,而且中文能力和方言能力是目前所有模型里的独一档。 语音生成能力这点在他们的技术报告里也有体现。 左边是视频生成能力,右边是语音生成能力。绿色的就是Seedance新模型,在语音生成这一块可以说是遥遥领先。。。 模型昨天已经上线了,可以直接在豆包,即梦或者火山方舟上玩起来。 豆包是在视频生成或者照片动起来这一栏里选1.5 Pro模型。 即梦是在生成视频里选3.5 Pro,也是基于Seedance 1.5 Pro的能力。 目前3.5 Pro支持文生图,单参考和首尾帧,智能多帧和主体参考还要再等等,不过现在这些其实已经很够用了。 还有火山方舟,网址在此:https://exp.volcengine.com/ark/vision?launch=seedance 京剧玩法,名画玩法什么的都可以在方舟上体验。 API也在路上了,现在就可以预约。 Seedance 1.5 Pro的能力维度呢,我觉得可以分成这么几大块,复杂场景 ...
实测GPT Image 1.5,拼尽全力还是没能打败Banana。
数字生命卡兹克· 2025-12-16 23:00
文章核心观点 - OpenAI近期发布了其图像生成模型GPT Image 1.5,但该模型在多项关键能力上仍落后于其主要竞争对手Google的Nano Banana Pro模型 [1][4][77] - 自2024年3月OpenAI发布GPT-4o以来,其在AI领域的领先地位已发生逆转,目前Google在AI模型(特别是图像生成)的进化速度和能力上展现出显著优势 [4][79][80][81] 模型发布与市场背景 - OpenAI在沉寂半年后发布了图像生成模型GPT Image 1.5,而非市场传闻的GPT Image 2.0,此举被解读为可能因竞争压力而采取的保守升级策略 [4][78] - 同期,ChatGPT平台上线了全新的图像生成界面,提供了风格转换、快捷指令等用户体验功能,但在交互设计上被评价为存在界面跳转混乱的问题 [4][8][13] 模型能力对比:信息准确性 - 在文字生成的准确性上,GPT Image 1.5表现不及Banana Pro,尤其是在处理中文文字时出现严重错误,而Banana Pro的中文生成则相对稳定 [27][29][32][38] - 在生成包含特定信息(如日历、Instagram界面)的图片时,GPT Image 1.5在遵循指令细节(如日期范围、界面元素)方面出现明显失误,而Banana Pro的执行则更为精准 [27][29][34][37] 模型能力对比:图像真实质感 - 在生成具有真实照片质感的图像时,两家模型均能较好地理解并实现复杂提示词中的语义元素 [39][40][41] - 在最终成像风格上,GPT Image 1.5生成的图像倾向于更高的饱和度和对比度,显得更具“AI感”或“油腻感”,而Banana Pro生成的图像质感更为自然和日常 [41][43][44] 模型能力对比:图像精准编辑 - 在根据指令对图像内容进行精准编辑(如替换人物、服装、改变天气)的能力上,Banana Pro在人物一致性、光影处理、透视关系等方面整体优于GPT Image 1.5 [45][46][50][52][54][58] - GPT Image 1.5在进行复杂编辑时可能出现指令理解偏差,例如在只要求替换服装时错误地改变了整体画风与色调,或在替换人物时忽略了基本的空间透视关系 [52][54][58] 模型能力对比:世界知识 - 在涉及特定领域知识(如动漫角色、历史事件)的图像生成与解读上,双方表现互有胜负 [62][63][75] - GPT Image 1.5在个别测试中出现了明显的知识性错误(如混淆动漫角色名称),但在另一项需要理解抽象指令(如包含特定时间、手指数量的画面)的测试中表现优于Banana Pro [63][64][71][73] 行业竞争格局 - Google的AI模型进化速度被描述为“恐怖”,其画图模型在6个月内从Gemini 2.5快速迭代至Banana,再进化至Banana Pro [79][80] - 文章明确指出,Google已成为当前AI领域的王者,而OpenAI则需要奋起直追以应对竞争 [80][81][82]
AI圈最准的消息,都藏在这个小小的Web3网站里。
数字生命卡兹克· 2025-12-15 01:20
文章核心观点 - 介绍了一个名为Polymarket的Web3预测市场平台,该平台通过让用户用真金白银下注来预测未来事件,其市场产生的概率被证明具有很高的准确性,可作为优于传统社交媒体KOL或小道消息的信息源[4][10][29][91] - 平台的高预测准确性源于“群体的智慧”这一统计学理念,即多元化群体的集体判断往往优于单个专家,而金钱的参与有效过滤了噪音和情绪化信息,使得市场概率能汇聚分散的、有价值的信息[60][70][75][90] - 作者将Polymarket视为一个重要的信息参考工具,用于辅助判断行业动态(如AI模型发布)和进行投资决策,而非鼓励赌博[88][103][105][106] Polymarket平台介绍与运作机制 - Polymarket是一个Web3交易平台,用户可对各类未来事件进行预测和下注,预测范围极其广泛,包括AI模型发布日期、政治选举、体育赛事、名人言论等[31][32][33] - 平台运作基于智能合约,每个预测问题即一个合约,设有明确时限和规则[36] - 用户通过购买代表事件“会发生”的“Yes”代币或“不会发生”的“No”代币来下注,代币价格在0-1美元之间,与市场认为事件发生的概率直接挂钩(例如,70%概率对应Yes币0.7美元)[38][40][41][42] - Yes和No代币的价格总和恒为1美元,价格随市场参与者买卖行为实时变动[44][45] - 事件到期后,官方根据事实判定结果,持有获胜方代币的用户可按1美元/枚兑换,失败方代币价值归零[46][48][49] 平台预测准确性的实证案例 - 准确预测了OpenAI GPT-5.2模型的发布时间:在美国时间12月11日发布前,该平台预测当天发布的概率一直维持在80%以上,临近发布时间点时概率接近100%[11][12][14] - 准确预测了OpenAI在12月9日不会发布新模型:在8日预测9日发布的概率仅约5%[17][19] - 准确预测了Gemini 3.0 Pro的发布日期(11月18日),在发布前几天预测概率就居高不下[20][21][23] - 平台官网数据显示其预测准确率很高:四小时内准确率95%,一天内88%,一个月内91%[25] - 平台还曾成功预测奥斯卡最佳影片和美国总统大选结果[23][26] 平台预测准确性的理论基础与优势 - 核心理论是“群体的智慧”,引用1907年《自然》杂志文章《民众之声》的实验:787人猜测牛屠宰后体重的平均值(1197磅)与真实重量(1198磅)几乎完全一致,证明了群体判断的准确性[61][65][66][67][69] - 与免费的网络投票不同,Polymarket要求用户用真金白银下注,这形成了强大的筛选机制,排除了情绪化和不负责任的噪音,激励真正掌握信息的人参与[72][73][75][76][78] - 市场概率动态汇聚了全球分散的、或明或暗的信息(如供应链员工、内部人士、记者等),通过买卖博弈形成更接近现实的集体预测[79][80][81][89][90] - 相比KOL,平台价格由成千上万用户用金钱投票博弈形成,避免了为流量夸大其词和认知偏见,被认为更靠谱[29][91][92] 平台作为信息源的应用与价值 - 作者将Polymarket作为重要的信息渠道,用于规划内容发布时间和提前蹲守行业事件(如AI模型发布)[29] - 平台提供的市场概率可被视为关于未来事件的“最诚实的集体猜测”,能辅助投资者更理性、审慎地判断新闻和传言的价值[103][104][106] - 平台机制启发了一种决策思维方式:在评估信息时,思考“如果让你下注,你敢下多少?”,以此提升判断的理性程度[106] - 在信息爆炸和智慧稀缺的时代,这种用金钱背书的预测市场提供了一种过滤噪音、接近事实的有效工具[96][100][102][108]
GPT-5.2发布,真正的牛马打工人专属AI来了。
数字生命卡兹克· 2025-12-11 22:00
模型发布与定位 - OpenAI在成立十周年之际正式发布了GPT-5.2模型系列,旨在应对来自Google Gemini 3 Pro的竞争压力并重新确立领先地位[1][3][4][5] - 该模型被定位为迄今为止在“专业知识工作”方面能力最强的模型系列,标志着其战略重心向解决实际专业任务倾斜[7] - 模型将首先向ChatGPT付费会员开放,随后向免费会员开放,并直接替代GPT-5.1,同时开发者已可通过API调用[82][88] 基准测试表现 - 在传统评测集上,GPT-5.2全面领先于GPT-5.1、Claude Opus 4.5和Gemini 3 Pro,例如在软件工程(SWE-Bench Pro)上得分为55.6%,科学问题(GPQA Diamond)上为92.4%,数学竞赛(AIME 2025)上达到100%[9][10][11] - 在衡量“流体智力”的抽象推理测试ARC-AGI-2上,GPT-5.2得分从GPT-5.1的17.6%大幅跃升至52.9%,实现了约三倍的提升,并在该榜单上达到目前最优水平[39][40][46] - 在衡量真实经济价值任务表现的GDPval评测中,GPT-5.2 Thinking模型赢或打平行业专家的比例达到70.9%,相比GPT-5的38.8%有显著进步[63][65] 核心能力与特性 - 模型在多模态理解与处理复杂文件(如PDF、Excel、图片、PPT)方面能力突出,能够处理高度复杂、无标准答案的真实专业知识任务[59] - 在上下文处理能力上表现卓越,在256K文档的“大海捞针”测试中达到了100%的准确率[74][76] - 模型具备了更新的知识库截止日期,结合其专业知识处理能力和高准确性,对知识工作者有显著实用价值[78][79][80] 行业竞争与战略方向 - OpenAI此次发布被视为对Google Gemini 3 Pro在原生多模态能力上取得优势的回应,但分析认为GPT-5.2在原生多模态方面仍被压过一头[4][96] - 公司战略明显从传统的“刷分”转向聚焦广大白领打工人的实际工作问题,致力于解决具有经济价值的真实任务,这被视为一个非常刚需的市场方向[53][54][95] - 价格方面,GPT-5.2的API调用成本高于前代,例如gpt-5.2每百万tokens的输入价格为1.75美元,输出为14美元,均高于GPT-5.1[89][90]
AI画不出的左手,是因为我们给了它一个偏科的童年。
数字生命卡兹克· 2025-12-10 01:20
文章核心观点 - 当前领先的文生图AI模型(如NanoBananaPro、Gemini、Lovart、ChatGPT、seedream、grok等)普遍无法准确生成涉及“左手”或“左脚”等特定左右关系的图像,例如“左手写字”或“左手拿橘子右手拿苹果” [1][3][5][7][9][12][21] - 该问题的根源并非AI逻辑能力不足,而是其训练数据集中存在严重的“现象空间偏差”,即数据在“完整性”和“平衡性”上存在缺陷,导致模型无法正确泛化左右等空间关系 [23][27][32][38] - 人类社会的现实偏见(如右撇子占多数)被大规模图像数据集记录并放大,AI通过学习这些有偏差的数据,继承了人类的认知偏见 [42][43][55][56] - 这一现象揭示了数据质量(分布)对于AI模型泛化能力的关键性影响,其重要性可能不亚于数据规模 [31][32][36][37] AI模型测试与现象观察 - 测试多个主流AI模型生成“左手写字”图片,结果几乎全部错误,稳定生成右手写字图像 [3][5][7][9] - 即使使用更复杂的提示词进行限制(如“右手拿着苹果左手写字”),模型仍会生成顺序相反的图像 [9] - 扩展测试其他涉及左右关系的场景(如指定左右手分别持物、左右脚动作),模型同样全部失败 [12][15][17][19][21] - 模型在生成不涉及左右的具体空间关系(如上下、并排)时表现正常,问题特指左右区分 [21] 问题根源:数据集的偏见 - 一篇题为《Skews in the Phenomenon Space Hinder Generalization in Text-to-Image Generation》的论文为该现象提供了理论解释 [23] - 研究将图像要素分解为“主体”(filler)和“关系”(role),并通过控制图标组合实验测试模型对“上下”位置关系的理解 [28][29][30] - 定义两个关键数据质量指标:“完整性”(Completeness)指每种要素是否在所有相关位置都出现过;“平衡性”(Balance)指不同位置组合在数据中分布是否均匀 [32] - 实验表明,模型泛化能力高度依赖数据的完整性与平衡性,而非单纯的数据量大小 [31] - 当数据完整度和平衡度均为100%时,模型测试准确率接近100%;当两者降低时,准确率随之下降,最低可低于40% [35][36][37] - 在更接近真实世界的What‘sUp数据集实验中,数据完整性与平衡性下降同样导致生成左右关系图片的准确率下滑,常见错误是“两个物体都画对了,但顺序反了” [38][39][40] - 在错误类型分析中,“翻转顺序”的错误占比高达41.9% [41] 现实世界偏见的映射 - “左手写字”指令失败,是因为训练数据中“写字”的标签几乎全部关联右手写图像,模型未学习到“左手写字”这一现象 [42][43] - 模型将“写字”与“右手”强烈关联,导致无法处理“左手写字”的指令 [44] - 这类似于一个只做过大量“2+3=5”题目,却从未见过“3+2=5”的学生,无法回答后一个问题 [45][46][47] - AI的“偏见”本质上是人类社会现实偏见(如右撇子为主流)在数据中的反映 [50][55][56] - 大规模图像语料库是人类过去几十年摄影与文化习惯的快照,其中固有的统计偏差被AI模型继承 [56] 对AI行业与模型训练的启示 - 该案例凸显了高质量训练数据的重要性,数据的“分布”方式对模型能力的影响可能超过数据“规模” [31][32] - 提升AI模型的泛化能力,需要刻意构建具有高“完整性”和“平衡性”的数据集,覆盖现象空间中的各种可能性,包括少数情况 [32][51][61] - 技术发展可能迫使AI公司重新设计训练集,以改善模型在类似左右关系等任务上的表现 [61]
AutoGLM深夜开源,千千万万个手机Agent要站起来了。
数字生命卡兹克· 2025-12-09 01:20
智谱开源AutoGLM事件 - 智谱公司于深夜将其手机Agent框架AutoGLM开源 此次开源内容包括Phone Agent框架和AutoGLM-Phone-9B模型 [1][2] - 该框架是手机Agent领域的先驱 于2023年10月25日在CNCC大会上首次发布 经过32个月的研发后开源 [3][5] - 此次开源被视作在豆包手机助手被全面封禁的背景下 为技术世界增添新动力的举措 [5] 开源AutoGLM的技术方案与现状 - 开源方案提供了三种部署模式以解决当前手机端算力不足与隐私保护的矛盾 本地部署隐私性最高 数据不离开设备 云端部署需开发者自行确保安全 混合部署则结合本地与云端优势 [6] - 当前开源的AutoGLM并非系统级助手 不支持后台虚拟屏运行 且受本地模型限制 速度较慢 智能程度有限 [6][7][8] - 该框架目前大约支持50个应用程序 [9] - 安装和使用过程较为复杂 主要面向开发者而非普通用户 [6] 开源AutoGLM的行业意义与历史类比 - 此次开源是当前市场上为数不多的完全开源手机Agent方案 荣耀YOYO智能助手曾使用AutoGLM技术 [11] - 开源可能引发类似Stable Diffusion和LLaMA模型泄漏后的行业效应 即一个开源模型催生出大量应用和变体 成为行业基础设施 [13] - 此举被类比于Linux、安卓、Arduino和树莓派等开源硬件软件的历史 它们通过开放生态从巨头手中撬动市场 激发普通人的创造力 [14][15][16][17][18] - 开源可能改变“入口”的定义 未来入口可能不再是某个公司的APP 而是用户自己部署的本地Agent [19] 对AI助手未来的展望 - 未来十年 人们可能会习惯身边有长期伴随的AI助手 帮助处理起床、行程安排和信息过滤等任务 [24][25] - 技术发展也可能带来过度外包记忆、判断和品味的风险 进而可能引发新的“数字极简主义”潮流 [26][27][28] - 技术本身不替人类做价值选择 只是提供更多可能性 最终如何生活取决于人类自身的选择 [29] - 当前时代是AI技术发展的灿烂起点 集体意志将由豆包封禁、AutoGLM开源以及个人选择共同塑造 [29][30]
用豆包手机的这两周,我好像卷入了一场新与旧的战争。
数字生命卡兹克· 2025-12-08 02:47
豆包手机助手遭遇封禁事件 - 搭载豆包手机助手的努比亚手机首批3万台现货全部售罄 [2] - 作者作为早期测试用户,因使用豆包手机助手执行微信任务,导致个人微信账号被限制登录 [15][19] - 随后阿里系应用(支付宝、淘宝、闲鱼、盒马)及腾讯系应用(QQ)等主流APP相继对账号进行封禁或限制调用,严重影响日常使用 [19][21][25] - 豆包手机助手自身也进行了功能限制,导致涉及主流APP的任务无法执行 [25] AI手机助手与超级APP的入口之争 - 互联网发展史是控制入口的战争,从浏览器、搜索框到如今的超级APP(如微信、抖音)[30] - AI手机助手(Agent)旨在成为用户与所有服务之间的统一入口,用户只需与AI对话,由AI协调后端服务,这压缩了超级APP原有的用户交互和变现链路 [31][40][42] - 这种模式对超级APP构成“生死存亡级别的威胁”,因为用户将不再直接与平台交互,平台可能从主导者退化为服务提供者 [42][46][51] - 当前各大超级APP对豆包的封禁,被类比为历史上铁路威胁漕运利益时,旧有利益集团对新技术进行的阻挠 [32][34][35] Agent技术发展趋势与挑战 - 当前隐私问题的根本解决方案在于端侧推理:随着手机芯片算力提升和模型压缩技术进步,未来小型化模型(如8B或9B参数)可在设备本地运行,确保用户数据完全不离开手机 [49][50] - 技术发展路线明确:端侧算力提升、视觉模型压缩、系统级能力增强是必然趋势,封禁无法从根本上阻止该技术方向 [63][64] - 技术实现路径清晰,但核心挑战在于“利益的再分配”,即现有掌握入口的巨头不愿放弃其主导地位 [51] 对行业格局的长期影响 - AI Agent与超级APP的对抗,是继搜索vs门户、电商vs商场、移动互联网vs PC之后的新一轮入口之争 [60][61] - 历史规律表明,新秩序诞生初期混乱且痛苦,但秩序稳定后,大部分参与者的命运将由早期的幸存者决定 [69][70] - 长期来看,Agent技术形态终将到来,可能以不同品牌、交互形态或由现有APP自身推出的形式出现 [64][66] 对用户的短期与长期建议 - 短期建议:不要将所有关键服务依赖于尚不成熟的Agent,可将其用于处理非敏感任务,避免提交敏感信息 [67] - 长期建议:鼓励用户积极尝试和参与早期生态建设,以塑造未来技术形态,而非被动接受既定结果 [68]
Lovart悄悄上的这个新功能,就是我心中设计的神。
数字生命卡兹克· 2025-12-05 01:20
Lovart产品功能与价值主张 - 公司在黑色星期五促销期间提供4折优惠,其最高等级年费会员价格为948美元,约合7000元人民币 [2][3] - 用户购买会员的核心动机之一是获得包括NanoBanana Pro 4K版本、Midjourney、可灵O1、可灵2.6以及新上线的Seedream4.5在内的多款AI工具的一年免费使用权 [5][7][8] - 公司新上线的“编辑文字”功能,结合Nano Banana Pro,被一位拥有十几年经验的设计师认为拥有颠覆传统设计游戏规则的能力 [8][9] “编辑文字”功能详解与应用 - 该功能旨在解决AI生成图片(如PPT)无法修改文字的传统痛点,用户上传图片后,功能可在几秒钟内提取所有文字至右侧编辑框 [17][19][30] - 用户可直接在文本框内修改文字(例如改为抽象语录),点击应用后约十几秒即可生成新图片,新文字会按照原图样式极度精准地呈现 [32][34] - 该功能不仅能修改常规文字,甚至能处理传统设计中经过栅格化、钢笔工具调整或笔画拼接的特殊样式文字,实现了过去无法直接编辑的文字的修改 [34][35] - 功能的技术实现可能涉及多模态结构化识图,将文字拆解为可编辑框,再利用Nano Banana Pro的模型能力进行原位替换 [39] 功能组合与效率提升 - “编辑文字”功能与“画布”结合,可实现一键直出多个尺寸的海报或封面图,极大简化了设计师进行多尺寸适配的工作流程 [55][61][62] - “编辑文字”与“Touch Edit”(触碰编辑)功能组合使用,用户可通过按键(如M键或Ctrl+鼠标)自动识别并提取图中特定元素进行修改,实现文字与样式的同步高效调整 [65][70][72] - 公司提供的“Mock up”(样机)功能,结合“移除背景”与“编辑文字”,能快速将设计稿(如透明背景的Logo)贴合到实物模型(如汽车)上,方便生成效果图,提升了电商与平面设计效率 [76][78][81][83][85] 行业影响与范式转变 - 该系列AI工具的组合使用,使得设计师能够将99%的时间用于思考“做什么”,而非“怎么做”,从根本上改变了设计工作流程 [99] - 工具能力的进化正在消除传统设计软件(如PS)中因工具限制(如钢笔工具抠图、文字不可编辑)所建立的专业门槛,推动了设计行业的范式转移 [90][91][94][95] - 公司通过整合强大的AI模型(如Nano Banana Pro)与卓越的工程应用能力,创造了强大的协同效应,被视为定义了设计的下一个时代 [40][42][43]