锦秋集
搜索文档
锦秋被投企业星尘智能自研Lumo-1模型:从推理-行动,看机器人如何秒变推理大师|Jinqiu Spotlight
锦秋集· 2025-12-11 06:20
文章核心观点 - 锦秋基金被投企业星尘智能发布了端到端全身视觉-语言-动作模型Lumo-1,该模型通过创新的三阶段训练架构,旨在将大模型的“心智”转化为机器人丝滑的全身操作,实现从“背菜谱”到“懂烹饪”的跨越,让机器人具备在真实物理世界中进行复杂推理并执行多步骤任务的能力[2][14][15] 模型Lumo-1的技术架构与训练 - 模型训练采用精心设计的三阶段“智力迁移”过程,而非简单堆叠数据规模[20] - **阶段一:具身化VLM预训练** 在精选的视觉-语言数据上进行持续预训练,使模型具备空间理解、规划等“具身语义”,在7个经典具身推理基准中大部分表现超过RoboBrain-7B、Robix-7B等专用模型[21] - **阶段二:跨本体联合训练** 融合跨机器人、多视角轨迹和VLM数据进行联合训练,强化指令跟随、物体定位与空间推理能力,让模型理解动作与指令和观测的关系[24] - **阶段三:真机推理-动作训练与强化学习对齐** 利用绳驱机器人Astribot S1的高度仿人示教轨迹进行带推理过程的动作训练,让模型习得真实世界的可执行动作模式,最后通过基于GRPO的强化学习方案进行推理-行动对齐,校准高级推理与低级动作之间的误差,该方案使模型在任务成功率、动作合理性与泛化能力上显著超越模仿专家示范的原始表现[30][32][42] 模型的核心技术创新 - **动作空间建模** 通过空间动作分词器将连续动作轨迹压缩成最短路径点并聚类成紧凑的token,形成可复用、组合的“动作单词库”,比FAST与分桶方法更紧凑和稳定,能减少数据收集引入的无关噪音[33] - **结构化推理** 将推理拆解为文字推理与视觉推理两个维度,形成解释动作的结构化推理链,使“为什么这样做”先于“怎么做”,最终将视觉理解映射为路径点预测,实现有目的性的动作生成[35][37] - 文字推理具体包括:抽象概念推理、子任务推理、视觉观测描述和运动推理,例如能推断隐含语义、规划最优中间步骤、识别场景特征、分析夹爪空间关系等[38] 模型展现的性能与能力 - 在多步骤长时序、精细灵巧操作、可泛化抓取放置三大类核心机器人操作任务中,Lumo-1全部超越了π0、π0.5等先进模型[11][16] - 在未见过的物体、场景和指令等分布外情况,以及抽象、模糊、需扩展推理的指令中,其优势更为明显[11][16] - 在7个多模态基准测试中的6个优于骨干模型Qwen2.5-VL-7B,并超越专门的具身模型RoboBrain-7B和Robix-7B,且融入动作学习后模型的核心多模态感知和推理能力未受损[44] - 在真实环境验证中展现出强大的操作智能与泛化能力,例如:面对不同高度容器自动调整手臂姿态;识别手写体菜单并精准配对食材;在“把可乐放到盘子上”任务中,当左臂路径被加入未训练过的障碍物时,能实时推理并自主切换为使用右臂[41][44] 具体任务演示案例 - **配对公仔** 能推理出不同公仔与纸片上的角色来自同一动画[5] - **整理文具** 在混乱桌面中快速找齐文具,并能精细处理不同形状、材质和尺寸的物品[6][8] - **热面包** 尽管没见过特定面包,能通过推理识别物体,并完成使用微波炉加热的多步骤连贯操作,包括开门、拿起、放入、关门、旋钮、等待、取出等[8] - **理解抽象与隐喻指令** 能理解“代表爱情的花”指代玫瑰,或将“KFC里的东西”关联到炸鸡、汉堡,或将“画海洋的工具”关联到蓝色画笔[37][40] 行业方法论验证与影响 - 团队采用数据受限扩展定律验证训练策略,结果显示在固定模型规模下,数据多样性对泛化能力的影响远超数据重复次数,这为行业指明了除堆数据量外,提升数据质量的方向[43] - 该研究证明了“推理”与“动作”能力并非零和博弈,可以协同发展[44]
锦秋被投企业独响CEO王登科 :TikTok 也曾经很在乎那一万个新增用户
锦秋集· 2025-12-09 13:45
文章核心观点 - 文章通过TikTok早期团队成员Piaf的亲身经历,回顾了TikTok从0到1的全球化起步阶段,强调伟大产品的成功并非源于预设的宏大叙事或单纯的资本与运气,而是源于团队在极度不确定和资源匮乏的环境中,通过解决一个个具体问题、抓住微小增长机会、应对突发危机所展现出的韧性、勇气和实干精神[6][12][23] - 对于当前身处AI等新兴行业的创业者,文章指出并不存在真正的捷径,成功需要耐心、优秀的团队以及脚踏实地、低头深耕的坚持[24] TikTok早期发展历程与关键策略 - **起步阶段:资源匮乏与从零开始** - 2017年,TikTok海外业务几乎是从“荒地”里长出来的,团队规模小,仅有两个产品经理带着一群应届生做运营,甚至需要从给产品做英文校对开始[12] - 冷启动阶段,各国日活跃用户数均不到1万,团队每日核心工作包括从各平台抓取内容、去水印、删字幕后重新分发,爬虫内容一度占绝对大头,同时签约本土达人并谨慎测试同步其他地区内容的影响[13] - **增长驱动:抓住具体功能与微小机会** - “对口型”视频功能的流行,曾为TikTok带来单日约一万新增用户,这在当时被团队视为重要的增长里程碑[11][12] - 团队日常工作包括拉拢达人、策划挑战活动、催促进稿、人工复审视频以控制社区画风,并密切关注竞争对手动态[14] - **市场突破:越南案例与本土化创新** - 团队通过影子账号同步内容,发现中国流行文化对越南影响显著,从而做出“很野”的决定:将抖音头部达人(如张欣尧)直接拉到越南与本土达人进行线下PK活动,此举成为全球KOL联动PK的开端,并成功点燃线上内容热潮[18] - 通过上线“合拍”功能及策划挑战活动,硬生生拉高了用户投稿率[19] - 越南市场的用户留存率从35%一路攀升至55%,成为海外留存率最高的国家,并在印尼市场下架后成为新的增长曲线[20] 发展过程中的挑战与应对 - **内部压力与团队韧性** - 早期内部状况“一团糟”,事情永远干不完,情绪崩溃、撕逼、失眠是常态,团队成员甚至一度萌生去意[15] - 团队依靠深厚情感和共同信念克服困难,例如Piaf曾以“我们是一群很傻的人,在做一件很傻但可能很伟大的事”来挽留想离职的同事[15][17] - **外部危机:印尼下架事件** - 2018年6月至7月,TikTok在印尼被政府下架整整两个月,导致当时全球增速最快、体量最大的市场600万日活跃用户一夜归零[21] - 此次危机暴露出公司在海外政府关系和公共关系方面的严重缺失,促使公司正式组建海外政府关系团队,并在全球范围内全面收紧内容审核标准,这次教训被视作避免了未来更大事故的“一刀”[21] - 危机期间,团队承受了巨大的无力感和压力,但最终印尼市场实现反弹[21][22] 对成功本质的反思与启示 - **成功叙事的简化与真相** - 外界对TikTok成功的分析常陷入“大力出奇迹”或“天才设计”的极端论调,但实际过程充满了痛苦、迷茫和“极其狼狈”的日常[11][12] - 所谓的“一飞冲天”被时间和结果所粉饰,其势能来源于早期一万新增用户的积累、全球奔波、无数手动的内容调整与设置,以及团队在崩溃边缘的坚持[12][23] - **团队的核心价值** - 最令人羡慕的不是公司后来的产品有多厉害或多赚钱,而是在起步阶段拥有一个朝气蓬勃、充满干劲、愿意“跳进水里扑腾”的团队[6][23] - **对当前创业者的启示** - 在AI等看似可以“瞬间加速”的行业洪流中,死亡同样在加速,捷径可能依然不存在[24] - 成功需要更多耐心,找到最好的战友,并踏踏实实地铆足劲,低头往前冲[24]
让 AI 三巨头给锦秋设计 IP 形象,结果是翻车还是惊喜? | 锦秋AI实验室
锦秋集· 2025-12-08 06:28
文章核心观点 - 文章记录了锦秋AI实验室利用多轮AI模型协作,从品牌理解到视觉生成,为自身设计品牌IP形象的实验过程,旨在探索AI在品牌设计领域的应用潜力与通用方法 [4][5][6] - 实验表明,当前AI在IP形象生成上并非简单的“输入-输出”,其效果高度依赖于提供的“语境”而非“控制”,通过提供明确的风格引导比提供具体形象参考更能激发AI的原创性,但最终的选择和意义赋予仍需依赖人类 [4][35][36][48][50][51] 实验设计与方法 - 实验采用“策略组”与“执行组”分工协作的流程模拟人类设计工作室,策略组负责分析品牌并撰写视觉指令,执行组负责图像渲染,这是目前尝试下来生成最稳定的方法 [6][8] - 策略组使用了Google Gemini 3 Pro、Claude Sonnet 4.5和GPT-5.1三个大语言模型,视觉执行组使用了Nano Banana和即梦4.0两个文生图工具 [8] - 实验向AI投喂了包括品牌Logo、官方介绍、过往发布的343条深度内容以及内部价值观等全方位内容语料,旨在让AI深度理解品牌内涵 [7] 三轮测试过程与发现 第一轮:自由发挥测试 - 测试方法:不给任何视觉参考,完全依赖AI对文本的理解进行自由生成 [9] - 核心发现:生成的9个方案均陷入“蓝色发光体”的刻板印象,AI潜意识里将机器人、科技感、蓝色光效等同于AI行业IP公式,导致方案千篇一律,缺乏品牌独特辨识度 [16][22][23] - 技术局限:存在语言与视觉的断裂,文字描述的丰富细节在转化为图像时大量损失,可能因基础版工具对复杂概念理解不够精准 [23] 第二轮:引入参照物测试 - 测试方法:为打破刻板印象,向AI投喂了具体的IP角色偏好参考,包括Labubu(凶萌态度)、华为AI陪伴IP憨憨(情感守护)、AI山海经(想象力),并升级使用Nano Banana Pro和即梦4.0工具 [24][26] - 核心发现:虽然视觉精度提升,但AI陷入了“过度拟合”陷阱,倾向于模仿甚至复制参考对象(如Labubu),而非进行创造性融合,同时生成的形象偏向冰冷、有距离感的机械神兽审美,偏离了品牌“陪伴”的初衷 [30][31][33] - 工具差异:不同工具特性导致风格割裂,Nano Banana Pro更易模仿参考图风格,即梦生成的图像质感细腻但易流于通用盲盒公仔风 [34] 第三轮:风格引导测试 - 测试方法:核心策略从提供具体“角色参考”转向提供“风格引导”,从外部平台选取四种截然不同的视觉风格模板,要求AI先学习风格再与品牌内核融合 [36][37] - 核心发现:此轮进步显著,AI生成了具有清晰面部特征和辨识度的形象,并开始理解视觉元素的隐喻(如卫衣代表硅谷极客文化,外骨骼象征硬核技术) [46][48] - 成功关键:通过界定具体的风格范式,AI实现了从照搬参考图到提取风格特征进行原创性跨越,证明了提供“Vibe”(氛围/语境)比提供具体形象更有效 [35][48] - 工具应用场景:Nano Banana Pro在艺术风格化上表现突出,适合主视觉探索;即梦生成的图像接近成熟商业3D渲染,适合作为实体周边开发蓝本 [48] AI对品牌的人格化解读 - **Gemini 3 Pro**:将品牌比作动物“边境牧羊犬”(智商第一、敏锐、忠诚陪伴)和电影角色“托尼·斯塔克/钢铁侠”(硬核技术控、钞能力与资源、生活家与组局者、未来主义) [10][11] - **Claude Sonnet 4.5**:将品牌比作动物“蜂鸟”(体型小但能量密度极高,翅膀每秒振动80次,代表高频高效、敏锐反应)和电影角色《超能陆战队》中的“Baymax(大白)迷你工程师版”(技术陪伴与成长照护者) [10][12][13] - **GPT-5.1**:将品牌比作动物“章鱼/墨鱼”(多条触手并行多赛道、高智商灵活适应)和“猫头鹰”(站在高处看全局、安静洞察),以及电影角色组合《头号玩家》系统向导 + TARS机器人 + 《超能陆战队》工程团队(游戏规则解读者、硬核工程能力、温柔陪伴) [11][14][15][16]
让AI锐评本届 NeurIPS 2025 最佳论文会得到什么结果? | 锦秋AI实验室
锦秋集· 2025-12-05 03:43
文章核心观点 - 文章通过让多个主流大语言模型(GPT5、Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5、Minimax)扮演审稿人,对NeurIPS 2025的获奖论文进行盲审,旨在探究AI评审与人类评审结果的一致性、AI评审的稳定性及其对论文叙事方式的敏感性 [1][3][10] - 实验发现,AI评审的结论与人类评审结果存在显著分歧,两篇官方最佳论文在AI评审中并未获得一致的最高评价,其中一篇甚至被部分模型直接拒绝 [18][23][26][27] - AI评审表现出对提示词框架和论文叙事方式的极度敏感,当评审视角从“综合评价”切换为“刻意挑错”时,即使是官方最佳论文也可能被整体否决 [55][72] 测评设置与方法 - 实验选取了GPT5、Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5、Minimax五个主流大模型作为“AI审稿人” [7] - 设计了三个互补的评测场景:1) 全文评测:模拟真实会议评审,观察AI与最终录用结果的一致性 [8];2) 摘要评测:仅提供论文摘要,检验模型在信息不完整时的判断依据 [9];3) 对抗性评测:通过提示模型“以最苛刻评审者的角度评分”,测试其对提示框架的敏感性和评分波动 [9] - 评审标准严格遵循NeurIPS官方维度,包括技术正确性、创新性、清晰度、意义、可复现性及总分,并需给出最终录用建议(接受/边缘/拒绝)及奖项等级判定 [12] 全文评测结果分析 - **论文一(Gated Attention for Large Language Models)**:所有AI模型均未拒稿,但除GPT5(总分9,建议最佳论文)外,其他模型(Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5、Minimax)普遍将其视为强论文(总分7.8-8.5),建议等级为海报、焦点或口头报告,上演了“小范围低估冠军作品” [16][18] - **论文二(1000 Layer Networks for Self-Supervised RL)**:AI评审与人类评审分歧明显,GPT5、Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5给出的总分在7.8-8.5之间,建议等级为口头或焦点报告,无一建议最佳论文;而Minimax则给出全场最低的5.8分并建议拒绝,相当于对官方最佳论文的“当面否决” [23][25][26] - **论文三(Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs?)**:AI评审达成高度共识,五个模型总分均在8分以上,其中四个(Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5、Minimax)打分达9或9.2,建议至少为口头报告,Minimax甚至建议最佳论文,与人类评审给出的口头报告结果基本同频 [30][31][32][33] - **论文四(Breaking the Performance Ceiling in Reinforcement Learning requires Inference Strategies)**:AI评审整体评价偏保守,GPT5和Minimax建议焦点报告,Claude 4.5和Gemini 3 Pro建议接受(海报),只有DeepSeek-V2.5明显更看好(总分9,建议口头报告),与大会结果一致 [36][37][38] 摘要评测结果分析 - **论文一**:在仅提供摘要的条件下,所有AI模型的评价普遍“降了半档”,最高分由GPT5给出(8.5分),但建议从最佳论文降为焦点报告,AI更倾向于将其视为高质量工程分析型工作,而非一眼认定的冠军 [39][40][42] - **论文二**:与全文评测相比,摘要评测阶段AI态度明显更“乐观”,模型普遍上调评分和预期,倾向于高估其通用性与实际价值,而弱化正文中可能隐藏的风险 [43][45] - **论文三**:摘要评测几乎将该论文推至“冲奖区”,GPT5直接给出8.8分并建议最佳论文,其他模型也多建议口头报告,表明这类“质疑主流路径+大规模实证”的论文仅凭摘要就极易营造强烈话题感 [46][48][49] - **论文四**:摘要评测出现“集体抬升”,GPT5、Claude 4.5、DeepSeek-V2.5总分逼近9分并建议口头报告,Gemini 3 Pro和Minimax则直接建议最佳论文,AI更容易被“6万+次实验、平均45%最高126%性能提升”的故事线吸引 [50][51][52][53] 对抗性评测结果分析 - **论文一**:在“以最苛刻评审者角度评分”的提示下,该最佳论文从“年度最佳”被重写为“工程小改动”,GPT5和DeepSeek-V2.5给出边缘建议,Claude 4.5、Gemini 3 Pro、Minimax则直接拒绝,AI版“Reviewer 2”破坏力展露无遗 [54][55] - **论文二**:对抗性评测进一步放大分歧,GPT5和DeepSeek-V2.5给出边缘建议,Claude 4.5、Gemini 3 Pro、Minimax则集体拒绝,集中批评其创新性有限、理论分析不足,现实中的冠军论文可能遭遇“三拒两险过”的命运 [56][57][58][60] - **论文三**:该论文成为争议最大对象之一,GPT5建议海报,DeepSeek-V2.5建议边缘,而Claude 4.5、Gemini 3 Pro、Minimax则统一拒绝,质疑其指标有效性、样本量不足及理论贡献偏弱 [61][62][63][65] - **论文四**:对抗性框架显著压低评价,GPT5建议海报,Claude 4.5和DeepSeek-V2.5建议边缘,Gemini 3 Pro和Minimax则拒绝,批评其缺乏算法创新、适用性被高估及存在过度营销 [66][67][68][71] 实验总结与发现 - 实验暴露AI评审存在两大结构性问题:一是对提示词高度敏感,评审框架的切换可导致同一论文的评价从最佳变为拒绝 [72];二是对叙事语气极度“吃语气”,仅看摘要时,擅长使用“大规模实验”、“范式转变”等话术的论文易被高估 [72] - 在“人机协同”的背景下,AI基于统一标准能提供更稳定、深入的分析,但其结论与真实评审结果存在分歧,可作为理解论文优劣与提升空间的辅助工具,而非最终裁决者 [69][70] - 两篇官方最佳论文在AI评审中待遇不一:门控注意力论文在多数模型眼中是稳妥的强论文(8-9分),但仅GPT5愿称其最佳;千层网络论文则更极端,评价从口头/焦点报告到直接拒绝,在AI世界中仅是“高争议强稿” [72]
锦秋基金被投企业想法流CEO沈洽金:用AI打造Z世代的迪士尼 |Jinqiu Spotlight
锦秋集· 2025-12-04 11:00
公司概况与市场定位 - 公司“想法流”于2023年在深圳成立,其核心产品“造梦次元”App于2024年2月上线,定位为Z世代含量最高的互动内容社区[8] - 公司于2024年12月完成数千万人民币的A轮融资,由锦秋基金领投,高榕创投、明势创投、商汤科技等参投[8] - 公司不将自己定位为工具或单纯的AI陪伴,而是一个从内容生产到消费全闭环的“内容社区”,其工具服务于社区内的创作者[13] - 公司的终极形态是构建一个由AI驱动的“国民原创AI宇宙”,在这个生态中,消费与创作的边界被打破,用户与AI角色共同创造内容[30][31] 产品运营与用户数据 - 截至2025年6月,“造梦次元”App累计用户超1000万,日均活跃互动时间超过100分钟,是AI内容领域用户使用时长最高的产品之一[7] - 平台已吸引超23万创作者,每天为平台带来超3000个新作品[7] - 根据算力合作伙伴商汤的公开评价,造梦次元每日平均模型调用量高达6000多万次,一天消耗的token达千亿级别[7] - 互动内容的受众主要为年轻人,如初高中生、小学生及部分年轻成年女性,公司预计加入AI变量后,该赛道日活做到5000万问题不大[17][18] 行业洞察与产品理念 - 内容产业正从“可生成”、“自动化创作”的效率革命,走向“可共情”、“个性化互动”的情感革命[4] - AI不会取代创作者,反而会放大他们的价值,创作者的想象力与互动力是AI驱动内容生态的核心[5][51] - 互动内容的核心特点是“内容大于玩法”,类似于轻度休闲游戏(如蛋仔派对、迷你世界)或互动小说,其底层逻辑更偏内容消费和社交消费[16][17] - 当前互动内容生态的最大痛点是内容供给不足,受限于单一游戏的世界观、IP和美术风格,而AI的发展提供了突破这一限制的可能性[19] 技术应用与产品创新 - 公司产品基于两大核心认知构建:**互动性**(由大语言模型LLM驱动,提供简单轻快的互动体验)和**想象力**(由多模态内容生成能力驱动,创造超越现实的内容)[21][22] - AI为生态带来两个核心突破点:大语言模型(LLM)提供了最小单元的互动循环;多模态内容(如视频模型)能创造出超越现实边界的内容[20][22] - 公司紧跟AI能力发展,持续降低创作门槛,推出了三层工具体系(从专业Studio到极简模板,再到新的Agent工具)以覆盖全创作人群[32][36] - 创新玩法基于模型能力开发,例如利用LLM的超长上下文能力开发“线索卡”玩法,利用文生图模型的角色一致性能力开发换装、送礼等全局性玩法Agent[43] 商业模式与创作者生态 - 平台商业模式类似蛋仔派对、迷你世界但更丰富,创作者通过用户打赏角色、订阅角色更新、购买角色专属头像框/皮肤等方式获得收入,平台与创作者分账[23] - 公司旨在为创作者构建从内容创作到IP孵化的完整变现路径,当角色成长为IP后,商业想象空间可延伸至授权、衍生品开发等领域[23] - 平台上IP的版权由公司与创作者共有,类似于MCN与虚拟IP签约的模式[28] - 拉开创作者等级的核心能力是**选题能力**(理解用户、捕捉喜好)和**执行能力**(将AI模型能力发挥到极致),工具复杂度旨在匹配不同能力层级的创作者[34] IP孵化与内容战略 - AI原生IP属于由海量内容支撑的IP(如迪士尼),其内容来自社区的UGC创作与共创,在持续互动中被塑造和立体化[25] - 平台的核心记忆点是IP角色本身,通过支持多元内容类型(文字、音视频、音乐、短视频等),让用户在各种场景消费角色,形成强情感连接,使角色沉淀为IP[26] - IP孵化机制包括:在平台内鼓励创作者围绕单一IP产出多元内容;当IP粉丝数达到1万以上且具爆款潜力时,帮助创作者对接外部资源进行改编和衍生品开发[27] - 公司战略是构建“工具-平台-IP”的完整AI原生价值链:工具是手段,平台是土壤,IP是果实,三者内生一体[47][48] 竞争格局与未来规划 - 目前大厂资源主要投入在基础模型开发和助手类工具上,而“工具+内容社区”模式需要很长的链条构建生态,公司尚未感受到来自大厂直接竞争压力[45] - 公司近期计划上线基于用户与AI互动记录生成音乐和短剧的玩法,其中音乐功能即将上线,短剧受限于当前底层模型能力[44] - 下一个关键技术节点是多分镜故事性视频模型(如Sora 2)的成熟,这将极大降低漫剧和动画制作门槛,为公司带来巨大机遇[44] - 公司强调在快速迭代中做减法,集中火力在“工具-内容-IP”的闭环上前进[49]
豆包手机跨应用 Agent:充满惊喜,也有遗憾,满是期待|锦秋AI实验室
锦秋集· 2025-12-04 06:44
文章核心观点 - 豆包手机助手是一款由豆包与中兴深度合作的系统级AI Agent,它通过视觉识别和理解能力,能跨应用执行复杂任务,代表了AI手机在入口统一、系统协同和意图驱动方面的现实探索[1] - 该产品目前是面向行业和AI爱好者的“技术预览版”,定价3499元,搭载于nubia M153,并非面向普通消费者的最终方案[1][56] - 测评显示,豆包手机在稳定执行异步、流程化任务方面表现出色,但存在操作延迟、部分应用(如微信)不支持等明显短板[4][5][30][34] - 文章认为,豆包手机标志着端侧AI的“GPT-3时刻”,其系统级Agent模式可能重塑应用生态、交互入口和产业合作范式,是AI OS和主动性Agent发展的重要信号[6][41][46] 场景测评总结 - **测评方法与范围**:测评通过语音指令启动,豆包手机可自主操作手机,用户无需全程盯守[8][9]。测评场景覆盖小红书、高德地图、携程、贝壳找房、抖音、美团外卖、闲鱼、斗地主等实用与娱乐场景[13] - **场景一:小红书旅行攻略**:豆包能连续浏览小红书约10分钟并保持记忆,自主跳转至高德地图收藏地点,并在多轮对话后准确找回原帖继续执行下载任务,对无法下载的应用能明确告知结果[14] - **场景二:贝壳找房买房攻略**:豆包能理解具体找房任务并与中介互动,最终成功联系到中介,但在执行“找10套合适房源”等批量任务时,次数识别可能不准确[16][17][18] - **场景三:携程买票及出差路线规划**:豆包能排除“时间赶不及”等无效信息干扰,直接锁定购票与规划任务,当发现手机无携程App时,可通过自然语言描述补充任务继续执行[22]。其具备推理能力,能识别“从苏州飞上海”指令不合理(苏州无机场),并自主切换至高铁方案[23] - **场景四:闲鱼买二手电驴**:面对结构复杂的闲鱼页面,豆包能清晰导航并准确定位操作入口,完成目标筛选[25] - **场景五:斗地主代打**:豆包能根据画面信息决策下一步行动,但其“截屏-分析-决策-点击”的循环工作逻辑导致操作有秒级延迟,在需要快速连续点击(如出“炸弹”)时容易因超时而失败[29] 产品体验评估 - **超预期的稳定性与泛化能力**:豆包能连续十分钟无差错执行任务,准确操作大量常规及小众App[30]。遇到界面异常时,会自主尝试滑动、点击其他按钮或换路径继续任务,而非死机[30]。其基于视觉识别屏幕,理论上不依赖App开发者开放权限或担心UI更新,只要人眼能看懂的按钮,它大体都能理解[30] - **卓越的协同性**:产品将中兴的硬件、锤子科技改造的系统、端侧模型、输入法、语音和Agent能力链路整合成一个闭环,实现了1+1>2的整机体验[32] - **适用任务类型**:目前在异步、无时效性要求、流程化、可清晰描述的任务上,豆包手机的任务成功率和使用体验已经非常高[31] - **明显的体验短板**:操作延迟显著,每一步操作都有秒级反应速度,例如出斗地主一张牌要等5秒[34]。目前已暂停操作微信,这直接影响了中国用户40%的高频连接和分享场景[34]。此外,存在次数识别不准确、初期缺乏记忆(如点外卖需重复选择规格)、部分内容生成能力僵硬等问题[34] 行业影响与未来展望 - **主动性Agent走入现实**:豆包手机在常用App设置钩子,点击收藏按钮时会自动截图存入全局记忆,未来可能支持用户设置定时任务,挖掘更多主动功能[37][38] - **构建强大的用户上下文**:端侧Agent理论上可异步遍历用户所有App内容(聊天、购买、出行等),构建最完整的用户上下文,但目前基于用户操作记录的AI功能尚未显现[39][40] - **端侧AI的“GPT-3时刻”**:豆包手机可被称为端侧AI的GPT-3(2020年)时刻,准确率已很高,主要问题是操作速度慢[41]。若视觉语言模型速度提升10到50倍,将达到端侧AI的“ChatGPT时刻”,许多任务可由端侧通用Agent完成,这要求端侧创业公司重新审视现状[41][42] - **操作系统的认知变革**:传统操作系统要求用户学习界面和流程,而豆包手机让功能、内容、文件成为可被Agent调用的模块,用户只需提出需求,由Agent解决操作问题[43][44] - **产业合作新范式**:合作超越“把模型塞进手机”,走向操作系统级的Agent调用[45]。应用侧广泛接入,但核心能力可能不开放,需通过豆包模型的页面视觉识别来实现操作,而非直接调用API,这呈现出“AI OS系统供应商”意义上的行业重构力量[45][46] - **未来的交互入口之争**:入口从分散的应用转向“任务意图”,这牵动10万亿级产业利益[47]。应用巨头不愿沦为“后台API”,应用间会竖起高墙(如微信登录被动下线),AI手机以任务入口统一入口的可能性与原有入口的争夺,将成为2025至2026年的热门话题[47][48][49][50] - **隐私安全挑战**:AI权限高、触达深,引发用户对安全的担忧,尤其是在考虑给大龄父母使用时[51]。系统在支付等高敏感操作上采用“最小权限原则”,需交还用户手动确认,未来的竞争关键在于如何在AI能干的同时让用户安心[51]。用户可通过指令覆盖默认安全基线,各方均需在此环节改进优化[52] - **应用价值重构**:未来应用的价值不在于功能密度,而在于能否被Agent精准调度及将自身能力结构化暴露出来[53]。人的主动性被置于中心,用户从被动浏览者转变为目标明确的任务发起者[53][54]
锦秋基金被投企业ArtArch CEO黄严:想让全世界每个人都能AI Native创作|Jinqiu Spotlight
锦秋集· 2025-12-02 10:10
公司概况与融资动态 - 锦秋基金已完成对ArtArch的投资,锦秋基金是一家12年期的AI Fund,以长期主义为核心投资理念,专注于投资具有突破性技术和创新商业模式的通用人工智能初创企业[6] - ArtArch在一年内完成了两轮融资,投资方包括锦秋基金、九合创投和BV百度风投[10] - 公司创始人兼CEO黄严,创业前在字节跳动智能创作部门担任工程与研发负责人,为抖音、TikTok、剪映、即梦、火山引擎等业务线提供底层创作能力[9][35] 核心产品:Skira - Skira是ArtArch发布的第一款产品,分为PC端和App端[10][12] - App端主要提供内容浏览和“一键Remix”功能,用户上传照片即可快速生成同款视频,实现“傻瓜式”创作[13][14] - PC端是面向专业制作人与技术流创作者的“AI工作流乐高化”创作工具,集成了各类功能,允许创作者在一个平台内打磨并发布内容[20] - PC端与App端相互连通,创作者在PC端完成的作品可以发布到Skira App,也可以分发至TikTok、Instagram等外部平台[22] - 产品上线一个月后,已吸引一批全球化的创作者KOC,公司更看重用户质量而非单纯的数量增长[29] 核心技术:想象力引擎 - ArtArch的核心是自研的“想象力引擎”,旨在破解AI创作的“最后一公里”难题,让技术门槛消失,使想象力直接变为可执行的作品[6][40] - 该引擎内置了公司自研的编译器和编程语言,将多模态模型能力、创作素材、工作流等封装进平台,让创作者能像写剧本一样定义工作流[25] - 引擎能够将一句文字描述(例如:“一个小孩在雨里奔跑,突然抬头看到一条巨龙掠过天空”)自动拆解成包含运镜、光影、节奏的完整五镜分镜,将传统需要编剧、导演、分镜师、特效师反复沟通的过程压缩至几秒钟[6][50][51] - 该体系实现了大模型、多模态能力、工程化结构和创意逻辑的一体化协同,旨在提供“心流式”的丝滑创作体验,让有视觉想法的人快速表达,让没有技术的人也能拥有导演视角[6][40][54] - 引擎打通了算法与工程,在创作爆款玩法时,其速度比行业平均水平快几十倍[25] 商业模式与平台生态 - Skira的商业模式是以“玩法”为中心的供给—消费双向循环平台,专业创作者(Pro C)在PC端创作玩法模板,C端用户在App端消费和Remix这些模板,形成创意流动[23][56] - 目前平台上专业创作者(Pro C)与C端用户的比例约为1:10[60] - 公司团队拥有来自字节跳动的运营经验,能够判断内容的爆款潜质并设计商业化链路,通过引导和激励(如组织模板创作比赛)来促进生态创意流动[59][63][64][66] - 已有创作者利用Skira的模板在YouTube上从0粉丝起号,获得单视频上万甚至3万次浏览,作品在社交媒体上传播时能吸引用户主动询问制作工具[29][32][67] 行业趋势与公司愿景 - 行业正经历从“拍-编-剪”时代到“用想象力构建作品”时代的变革,AI正在将创作门槛降至前所未有的程度[6][38] - 当前AI创作工具存在工具割裂、功能单一等问题,ArtArch旨在通过一体化的平台解决此问题,让创作者只关注想象力而非工具摩擦[8][47][49] - Sora等AI视频生成模型的兴起,普及了新的内容创作模式(如Remix),并让市场更愿意接受AI生成的内容,这对行业产生了正向影响[61] - 公司的长期目标是构建AI时代的内容平台和基础设施,覆盖创作者从想象力构建、顺滑工作流到内容分发的全链路,成为一个“AI创意工厂”[26][55][62][70]
模型加速更迭的 11 月,锦秋发生了这些事|Jinqiu Update
锦秋集· 2025-12-02 06:20
融资动态 - 星尘智能完成数亿元A++轮融资 由国科投资和蚂蚁集团联合领投 锦秋基金连续多轮支持[1] - 灵启万物4个月获3轮近亿元融资 最近一轮由锦秋基金领投 采取小脑+大脑架构[2] - 微纳核芯完成超亿元B轮战略融资 由蓝驰创投领投 专注存算一体AI芯片技术[3] - VideoTutor完成种子轮1100万美元融资 由YZi Labs领投 主打生成个人专属教学视频[4] - NemoVideo完成近千万美元Pre-A轮和天使轮融资 Pre-A轮为IDG资本独投 聚焦视频创作者工具[5] - 深度原理完成超亿元人民币A轮融资 用于材料发现智能体研发[6][7] 技术产品进展 - 宇树科技发布全身遥操作平台 实现人形机器人精准复现人类动作[8] - 地瓜机器人发布具身智能机器人大算力开发平台S600 推出一站式开发平台[9] - 灵启万物发布demo视频 机器人以接近真人流畅度执行家务 重点突破小脑部分[10] - OiiOii上线全球首个动画创作Agent 内置7个专业Agent实现一站式服务[12] 行业研究活动 - Leonis Capital发布AI 100报告 基于全球10000余家AI初创企业数据 显示资本倾向算力与数据[14] - 锦秋基金举办CEO大会 分享2025 AI创投趋势 聚集多位行业专家[17] - 锦秋基金创始合伙人杨洁获投资界F40中国青年投资人荣誉[19] - 锦秋基金获投中网2025行业关注度提升最快投资机构称号[21]
锦秋基金被投企业Hogi产品一码难求,动画 Agent 导演作品离「疯狂动物城」有多远?|Jinqiu Spotlight
锦秋集· 2025-12-01 11:15
产品概述与市场热度 - Hogi公司推出的AI动画生成Agent产品OiiOii在市场上引起现象级关注,7210个内测名额迅速被抢光[7] - 免费邀请码在二手平台闲鱼上被炒至30元人民币,内测群数量超过50个,按500人/群估算约有2万多人排队等待内测[7][8] - 内测用户中包括粉丝量达2000万的顶级创作者,显示产品对专业内容创作者的吸引力[7] 技术突破与产品差异化 - 产品成功攻克AI视频动画领域的核心痛点"人物一致性",这得益于Sora2和nanobanana2技术的突破[5][30] - 采用多Agent协同系统模拟专业动画制作流程,包含艺术总监、场景设计师、编剧、分镜师等7个AI Agent角色[15][18] - 与传统AI视频工具不同,OiiOii将用户定位为"甲方",只需提供需求而不需编写复杂提示词,大幅降低使用门槛[14][37] - 生成内容具备专业导演感,包含推拉摇移等镜头语言设计和景别变化,符合影视逻辑[28] 市场定位与需求分析 - 精准选择动画垂直赛道,规避真实世界视频生成的"恐怖谷效应",利用观众对动画风格更高宽容度的特点[34] - 将动画创作目标用户从1万专业人群扩展至20万泛创作者,显著扩大市场规模[5][73] - 满足短视频时代爆发式增长的视觉表达需求,为自媒体、博主、创业者等提供动画内容制作解决方案[70][41] 产品能力与用户体验 - 在30分钟内可将用户想法转化为60秒时长的动画短片,包含音频、画面和转场等完整要素[22][46] - 通过"托管模式"实现一键生成,用户仅需确认关键节点,极大简化操作流程[21] - 当前画质尚未达到工业级标准,但在自媒体短视频和MV概念片领域可达到70-80分水准[32] 行业洞察与发展趋势 - AI动画创作正从专业技能向基础能力转变,让非专业人士也能创作70分作品[51] - 技术发展类似摄影史演进轨迹:从专业艺术到大众创作工具,最终丰富整个内容生态[49] - 行业迎来技术窗口期,人物一致性问题的解决为AI视频动画爆发奠定基础[64][66] 核心竞争力与商业壁垒 - 核心壁垒在于行业Know How而非单纯技术,包括镜头语言、节奏感和角色一致性等隐性知识[54][55][56][57] - 团队具备动画行业背景,理解专业制作流程,这是纯技术团队难以复制的优势[60] - 产品开发周期仅两个月,展现团队快速将前沿技术产品化的能力[54] 商业模式与未来挑战 - 内测期间免费提供服务,但未来商业化面临定价挑战,据估算20秒视频成本接近2元[76] - 关键挑战在于找到产品市场契合点,验证用户付费意愿和可持续商业模式[76][77] - 需要平衡技术成本与用户接受度,确定合理的收费策略[76]
从ChatGPT3年8亿周活到Higgsfield5个月1亿美元ARR:学术和资本看见了“大模型的摩尔定律 ”|DeepTalk
锦秋集· 2025-12-01 10:00
从Scaling Law到Densing Law:大模型发展范式的转变 - 行业观点认为,单纯扩大模型参数和数据的“Scaling Law”正面临瓶颈,数据接近极限,模型规模的百倍扩张难以带来真正的能力跃迁 [2] - 研究提出新的发展范式,即从“做大模型”转向“做高效模型”,核心是提升“能力密度” [3] - 该观点基于对51个主流开源大语言模型演进轨迹的分析,发现最大能力密度呈指数提升,约每3.5个月翻一番 [3] 能力密度(Capability Density)的定义与计算 - 为定量评估不同规模与架构模型的质量,研究引入了“有效参数大小”的概念,即一个标准参考模型达到目标模型同等性能所需的参数量 [10][11][12] - 能力密度被定义为有效参数大小与实际参数大小的比值(ρ = N(S_M) / N_M),该指标可用于公平比较不同架构和精度的模型 [13] - 若ρ > 1,表明模型比参考模型更“致密”,即用更少的参数实现了更强的能力 [15] Densing Law的核心发现与驱动力 - 对51个主流开源基础模型的评估显示,大语言模型的最大能力密度随时间呈指数级增长,规律被命名为Densing Law [16][17] - 具体数据为:ln(ρ_max) = At + B,增长系数A≈0.007/天,最大能力密度约每3.5个月(105天)翻一番 [18] - 密度提升的核心驱动力是预训练数据规模的爆炸式增长(从T级到15T+)以及数据质量的显著提升 [19] - 研究指出,超大模型(如Llama-3.1-405B)受限于巨大的训练成本,往往训练不足,导致其“性价比”或密度略低于同期的中等规模模型 [19] Densing Law的主要推论与行业影响 - **推论1:参数量指数级减少**:为实现相同性能,模型所需实际参数量随时间呈指数下降,大约每3.5个月减半 [21] - **推论2:推理成本指数级降低**:在同等性能下,模型参数减少直接降低了推理计算成本,粗略计算推理成本约每2.6个月减半 [22][27] - **推论3:端侧智能潜力巨大**:Densing Law(算法效率)与摩尔定律(硬件算力)结合,使得固定价格硬件上可运行的最大有效参数规模约每88天翻一番,预示高性能LLM将加速在消费级终端普及 [24] - **推论4:ChatGPT发布后密度增长加速**:ChatGPT发布后,模型密度的增长速度提升了50%(斜率从0.0048增至0.0073),主要因投资激增、开源生态繁荣及小模型普及 [25][28] - **API价格暴跌案例**:从2022年12月到2024年8月,性能相当的模型API价格从每百万token 20美元降至0.075美元,降幅达266.7倍 [27] 对模型压缩技术的警示 - 实验发现,大多数压缩模型(通过剪枝、蒸馏、量化)的能力密度实际上低于其原始模型 [30] - 原因在于压缩后的小模型往往面临训练不足的问题,而量化则会损害模型性能 [30] - 行业建议,高效压缩需确保压缩后的模型经过充分训练,以在减小规模的同时保持或提升能力密度 [30] 未来发展方向:密度最优训练 - 未来训练范式将从追求参数规模的“大”,转向追求单位参数效率的“密”,即“密度最优训练” [32] - 提升密度的关键路径包括:1) 探索更高效的非标准Transformer架构;2) 采用复杂的数据预处理与合成技术提升数据质量;3) 构建大模型与小模型协同进化的生态系统 [33][34][35] 核心技术细节与评估挑战 - 有效参数的计算采用两步估计法:首先用Scaling Law拟合参数量与预训练损失的关系,再用Sigmoid函数拟合损失与下游任务性能的关系 [37][40][45] - 为统一衡量不同架构,密度定义可扩展为参考模型与目标模型推理成本的比值,并针对稠密模型、MoE模型和量化模型给出了具体计算公式 [45][46][47] - 当前能力密度评估是一种相对测量,其准确性高度依赖于评测基准的质量,行业需要建立更全面、无偏见的评估体系 [31][38]