锦秋集
搜索文档
房间里的大象:Ilya挑明AI的“高分低能”,呼吁要从研究到scale到再重回研究时代|Jinqiu Select
锦秋集· 2025-11-26 07:01
文章核心观点 - 当前AI模型在评估中表现优异但经济影响滞后,揭示了过度拟合评估而非真实世界需求的根本问题[14][17][18] - 行业需要从依赖确定性的“规模扩展”范式,转向以解决泛化能力为核心的新“研究时代”[6][14][57] - 真正的超级智能形态应是一个具备强大持续学习能力的系统,而非一个预训练的“成品”[96][97][98] 对AI范式的批判 - 模型存在行为波动性,上一秒能完成复杂任务,下一秒却连续犯低级错误[2][19][20] - 矛盾在于模型评估得分高但现实经济效果完全跟不上,评估表现与实际世界表现脱节[14][17][18] - 问题的核心可能在于强化学习训练使模型变得“过于专注和狭隘”,导致基础任务表现迟钝[21][22] - 真正的“奖励黑客”是过于关注评估指标的研究人员,而非模型本身[14][24] 从规模时代重返研究时代 - AI发展可分为两个阶段:2012-2020年为研究时代,2020-2025年为规模扩展时代,现在需重返研究时代[14][57] - 规模扩展配方(将计算力和数据塞进大型神经网络)提供了确定性收益,但改变了世界的是创新研究而非更大模型[6][14] - 公司偏好规模扩展因其资源投入风险低,而研究则充满不确定性[55][56] - 当前计算力已非常充足,行业再次回到“研究时代”,但此次拥有更大的计算资源[57][59] 人类实践中的经验启示 - 人类在15岁时所见数据量极少,但理解更深且不会犯AI那样的错误,表明人类学习样本效率极高[40][66] - 人类学习不依赖明确奖励体系,而是通过讨论、展示等互动方式自然习得[66] - 情感可能是一种被忽视的“价值函数”,能帮助人类快速判断行为好坏,对决策至关重要[43][45][51] - 进化赋予人类强大的先验能力(如视觉、运动),但人类在现代技能(语言、编程)上的快速学习能力表明其学习系统本身非常强大[69][70][72] 超级智能的形态与路径 - 超级智能不应是预训练完成的“全能大脑”,而应是一个可以学会做经济中每项工作的优秀学习算法[14][97][98] - 超智能系统更可能以“持续学习智能体”的形式被部署到经济中,通过实践学习积累技能[96][97][98] - 广泛部署可能引发快速经济增长,但具体速度受各国规则差异影响,存在不确定性[98][99][100] - 对超智能发展的时间预测在5到20年之间[113] 研究的方法与审美 - 研究需要“自上而下的信念”,即在实验与预期矛盾时支撑研究者的核心判断[14][123] - 优秀的研究品味源于对AI应有状态的美学判断,追求简洁、优雅且正确受大脑启发的理念[122][123] - 想法本身并不廉价,研究的瓶颈包括算力、工程能力以及将想法成功执行的困难[79][80]
让AI分析这波大模型公司宣传战:原来每家都有自己的鲜明人设 | Jinqiu Scan
锦秋集· 2025-11-25 11:41
文章核心观点 - 使用AI工具(MiniMax Agent和Gemini 3 Pro)深度分析8家头部大模型公司的品牌传播策略,揭示其品牌人设定位和传播规律 [4][6][16] - AI公司的品牌传播核心在于实现技术实力与情感温度的平衡,并通过精心打造的“人设”来体现 [56][57] - 不同AI分析工具因训练数据和分析框架差异,对同一公司的分析会呈现不同视角,如技术工程师视角与人文社科视角 [54][55] 8家大模型公司品牌人设与传播策略 - **OpenAI**:技术权威型,品牌形象为硅谷首席架构师,技术产品内容占比68.6%,叙事结构为“从实验室到基础设施”,风格理性务实、简洁直接 [19] - **Anthropic**:AI安全卫士型,品牌形象理性严谨,技术内容占42%,愿景表达占35%,核心语汇为“Responsible AI”和“Human”,强调安全与伦理责任 [22] - **Google Gemini**:创意技术专家/导师型,采用双轨叙事,用户导向词汇占比45.3%,话术以鼓励语建立情绪连接,营销策略通过高频教程内容降低使用门槛 [25] - **DeepSeek**:去营销化的极客型,技术导向内容占比85%,语言极简生猛,传播策略依靠开源与激进API定价在开发者社区形成病毒式扩散 [29] - **Kimi**:细分领域的冷静专家型,技术导向内容占37.6%,专注长文本处理能力,采用“开源+集成”策略并引用ARR等商业数据证明可行性 [33] - **MiniMax**:技术实用主义的生态构建者,技术导向内容占65%,核心心智为“Minimize Effort”,营销通过“5-Day Launch Week”等活动制造期待感,广泛开展生态合作 [36] - **通义千问**:开源卷王型,技术导向内容近七成(69.2%),定位为全模态开源领军者,营销坚持周更式高频发布,采用Cookbook体系和“全家桶”产品策略 [43] - **豆包**:温暖陪伴的全能助手型,产品功能玩法内容占比65%,话术亲和力高,使用“玩出圈”等平民化表达,营销通过P图影像化功能打造爆款体验,并与国家博物馆等机构联动破圈 [49][53] AI分析工具的视角差异 - **MiniMax Agent**:侧重技术工程师视角,关注数据指标、工具性、效果量化,评价标准为功能完备度、技术领先性和ROI效果,语言风格为工程师术语和数据驱动 [55] - **Gemini 3 Pro**:侧重人文社科融合视角,关注情感价值、愿景叙事和社会责任,评价标准为品牌调性、用户连接度和长期价值,语言风格为学术化表达和哲学思辨,视觉输出已跳脱行业常见的紫色同质化 [55] AI公司传播策略的核心启示与建议 - 传播策略分为三层境界:功能竞争(技术指标、产品功能)、情感连接(品牌故事、用户共鸣)和社会价值(AI伦理、技术普惠) [60] - 给初创团队的实用建议包括确保技术实力过硬并构建清晰价值主张、品牌人格保持一致但勿过度、用具体成果和数据建立人设可信度、在细分领域形成独特定位 [60] - 技术开源比闭源更具传播力,能建立开发者信任并使专业人设更立体,最重要的是将技术改变世界的信念转化为用户能感受到的人设温度 [61][62]
锦秋基金被投企业NemoVideo获千万美元融资,离开TikTok做爆款仿剪Agent|Jinqiu Spotlight
锦秋集· 2025-11-25 02:20
融资情况 - 锦秋基金已完成对NemoVideo的投资[4] - NemoVideo近期完成近千万美元的Pre-A轮和天使轮融资,Pre-A轮由IDG资本独家投资,天使轮投资人包括锦秋基金、钛动科技和微火创投等机构投资人,以及前零一万物联创谷雪梅作为个人投资方,棕榈资本担任Pre-A轮独家财务顾问[5] 公司定位与愿景 - NemoVideo从"爆款仿剪Agent工具"切入,聚焦视频创作者用户,长期目标是打造视频制作Agent平台,完成从工具到生产力社区的转变,未来愿景是成为视频领域的Canva,核心在于专注生产力领域[7][10][13] - 长期规划是构建视频制作Agent社区,创作者可在社区沉淀和交易自己的视频制作agent,通过Agent自动化生成内容,Agent作为创作者的数字分身沉淀创作knowhow,形成商业正循环和数据飞轮[10] 产品与服务 - 当前产品是面向海外带货达人和自由职业剪辑师的"爆款仿剪"Agent工具,目标用户特点是重灵感、重粗剪、轻后期,需大量产出内容但预算有限,有用户使用后从日均3条视频提升至10条以上[12] - 产品坚持AI native理念,AI作为创作者"副驾"解决高重复性工作,将控制权和创意还给创作者,与剪映差异在于更强调社区生态和创作者盈利模式[13] - 未来计划支持更多非线性创作路径,加强灵感和粗剪阶段AI能力,实现"Anything In,Video Out"功能,如参考视频生成类似结构或混合多视频元素生成新视频[16] 商业模式 - 现阶段采用订阅+token计费模式,未来社区成熟后转向结果导向定价,平台上的Agent创作者可自由定价,例如高质量视频Agent标价3美元/条,快速粗糙Agent标价50美分/条[17] 市场机遇与竞争 - 视频Agent领域比图文复杂度高,工具层面需更多准备,公司较早进入具备时间优势,选择niche市场对大厂非战略重点,获得一定发展空间[21] - 单纯工具难有强想象力和护城河,围绕创作和交易的社区更具机会,类似Canva模式让创作者靠作品赚钱[13] 团队背景 - 创始团队由前TikTok创意业务线核心成员李政锦、刘婧妍及前源码资本董事总经理张星辰组成,TikTok履历带来三大优势:对创作者和商家痛点的洞察、全球市场GTM的know-how、视频剪辑工具设计逻辑理解[7][8] - 创始人李政锦大一探索创业,大三在云南创办教育NGO,后加入字节跳动担任TikTok Creative部门产品Leader,主导视频创作者工具设计与落地,刘婧妍拥有北大和剑桥背景,曾参与摩拜海外从0到1业务运营[7] 运营现状 - 公司目前团队规模十余人,均为全职,正在扩张重点招聘senior技术人才和海外增长方向人才[23][25] - 招聘策略注重创业者精神而非经验优先,为吸引人才愿意报销机票安排线下见面[24] - 融资过程顺利,首轮锦秋基金2天内给出TS,第二轮IDG资本当天口头确认,投资机构认可团队"拿结果"能力[18]
锦秋基金被投企业深度原理完成超亿元A轮融资,AI for Science持续突破|Jinqiu Spotlight
锦秋集· 2025-11-24 07:05
融资动态 - 锦秋基金于2025年初参与AI for Science赛道明星企业深度原理的亿元级Pre-A轮战略融资[3] - 深度原理完成超亿元人民币A轮融资,由戈壁创投管理的阿里巴巴创业者基金大湾区基金与蚂蚁集团共同领投,现有股东联想创投、Taihill Venture超额加注,BV百度风投继续加注,多家机构参与[4] 融资资金用途 - 资金将用于加速材料发现智能体Agent Mira™的研发与升级[5] - 推进L4高通量自主实验室AI Materials Factory™与其研发管线的建设与布局[5] - 深化与国际和国内头部客户的合作,巩固技术落地领先优势[5] 技术实力与突破 - 公司创始团队拥有麻省理工学院背景,在AI for Science交叉领域拥有深厚积淀[7] - 公司首创的扩散生成模型先后在《Nature Computational Science》和《Nature Machine Intelligence》两家Nature子刊发表封面论文[7] - 2023年推出首个3D化学反应扩散生成模型OA-ReactDiff,首次实现在单个GPU上6秒内完成过渡态结构预测[7] - 2025年初发布迭代升级模型React-OT,将预测时间提升至0.4秒,误差降低超25%[7] - 今年在LLM for Science方向取得进展,主导开发LLM-EO工作流程,相关成果以封面论文形式发表于《Journal of the American Chemical Society》[8] - 公司形成"Diffusion + LLM"并进的生成式AI架构,为智能体化交付奠定基础[8] 核心产品演进 - 公司研发ReactGen、Reactify、ReactControl、ReactBO、ReactNet、ReactHTE六大算法模块,并集成于ReactiveAI平台[10] - 平台近期升级为材料发现智能体Agent Mira,能够基于自然语言指令智能调度全流程任务,具备分子结构设计、化学反应预测、材料配方优化等能力[10] 商业化进展 - 公司成立一年来已获得超千万元人民币的商业订单[12] - 在超分子材料领域,与杉海创新共建AI超分子材料平台"超屿 Synthrix™ 1.0",通过AI计算筛选百万级候选结构[12] - 在日化领域,与欧莱雅合作,利用ReactiveAI平台从化学反应机理层面预测并解释各成分对配方性能的影响[12] - 与战略股东晶泰科技持续共创,聚焦化学材料领域智能化自动化研发[12] - 在新能源、精细化工等领域推进多个重点项目[12] 未来战略布局 - 公司已启动打造L4高通量自主实验室AI Materials Factory,由自研智能体Agent Mira统筹资源调度[14] - AI Materials Factory将覆盖从分子结构设计、化学反应预测、材料配方优化到高通量验证与数据回流的全链路,形成"AI模型预测—计算支撑—实验验证"闭环[14] - 该工厂将推动技术及产品在新材料、营养日化、新能源等重要战略领域落地,并推进内部自研管线开发[15]
锦秋基金被投企业首形科技:非主流人形机器人创业,从做好一张脸开始|Jinqiu Spotlight
锦秋集· 2025-11-21 06:11
公司概况与市场定位 - 首形科技是专注于超高仿生情感交互机器人的领军企业,其产品核心在于人脸的拟真化与情绪交互[6] - 公司与市场上比拼硬核技能的人形机器人公司不同,将主要精力放在“人脸”这一模块的开发上,认为人脸是情绪表达和人机沟通中最直接的部分[9] - 公司采用软硬件全栈自研的方式,整合多模态情绪识别系统与表情控制算法,以减轻“恐怖谷”效应[9] - 公司创始人通过社交媒体成功进行产品推广,一段机器人对视视频在全网获得超过200万点赞和破亿播放量[7][8][9] 技术路径与核心优势 - 公司通过引入仿照“照镜子”训练的自监督学习机制,使机器人在神态和动态表现上更加自然[9] - 技术团队注重每个环节的极致打磨,从结构设计、运动控制、算法到训练数据均坚持自研,以确保最终产品体验不落入“恐怖谷”[18][19] - 在动态表情优化上,公司采用AI学习人类在视频中的表情使用方式,旨在获得一个连续的“动态动作空间”,使动作生成更加逼真自然[20] - 公司认为,实现真正共情的关键在于更丰富的交互模式,并引用心理学“55/38/7定律”,强调面部表情(55%)和声音(38%)在情绪传递中的重要性[21] 商业化战略与市场判断 - 公司判断人形机器人未来五年内更适合作为情绪产品而非生产力工具,其商业化机会在于表演、服务等行业的情绪价值[12][25] - 产品的定价逻辑将参考情绪价值消费品(如泡泡玛特手办),而非工具型产品的ROI计算模式,并计划通过规模化降低成本[32] - 目标用户定位为注重感受的“F人”(MBTI理论),公司认为人类的情感需求市场非常庞大[32] - 公司目前正通过参加展会、音乐节等活动进行线下商业化探索,让公众确认产品的真实存在,并与AI公司、游戏公司等探索合作[28][35] 行业竞争与融资进展 - 公司的技术路线和市场热度已获得资本市场认可,今年以来已完成三轮融资,吸引蚂蚁、顺为等顶级机构入场[11][31] - 创始人认为,早期投资人的疑虑源于对跨越“恐怖谷”难度的刻板印象,而当前融资进展得益于公司用产品效果证明了技术的可行性[31] - 面对竞争,公司选择有节奏地释放产品能力,将核心交互能力视为需要保留的竞争优势[27][28] - 公司现阶段的核心目标是与行业伙伴合作,探索具体应用场景,并根据场景反推技术需求,做好产品定义的取舍[51][53] 产品哲学与未来愿景 - 公司致力于模糊人与机器的界限,认为人形机器人能带来比其他形态更强烈的情感体验,其情感连接的上限更高[40] - 在产品设计中,计划加入“保持真实度”的参数,引入适当的冲突与矛盾,避免机器人陷入“永远取悦人”的虚假关系,并探索其作为人际关系“协调者”的角色[41][42][43] - 公司高度重视用户数据隐私与安全,计划为用户提供数据授权或本地部署等多种选择方案[48][50] - 未来训练数据的获取将结合公开数据、自创数据以及可能与演员合作模拟的戏剧性场景数据,以提升情感交互的深度[44][45]
锦秋基金被投企业灵启万物4个月获3轮融资,要在3-5年将人形机器人送进家庭 |Jinqiu Spotlight
锦秋集· 2025-11-20 14:38
公司概况与融资历程 - 灵启万物是一家具身智能算法公司,由前腾讯Robotics X实验室研究员"95后"朱庆旭于2025年6月创立 [5] - 公司成立4个月内完成3轮融资,总融资额近亿元,投资方包括元禾原点、和玉资本、英诺天使、元生创投、锦秋基金、梅花创投、卓源亚洲等机构 [5] - 锦秋基金作为12年期的AI Fund,已完成多轮对灵启万物的投资,其投资理念是寻找具有突破性技术和创新商业模式的通用人工智能初创企业 [4] 核心技术:数据采集与算法架构 - 公司技术路线的核心是放弃业内主流的"遥操作"数据采集方案,采用"光学动捕+UMI"方案,以获取更高质量和规模化的训练数据 [17][24] - "光学动捕"通过操作员穿戴设备在实验室空间真实做出动作,由多机位摄像头记录,能精准复现人类流畅、本能的行为模式 [17][25] - "UMI"是一种手持夹爪设备,由操作员实际操作物体,可大规模采集手与物体的真实交互数据,与动捕数据结合形成高质量训练数据集 [17][25] - 公司算法采用"小脑"+"大脑"的分层架构,"小脑"负责运动控制,通过构建"人类动作库"让机器人学会基础动作;"大脑"负责任务规划与泛化,两者耦合迭代 [15][28][33] - 该数据方案被视为数据金字塔的中间层,比视频数据质量好,比遥操作数据量多,在质量和规模上取得平衡 [26] 技术优势与行业观点 - 公司创始人认为主流"遥操作"方案存在原理性缺陷,其本质是使用人脑的"慢系统"控制机器人,导致数据缓慢、卡顿,锁死了机器人性能上限 [12][22] - 双足人形机器人构型被认为是适应家庭环境的最终形态,因为人类世界是为人体结构设计的,人形能最好地复用人类数据并适应复杂环境 [11][36] - 公司预测双足人形机器人进入家庭的时间将缩短至3-5年,而非业界普遍认为的5-10年,其技术是加速这一进程的关键 [11][19] - 在商业化路径上,双足人形机器人预计在1-2年内先落地零售、快餐等无人商店场景,因任务固定、环境可控,能快速验证商业价值 [20][29] 商业化应用与效率 - 在无人店场景(如肯德基)中,机器人学会所有岗位动作仅需2到3天,得益于高质量动捕数据带来的高学习效率 [29] - 具体实施时,基础动作可在实验室动捕环境中全部采集,再到实际场景中补充UMI动作及环境数据,无需在真实操作现场搭建动捕设备 [30] - 实现家庭场景泛化需攻克三大挑战:物体泛化(不同形状、材质、大小的物体)、位置泛化(任何角落、高度的物体)、场景泛化(不同家庭布局、光照等) [31] 公司壁垒与行业判断 - 公司核心壁垒并非技术方案本身,而是团队的技术判断力与持续迭代能力,即在众人看好遥操作时能判断其缺陷并找到新路 [18][39] - 真正的壁垒被总结为"在混沌中看清方向、并把一个不成熟的想法一步步做成现实的能力",类似于OpenAI早期坚信GPT道路的执行力 [39] - 行业未来将经历大浪淘沙,能留下的公司是在"健身"而非"化妆",即不断深耕技术、构建底层能力、累积长期竞争力的公司 [40]
我们给六个 AI 同一段市场数据,它们生成了六种完全不同的交易策略 | Jinqiu Scan
锦秋集· 2025-11-19 07:34
实验概述 - 锦秋AI实验室进行了一项实验,旨在观察六个主流大模型在统一环境下生成交易策略的能力[1] - 实验使用XAU/USD(黄金兑美元)的小时级行情数据,因其具备波动丰富、结构清晰、数据连续的特性,常被用作量化研究的基准[2][3] - 初始资金设定为10,000美元,模型需自主判断趋势、规划仓位并决定交易时机[1] - 实验结果显示,六个AI模型在相同数据面前生成了六种截然不同的交易策略,展现出从谨慎克制到激进满仓等多种“性格”[4] 模型策略与表现对比 - **Grok模型**表现最佳,累计收益为-0.04%,当前权益为9,995.50美元,在所有模型中回撤最小[6][39] - **ChatGPT模型**累计收益为-0.21%,当前权益为9,979.29美元,策略核心为顺势做多,仅在日线50日均线上穿200日均线且价格站稳时分批建仓,体现出较强的纪律性和风险厌恶[9][12][13][14] - **DeepSeek模型**累计收益为-0.23%,当前权益为9,977.38美元,策略强调只做多、不加杠杆,关键信号是均线金叉,呈现机械化趋势交易风格[25][27][29][30] - **Claude模型**累计收益为-0.31%,当前权益为9,968.62美元,策略基于中期趋势跟踪,结合美元指数与宏观事件判断,风格偏向快进快出与顺势止盈[15][18][19][20] - **Gemini模型**累计收益为-0.62%,当前权益为9,938.49美元,策略规则为只在牛市中顺势而为,以200日均线判断长期趋势,在上涨阶段积极加仓,高位反转时果断卖出,属于进攻性较强、回撤较大的代表[21][24] - **Qwen模型**表现相对落后,累计收益为-0.88%,当前权益为9,912.15美元,策略规则简洁,只在金价站上200日均线且均线向上时全仓建仓,跌破10日均线则平仓,全仓进出的风格导致收益和风险放大[31][34] 最新交易决策分析 - 在2025-11-12 12:00:00的决策点,价格均为4,112.22美元/盎司,各模型行动分化:Claude选择买入,Qwen选择卖出,其余四个模型(ChatGPT、DeepSeek、Gemini、Grok)均选择观望[7] - 决策理由反映了不同的风险偏好:Claude认为价格回落至支撑位附近存在技术性反弹机会,而Qwen则认为价格跌破支撑且短期趋势转弱[7] - 这种分化凸显了不同AI模型在相同市场条件下的独特决策逻辑和风险判断[5][40]
Physical Intelligence最新发布的VLA模型,为什么是机器人通往规模化部署的拐点?|Jinqiu Select
锦秋集· 2025-11-18 11:13
核心技术框架:Recap - Physical Intelligence公司发布名为Recap的结构化强化学习框架,旨在解决机器人从“能做”到“能稳定做”的挑战 [2] - Recap框架构建一个前所未有的三段式训练管线:演示(demonstration)+ 纠正(correction)+ 机器人自主rollouts(RL on robot),三类数据在统一的强化学习体系中协同工作 [2] - 该框架首次展示如何利用纠正数据结合价值函数和优势来系统性地抵消机器人策略中最顽固的难题——误差累积 [3] 模型性能与突破 - 应用Recap训练出的π*0.6模型是一款拥有50亿参数的视觉语言动作模型,能够处理异构提示并吸收执行质量评价 [3] - 在最具挑战性的任务上,模型处理能力提升了一倍以上,失败率降低到二分之一甚至更低,达到可向商业部署过渡的性能门槛 [3][10] - 在真实场景中,π*0.6模型可实现连续一整天制作浓缩咖啡、数小时不间断折叠未见过的衣物、以及在工厂中稳定组装真实包装盒子的稳健水平 [10] - 在上述复杂任务上,π*0.6模型实现了超过90%的成功率 [25] 行业痛点与解决方案 - 当前机器人基础模型主要依赖人力收集的演示数据,存在人力成本高、策略水平限于人类、无法自我提升等局限性 [2][27] - 仅靠模仿学习的视觉语言动作模型在物理世界中会因细小失误累积形成复合错误,导致任务失败,这是实现高可靠性系统的关键障碍 [11] - Recap通过两种方式从不良经验数据中获取训练信号:一是由专家提供纠正指导,二是让机器人通过强化学习根据任务结果自行判断行为好坏 [13] - 强化学习中的核心挑战是信用分配问题,Recap通过引入价值函数作为“好坏评分器”,并利用优势来为动作打标签,从而解决此问题 [16] 训练方法与数据应用 - Recap的第一阶段是使用离线强化学习对模型进行预训练,不同于基础模型所采用的纯监督学习方案 [19] - 训练流程包括先通过任务相关示范对模型进行微调,再利用真实机器人上收集的额外数据继续做强化学习训练,结合修正指导和奖励反馈 [19] - 不同数据源服务于不同目的:专家演示用于定义新行为,辅导用于完善策略,自主经验则可能成为最大数据源用于完善行为直至超越人类表现 [27][28] 具体应用场景挑战 - 盒子组装任务的挑战在于完成复杂的物理操作流程并高频重复,同时需处理如纸箱黏连等边缘情况 [24] - 洗衣任务主要难在变化性和泛化能力,机器人需适应不同的初始状态和种类繁多的衣物,以及不同的折叠策略与材质特性 [24] - 制作浓缩咖啡饮品的难点在于长流程且环环相扣,要求模型具备高层语言策略以控制等待设备工作及后续清洁等时序性动作 [24]
锦秋基金被投企业星尘智能完成数亿元A++轮融资|Jinqiu Spotlight
锦秋集· 2025-11-18 01:41
融资动态 - 星尘智能完成数亿元A++轮融资,由国科投资和蚂蚁集团联合领投,Bloom Advance Capital、时代伯乐、南山战新投等机构跟投,老股东锦秋基金继续追投[2] - 公司在一年内连续完成A轮、A+轮及A++轮融资,蚂蚁集团连续多轮领投,锦秋基金持续追投[2] - 本轮融资将用于研发人才梯队建设、绳驱本体规模化制造准备、多场景解决方案深化与产业化能力提升[3] 技术优势 - 公司是全球首个实现量产绳驱AI机器人的企业,产品采用独特绳驱传动设计,模拟人类肌腱的丝滑运动与精密力控特性[5] - 绳驱技术具备低摩擦、高跟随、连续力域优势,避免传统刚性传动在齿隙、摩擦、冲击中丢失关键力控信息,让AI能获取连续力学数据[7] - 公司构建了“顶尖本体-领先遥操-高效模型”的具身智能全栈平台,并于今年10月IROS顶会上展示升级后平台[7] - 今年6月公司攻克绳驱量产难关,实现多个月批量稳定交付,比OpenAI投资的绳驱机器人公司1X至少领先一个周期[7] 商业化进展 - 公司已获得数千台订单,在科研、文旅文娱、商业服务、工业物流等高价值场景多点开花[8] - 11月15日与金马游乐达成战略合作,推出新一代文旅文娱机器人系列产品,是国内人形机器人在文旅文娱领域最早一批规模化订单[8] - 全球首个由绳驱AI机器人全自主运营的零售服务店“机器人MART”在中山落地,AI主理人可全自主完成语音接待、下单支付、小食制作等复杂操作[8] - 9月2日与全球最大控制器系统厂商仙工智能签约,为国内最早一批工业领域规模化订单[8] 合作伙伴与生态建设 - 公司与字节跳动、腾讯、百度、央视、京东等多行业头部客户合作,推动绳驱AI机器人在多场景加速落地[9] - 积极构建开放科研生态,与Physical Intelligence、MIT、清华大学、香港大学、字节跳动AI Lab等国内外顶尖团队合作,产出具身智能技术成果[9] 公司背景与行业定位 - 星尘智能于2022年底成立,是绳驱AI机器人的定义者,业界首个量产绳驱AI机器人的公司[13] - 秉持“Design for AI”与独特绳驱传动设计理念,让机器人模仿人类肌腱的运动与力控方式[13] - 公司团队具备机器人+AI复合背景,行业经验丰富,长期合作默契[12]
李飞飞最新播客:从洞穴实验理解世界模型|Jinqiu Select
锦秋集· 2025-11-17 08:43
文章核心观点 - AI的本质是“智能”的延伸,而非“人工”,是人类理解世界能力的拓展[3][10] - 推动AI发展的核心三要素始终是数据、神经网络和GPU算力,这一组合构成了现代AI的基石[6][24][26] - 当前AI发展的关键瓶颈和未来机遇在于“世界模型”,其旨在解决机器在空间、视觉和行动上理解世界的难题,是连接语言智能与具身智能的桥梁[3][34][40] - 单纯依靠大数据和算力扩展的“苦涩教训”路径在机器人等具身智能领域可能行不通,因为面临数据难以获取、物理系统复杂性等独特挑战[4][47][48] - 公司World Labs发布的全球首个大规模世界模型Marble,展示了生成可导航、可交互三维世界的技术能力,并在影视制作、游戏开发、机器人模拟等领域展现出应用潜力[39][53][59][60] AI发展历程与驱动要素 - AI学科诞生于20世纪50年代,经历了从早期逻辑系统、专家系统到机器学习、神经网络的发展阶段[16][17] - 2006至2007年启动的ImageNet项目,通过整理1500万张网络图片和22000个概念分类,为AI提供了关键的大规模数据集[23] - 2012年成为深度学习与现代AI的开端,多伦多团队利用ImageNet数据、NVIDIA的两块GPU,成功训练出在物体识别上取得突破的神经网络[23][24] - 在2016年前后,科技公司曾因市场接受度问题而避免使用“AI”一词,这一情况在约2017年后发生根本性逆转[28][29][30] - ChatGPT的成功本质仍是数据、神经网络和GPU三要素共同作用的结果,而非技术路径的根本改变[25][26] 世界模型的概念与重要性 - 世界模型是一种基础能力,旨在让机器能够推理、互动并创造世界,其核心是从二维信息理解三维甚至四维世界的能力[3][34][41] - 与大型语言模型不同,世界模型关注的是空间智能,对于机器人、自动驾驶、科学发现(如从二维X射线衍射图推理三维DNA结构)等领域至关重要[40][44] - 公司World Labs于2022年开始布局世界模型研究,认为其与语言模型同等重要甚至互补,是AI未来的关键方向[3][39][53] - 世界模型的应用可显著提升效率,例如在影视虚拟制作领域,有案例显示其能将制作时间缩短40倍[59] 机器人与具身智能的挑战 - 在机器人领域应用“苦涩教训”(即简单模型+大数据)面临两大挑战:训练数据与输出动作难以完美对齐,以及机器人作为物理系统的复杂性[4][47][48] - 机器人训练数据稀缺,尤其缺乏体现真实三维动作的数据,网络视频虽有价值但存在对齐问题,需补充遥操作或合成数据[47][48] - 机器人更接近自动驾驶汽车,不仅需要“大脑”(算法模型),还需要“身体”(硬件)和具体的应用场景,其产品化涉及供应链、硬件成熟度等多方面因素[4][49] - 与在二维平面上运动的自动驾驶汽车相比,在三维世界中行动并操控物体的机器人面临更长的技术发展路径[49] World Labs与Marble产品进展 - World Labs由四位深耕技术研究的联合创始人资助,团队约30人,主要为研究员和研究工程师,致力于将前沿模型与产品结合[53][65] - 公司推出的产品Marble是全球首款允许通过文本或图像提示生成可导航、可交互三维世界的模型[53][54] - Marble采用点状可视化设计,旨在帮助用户理解模型运行并提升体验愉悦感,该特性受到用户积极反馈[55] - 目前Marble已应用于电影虚拟制作、游戏开发、机器人模拟训练及心理学研究等多个领域,展现出横向应用潜力[59][60] - World Labs的技术路线强调空间智能超越二维视频生成,专注于在深度空间中创造、推理和互动[63] 对AGI与未来技术发展的看法 - AGI(人工通用智能)更像一个营销词汇而非严谨科学概念,AI本身即是追求机器像人一样思考和行动的“北极星”目标[32][33] - 当前技术路径(扩展数据、算力、模型)虽能继续推进,但仍需重大创新以解决AI在抽象推理、情感智能、科学发现(如推导物理定律)等方面的不足[34][35][36] - 人类智能以极低功耗(约20瓦)完成复杂任务,这凸显了生物智能的高效性与当前AI技术的差距[52] 人才与行业生态观察 - AI领域竞争激烈,主要体现在模型、技术和高成本人才的争夺上[67][68] - 对于职业发展,建议关注自身热情、团队使命和所能产生的影响,而非过度纠结细节或盲目追逐热点[71][72] - 斯坦福以人为本AI研究所(HAI)的建立,旨在推动AI在科研、教育、政策等领域的负责任发展,并加强科技界与政策制定者(如华盛顿、布鲁塞尔)的沟通[73][74]