Workflow
锦秋集
icon
搜索文档
锦秋基金被投星尘智能小央机器人乐队亮相深圳机场迎国庆中秋 | Jinqiu Spotlight
锦秋集· 2025-10-04 01:02
锦秋基金投资动态 - 锦秋基金于2024年领投星尘智能A轮融资,并于2025年继续追投其A+轮融资 [2] - 锦秋基金为12年期的AI Fund,以长期主义为核心投资理念,专注于寻找具有突破性技术和创新商业模式的通用人工智能初创企业 [2] 星尘智能公司技术与产品 - 星尘智能是绳驱AI机器人的定义者,也是业界首个量产绳驱AI机器人的公司 [2] - 其独特的绳驱传动设计模仿人类肌腱的运动与力控方式,使机器人能实现传统刚性机器人难以兼顾的高表现力与高安全力,尤其适合复杂灵巧操作和与人紧密交互的场景 [2] - 公司Astribot S1机器人已在科研、商业服务、文娱演出及工业等多个领域落地应用,结合AI大模型与具体场景探索 [2] 具身智能应用案例:小央乐队 - 由中央广播电视总台央视网与星尘智能联合打造的具身智能机器人乐队——小央乐队,在深圳宝安机场与合唱团及乐手共同演绎了经典民歌《茉莉花》 [2][4] - 这是深圳机场首次迎来人形机器人乐队表演,机器人指挥精准优雅地挥动双臂,机器人扬琴乐手以高速和精细力控完成长序列敲击 [4][8] - 大量出行旅客驻足观看并自发加入合唱,活动展现了科技与人文的合奏,为公共服务赋能 [4][10] 行业影响与战略意义 - 机器人进入公共文化与服务环节,人机协同的形式突破了传统表演边界,为具身智能应用探索了新路径,也为“新质生产力”提供了生动案例 [4] - 央视网表示小央机器人乐队是其打造智能机器人家族的重要举措,未来家族成员将在全国开展主持访谈、乐队表演、探展探厂等一系列工作 [7] - 深圳作为“科技之都”不断探索具身智能在生活服务中的应用,此次演出展示了深圳在机器人产业的创新实力 [7] - 深圳机场愿意携手更多企业探索人工智能技术在机场各场景的应用,以带给旅客更多元、便捷、高效的体验 [7]
三万字解读:数据采集革命,决定机器人走向大规模落地|假期充电
锦秋集· 2025-10-03 04:03
机器人数据的重要性 - 数据是机器人技术从实验室走向大规模产业落地的核心底层变量,决定了策略泛化、稳定运行与安全可控的能力[1] - 高质量、场景匹配的数据是先进模型实现实际应用的地基,没有合适的数据,再先进的模型也只能停留在论文与Demo阶段[1] - 机器人行业当前最迫切的问题包括:机器人真正需要什么样的数据、如何从海量原始信息中提炼有效数据、如何理解数据对机器人决策与行为的实际影响[1] 数据利用的关键趋势 - 机器人领域的竞争已从模型之争转向数据采集、筛选与利用的能力之争,下一阶段发展取决于数据体系的构建能力[2] - 通过任务拆解与模块复用可以实现数据高效利用,将复杂任务拆解为已有成熟方案的子任务,无需为长时程任务专门收集新数据[2][25][27] - 数据飞轮(系统投入使用后收集数据并反向优化系统)是机器人产业化的重要路径,结合传统工程技术可以加速系统迭代[2][44][45] 数据高效利用技术 - 数据增强技术(如结合合成数据、轨迹拼接)可以从现有数据中挖掘更多价值,减少对大规模数据收集的依赖[12][23] - 动作速度优化可以通过逆延迟方法在现有策略基础上将机器人动作速度提升2-4倍,无需额外收集数据[12][31][32] - 动作分块作为控制理论工具能打破误差的指数累积,提升系统稳定性,其优势源于控制理论特性[12][126][130] 数据规模化挑战与解决方案 - 机器人领域数据规模与自然语言处理领域存在巨大差距,机器人可能需要10万年量级的数据,而自然语言处理领域已有庞大数据规模仍不完美[21][42] - 通过改进操作界面(如Aloha Lightning系统)可以收集更快的演示数据,使训练出的策略速度达到传统方法的2-3倍[12][103][105] - 仿真技术和YouTube视频数据挖掘是缩小数据差距的两种主要思路,但在操作任务领域仿真难度较高[12][43][44] 数据质量管理与优化 - 数据混合可优化模型多能力表现,模型性能与数据混合比例存在近似线性的混合律,基于混合律的方法能高效找到优质混合比例[12] - 故障数据对机器人技术发展至关重要,可用于安全监控、识别模型局限性、指导数据收集等,但目前常被忽视[12][72][79] - 部署感知数据筛选可以通过量化数据样本对部署环境中成功的贡献度,仅需10次左右的rollout即可在多种数据场景中实现性能提升[12][83][91] 基础模型与推理系统 - 基础模型为物理AI系统开发提供机遇,可构建"云端大模型+车载小模型"架构,通过数据飞轮加速系统迭代[12][53][54] - 思维链自动标注流水线可以规模化生成推理数据,在极具挑战性的场景中(如施工区域)能带来显著性能提升[12][61][63] - 视觉-语言-动作推理模型可在实时驾驶流中输出推理轨迹,当前速度约为10Hz,通过多种优化技术可满足实际需求[12][57][66] 评估与测试创新 - 大规模评估是机器人基础模型发展的瓶颈之一,通用策略在不同环境中的性能差异导致评估复杂度呈指数级增长[12][99][107] - 利用动作条件视频生成模型可以实现通用策略的快速评估,虽然物理细节建模精度不足,但可用于评估"指令理解能力"[12][108][115] - 通过世界模型在虚拟环境中运行策略并筛选成功rollout进行微调,可以使策略在分布外指令上的成功率显著提升[12][117][119]
AI+ Tech Week来袭,听Meta,Character.ai, Pokee, Wanderboat等分享Agent前沿
锦秋集· 2025-10-02 08:38
峰会概览 - 2025年AI+ Multimodal Day & Agent Everywhere峰会将于10月10日至11日在旧金山举办,聚焦多模态AI与智能体两大前沿方向,汇聚技术、资本与产业力量推动AI技术落地与生态共建[2] - 峰会预计汇聚超过2000名行业精英,其中创始人占比40%、投资人占比30%、研究员占比30%[2][18] - 锦秋基金作为合作伙伴参与,其被投企业Pokee AI创始人朱哲清和Wanderboat.ai CEO You Wu将在现场交流[2] 核心亮点 - 活动采用双主题并行模式,首日聚焦“AI+ Multimodal Day”探讨视觉、语音与跨模态数据处理,次日围绕“Agent Everywhere”深入智能体架构与工作流重构[16] - 超过20家AI团队将进行现场产品首秀,涵盖多模态数据库、智能体基础设施及AI原生应用领域,包括Genspark、Browserbase、OpusClip等知名公司[17] - 活动设置四个主题论坛,分别讨论智能体操作系统、多模态数据库、AI原生娱乐及物理AI智能革命,并包含产品展示和 networking 环节[9][14] 参与企业及业绩 - Character.ai 是全球排名第一的AI社交平台,其多模态负责人将参与论坛[23] - Genspark.ai 的通用智能体产品在45天内达成3600万美元年度收入[23] - Browserbase 已完成4700万美元融资,提供基于云的无头浏览器服务[23][24] - Tinyfish 成功融资4700万美元,打造了部署量最大的企业级网页智能体[24] - LanceDB 作为多模态数据库先锋融资3000万美元,打造下一代非结构化数据存储引擎[26] - GMI Cloud 作为GPU云基础设施领军者融资8200万美元,反映市场对算力底层技术的强烈需求[26] - OpusClip 成立18个月积累1000万用户,年经常性收入达八位数,被软银视为下一代AI视频编辑工具标杆[31] - Creatify.ai A轮融资1550万美元,18个月实现900万美元ARR,团队来自Meta、Snap等大厂[31] - Higgsfield.ai 在5个月内实现5000万美元ARR,用户超1100万,展现AI产品规模化落地的极致效率[31] - Plaud.ai 产品Plaud Note是全球领先的AI录音笔,年化收入超过1亿美元,设备全球出货量近70万台,并实现连续两年10倍增长[35] - Composio 平台已集成超500种工具,成功融资2900万美元,致力于构建AI智能体无缝调用外部能力的核心骨干网[36] - E2B 完成2100万美元A轮融资,定位为企业级AI智能体云基础设施的定义者[37] 论坛议题聚焦 - 智能体操作系统论坛将探讨下一代AI智能体需超越文本处理,具备看、说、做能力,通过视觉、语音和交互捕获人类情境[21] - 多模态数据库论坛强调数据库需从静态仓库转变为能主动理解内容、连接语义的智能引擎,以支持自动驾驶、医疗影像等应用[24] - AI原生娱乐论坛关注AI如何通过处理文字、图像、声音能力发明全新文化玩法,重塑内容生产流程[29] - 物理AI论坛深入探讨硬件与AI交叉点,包括传感器、交互界面到具身智能体,探索汽车、机器人等行业变革机遇[33] 被投企业介绍 - Pokee AI 利用强化学习开发前沿AI Agent,具备高级规划、推理能力,并能灵活调用多样化数字工具,其技术可扩展至数千种工具与复杂工作流[10] - Wanderboat.ai 是旅行垂类AI应用黑马,拥有500万用户,通过智能规划与社交互动重塑旅行体验[11][13]
国庆长假充电指南:Ilya Sutskever's Top 30 论文阅读清单
锦秋集· 2025-10-01 13:25
文章核心观点 - 文章推荐了一份由Ilya Sutskever精选的30篇AI领域前沿论文合集,该合集覆盖了近15年AI发展的里程碑成果,以"技术底层-能力突破-场景落地"为主线,串联了AI从感知智能到认知智能的关键跃迁 [4] - 该论文合集旨在帮助投资者、从业者与研究者系统梳理AI技术演进脉络,深刻理解当前AI产业落地的机遇与挑战,实现专业能力的高效提升 [1][5] - 合集内容不仅清晰拆解了残差映射、动态指针网络等专业术语的技术逻辑,还通过论文中的实验数据和架构设计,为从业者提供从理论到落地的参考路径 [5] 论文合集技术框架 - 合集涵盖奠定深度学习基础的CNN、RNN,重构自然语言处理领域的Transformer与自注意力机制,以及推动RAG、多步推理等前沿方向的核心研究 [4] - 每篇论文都是对应技术领域的奠基之作,直接关联当前AI产业落地的核心能力底座,包括《GPipe》中的并行训练方案如何降低大模型算力成本,《Retrieval-Augmented Generation》如何解决AI幻觉问题以适配金融、医疗等高精度场景 [4][5] 代表性论文技术要点 深度学习基础架构 - ImageNet Classification with Deep Convolutional Neural Networks论文提出的CNN架构包含5个卷积层和3个全连接层,在ILSVRC-2010数据集上top-5错误率为17.0%,显著优于此前方法 [48][52] - Deep Residual Learning for Image Recognition提出的残差网络通过残差块简化了深层网络训练,152层ResNets在ImageNet等数据集上性能优于VGG nets [73][77] - Recurrent Neural Network Regularization提出将dropout技术应用于LSTM的新方法,在Penn Tree Bank数据集上词级困惑度显著降低 [21][24] 注意力机制与Transformer - Attention is All You Need完全依赖自注意力机制提出Transformer架构,在WMT 2014 English-to-German翻译任务中BLEU分数达到28.4,比当时最先进模型高出2个多BLEU点 [105][117] - Neural Machine Translation by Jointly Learning to Align and Translate引入注意力机制解决固定长度向量瓶颈问题,在WMT '14 English-to-French翻译任务上BLEU分数显著提升 [119][126] 模型扩展与优化技术 - GPipe通过微批量流水线并行技术实现大型神经网络高效训练,支持训练包含60亿参数、128层的Transformer模型,在ImageNet-2012数据集上top-1准确率达到84.4% [62][72] - Scaling Laws for Neural Language Models发现模型性能与参数规模遵循幂律关系,更大规模模型具有更高样本效率,在固定计算预算下训练极大型模型是最优策略 [212][218] 特定应用领域突破 - Neural Message Passing for Quantum Chemistry提出的MPNNs框架在QM9数据集上13种性质中有11种达到化学精度,为分子性质预测提供强大工具 [94][101] - Deep Speech 2端到端语音识别模型在英语和普通话上均实现高准确率,在WSJ、LibriSpeech等基准测试中性能超过人类转录员 [203][209] - Pointer Networks提出新型神经架构解决输出词典大小可变问题,在计算平面凸包、德劳内三角剖分等几何问题上性能显著优于传统序列到序列模型 [37][45] 技术演进趋势 - 从传统神经网络到残差网络、注意力机制的演进表明,通过架构创新可有效解决梯度消失、长期依赖关系等核心挑战 [73][105] - 模型规模与性能关系研究为大规模神经网络训练提供理论指导,计算效率最优策略推动行业向极大型模型方向发展 [212][224] - 多令牌预测等新型训练方法重新定义LLMs处理文本方式,通过并行预测多个未来令牌提升模型效率和速度 [259][264]
2025年前三季度荣誉墙上新:锦秋AI之旅的阶段性总结|Jinqiu Spotlight
锦秋集· 2025-09-30 13:06
公司投资理念与定位 - 公司专注于AI投资领域已有12年历史,致力于推动算法和代码在真实世界中的落地应用[1] - 公司坚持长期主义投资策略,支持敢于定义AI问题的优秀创始人,在产业变革中共同前进[1] - 公司获得来自创业者群体、媒体机构和合作方的广泛好评,体现了行业对公司专业能力的认可[1] 行业荣誉与排名表现 - 公司入选36氪"2025中国人工智能产业投资机构"榜单,与红杉中国、IDG资本等头部机构并列[2][5][6] - 公司入选36氪"2025中国具身智能产业投资机构"榜单,在具身智能领域表现突出[2][8][9] - 公司创始合伙人杨洁入选36氪"2025中国人工智能产业投资人"榜单[2][11][12] - 公司入选甲子光年"2024-2025年度人工智能最佳投资机构TOP30"[16] - 公司入选钛媒体"投资先锋榜TOP10"和"投后管理先锋榜"[18][20][22][23] - 公司入选钛媒体"AI Agent领域榜单TOP20",在垂直应用领域获得认可[18][26][27] - 公司入选来觅"2025年中人工智能投资机构TOP20"和"2025年中机器人投资机构TOP20"[29][30] - 公司合伙人臧天宇入选第一新声"2025中国AI产业创新榜单先锋投资人TOP30"[32][33][34][35] - 公司位列第一新声"2025年具身智能最活跃投资机构TOP10"第4名,仅次于红杉中国、北京国管和深创投[36] - 公司入选Win.d全球企业库"AI投资机构TOP30"榜单[39][40] - 公司入选犀牛数据"2025年中国生成式AI投资机构"榜单[42] - 公司入选最科技"中国先锋科技投资机构50强"[44] 行业发展趋势 - 公司持续关注AI创投领域发展趋势,2025年AI创投趋势值得关注[50]
硬件不是问题,理解才是门槛:为什么机器人还没走进你家
锦秋集· 2025-09-29 13:40
文章核心观点 - 机器人技术发展的核心瓶颈并非硬件性能,而在于机器人缺乏对人类物理世界的直观理解和预测能力 [1][2] - 基于学习的动力学模型通过从感知数据中直接学习物理交互规则,为解决机器人操作中的物理预测难题提供了新路径 [2][8] - 该方法已显著提升机器人处理可变形物体、颗粒物质及多物体交互等复杂任务的能力,有望推动机器人从实验室演示走向日常应用 [5][6][20] 基于学习的动力学模型概述 - 与传统基于物理原理的模型不同,基于学习的模型直接从原始感官数据推导状态转移函数,无需完整状态信息即可捕捉复杂物理因素 [8][20][24] - 学习模型能够补偿状态估计误差并绕过显式状态估计步骤,有效弥补传统解析模型的"仿真到现实差距" [20][33] - 习得模型具有端到端可微性,支持基于梯度的规划与控制,且在非刚性系统中计算效率高于解析求解器 [20][35] 状态表示方法及权衡 - 原始像素表示直接使用RGB-D等二维特征图,无需显式状态估计但计算开销大,且存在物体恒存性和时间一致性问题 [36][40] - 潜在表示将高维观测压缩为低维隐向量,提升学习效率与泛化能力,但可能丢失任务相关信息 [36][42][46] - 三维粒子表示显式编码几何结构,精确捕捉可变形物体形状,但需要精确感知和状态估计,对遮挡敏感 [36][47][50] - 关键点表示聚焦任务相关特征,提供高效计算方式,支持实时控制,但对遮挡敏感且需保持跨时间检测一致性 [10][52][56] - 物体中心表示将场景建模为离散实体,支持组合泛化,适用于多物体操作,但难以处理流体等连续材料 [11][57][62] 与机器人控制的集成 - 运动规划方法利用习得动力学模型进行轨迹优化和路径搜索,在缺乏精确解析模型的环境中实现可行路径规划 [12][70][71] - 策略学习通过从模型生成的仿真数据中学习状态-动作映射,或结合强化学习优化策略,减少对真实环境交互的依赖 [12][14][72][74] - 集成应用已覆盖物体重定位、可变形物体操作、多物体交互和工具使用等复杂任务场景 [75][76][77][78][84] 未来研究方向 - 感知领域需开发应对部分可观测性和多模态信号融合的新方法,以提升状态估计的稳健性 [15][87][89][90] - 动力学学习需重点提升模型在未探索状态-动作空间的稳健性,并探索利用基础模型提供物理先验 [15][91][92][93] - 控制领域机遇包括分层动力学建模与规划、学习规划算法以及结合不确定性量化的性能保证技术 [15][97][98][99] - 新兴表示方法如3D高斯泼溅技术可能为动态场景建模提供更灵活的解决方案 [95]
地瓜精酿馆开张大吉:碰杯VLA观点,互诉机器人信仰|地瓜机器人x锦秋基金
锦秋集· 2025-09-29 13:14
活动概述 - 地瓜机器人联合锦秋基金等机构举办了一场以“机器人的新一代故事”为主题的行业交流活动[2] - 活动汇集了来自机器人公司、投资基金、科技大厂及云平台的产品、技术、算法、生态及投资领域的多位负责人[2] - 活动形式为轻松的交流讨论,旨在激发机器人开发者与创业者的灵感[3][16] 关于视觉语言动作模型发展的观点记录 - 行业对VLA的发展存在不同观点,主要分为中立派和乐观派[15] - 当前VLA发展面临数据基础缺失的挑战,与互联网或自动驾驶不同,具身交互数据的平台与规模尚未形成[18] - VLA训练存在物理约束缺位问题,多基于表象数据,缺乏动力学、碰撞、摩擦等硬约束,导致“看起来会、做起来不稳”[18] - 工程实现面临参数地狱,从过去手动调整动力模型参数转变为现在调整奖励参数,工程痛苦并未消失,且训练-验证迭代周期长、开销大[18] - VLA在短期内难以严肃落地,因其“大脑”输出缺乏时间与约束概念,必须由规划或控制层进行清洗与约束[18] - 在封闭、低速、可控场景下,建议采用以规则为基础的安全兜底方案,结合可学习算法进行优化,先实现商用交付,再逐步构建数据闭环与能力堆叠[18] - VLA的推进还需两大要素:底层模型研发人才,以及能够承接模型商业化的主体,需要同时补齐模型研发与商业规模化能力[18] - 发展路径建议两条腿走路:上层大模型负责理解与任务分解,底层强化学习或规划控制负责约束满足与实时稳定,两者协同进化[18] - 可通过自主数据生成与仿真增强来突破,即利用强化学习加物理仿真来制造数据、学习策略,提高泛化能力,类似“孩子学走路”的自我试错过程[18] - 需要端侧与“大脑”能力共同提升,视觉语言模型和VLA的精度上限尚未达到,决策与执行可通过强化学习训练得更鲁棒,再解决仿真到现实的迁移问题[18] - 长期看好学习型控制方法,虽然目前稚嫩,但相比传统“画匠”式控制,其具备“灵魂与泛化”的潜力,有望从“画匠”演进为“画家”[18]
「锦秋基金」领投「首形科技」新一轮融资|Jinqiu Spotlight
锦秋集· 2025-09-29 07:11
融资信息 - 首形科技于2025年9月29日完成本年度第三轮融资 [2][7] - 本轮融资由蚂蚁集团与锦秋基金联合领投,厚雪资本、弘晖基金、银杏谷资本共同投资,老股东顺为资本、招商局创投超额加注,Taihill追投 [2][7] - 深蓝资本担任此轮融资的独家财务顾问 [7] 公司定位与业务 - 首形科技是超高仿生情感交互机器人领域的领军企业 [3][7] - 公司具备机器人硬件与仿生运动算法的研发优势,致力于在细分市场形成差异化领先地位 [8] - 公司正推动一场范式转变,目标是让虚拟数字生命跨越屏幕,成为可感知、可交流、自主的实体 [8] 资金用途与核心技术 - 本轮融资资金将主要用于情绪基座模型的迭代和多场景应用的落地 [3][7] - 公司研发的情绪基座模型旨在为现有对话类大模型提供更直观的情绪表达能力 [8] - 公司计划提供沉浸式、长期可持续的角色实体交互体验 [8] 产品战略与市场定位 - 精灵计划强调外观美学与角色气质,旨在将人形机器人打造为具备艺术收藏价值的科技品类 [10] - 最新产品精灵·璇拥有超仿生面孔和高辨识度设计,具备拟人化与艺术品的双重身份 [10] - 公司的长期愿景是创造能与人共情、传递真实温度的亲密伙伴,而非仅仅是工具 [12] - 公司计划用十年时间实现让机器人不再机器的目标 [12] 创始人背景 - 创始人胡宇航在学术与创业一线深耕,并通过自媒体账号【U航】分享故事 [14] - 其自媒体账号目前在全网拥有超过200万粉丝关注 [14]
「锦秋基金」领投的「乐享科技」完成2亿元新融资|Jinqiu Spotlight
锦秋集· 2025-09-28 04:10
融资情况 - 乐享科技于2025年9月28日完成2亿元“天使++”轮融资 [2][6] - 本轮融资由钟鼎资本领投,老股东IDG资本持续加投 [2][6] - 公司在成立9个月内完成第三轮融资,天使轮融资总金额已接近5亿元 [3][7] 资金用途与公司目标 - 融资资金将主要用于自研核心零部件攻关、机器人本体与运动控制技术开发及意识仿生模型迭代 [2][6] - 公司目标为加速消费级具身智能产品规模化落地 [2][6] - 公司致力于推动消费级具身智能从“前沿科技”走向“大众消费”,助力中国具身智能产业成为全球龙头 [16] 管理团队与人才 - 创始人郭人杰出生于1997年,拥有西安交通大学少年班及伦敦政治经济学院背景,曾任追觅中国区执行总裁,三年达成年营收60亿元,管理团队超1500人 [8] - 公司团队规模已扩展至90人,其中研发人员占比超过80% [9] - 核心研发成员毕业于清华大学、浙江大学、中国科学院、加州大学伯克利分校等顶尖院校,团队近期吸引了世界顶级人工智能研究机构的顶尖人才加盟 [9] - 团队包含两位拥有消费级机器人二十年经验的产品线总裁和CTO [9] 技术研发与核心竞争力 - 公司围绕顶尖人才构建核心竞争力,形成以产品为导向的高效技术团队 [9] - 公司在高精度运动控制、多模态感知融合、机器人本体结构等关键技术领域持续加强力量 [9] - 技术研发经验与学术创新融合,为技术突破及量产化开发奠定基础 [9] 产品进展与市场验证 - 旗下履带式机器人W-bot(昵称WaWa)已亮相世界人工智能大会和世界机器人大会,凭借运动控制能力、人机交互体验和复杂场景适应能力获得广泛赞誉 [10] - W-bot于2025年7月20日作为苏超首位机器人领队亮相苏州主场赛场,开创了具身机器人在公共体育场景应用的新模式 [10] - W-bot已获得零售、教育、地产、宠物等多种行业的意向订单 [10] - W-bot初代原型机于2025年5月31日登陆京东618夏日歌会公开亮相,并在6月3日的京东拍卖中以29799元成功成交 [12] 产品线布局与战略 - 公司并行推进两款核心产品平台:60厘米高、拥有20个自由度的小型具身智能机器人Z-Bot,以及履带式机器人W-Bot [14] - 产品针对家庭场景的“室内”和“室外”需求进行研发,内部研发体系保持高度平台化 [14] - 公司未来将进一步丰富产品矩阵,覆盖更多元化的消费场景 [14] 行业定位与发展前景 - 中国具身智能市场展现出强劲发展势头,消费级细分赛道已进入加速成长的关键阶段 [16] - 公司作为消费级具身智能的开创者,凭借技术自主化、产品场景化、团队专业化优势构建差异化竞争壁垒 [16] - 公司以成为全球消费级具身智能产品的开创者与长期领导者为己任 [16]
锦秋基金被投星尘智能ControlVLA入选顶会CoRL | Jinqiu Spotlight
锦秋集· 2025-09-28 04:08
文章核心观点 - 锦秋基金连续两轮投资星尘智能,看好其作为绳驱AI机器人定义者和量产先行者的技术领先性与商业化潜力 [1] - 星尘智能的核心技术优势在于其独特的绳驱传动设计,模仿人类肌腱运动,实现高表现力与高安全性的结合,适用于复杂灵巧操作和人机交互场景 [1] - 星尘智能与北京通用人工智能研究院提出的ControlVLA框架入选顶会CoRL,该技术解决了预训练VLA模型在真实场景中数据稀缺与泛化不足的难题,是具身智能落地的关键突破 [1][3] 星尘智能公司概况 - 公司是业界首个量产绳驱AI机器人的企业,其Astribot S1机器人已在科研、商业服务、文娱演出及工业等多个领域落地应用 [1] - 公司结合AI大模型与具体场景探索,推动机器人行业应用加速与商业化落地 [1] ControlVLA技术框架核心突破 - 技术核心突破体现在三重设计:物体中心表示机制、ControlNet风格微调架构、双注意力结构 [2] - 物体中心表示机制通过分割跟踪任务相关物体并提取特征,让模型聚焦关键操作目标,摆脱背景干扰 [2] - ControlNet风格微调引入零初始化的KV投影层,在保留预训练模型通用先验的同时逐步整合任务特定特征,避免知识遗忘 [2] - 双注意力结构扩展交叉注意力机制以同步捕捉视觉与物体特征,提升决策精准度 [2] ControlVLA技术性能优势 - 在数据效率上,仅需10-20个演示即可在8类真实任务中实现76.7%的成功率,远超传统方法的20.8% [2][6] - 仅20个演示就能达到传统方法100个演示难以企及的80%成功率 [2] - 在泛化能力上,对未见物体和陌生背景仍能保持稳定性能,并可支撑长序列决策任务 [2] - 在落地成本上,无需依赖模拟数据或预构建模块,大幅降低机器人在家庭服务、工业自动化等场景的部署门槛 [2] ControlVLA实验验证结果 - 在涵盖刚性、软体、流体处理等8项真实世界任务的实验中,总体成功率达到了76.7%,显著超过基准方法20.8%的成功率 [12][31] - 在长时任务中,ControlVLA性能超过当前最先进的方法,成功率约为后者的3倍 [31] - 数据缩放实验显示,仅需20个演示样本,方法就能达到80%的高成功率,而基准方法需要100个以上演示样本仍无法达到该水平 [45] - 对未见过物体和背景的泛化测试中,平均成功率分别达到70.0%和60.0%,显示其强大的环境适应能力 [48] 行业影响与意义 - ControlVLA的设计思路为预训练VLA模型的高效适配提供了范式参考,推动具身智能从实验室多数据环境走向真实世界数据稀缺场景 [3] - 该框架填补了大规模VLA模型预训练与高效目标中心适配之间的空白,使机器人能够通过极少的演示样本获取复杂技能 [12] - 通过将演示样本需求降低到实际可行的水平,该技术为机器人在各类场景中的部署降低了门槛 [49]