Workflow
原生多模态
icon
搜索文档
大模型的进化方向:Words to Worlds | 对话商汤林达华
量子位· 2025-12-17 09:07
文章核心观点 - 商汤科技发布的原生多模态空间智能模型SenseNova-SI,在多项基准测试中超越了李飞飞团队的Cambrian-S等模型,标志着公司在空间智能领域达到世界前列水平 [2][3][4][5][6] - 行业单纯依赖参数规模扩展的AI发展范式面临瓶颈,边际效应递减,未来需要回归科研本质,发展能够理解物理世界的原生多模态模型 [8][9][12][13][14][15][16] - 商汤科技通过底层架构创新(NEO架构)和极致工程优化(如算法蒸馏),实现了技术突破与商业落地成本的大幅降低,践行“原始创新”与“击穿工业红线”的双轮驱动战略 [39][49][58][61][63][67] 模型性能与突破 - SenseNova-SI模型在多个空间智能基准测试(vsi, MMSI, MindCube-Tiny, ViewSpatial, SITE)中均取得了SOTA成绩,超越了包括Cambrian-S在内的开源及闭源模型 [4][5] - 具体数据:SenseNova-SI的1.1-InternVL3-2B版本在vsi基准得分为63.7,高于Cambrian-S-3B的57.3;其1.1-InternVL3-8B版本在vsi基准得分为68.7,高于Cambrian-S-7B的67.5,并在MindCube-Tiny基准上以85.6分大幅领先 [5] - 该模型基于商汤科技开源的NEO架构,仅用同类模型10%的训练数据就达到了SOTA水平,数据效率提升了10倍 [39][49] 行业范式转变 - AI行业过去三年奉行Scaling Law,依赖算力、GPU和数据堆叠,但自2024年下半年起,风向转变,模型分数提升带来的惊艳感边际递减 [12][13][14] - 纯语言模型红利将尽,顶尖模型在数学、编程上接近奥赛金牌水平,但在理解物理世界、处理三维空间关系上能力薄弱 [20] - 未来的AGI必须是能够理解物理世界、具有多感官能力的世界模型,AI需要从“读万卷书”(语言模型)进化到“行万里路”(空间与世界交互) [20][21] - OpenAI前首席科学家Ilya Sutskever提出“Back to Research”的呼吁,与商汤科技首席科学家林达华的思考不谋而合 [17][19] 技术架构创新 - 传统多模态模型采用“视觉编码器+大语言模型”的拼接式架构,视觉信号在转化为语言Token过程中丢失大量空间细节和三维结构信息,导致模型出现“幻觉”(如数不清手指) [32][33][36][37] - 商汤科技提出的NEO架构是原生多模态架构,从最底层的Transformer Block开始,每个单元都能同时处理视觉和语言信号 [42] - NEO架构采用混合注意力机制,让视觉Token和文本Token一同进入模型的每一层进行推理计算,并引入“跨视角预测”等训练方法,让模型真正理解三维空间关系 [44][46][47][48] 商业化落地与成本优化 - 大模型行业当前痛点包括不够聪明、成本太高、速度太慢,商汤科技内部设定“工业红线”标准:技术使用成本必须低于其创造的价值 [53][54][55] - 以视频生成为例,商汤科技通过“算法蒸馏”技术,将扩散模型的推理步数从100步压缩到4步,实现了64倍的速度提升,使得在消费级显卡上实时生成高质量数字人视频成为可能 [59][61][63][64] - 实时语音驱动数字人产品SekoTalk展示了算法与系统协同的极致优化,将20秒视频生成时间从一小时缩短到实时,为直播、短视频等领域的规模化落地打通路径 [58][65][66] 对中国AI产业的启示 - 在从“语言”到“世界”的AI范式迁徙中,中国科技公司已经抢到了一张船票 [11][73] - 中国拥有全世界最丰富的应用场景和最完整的工业体系,这片土壤天生适合培育能与物理世界深度交互的AI [72] - 建议年轻研究者和创业者不要只拥挤在大语言模型赛道,应拓宽视野至具身智能、AI for Science、工业制造、生命科学等领域 [68][69][70]
Nano Banana,OpenAI 你学不会
36氪· 2025-11-24 09:14
技术路径差异 - 谷歌Nano Banana Pro采用原生多模态架构,从训练开始就混合处理文本、图像、视频、音频数据,实现端到端的高维向量映射[17][13] - OpenAI采用模块化拼接架构,由GPT-5负责语言理解、GPT-4o负责图像生成、Whisper处理语音,各模块通过API连接[18] - Nano Banana Pro引入思维链推理机制,在生成图像前先进行逻辑推演,计算物体数量、光影角度、空间关系等物理属性[5][25] - GPT-4o基于统计学相关性生成图像,通过检索训练数据中的视觉特征进行概率匹配,缺乏物理世界理解[5][22] 生成能力对比 - Nano Banana Pro在"三个苹果"任务中精准还原咬痕、水珠折射光感、氧化纹理等属性,严格对应对象特征[3][5] - GPT-4o生成同一任务时出现水珠排布不符合物理规律、腐烂状态过于刻意等概率生成缺陷[2] - Nano Banana Pro处理"窗台半杯水"场景时计算光源向量和折射率,而GPT-4o生成的光影关系存在物理矛盾[6][8] - Nano Banana Pro实现文字精准控制,能提取字母榜LOGO元素并分层处理材质,而GPT-4o长期存在汉字乱码问题[10][11] 训练数据优势 - 谷歌拥有YouTube数十亿小时视频库,提供包含时间序列、因果关系、物理变化的动态训练数据[19] - 谷歌通过OCR技术积累全球最大图片-文字对齐数据库,奠定文字渲染优势[21] - OpenAI训练数据主要来自网络抓取的静态图片,缺乏时间维度和物理过程信息[22] - OpenAI采用RLHF路线,标注员偏好导致模型生成高饱和度、戏剧化光影的"讨好型"图像[23] 产品策略差异 - 谷歌注重"真实性"和"逻辑性",通过思维链机制提升生成准确性但牺牲速度[24][25] - OpenAI强调产品市场契合度,采用快速迭代策略,当前认为GPT-4o的直觉式生成已足够维持市场领先[26] - 模块化架构允许单独优化图像生成模块,而原生多模态模型需整体调整,维护成本更高[28] - OpenAI的"胶水科技"策略积累技术债,转向原生多模态需重新训练整个模型和工具链[27]
别再把 Gemini 3 当作更强的 ChatGPT
36氪· 2025-11-20 12:32
产品发布核心观点 - Gemini 3 Pro预览版正式上线,标志着公司在经过长时间预热和竞争对手的行业动态后,推出了一次重大的模型与生态系统升级[1] - 此次升级的核心被定位为不仅是模型能力的提升,更是一次围绕Google全家桶的“系统更新”,旨在将模型深度整合至公司各类产品中[3] - 公司的战略意图是利用Gemini 3作为一条新的“智能总线”,将其原生多模态和智能体能力渗透至搜索、应用、Workspace和开发者工具等核心产品线,从而重塑用户交互和工作流体验[23][26][27] 模型性能表现 - 在多项高难度学术基准测试中,Gemini 3 Pro全面超越了前代Gemini 2.5 Pro及主要竞品(Claude Sonnet 4.5, GPT-5.1)[5] - 在推理能力上表现突出,例如在Humanity‘s Last Exam测试中,无工具辅助得分为37.5%,使用搜索和代码执行后提升至45.8%,显著高于GPT-5.1的26.5%[5] - 数学能力强劲,在AIME 2025测试中无工具得分为95%,使用代码执行后达到100%[5] - 在多模态理解上领先,如在MMMU-Pro测试中得分为81.0%,高于GPT-5.1的76.0%[5] - 在智能体任务上优势明显,如在Vending-Bench 2测试中平均净值为5,478.16美元,远高于Claude Sonnet 4.5的3,838.74美元和GPT-5.1的1,473.43美元[5] - 官方定位其为“博士级推理模型”,并强调其Deep Think模式在解决新类型问题上的能力提升[6] 核心技术:原生多模态 - 公司强调Gemini 3的核心技术优势在于“原生多模态”,即模型在预训练阶段就混合了文本、代码、图片、音频、视频等多种模态数据,而非采用外挂子模型的“管线式”策略[8] - 该技术路径旨在减少信息处理流水线,从而降低信息损耗,保留更完整的语气、画面细节和时间顺序,为应用层带来革命性影响[8][9] - 这一特性被认为是行业的分水岭,将迫使竞争对手加速淘汰旧有范式,未来“原生多模态”将成为基本配置[24] 产品整合与应用 - 模型发布同时,公司即将搜索栏的AI模式更新为由Gemini 3驱动的动态内容区,可生成摘要、结构化卡片和时间轴等[10] - AI模式支持生成沉浸式视觉布局、交互式工具和模拟等新的生成式UI体验[13] - 在Gemini App中,模型被定位为“思考伙伴”和“超级个人助理”,覆盖学习、生活和轻办公场景,例如分析视频生成训练计划、整理混合文档等[13][15] - 在API侧,Gemini 3 Pro被定位为最适合智能体编码和氛围编码,展现出强大的整装式生成应用工具能力[15][17] 开发者工具创新 - 公司发布了新的IDE产品Antigravity,其设计理念是“以AI为主角”的开发环境,允许多个AI智能体直接访问编辑器、终端和浏览器并分工协作[18] - 所有操作被记录为“Artifacts”,方便人类审查,展示了模型从逻辑设计到前后端代码实现的端到端开发能力[18][21] - 测试案例显示,仅凭简单指令,Gemini即可独立完成一个完整招聘网站的分析、构建和部署[18][21] 行业影响与竞争格局 - Gemini 3的发布将推动行业竞争从单纯比拼云端参数和算力的“上半场”,转向比拼终端落地能力和用户体验的“下半场”[26] - 模型强大的原生多模态和智能体规划能力,将对依赖“截图+OCR”等技术路线的模型厂商以及专注于智能体工作流的创业公司构成直接挤压[24][26] - 结合苹果等公司与模型大厂合作的趋势,行业竞争焦点将延伸至手机、眼镜、汽车等终端设备的模型落地体验[26] - 行业的核心问题将从“谁的模型更强”转变为“谁的能力真正长在产品上、长在用户身上”[26]
每日投行/机构观点梳理(2025-11-18)
金十数据· 2025-11-18 10:59
黄金市场 - 高盛预计到2026年底金价将达到4900美元,若私人投资者持续分散投资组合,金价可能进一步上涨[1] - 各国央行可能在11月大量购金,9月央行购金量为64吨,高于8月的21吨,此为分散储备以对冲地缘政治和金融风险趋势的一部分[1] - 今年迄今金价已上涨55%,主要受经济和地缘政治担忧、交易所交易基金流入增加以及对美国进一步降息预期推动[1] 原油市场 - 高盛因全球(俄罗斯除外)供应强劲,预计2026年将出现200万桶/日的巨大盈余,将布伦特和WTI原油2026年均价预测下调至56美元/桶和52美元/桶[2] - 高盛预计石油价格将在2028年底前回升至长期目标水平,即布伦特原油80美元/桶,WTI原油76美元/桶[2] - 瑞银预计布伦特原油价格在60-70美元/桶区间波动,2025年末目标价为62美元/桶,2026年底目标价为67美元/桶[3] - 瑞银认为陆上库存尚未增加对油价构成支撑,同时乌克兰对俄罗斯炼油厂的攻击及制裁措施预计将冲击俄罗斯的出口和产量[3] 中国股市 - 瑞银预计中国股市将迎来又一个丰年,MSCI中国指数2026年末目标位为100,较当前有14%的上涨空间[4] - 预计2026年股价表现更多由盈利驱动,每股收益将增长10%,由反内卷措施和折旧摊销费用下降所拉动[4] - 看好互联网、硬件科技和券商板块,同时移除高股息股,并加入看好部分“出海”股票[4] 外汇市场(美元/日元) - 巴克莱认为考虑到日本首相偏向“安倍经济学”的政策立场,日元可能继续承压,建议投资者继续做多美元/日元[5] - 鉴于日元对财政风险的高度敏感性,进一步的财政扩张预计将使美元/日元维持在较高水平[5] 全球央行政策 - 高盛资管预计美联储在2026年可能降息两次,主因劳动力市场疲软[6] - 欧洲央行在可预见的未来可能维持利率不变,英国央行可能在12月恢复降息,日本央行可能因通胀高企且增长强劲而加息[6] - 摩根士丹利预计欧洲央行将在2026年上半年进一步降息,到年中政策利率将从目前的2.00%下调至1.50%[8] - 道明证券指出美联储的政策正常化将成为2026年全球利率的关键驱动因素,美国收益率的下降将有助于抑制其他地区长期借贷成本的上升[8] 全球资产配置 - 高盛资管2026年倾向全球股票多元化配置、基本面与量化策略结合[7] - 固定收益强调久期和战略性曲线仓位的多元配置,证券化、高收益及新兴市场信用产品可能出现良机[7] - 私募市场新交易和退出活动整体环境利好,私募信贷违约率历史上低于银团贷款,基础设施领域在人工智能和能源转型驱动下出现新机会[7] 中国财政与经济 - 中银证券指出三季度以来财政支出节奏回调,税收收入增速连续八个月修复,累计增速上行至1.7%[9] - 专项债发行将在11-12月内再度加速,年内剩余两月财政支出仍有望保持一定支出强度以托底经济[9] 中国通胀展望 - 广发证券研报称,中性情况下2026年通胀中枢会较2025年有所抬升,因猪周期2026年启动回升概率较大,且关键行业产能压力最大阶段已过[10] - 约束因素是地产销售价格尚未企稳,只有该线索确定,市场对于再通胀的定价才会更为坚决[10] 半导体行业 - 银河证券认为支撑半导体板块长期发展的逻辑未变,供应链安全与自主可控是长期趋势[11] - 设备与材料在国产替代顶层设计下逻辑最硬,数字芯片是算力自主的核心载体,先进封测受益于技术升级[11] 消费电子(AI智能眼镜) - 银河证券指出随着阿里、百度等大厂进入,AI智能眼镜行业发展进入加速阶段[12] - 基于庞大的用户群体基础,智能眼镜有望成为下一个仅次于智能手机的消费电子大品类[12] 人工智能(多模态AI) - 中信证券研报表示,主流模型正从“模块化”转向“原生多模态”架构,这是解决AI理解瓶颈、驱动产业价值跃迁的奇点[13] - 建议沿“基础”和“应用”两大主线布局,基础设施层关注推理算力产业链,应用层关注垂类应用及技术赋能机遇[13] 电力与煤炭行业 - 华泰证券称10月规上工业发电量8002亿千瓦时,同比增长7.9%,预测10月全社会用电量增速或达10.2%[14] - 火电发电量同比增幅扩大12.7个百分点,看好强火电需求、低库存及供给受压制支撑四季度动力煤价[14]
中信证券:建议关注推理算力产业链相关环节
证券时报网· 2025-11-18 00:28
行业核心观点 - 多模态产业的奇点在于理解端而非生成端 [1] - 主流模型正从"模块化"转向"原生多模态"架构 [1] - 该转变是解决AI理解瓶颈、驱动产业价值跃迁的关键 [1] 行业格局影响 - 原生多模态架构抬高了构建基础模型的门槛 [1] - 使得OpenAI、Google等全栈巨头能够构建垂直整合的生态闭环 [1] - 为垂类应用及技术赋能的公司打开了特定场景的商业化价值 [1] - 多元化应用逐渐突围 [1] 投资布局建议 - 建议沿着"基础"和"应用"两大主线布局 [1] - 基础设施层建议关注推理算力产业链的相关环节 [1] - 应用层建议关注垂类应用及技术赋能两大机遇 [1]
Nano-Banana核心团队首次揭秘,全球最火的 AI 生图工具是怎么打造的
36氪· 2025-09-02 01:29
模型技术特点 - Nano banana实现图像生成和编辑功能的巨大质量飞跃 生成速度快 能理解模糊和口语化指令 并在多轮编辑中保持角色和场景一致性 效果更自然 [6] - 模型具备原生多模态能力 特别是交错式生成功能 可像人类一样分步骤处理复杂指令 联系上下文进行创作 而非一次性生成所有内容 [6][20][21] - 文本渲染能力提升成为评估图像生成效果的有效指标 当模型能生成有结构文字时 也能更好学习图像中的结构 [13][15][18] - 每个图像生成仅需13秒 支持快速迭代创作 用户可快速重新生成并修改提示词 [30][31] - 交错生成带来全新范式 可将复杂提示拆解为多个步骤 通过增量生成方式构建复杂图像 [32][34][35] 模型能力比较 - Imagen模型定位专业文本生成图像 在成本和响应速度上高效 适合需要快速生成高质量图像的场景 [36][37] - Nano banana作为多模态创意伙伴 适合多轮编辑和创意探索等复杂工作流 具备世界知识理解能力 [6][36][39] - 原生图像生成模型可插入图像作为参考 在理解提示词意图方面表现更出色 [40][42] 团队协作与改进 - 结合Gemini团队的世界知识与指令遵循能力 以及Imagen团队的图像美学追求 实现技术融合 [3][49] - 通过收集用户反馈构建基准数据集 持续跟踪常见失败模式并改进模型表现 [43][45] - Imagen团队贡献了自然美观的审美判断 显著改善图像生成质量 [49] 应用场景 - 支持像素级精确编辑 可只改动图像中特定元素而保持其他部分不变 [27][29] - 可实现角色多角度渲染和场景重构 将物体放入完全不同的新场景中进行真实融合 [46] - 适用于广告设计 室内装饰 角色设定等多种创意场景 [26][27][40] 未来发展方向 - 未来目标不仅是提升视觉质量 更追求模型智能性和事实准确性 [7][51][54] - 致力于打造能理解用户深层意图 甚至超越用户提示词创造更好结果的聪明模型 [7][51] - 重点改进数据保真能力 确保工作用图表和信息图既美观又准确 [54][57]
Nano banana手办玩法火爆出圈!无需抽卡,效果惊了(°o°)
猿大侠· 2025-08-31 04:11
模型发布与市场反响 - 谷歌匿名发布的图像编辑模型nano-banana在LMArena平台突然爆火后由官方确认为Gemini 2 5 Flash Image模型[5][7][8] - 该模型在国内外社交平台引发大规模试玩热潮 尤其在手办生成领域形成刷屏现象[2][4][9] 核心功能与技术特性 - 支持通过文本提示词生成1/7比例写实风格手办 需指定亚克力底座 电脑屏幕显示ZBrush建模过程及TAMIYA风格包装盒等细节[10][11] - 采用原生多模态架构 实现图像理解与生成的深度整合 通过交错式生成技术支持多轮复杂编辑 可分解包含50个编辑要求的任务[61][63][64] - 创新性使用文本渲染作为核心评估指标 该指标具备客观可量化特性 能持续指引模型改进并带来意外性能提升[55][56][58][59] 实际应用表现 - 能够识别动漫角色名称(如艾伦耶格尔)并生成对应手办 对非全身像参考图可能产生局部异常但整体效果逼真[13][15][16] - 支持宠物照片转手办 生成效果引发用户主动寻求购买链接 并可结合3D打印实现实体化[18][20][21] - 真人照片需使用全身图生成 包括动态姿势 需额外提示词添加支撑结构防止模型漂浮[24][26][28][29] 多元化应用场景 - 支持三图联合创作 通过姿态控制实现角色互动(如搭肩比心 战斗动作)[33][44][46] - 可生成漫展场景下的真人化二次元角色 效果接近真实cosplayer生图[41][42][48][51] - 结合视频生成模型创作连贯动画 仅需火柴人草图即可驱动完整动作[36][37] 模型优化路径 - 团队通过社交平台系统性收集用户失败案例构建评估基准 新版本需通过真实场景测试[65][66] - 针对Imagen 2 0存在的像素级编辑偏差 角色一致性不足及图像质感不自然等问题进行专项优化[68][69][70] 生态建设与访问方式 - 谷歌计划举办为期2天的Nano Banana Hackathon活动 提供免费API额度及奖品激励[72][73] - 模型可通过AI Studio Gemini API或直接集成至Gemini使用 支持中文提示词但建议英文以降低错误率[11][73][75]
Nano banana手办玩法火爆出圈!无需抽卡,效果惊了(°o°)
量子位· 2025-08-29 04:21
文章核心观点 - 谷歌Gemini 2.5 Flash Image模型(匿名代号nano-banana)因卓越的图像生成能力爆火 尤其在手办生成领域引发社交媒体创作热潮 [5][7][9] - 该模型通过原生多模态架构和交错式生成技术实现复杂图像编辑 其文本渲染能力成为核心性能评估指标 [57][64][66] - 模型改进基于对前代产品Imagen 2.0用户反馈的系统性收集与测试 解决了像素级编辑 角色一致性和图像质感三大痛点 [68][71][73] 技术特性 - 采用文本渲染作为核心评估指标:提供客观可量化的性能衡量标准 解决传统人类偏好评估的主观性与高成本问题 [58][59][61] - 原生多模态架构实现深度整合:图像理解与生成能力协同工作 支持视觉信号与世界知识的正向迁移 [64][65] - 交错式生成技术支持多轮复杂编辑:可分解包含6-50个编辑要求的提示词 通过连续对话历史理解实现精细化输出 [66][67] 应用场景实测 - 手办生成效果显著:使用英文提示词生成1/7比例实体模型 支持动漫角色 宠物及真人全身像转换 需搭配圆形透明亚克力底座等细节描述 [10][13][25] - 多图结合控制姿态:支持同时参考3张图片进行创作 包括控制角色战斗姿势和双人互动动作 [34][47][49] - 跨次元转换能力:将二次元插画转换为真人cosplay照片 背景可设置为漫展等特定场景 [43][51][54] 生态发展计划 - 举办Nano Banana Hackathon黑客马拉松:提供2天免费API额度 获奖者可获得开发者积分及Gemini相关奖品 [75][76] - 开放多平台体验通道:用户可通过AI Studio Gemini API或直接集成至Gemini使用该模型 [76][78][80]
商汤林达华万字长文回答AGI:4层破壁,3大挑战
量子位· 2025-08-12 09:35
核心观点 - 多模态智能是当前AI发展的关键趋势,商汤科技通过"原生多模态"技术路线和"四次破壁"演进框架,推动通用人工智能(AGI)的发展 [1][2][4][6] - 商汤科技发布的日日新6.5模型实现了"图文交错思维"突破,标志着多模态推理能力的显著提升 [16][21] - 公司通过统一融合模型架构、优化数据生产体系和创新组织模式,在多模态领域保持领先优势 [12][25][40][41] 多模态智能的重要性 - 智能的核心是与外界进行自主交互的能力,而世界是以多元形态存在的,仅依赖文本数据的语言模型无法构建真正的AGI [7][8] - 多模态模型必须能够处理和理解图像、声音、视频等多种模态的信息,才能具备通用性 [8] - 商汤将多模态锚定为技术主轴,从日日新6.0开始只发布多模态模型,这在国内大模型厂商中独树一帜 [12] 技术路径选择 - 实现多模态模型主要有两种技术路径:适应训练(嫁接模式)和原生训练(融合模式) [11] - 商汤通过大规模对比实验确立了"原生多模态"技术路线,采用从预训练阶段就混合多种模态数据的融合模式 [10][11] - 实验证明,在合适的数据配比下,一个原生多模态融合模型在纯文本和图文任务上的表现都优于各自独立的专门模型 [23] 四次破壁演进框架 - 第一次破壁:Transformer实现长序列建模,为大语言模型奠定基础 [14] - 第二次破壁:语言与视觉会合形成多模态理解,模型学会跨模态关联 [15] - 第三次破壁:突破逻辑与形象思维边界,实现多模态推理,日日新6.5引入"图文交错思维链" [16] - 第四次破壁:突破与物理空间边界,实现与真实世界交互,即具身智能 [22][24] 数据体系构建 - 多模态训练最关键的数据是强关联的"图文对",商汤通过大规模自动化构造解决了稀缺问题 [26][27] - 建立"续训验证"机制确保数据质量,只有能带来性能增益的数据才会被准入 [28][29] - 采用"人写种子+自动扩展+强化学习"三段式方法获取高阶专业数据 [31][32][33][34] 模型架构优化 - 模型架构设计的核心是效率,而非单纯追求更大参数规模 [36] - 日日新6.5推动视觉编码器轻量化(参数量从60亿减至10亿),同时使MLLM主干网络更深更窄 [38] - 架构调整结合数据优化使模型效率提升超过3倍,实现比肩顶级模型的效费比 [38][39] 创新力源泉 - 计算机视觉起家的技术基因使公司对多模态价值有更早更深刻的理解 [40] - 重构研究组织实现资源统一调度,设立专项创新小组探索高风险高回报方向 [41] - 构建"基础设施-模型-应用"三位一体的正向循环,使技术理想与商业价值相互促进 [42][43]
腾讯张正友:具身智能必须回答的三个「真问题」
机器之心· 2025-08-10 04:31
腾讯具身智能开放平台Tairos发布 - 公司发布具身智能开放平台Tairos,以模块化方式提供大模型、开发工具和数据服务,旨在为行业提供通用支撑体系 [2] - 该平台基于Robotics X实验室七年技术积累,涵盖多模态四足机器人Max、轮腿机器人Ollie、灵巧手TRX-Hand等自研项目 [2] - 平台化路径是对行业挑战的回应,也预示未来生态布局,在技术路线尚无定论背景下具有战略意义 [2] 分层架构的技术路线选择 - 分层架构是当前更务实路径,源于效率与现实权衡,将人类对智能结构的先验知识注入模型架构 [5][6] - SLAP³架构包含多模态感知模型、规划大模型和感知行动联合大模型,边界动态变化 [7][8] - 感知行动联合大模型(小脑)负责快速反应(系统1),感知和规划大模型(系统2)处理复杂任务 [9] - 底层经验通过记忆库机制反哺上层模型,实现闭环学习 [11] 具身智能的第一性原理 - 核心问题是探究"身体"与"大脑"如何实现有机融合,而非简单将AI大模型适配到机器人 [17] - 真正具身智能需深刻理解身体形态、环境物理规律和任务目标 [18] - 动作规划本质是稀疏、第一人称的生成过程,与稠密、第三人称的视频生成存在本质区别 [20][21] 行业创新与商业化平衡 - 行业呈现爆发式发展,需要处理短期利益与长远目标的关系 [23] - 创新定力体现为放弃短期商业化诱惑,专注根本性科学问题探索 [24] - 生态繁荣需要不同角色贡献,初创团队选择确定性高场景是务实生存策略 [24]