Workflow
NEO架构
icon
搜索文档
大模型的进化方向:Words to Worlds | 对话商汤林达华
量子位· 2025-12-17 09:07
文章核心观点 - 商汤科技发布的原生多模态空间智能模型SenseNova-SI,在多项基准测试中超越了李飞飞团队的Cambrian-S等模型,标志着公司在空间智能领域达到世界前列水平 [2][3][4][5][6] - 行业单纯依赖参数规模扩展的AI发展范式面临瓶颈,边际效应递减,未来需要回归科研本质,发展能够理解物理世界的原生多模态模型 [8][9][12][13][14][15][16] - 商汤科技通过底层架构创新(NEO架构)和极致工程优化(如算法蒸馏),实现了技术突破与商业落地成本的大幅降低,践行“原始创新”与“击穿工业红线”的双轮驱动战略 [39][49][58][61][63][67] 模型性能与突破 - SenseNova-SI模型在多个空间智能基准测试(vsi, MMSI, MindCube-Tiny, ViewSpatial, SITE)中均取得了SOTA成绩,超越了包括Cambrian-S在内的开源及闭源模型 [4][5] - 具体数据:SenseNova-SI的1.1-InternVL3-2B版本在vsi基准得分为63.7,高于Cambrian-S-3B的57.3;其1.1-InternVL3-8B版本在vsi基准得分为68.7,高于Cambrian-S-7B的67.5,并在MindCube-Tiny基准上以85.6分大幅领先 [5] - 该模型基于商汤科技开源的NEO架构,仅用同类模型10%的训练数据就达到了SOTA水平,数据效率提升了10倍 [39][49] 行业范式转变 - AI行业过去三年奉行Scaling Law,依赖算力、GPU和数据堆叠,但自2024年下半年起,风向转变,模型分数提升带来的惊艳感边际递减 [12][13][14] - 纯语言模型红利将尽,顶尖模型在数学、编程上接近奥赛金牌水平,但在理解物理世界、处理三维空间关系上能力薄弱 [20] - 未来的AGI必须是能够理解物理世界、具有多感官能力的世界模型,AI需要从“读万卷书”(语言模型)进化到“行万里路”(空间与世界交互) [20][21] - OpenAI前首席科学家Ilya Sutskever提出“Back to Research”的呼吁,与商汤科技首席科学家林达华的思考不谋而合 [17][19] 技术架构创新 - 传统多模态模型采用“视觉编码器+大语言模型”的拼接式架构,视觉信号在转化为语言Token过程中丢失大量空间细节和三维结构信息,导致模型出现“幻觉”(如数不清手指) [32][33][36][37] - 商汤科技提出的NEO架构是原生多模态架构,从最底层的Transformer Block开始,每个单元都能同时处理视觉和语言信号 [42] - NEO架构采用混合注意力机制,让视觉Token和文本Token一同进入模型的每一层进行推理计算,并引入“跨视角预测”等训练方法,让模型真正理解三维空间关系 [44][46][47][48] 商业化落地与成本优化 - 大模型行业当前痛点包括不够聪明、成本太高、速度太慢,商汤科技内部设定“工业红线”标准:技术使用成本必须低于其创造的价值 [53][54][55] - 以视频生成为例,商汤科技通过“算法蒸馏”技术,将扩散模型的推理步数从100步压缩到4步,实现了64倍的速度提升,使得在消费级显卡上实时生成高质量数字人视频成为可能 [59][61][63][64] - 实时语音驱动数字人产品SekoTalk展示了算法与系统协同的极致优化,将20秒视频生成时间从一小时缩短到实时,为直播、短视频等领域的规模化落地打通路径 [58][65][66] 对中国AI产业的启示 - 在从“语言”到“世界”的AI范式迁徙中,中国科技公司已经抢到了一张船票 [11][73] - 中国拥有全世界最丰富的应用场景和最完整的工业体系,这片土壤天生适合培育能与物理世界深度交互的AI [72] - 建议年轻研究者和创业者不要只拥挤在大语言模型赛道,应拓宽视野至具身智能、AI for Science、工业制造、生命科学等领域 [68][69][70]
创始人因「嫌年薪435万少」拒当董事长?公司回应:不满激励机制;OPPO刘作虎亲自带队攻坚Pocket项目;苹果宣布AI主管卸任
雷峰网· 2025-12-03 00:55
AI与人工智能行业动态 - 商汤科技发布全新多模态模型架构NEO并开源2B与9B规格模型 通过底层架构创新实现视觉与语言统一处理能力[10][11] - 智谱AI模型销售年经常性收入突破1亿元人民币 用户数超过15万 公司估值超30亿美元并寻求成为中国AI第一股[17][18] - OpenAI进入"红色警报"状态 集中资源改进ChatGPT体验 计划下周发布新推理模型应对谷歌竞争[42][43] - 苹果进行人工智能管理层重组 原AI主管约翰·詹南德雷亚将卸任 由前微软高管阿马尔·苏布拉马尼亚接任[40] 消费电子与硬件创新 - OPPO首席产品官刘作虎亲自带队Pocket项目 瞄准年增速超100%的手持影像市场 大疆同类产品年营收预计突破500亿元[8][9] - 三星推出首款三折叠手机Galaxy Z TriFold 售价2450美元 采用双铰链设计 电池容量达5600毫安时[13][14] - 苹果首款折叠iPhone预计2026年秋季发布 定价或超2000美元 采用书本式折叠设计 宣称解决折痕问题[46][47] - 众擎机器人发布T800人形机器人 定价18万元起 实现空中回旋踢等动作 综合运营成本称仅为人力成本1/3[24] 新能源汽车市场 - 小米汽车提前完成全年35万辆目标 累计交付超50万辆 11月交付量持续超4万辆[14][15] - 比亚迪11月销量480,186辆环比增长8.71% 鸿蒙智行销量81,864辆环比大涨20.01% 蔚来小鹏环比下滑超10%[26][27][28] - 理想汽车上线召回查询功能 召回11,411辆MEGA车型 因冷却液防腐性能不足存在安全隐患[21][22] - 特斯拉升级外部摄像头为AI5硬件做准备 新传感器型号IMX00N被发现于固件代码中[48][49] 企业战略与合作 - 华为与东风合作新品牌奕境首款SUV预计明年Q3推出 采用纯电和增程双动力[35] - 字节跳动与中兴通讯合作豆包AI手机 工程样机售罄后二手价最高超万元 量产机型预计2026年Q2发布[33] - 马斯克计划将X打造成微信升级版 整合信息发布与金融支付功能 称中国人生活高度依赖微信[41] - 美国政府拟投资1.5亿美元入股半导体初创企业xLight 该公司由英特尔前CEO基辛格担任董事长[49][50] 市场数据与表现 - 韩国11月半导体出口173亿美元创历史新高 同比增长38.6% 受数据中心存储需求驱动[52] - 中国平板电脑市场第三季度出货量880万台 华为以270万台出货量居首 市占率31%[38] - 亚马逊在美测试30分钟超快送货服务 起步配送费13.99美元 中国电商已实现类似时效[43][44]
阿里Qwen-Image更新;商汤发布NEO架构|数智早参
每日经济新闻· 2025-12-02 23:17
阿里巴巴Qwen-Image模型更新 - 公司发布图片生成及编辑模型Qwen-Image的重磅更新,新模型在图像编辑中维持更高一致性,并在多视角转换、多图像融合、多模态推理等方面取得突破进展 [1] - 新版本Qwen-Image已首发接入千问App,用户可无限次免费使用 [1] 商汤科技发布NEO架构 - 公司正式发布并开源与南洋理工大学S-Lab合作研发的全新多模态模型架构NEO,为日日新SenseNova多模态模型奠定新一代架构基石 [2] - NEO是行业首个可用的、实现深层次融合的原生多模态架构,通过核心架构层面的多模态深层融合,实现性能、效率和通用性的整体突破 [2] 优必选科技战略合作 - 优必选科技与卓世科技签署战略合作框架协议,合作聚焦“行业模型+具身智能”核心方向 [3] - 双方计划在未来5年内达成1万台机器人部署及联合拓展数十亿元商业化订单落地 [3] AI行业技术趋势 - AI视觉技术发展仍充满挑战,未来需关注在保持技术领先的同时进一步降低模型训练成本、提升运行效率以实现更广泛应用落地 [1] - AI范式转移始于架构破壁,从单模态到多模态,率先跳出修补思维的参与者有望拿到下一代产业门票 [2] - 人形机器人产业化拐点的关键在于机器人能在真实场景中稳定运行、获得客户复购、保险支持及监管许可,万台部署是水到渠成的起点 [3]