Workflow
理想TOP2
icon
搜索文档
理想短期销量适合降低预期
理想TOP2· 2025-12-22 12:28
理想汽车当前车型交付与订单状态 - L系列与i8/MEGA车型处于订单驱动交付状态,而i6处于产能驱动交付状态 [1] - 截至2025年12月1日,i6和i8累计订单突破10万辆,i6月产能预计在明年初稳步提升至2万辆 [1] - 截至2025年11月30日,i6累计交付约12,977辆,i8累计交付约20,396辆 [1] - 由于置换补贴提前结束,年底未出现通常的订单旺季,且2026年2月16日为除夕,春节前是自然淡月 [1] 行业普遍性规律观察 - 大多数车型在公布价格一个月内,可大致定性其头6个月的销量情况 [2] - 大多数车型头几个月是销量最好的时期,仅有少数车型能在几个月后或跨年销量重新提高(如SU7/MEGA/L789/L89) [2] - 车企对自家某一车型销量高估或低估是常见现象 [2] 理想汽车2026年销量关键节点与心态 - 2026年销量关键节点为两类:新车或改款发布后一个月左右,以及2026年3-4月i8/i6是否存在超额口碑促进订单的迹象 [3] - 预期公司心态层面在2026年会更认真对待市场,因为真心觉得有可能卖不好 [3] - 如果2026年销量不佳,可能促使公司创始人进行更深刻的自我反思与成长 [3] 2026年新能源车行业主线 - 主线一:以经过市场验证的车型定义为根基,进行各种改变,如做得更便宜、电动化+初级智能化、长板加强等,其好处是风险更小 [4] - 主线二:尝试做更大程度的新定义,风险显著变大,市场接受时间更长,需要think different [4] - 主线三:智驾与其他潜在的物理AI视角的车内用户价值 [5] - 从高端到入门车型,做电动化+初级智能化是市场验证成功的可起量思路,而将已验证的新能源车做成性价比车型也是同理 [5] 理想汽车的长期价值与战略倾向 - 如果L4级自动驾驶能在2-5年左右实现,车内布局将发生很大改变,而理想汽车在此维度的基础能力被认为是最擅长的,这是其长期价值的保底线 [6] - 理想汽车目前倾向于选择上限更高但风险相对更高的方案,这与其公司基因和气质更倾向“敢为天下先”有关 [6] - 公司早期智驾探索符合“敢为天下后”,近期则越来越接近“敢为天下先” [6] 理想汽车2026年潜在的价值创造增量 - L系列将进行大改款且会全系支持5C充电 [7] - 智驾能力的提升,预期2026年底的实际能力比2026年初明显更好是高概率事件,且第二代自动驾驶芯片会比第一代整体更好 [7] - 座舱方面,公司存在一个新的交互逻辑,属于新的产品定义部分 [7] - 基础失真负面舆情大范围减少以及向往感回归 [7] - 超充站数量将达到4800座,且存在部分站点未来可实现自动充电的可能性 [7] - 智驾价值分为基于实际使用的用户价值和竞争维度价值,当能做到稳定加塞时,则能跨越鸿沟到早期大众 [7] 补能体系的竞争与产品策略 - 终局而言,活下来的车企预期补能体验会大同小异 [7] - 在较长一段时间内,理想汽车将始终是补能体验最好的车企,这有真实用户价值,并将在某个时期反馈为销量的助推器 [8] - 大电池+5C增程与小电池2C增程是两种不同的产品,前者可以打动一部分纯电潜在客户,后者则不行 [8]
同届不同班同学分享对梁文峰印象
理想TOP2· 2025-12-21 01:26
核心观点 - 创始人梁文锋在本科阶段即展现出卓越的工程实践能力、强大的自学能力与专注力 其成功路径并非遵循传统好学生模式 而是通过竞赛等实践途径脱颖而出 并始终保持着低调务实的作风 这些特质为其后续在量化投资与人工智能领域的成就奠定了基础 [1][2][4][5] 个人特质与能力 - **卓越的工程实践与创新能力**:大二时已能独立完成从电路设计、PCB、单片机编程到软件UI的全流程开发 将普通吉他改装为可通过电脑UI控制炫音的电吉他 展现了软硬件结合的系统性工程能力 [2] - **强大的自学能力与独特的学习路径**:大学期间很少上课 主要依靠自学 认为上课进度慢、浪费时间 其专业绩点处于中上游 未达保研线 但通过竞赛获奖获得保研资格 [2] - **极强的专注力与投入度**:共事者评价其拥有“绝世无双的专注力” 可以为了做一件事一天呆在桌子前十小时不动 时刻全身心投入 [7] - **对技术的纯粹热爱**:在技术上的成功并非源于绝顶聪明 而是源于对技术的纯粹爱好 无人能及 [7] - **低调务实的作风**:一贯低调 大学期间许多同专业同学不熟悉他 在公司获得巨大关注时也未公开发声 这种低调源于其做事的超强专注力 而非刻意为之 [4][5] 大学经历与早期成就 - **通过全国性竞赛脱颖而出**:与两名队友参加全国大学生电子设计竞赛 作为团队主力 在浙大内部集训时很多设计题目几乎由其一人搞定 最终团队获得全省第一名、全国一等奖 三人均获免试推荐浙大研究生资格 [3] - **非传统的学业与职业路径**:因竞赛定奖时间晚于学校保研时间 导致本科(2002-2006)与研究生(2007-2010)之间有一年空档期 在此期间继续从事电子传感系统设计与产品开发 涉及海洋导航等领域 硬件、软件、算法均由其一人搞定 [3] - **独立完成高水准项目**:本科时代所做的每一个电子系统 其水准足以作为电子系的硕士论文 [3] - **丰富的课外经历**:曾骑自行车周游华东数省 经常在野外打地铺过夜 花费极少 [3]
理想材料负责人分享对热成型刚用量、一体式压铸维修性的理解
理想TOP2· 2025-12-20 05:47
文章核心观点 - 热成型钢用量与车身安全性并非简单的正比关系 片面强调高比例不严谨[1][3] - 车身材料选择是系统工程 需平衡强度 吸能 轻量化与造型等多重需求 最终应关注权威安全测试结果而非单一材料参数[17] - 一体化压铸技术有其明确优势与适用场景 其维修性问题被过度“妖魔化” 成本是制约该技术普及的主要因素而非维修性[24][35] 热成型钢的应用与认知误区 - 使用热成型钢(强度通常达1500MPa-2000MPa)的主要原因是其高强度 用于关键安全结构件可防止碰撞时过度变形侵入乘员舱[4] - 早期提升热成型钢比例确实有助于安全性与轻量化 但存在上限 例如沃尔沃车型热成型比例曾升至38%后未再突破 且其中仅33%为1500MPa以上超高强钢[5][7] - 车身材料需满足多种需求 热成型钢并非万能:1) 需要中低强度材料(如铝型材或常规高强钢)在特定区域进行高效吸能[8][10] 2) 外观覆盖件需要高塑性材料以满足复杂造型 热成型钢延伸率低无法胜任[10] 3) 铝合金的大量使用可实现显著轻量化 尤其在电动车时代为平衡电池重量 会替代部分钢材 如沃尔沃EX90热成型比例降至21%[10][21] 车身安全性的系统性评价 - 评价车身安全性不应只看单一材料比例 而应关注系统性结果 如中保研 IIHS等权威碰撞测试成绩[17] - 不同车型因设计目标与材料组合不同 热成型钢比例差异可以很大但均能实现顶级安全 例如沃尔沃XC90热成型超高强钢比例达33% 而XC40仅为12% 理想L6超30% 而MEGA因采用全铝合金下车体(铝合金占比40%多)该比例明显更低 但均获顶级安全评价[19][21][23] 一体化压铸技术的理性分析 - **维修经济性**:一体化压铸结构在碰撞设计中通常不处于第一线 前方有防撞梁 吸能盒 纵梁等多层保护 正常乃至中等速度碰撞损伤后可进行部件更换 不存在“一碰换车”的情况 仅在极端高速碰撞下维修困难 但此时传统钣金结构亦会“伤筋动骨”[24][27][28] - **技术优劣势**: - 优势:更轻质 利于提升续航与能耗 更集成 生产效率高 有利于提升车身刚度与操控性[29][30] - 劣势:零件成本高 模具开发周期长投入大 工艺质量控制(如气孔)更难 极端碰撞后维修比钣金困难[30] - **行业应用与成本考量**:欧美品牌如沃尔沃EX90已应用一体化压铸技术[33] 国内未广泛采用的主要原因在于成本而非维修性 成本较低的车型使用钢车身更实惠 部分国内20-40万价位车型未采用该技术反而形成“隐藏的成本优势”[35] - **行业内卷现象**:行业内竞相追求压铸机“吨位”(如从5000吨至20000吨)等参数“键盘值” 可能牺牲结构灵活性 机械性能控制等 对用户价值有限[31][32]
可以稳定加塞是全域城区智驾跨越鸿沟到早期大众的充分条件
理想TOP2· 2025-12-19 15:20
文章核心观点 - 文章提出一个核心论点:当“稳定加塞”能力成为智能驾驶系统的标准功能时,全域城区智能驾驶将从“早期采用者”阶段跨越鸿沟,进入“早期大众”市场 [1] - 该论点的核心逻辑链是:具备“稳定加塞”能力意味着系统具备工具属性,而工具属性是跨越鸿沟到早期大众的充分条件 [1] 关于“稳定加塞”能力的定义与重要性 - “稳定加塞”能力被定义为:任意随机用户,在城区任意道路时段,当面临必须通过博弈变道才能维持导航路径时,99%情况下可以成功加塞并且舒适度安心感符合用户预期 [1] - 该能力是智能驾驶具备“工具性”的关键,而工具性定义为:人群里前40%驾驶员,经过3天以内的刻意练习,可以掌握95%以上的智驾能力边界,并对其在符合边界时的表现有95%以上信心 [1] - 判断认为,如果“稳定加塞”能力做不到,将影响系统的工具性,而其他难点如无保护左转、窄路相逢、非标施工改道等,即使做得不好也不影响工具性 [2] 当前行业技术现状与挑战 - 包括理想汽车在内的国内车企,目前均未在宣传中展示过具备“稳定加塞”的能力 [2] - 理想汽车当前的加塞能力水平是:中高速具备一定的博弈加塞能力,但在低速拥堵工况下的强交互变道能力非常一般 [2] - 目前自动驾驶从感知到执行的完整链路响应时间约为550毫秒,比人类驾驶员最快的450毫秒响应要慢,导致驾驶体验像“老年人在开车” [4] - 现有最好的计算平台,运行一个40亿参数的模型帧率只有10赫兹,而执行系统需要60赫兹,模型运行帧率若能快两三倍,可有效解决当前辅助驾驶的舒适性和反应迟钝问题 [4] 未来技术发展方向与预期 - 公司认为,通过专有的线控体系等技术改造,可以将自动驾驶系统的响应速度从550毫秒提升至350毫秒,这200毫秒的差距预计可将事故率下降50%以上,并带来更好的安全感和驾驶体验 [4] - 公司正在研发M100芯片,旨在解决具身智能的本质问题,为提升模型运行帧率和系统响应速度提供底层算力支持 [4] - 文章推测,随着技术架构、算力和操作系统的深度改造与定制完成,公司未来或将具备一定程度的“稳定加塞”能力雏形 [5] 早期采用者与早期大众的行为差异 - 早期采用者具备“游戏心态”,对于智驾能力不足的场景,他们或选择提前接管,或通过手动干预(如波动滚轮、提前打灯)来辅助系统,从而减少刹车性接管 [2] - 上述早期采用者的行为模式,对于追求“工具心态”的早期大众用户而言是难以接受的,他们需要系统本身具备稳定可靠的能力 [2]
范皓宇认为这个人对理想AI眼镜的解读很有水平
理想TOP2· 2025-12-18 04:16
产品核心定位与战略 - 产品核心定位为高可用、可长期高频使用的AI眼镜,其战略初衷并非为抢占流量或数据入口,而是打造一款真正可用的产品 [1] - 产品最本质的属性是眼镜,长期佩戴的可行性是衡量其成功的关键,当前行业普遍存在因重量问题导致的高退货率,例如小米AI眼镜退货率高达40% [2] - 公司产品通过将重量控制在36克,成为主流产品中首个低于40克的AI眼镜,为实现“全天候佩戴”提供了基础 [2] 核心产品优势:全天候体验 - 产品最大的体验优势在于实现了“全天候”的输入与输出,集成了摄像头和麦克风作为持续可用的输入设备,以及耳机作为持续可用的输出设备 [2] - “全天候”特性解锁了传统设备难以覆盖的即时性使用场景,例如在社交顾虑或双手不便时快速拍照,或在医疗问诊等敏感场合进行隐蔽录音 [2] - 与专业录音笔等设备相比,产品的核心优势在于其“全天候”可用性,解决了因设备未随身而错过重要时刻的问题 [3] - 与真无线耳机相比,产品提供了无需佩戴和摘取过程的“全天候”音频输出体验,实现了更无缝的交互 [3] - 为实现“全天候”体验,公司战略性地放弃了屏幕显示功能,以此换取更轻的重量和更长的佩戴时间,这与苹果Vision Pro等追求极致显示但牺牲可用性的路径形成对比 [4] 产品性能与功能现状 - 摄影能力是初代产品的明显短板,成像质量仅相当于iPhone 4水准,暗光环境下拍照锐化和涂抹感严重,视频拍摄效果具有明显的年代感 [5] - 语音助手交互存在缺陷,不支持主流的“一段式连续输入”指令,用户必须分两步操作,体验不佳 [6] - 文件传输与存储效率低下,存在传输不同文件类型需重新连接Wi-Fi的问题,且照片采用传统的JPG格式而非HEIF,导致单张照片文件大小普遍达到12Mb,传输慢且占用空间大 [6] 销售与服务配套 - 产品销售流程存在用户痛点,购买需提供验光数据,但公司未利用其广泛的线下门店网络提供验光服务,增加了用户购买门槛 [7] - 产品具有独立的用户价值,其使用并不依赖于公司的汽车生态,非理想汽车车主同样可以购买并使用该眼镜的核心功能 [8]
理想官宣进入埃及、哈萨克斯坦和阿塞拜疆市场
理想TOP2· 2025-12-18 04:16
公司海外市场拓展 - 公司于2025年12月17日正式进入埃及、哈萨克斯坦和阿塞拜疆市场 [1] - 此次拓展标志着公司已完成横跨中亚、高加索地区及非洲的核心市场布局 [1] - 自2025年10月起,公司在短时间内已完成四个重要国际市场的渠道搭建与产品落地 [1] 海外市场产品与服务策略 - 在海外市场同步推出理想L9、理想L7、理想L6三款主力车型 [1] - 为海外用户提供官方质保、专业售后服务支持以及持续的OTA技术升级服务 [1] - 公司强调通过强大的本地合作伙伴关系来提供始终如一的用户体验 [2] 全球化战略布局 - 研发端已在德国、美国设立研发中心,以强化技术全球化适配能力 [1] - 渠道端已正式构建起标准化的海外销售与售后服务体系 [1] - 产品端提前规划,2026年上市的全新产品在研发初期即纳入海外市场法规适配考量 [1]
理想法务部转发烟台公安关于理想汽车报警并穿透式打击网络水军
理想TOP2· 2025-12-18 04:16
事件概述 - 理想汽车服务部转发烟台公安通报 指出2025年以来网络上出现大量针对理想汽车及车主的攻击抹黑行为 包括侵害个人信息、编造虚假信息诋毁企业经营状况、恶意抹黑产品质量等有组织违法犯罪活动[1] - 山东省烟台市公安局经过缜密侦查 揭露了网络黑水军组织化、产业化的犯罪行为 相关涉案人员已被依法采取强制措施[1] 黑水军攻击手法与影响 - 黑水军通过冒充消费者发布不实体验、搬运洗稿、批量炮制内容 将个别问题放大渲染并剪辑成短视频广泛传播[3] - 这些有组织、有预谋的攻击行为旨在挑起车主群体间的对立与歧视 严重侵害了车主个人信息与名誉权 并对公司的品牌声誉和正常经营秩序造成恶劣影响[1] 警方侦查过程与发现 - 烟台公安接警后对平台上3000余条负面文章逐一甄别 发现均出自一批注册时间短、活跃度异常、IP地址分散的账号 背后存在明显的产业化运作痕迹[9] - 该犯罪团伙利用技术工具抓取“小米”“华为”“理想”等关键词 借助人工智能技术批量生产低质、雷同的“网络垃圾” 目的仅为赚取平台流量收益[9] - 专案组为固定证据 深入分析各类网络信息8万余条 循线核查资金流水10万余条 全面厘清了该团伙的组织架构、人员分工和完整作案流程[11] 案件处理结果 - 专案组在烟台、聊城两地同步收网 成功抓获12名犯罪嫌疑人 查扣涉案资金100余万元 关停违法网络账号8000余个[11] - 此次行动实现了对这一新型“网络水军”犯罪团伙的全链条、穿透式打击[11] 公司立场与行业意义 - 理想汽车表示将坚持使用法律武器捍卫品牌和用户声誉 助力维护清朗的网络环境与公平的市场竞争秩序[1] - 警方表示将持续开展净网、打谣等专项行动 将法治力量转化为保护新兴产业、激发市场活力的具体行动 为新兴产业发展筑牢网络安全屏障[11]
一份信噪比与画面均优质的理想i6生产视频
理想TOP2· 2025-12-17 06:36
文章核心观点 - 文章通过参观理想汽车i6车型的生产线 详细展示了公司在冲压、焊接、喷涂、总装四大工艺环节的先进制造技术与高度自动化水平 旨在体现其产品在精度、质量与一致性上的高标准 [1][2][3][4][6][7][8][9][11][12][13][14][15][16][18][19][20][21][23][25][26][27][29][30][31][33][34][35] 冲压工艺 - 冲压生产线配备5台压机 最大压力可达6600吨 使用百吨级模具 [2] - 采用配备立体相机的机器人自动抓取锋利零部件 定位精度达±1毫米 并通过融合AI技术对料框进行3D精确定位与自动调整 精度同样为±1毫米 [2] - 利用灰度识别算法 机械手可自动识别物料种类与放置位置 准确率达百分之百 [2] 焊接与车身制造工艺 - 采用双主拼工艺与上百组定位夹紧单元 追求高精度 重复精度达到±0.15毫米 [6] - 14台机器人可协同运转 实现团队作战 [6] - 首创全自动打磨工位 使用六台力控协作机器人对车身门框焊接飞溅进行全自动打磨 力矩为0.1牛 [9] - 采用Best Fit工艺 机器人携带10套3D视觉传感设备 通过拍照分析点棱面特征 精确计算车门与车身间隙面差 自动寻找最佳匹配方案 [9] - 在关键部位仍需经验丰富的工人进行细节检查 如用手触摸和目视检查门板表面质量 [11] 喷涂工艺 - 采用翻转式穿梭机使车身在电泳槽内360度旋转 确保电泳液完全覆盖缝隙、内腔及表面 [14] - 使用全套FANUC高精度喷涂机器人配合SAMES雾化器 精准控制走向速度、喷涂间隔及轨道润滑 确保漆膜一致性 [15] - 采用特殊遮蔽材料实现毫米级标准的双色车身喷涂 边缘无晕色和毛边 [15] - 在DTS检测工位使用双边机械手配合蓝光检测仪在线检测间隙面差 平均一分钟检测六十多个目标 实现百分之百检测 [13] 总装工艺 - 总装车间任何工位的操作均被记录于电子芯片并上传云端 系统数据最多保留15年 [18] - 采用视觉引导和涂胶安装机器人安装面积达2.26平方米的全系最大天幕 安装精度为±1毫米 [20] - 底盘合装采用一体式托盘设计 可自动追赶并对齐上车体 [20] - 空气悬架连接管路后完成首次充气 并由设备实时检测 [21] - 使用机械手臂搬运和安装座椅 [21] - 轮胎安装由四个机械手臂完成 先取螺栓再抓轮毂 最后通过精准拍照定位进行安装 [23][25][26] - 设有专门工位同时加热门框和密封胶条 确保二者更好融合 以提升NVH性能 [26][27] - 率先在行业量产车中应用蓝紫光检测技术于车身表面检测 利用其在透明件表面反射率更强的特征 实现了百分之百检测 [29] - 专业质检员对漆面平整度、前备箱开启功能、座椅舒适度、化妆镜等功能进行最终检验 [30] - 设有四条专用车道用于集中释放安装应力 为i6车型设计了反复缓慢通过的方案 使悬架拉伸更大 应力释放更充分 [31] - 通过高精度车辆摆正系统及视觉系统为空气悬架标定标准姿态和动作 确保每台车一致 [31] - 对HUD进行机器标定 确保不同身高驾驶员看到的显示清晰准确 [31] 下线测试 - 每台i6下线后需进行道路测试 覆盖十几种路况 最少8公里 包括八字路、直扭路、卵石路、比利时路、搓板路、弯扭路、涉水路 并进行全力加速和并线测试 [33] - 在ADAS专区进行辅助驾驶和自动泊车测试 [33] - 进行淋雨测试 模拟特大暴雨 5分钟内承受350毫米降雨量 且来自上下左右四个方向 [35]
理想砍掉BEV与token化直接用OCC稀疏注意力进行4D世界模型预测
理想TOP2· 2025-12-16 12:44
文章核心观点 - 公司发布了一项名为“SparseWorld-TC: Trajectory-Conditioned Sparse Occupancy World Model”的创新技术,其核心在于“去结构化”思维,旨在移除人为设计的中间约束,让数据和算力直接驱动模型,实现真正的“Think different” [1] - 该技术的哲学内核与“the bitter lesson”一致,认为依赖人类先验知识的辅助从长期看会成为性能瓶颈,而利用大规模算力的通用方法才能最终胜出 [4] - 公司学习GPT的“神”而非“形”,即借鉴其通过注意力机制理解复杂关系的通用能力,而非机械复制其离散token预测的形式,从而让Transformer架构直接理解3D空间的物理法则 [5] 技术架构创新:去量化结构 - 主流世界模型将连续3D世界离散化为有限token,存在固有的表征容量限制 [2] - 公司解决方案采用稀疏占据表征,直接在连续3D坐标空间中操作,使用稀疏锚点和可学习特征向量回归预测几何偏移量 [2] - 该方法通过注意力机制对随机初始化的3D点云进行去噪与迭代精炼,使其精准匹配物体表面,避免了空白区域的无效计算,在提升推理速度的同时实现了高保真场景重建 [2] 技术架构创新:去空间中介结构 - 现有端到端方案依赖鸟瞰图作为中间介质,将3D特征投影到固定2D网格,引入了显式的人为几何约束并成为信息流动瓶颈 [3] - 公司采用轨迹条件下的稀疏查询,去掉BEV网格,将未来驾驶轨迹作为条件注入,引导稀疏锚点通过可变形注意力直接抓取原始多视角图像特征 [3] - 该方法不预设网格,而是让注意力机制根据目标轨迹自主决定关注何处,实现了更高效的信息利用 [3] 技术架构创新:去时间串行结构 - 现有预测工作多沿用LLM的自回归模式串行生成未来帧,导致误差累积且推理速度慢 [4] - 公司采用全注意力前馈架构,通过单次前向推理并行输出未来多帧,并利用时间注意力模块让不同时间步的预测能相互看见,进行全局联合优化 [4] - 该模型在nuScenes榜单上不仅精度大幅领先,推理速度也达到了同类基于摄像头的SOTA模型的2倍以上 [4] 技术理念与优势 - 公司技术通过稀疏锚点创造了一种既能保留连续物理属性(不丢失精度),又能像token一样高效参与注意力计算的新表征方式 [5] - 该技术路径的核心是发挥通用架构对海量数据的吞吐能力,这是GPT能够实现规模扩展的关键,也是公司学习的方向 [5]
陈伟GTC2024讲MindGPT压缩版/视频版/图文版
理想TOP2· 2025-12-15 12:02
文章核心观点 文章系统阐述了理想汽车如何以其自研的多模态认知大模型MindGPT为核心,构建领先的三维空间人机交互体验,推动车载交互从“人适应机器”向“机器适应人”转变,并详细介绍了支撑该体验的多模态感知技术、大模型能力及背后的AI工程架构 [10][20][21] 智能座舱交互理念与技术架构 - 公司致力于将人机交互从二维平面扩展到物理世界下的三维空间,目标是让交互方式从人适应机器转变为机器主动适应人,以提供更自然的体验 [10] - 公司融合语音、视觉、触控等多模态感知信息,旨在提供可媲美人与人交互的自然体验 [11] - 公司的AI助手“理想同学”被定位为车主的数字家庭成员,其技术覆盖感知、理解、表达三大能力,借助全车传感器具备听、看和触摸的多模态感知能力 [13] - 公司认为,以感知和表达为代表的感知智能已成熟,而以理解为代表的认知智能在2022年底大模型出现后迎来变革 [14] 多模态感知技术 (MindGPT-MP) - 公司的多模态感知大模型MindGPT-MP通过海量视听数据进行自监督学习与多任务精调,利用全车麦克风与摄像头实现同步感知 [2][29] - 该技术经过信号分离与融合,实现精准的用户定位与人声分离,具备多语种、多方言及情绪感知的边听边看能力 [2][29] - 该技术支持“指令自由说”,允许用户下达不限数量的连续指令控制 [2][30] - 该技术支持“方言自由说”,支持多种方言的自由唤醒与识别 [2][30] - 该技术引入“多模态指代”功能,如“手指指代”(指车窗即开窗),结合“可见即可说”,大幅降低用户交互门槛 [2][32] 多模态认知大模型 MindGPT 的核心能力 - 公司于2023年6月发布MindGPT,以其为核心构建了感知-规划-记忆-工具-行动的完整Agent能力 [2][35] - MindGPT基座模型采用自研的TaskFormer结构,并在2023年12月通过OTA 5.0正式推送,曾获C-Eval和CMMLU双榜第一 [2][39] - 模型训练在通识知识基础上,重点加强了车载场景(用车、出行、娱乐)的15个重点领域知识,通过SFT和RLHF覆盖了110多个领域和1000多种专属能力 [3][35] - MindGPT作为中控大脑,可连接外部Model Zoo和API Zoo,通过RAG技术连接搜索能力,自主规划任务并调度工具 [4][36] - 模型具备记忆网络,能理解家庭成员偏好与历史对话,实现个性化服务 [4][36] - 模型具备在线强化学习能力,能基于用户反馈持续迭代,实现越用越好用 [4][36] AI工程架构:训练平台 (Li-PTM) - 为支撑千亿级大模型高效迭代,公司自研了训练平台Li-PTM及TB级吞吐的大数据处理系统Li-ARK [4][44] - 训练采用4D并行策略,结合数据并行、Tensor并行、流水线并行和序列并行,以极致利用GPU算力 [4][44] - 性能表现方面,在相同模型和训练集下,Li-PTM在SFT阶段的训练速度是当时行业最好开源能力的3倍以上,RLHF速度约为DeepSpeed的3.1倍 [4][47] - 在基座训练阶段,Li-PTM的训练速度是Hugging Face Transformer的5.12倍,高于DeepSpeed(1.6倍)和Colossal-AI(3.5倍) [46][47] AI工程架构:推理引擎 (LisaRT-LLM) - 针对落地应用,公司设计了端云融合的推理体系,核心是自研推理引擎LisaRT-LLM [4][41] - 架构自底向上包含LisaRT-LLM引擎、支持Continuous Batching的调度平台、TaskFormer中控服务以及端云一体的SAI SDK [4][42] - 性能优化方面,公司与NVIDIA深度合作,引入Fused MHA、Flash Attention等技术,并利用TensorRT-LLM优化核心算子 [5][49][50] - 推理服务的性能指标要求为:预填充延迟控制在500毫秒以内,解码速度大于20 Token/秒 [5][50] - 压测结果显示,在A800显卡上,LisaRT-LLM的吞吐率相比vLLM提升1.3倍以上,在高并发下仍能保持低延迟响应 [5][53]