理想TOP2
搜索文档
两位大模型从业者群友如何评价小米MiMo大模型?
理想TOP2· 2025-04-30 13:04
大模型性能对比 - Llama-3 8B在BBH基准测试中得分为64 2 显著低于Gemma-2 9B的69 4和Qwen2 5 7B的70 4 而MiMo-7B以75 2领先[1] - 在GPQA-Diamond测试中 Qwen2 5以35 4的准确率表现最佳 超过MiMo-7B的25 8[1] - MiMo-7B在SuperGPQA测试中获得25 1分 略优于Qwen2 5的24 6[1] - 数学能力方面 MiMo-7B在AIME 2024测试中取得32 9的高分 远超Qwen2 5的10 1[1] - 代码能力上 MiMo-7B在LiveCodeBench v5测试中获得32 9分 显著高于Qwen2 5的5 0[1] 中文能力表现 - Qwen2 5在C-Eval中文测试中获得81 8的高分 明显优于MiMo-7B的68 7[1] - CMMLU中文测试中 Qwen2 5以82 7分领先 MiMo-7B得分为70 9[1] - 预训练结果显示Qwen在中文问答方面具有明显优势 而MiMo-7B表现相对较弱[1] 模型训练策略 - MiMo-7B通过预训练偏重数学和代码能力 导致其他能力下降[1] - 强化学习主要提升数学和代码能力 但提升幅度不大 未见显著创新[1] - 7B模型在AIME测试中获得20多分是通过牺牲其他能力实现的技巧性高分 而非结构创新[1] - 小尺寸模型可能采用蒸馏技术训练 效果优于直接训练[4] - MiMo-7B使用"先进推理模型"合成数据进行训练[4] 行业讨论 - 参数规模差异大的模型不适合直接比较 如MindGPT是千亿参数级别[3] - 小参数模型训练更快 可专注特定指标展示实力[3] - 当前行业普遍采用合成数据策略 MindGPT也使用类似方法[7] - 理想汽车计划在2025年5月举办AI Talk第二季活动[9]
从论文中积累复现 R1 的 insight
理想TOP2· 2025-04-30 13:04
算法改进与优化 - GRPO算法存在响应级长度偏差和问题级难度偏差,导致生成错误响应 Dr. GRPO通过去除归一化项、采用蒙特卡罗回报估计优势等方法,有效避免优化偏差,提升令牌效率并维持推理性能 [3][4] - DAPO方法解决GRPO和PPO在大语言模型强化学习中的熵坍缩、样本效率低等问题 Clip-Higher技术提高低概率token概率提升空间,动态采样过滤无效样本,Token-Level Policy Gradient Loss优化长思维链场景训练 [6] 强化学习超参数设置 - 较大Train Batch Size(如TBS=1024)增强训练效率与稳定性 On-policy策略相比Off-policy更具优势,促进模型探索 Tollout Times增加(如n=64)提升训练效果,Rollout Temperature为1.2时性能更佳 KL惩罚系数采用动态退火策略(从KL=1×10⁻³到KL=0余弦衰减)平衡探索与稳定性 [6] 奖励机制设计 - 早期奖励规则不完善导致模型出现多种reward hacking行为 迭代完善规则设计后,要求模型按特定格式输出并构建规则式奖励系统,格式正确得1分错误得-1分,答案完全正确得2分部分错误得-1.5分 [6] - ruled-based reward相比reward model更不易受reward hacking影响 在业务没有明确答案时,建议结合ruled-based数据(如数学、编程任务)与reward model一起训练 [9] 推理能力发展特点 - 推理能力提升是渐进过程,没有明显的"顿悟时刻" 模型在训练前已具备复杂推理行为(如反思、验证),后续提升呈渐进趋势 [5][6] - 增加回答长度与推理性能提升相关但非因果关系 响应长度增加可能提供更多探索空间,但核心提升源于对有效推理步骤的优化 通常response越长准确性越低,因难题需要更长推理 [5][6] 强化学习泛化效应 - RL相比SFT更能促进泛化 在逻辑题上使用RL对数学题也有提升,表明推理可能是模型的通用能力 [7][9]
单日新增67座, 理想超充站2249座|截至25年4月30日
理想TOP2· 2025-04-30 13:04
来源: 北北自律机 25年04月30日星期三 理想超充 67 新增。 超充建成数:2182→2249座 (北北记到2243) 318川藏线打通目标,已初步达成 基于i8发布日期 2500+座目标 新增数进度值:58.86%→64.17% i8发布剩余92天(按7月31假设) i8发布剩余时间进度值:56.40% (提示:建设进度优于时间进度) ———————————————————— 需每日 3.01 座,达到 i8发布 目标值 基于2025年底4000+座目标 今年新增数进度值:20.02%→21.82% 今年剩余245天 今年时间进度值:32.88% 需每日 7.25 座,达到年底目标值 【附】41 座新增建成 安徽省 阜阳市 阜阳红星美凯龙(颍州商场) 为城市4C站,规格:4C × 4 福建省 厦门市 厦门集美同集南路 为城市5C站,规格:2C × 3 5C × 1 广东省 广州 广州黄埔智造谷创新园 为城市4C站,规格:4C × 6 广东省 广州 广州立白科技园·IA谷 为城市4C站,规格:4C × 6 广东省 深圳市 深圳市大运体育中心 为城市4C站,规格:4C × 6 广东省 中山市 中山海港城广 ...
理想L7车主投稿|床垫需求未得到充分满足
理想TOP2· 2025-04-29 12:46
车主需求分析 - L7车主核心需求是寻找一款厚度薄、价格适中、能实现纯平且保留行李空间的床垫方案 [1] - 目前官方商城提供的L7床垫从前排延伸到后备箱,无法同时满足躺平和储物需求 [1] - 第三方床垫存在两种方案:二排与后备箱组合方案不平整 或 纯平方案过厚且价格昂贵(比官方贵3-4倍) [1] 潜在解决方案 - 方案1:开发厚度更薄的二排与后备箱纯平床垫 [2] - 方案2:改良现有方案,尾部缩短30-40cm以预留行李空间 [2] 公司动态 - 公司将于2025年5月7日20:00推出AI Talk第二季节目 [4] - AI Talk第一季节目内容质量获得市场认可,被推荐作为参考 [4]
理想超充站2182座|截至25年4月29日
理想TOP2· 2025-04-29 12:46
超充网络建设进展 - 超充站总数从2165座增至2182座 单日新增17座 [1][2] - 318川藏超充站目标为16座 当前仅建成7座 进度43.75% [2] - 4月底剩余1天 时间进度99.17% 建设进度明显落后于时间进度 [2] 阶段性建设目标追踪 - i8发布前(假设7月31日)需达2500+座 当前进度58.86% 优于时间进度55.92% [3] - 每日需新增3.42座方可达成i8发布目标 [3] - 2025年底目标4000+座 当前年度进度20.02% 落后于时间进度32.6% [3] - 每日需新增7.39座方可达成年度目标 [3] 新增站点技术规格分布 - 新增17座中超15座为4C规格(单站6-8个充电桩) [4][5][6][7][8][9][10] - 2座为5C规格(包含3个2C桩+1个5C桩)分布于青岛和泰安 [6][7] - 覆盖11个省级行政区 包括北京/福建/广东/江苏等经济活跃区域 [4][5][6][7][8][9][10] 技术交流活动预告 - 公司计划于5月7日20:00举办AI Talk第二季直播活动 [13] - 此前第一季活动被评价为具有较高含金量 [13]
MEGA将成功实现量价齐升
理想TOP2· 2025-04-29 12:46
MEGA销售表现 - MEGA与Ultra的销售占比约为9:1 显示MEGA显著拉高了产品均价 [1] - 2025年4月21-27日MEGA锁单量达5200 占理想同期总锁单13600的38% [2] - 第三方数据佐证理想订单突破14000 推测MEGA大定数在3500-4000区间 [3] - 历史数据显示MEGA此前仅3次单月破千 最高为1255台 多数月份销量在589-916台之间 [4][5] 销量预测 - 保守估计MEGA月销将稳定在1500+ 实现量价齐升 [6] - 乐观预测MEGA月销可达1800-2500台 12月有望突破2500-3000台 [6] - 下一代MEGA预计升级智驾芯片/悬挂系统/补能体验 潜在月销能力提升至4000-5000台 [7] 行业动态 - 理想汽车CEO李想将于2025年5月7日举办AI Talk第二季 延续技术品牌输出 [9] 数据补充 - 2024年3月至2025年3月MEGA具体月销量为:3229/1145/614/589/714/746/879/824/863/1255/807/781/916台 [5]
理想超充站2165座|截至25年4月28日
理想TOP2· 2025-04-28 12:49
超充建设进展 - 超充站总数从2140座增至2165座 新增25座 [1][2] - 318川藏线超充站目标16座 当前建成7座 进度43.75% [3] - 4月底建设进度落后时间进度(98.33%) 需日均新增4.5座达标 [4] i8发布及年度目标 - i8发布倒计时94天(假设7月31日) 时间进度55.45% 需日均新增3.56座实现2500+座目标 [4] - 2025年底4000座目标需日均新增7.43座 当前年度时间进度32.33% [4][5] 新增超充站分布与规格 - 4月新增33座超充站 覆盖安徽/福建/广东等12个省级区域 [5][6][7][8][9][10][11][12][13][14][15][16][17][18][19] - 城市4C站为主流规格(如4C×6) 占比超70% 高速服务区5C站采用2C×3+5C×1混合配置 [6][8][11][12][19] - 浙江省单省新增6座 含城市5C站(2C×13+5C×1)及高速服务区双5C站 [12][13] 重点区域建设 - 上海新增5座 含枢纽型4C站(虹桥总部1号)及陆家嘴软件园等高流量点位 [9][10][17] - 青岛/衢州等地布局服务区5C站 强化长途充电网络 [8][12][13] - 重庆新增3座 含高尔夫球场等场景化站点 [14][19]
很值得留意: Robust Autonomy Emerges from Self-Play
理想TOP2· 2025-04-28 12:49
2025年2月5日苹果发布Robust Autonomy Emerges from Self-Play, 所有作者名看起来都不是中国人。 论文链接: https://arxiv.org/pdf/2502.03349 小米王乃岩对这篇论文的评价是现阶段强化学习如果想攻克自动驾驶,最相关,也是最值得推荐的一 个工作。王乃岩个人觉得这是一个里程碑级别的工作,标志着强化学习在自动驾驶中向前迈了一大 步。 这篇论文如果能被后世公认为里程碑级别的工作,意味着将来量产的更强的自动驾驶方案将通过Self- Play RL( 自我博弈强化学习)的方式获得。 这是第一篇在自动驾驶领域证明了完全基于 Self-Play RL( 自我博弈强化学习)的有效性。其在所有闭 环benchmark(nuPlan、CARLA、Waymax)上都刷到了benchmark(基准测试)性能上限。 如果 Self-Play RL( 自我博弈强化学习)将来不成为自动驾驶主流或热点研究方案,那这篇论文也就称 不上里程碑工作。 一旦 Self-Play RL( 自我博弈强化学习)成为了自动驾驶主流方案,意味着人类驾驶数据重要性将大大 降低,极端情况下是压根 ...
得益于水马锥桶的超高分, 阿维塔07易车AEB总分超过理想L9
理想TOP2· 2025-04-28 12:49
易车AEB测试结果分析 - 阿维塔07和智界R7在2025年4月27日的测试中以总分310分并列第一,超过理想L9的290分[1][2] - 水马锥桶项目是阿维塔07和智界R7的主要优势,分别获得110分和120分,远超理想L9的30分[1][2] - 理想L9在假人组团鬼探头(80分)、隧道盲区故障车自燃(70分)和暗夜逆光儿童鬼探头(80分)三项上表现优于阿维塔07和智界R7[1][2] - 问界M9在拥有4颗激光雷达的情况下,水马锥桶项目仅得30分,与其他车型处于0-30km/h范围[1][2] 测试车型排名情况 - 阿维塔07和智界R7并列第一(310分),理想L9排名第三(290分),问界M9排名第四(240分)[2] - 深蓝S09以225分排名第五,享界S9和智己LS6以210分并列第六[2] - 仰望U8排名第八(180分),小鹏G和小鹏G9并列第九(160分)[2] - 比亚迪海狮05EV仅得10分排名第21,小米SU7标准版得0分排名最后[2] 内容创作背景 - 该内容创作者强调客观中立原则,此前已发布理想L9测试第一的文章,现需平衡报道阿维塔07超越理想L9的事实[3] - 创作者在标题选择上权衡了完全客观("阿维塔07总分超理想L9")和揭示原因("得益于水马锥桶超高分")两种思路[3] - 文章隐含对理想有利的叙事逻辑但缺乏证据,创作者选择坦诚心路历程而非强行客观[3][4] - 该内容旨在证明创作者并非理想吹捧者,保持中立立场[4]
理想L9易车AEB测试获第一|8个事实2个尽量客观描述3个观点
理想TOP2· 2025-04-26 17:42
测试概况与核心结果 - 2025年4月26日易车横评直播AEB测试共12款车型参与,24款理想L9以290分排名第一,25款问界M9以240分排名第二 [1] - 测试共包含5个项目:水马锥桶大挑战、假人组团鬼探头横穿、地库下坡儿童嬉戏、隧道盲区故障车自燃、暗夜逆光儿童鬼探头 [2] - 在5项测试中,理想L9有3项测试成绩优于问界M9,2项测试成绩与问界M9持平 [2] 各项测试表现详情 - **水马锥桶挑战**:理想L9与问界M9均在30km/h速度下1次通过测试,均未通过40km/h测试,且均未进行复测 [3] - **假人组团鬼探头横穿**:理想L9在80km/h速度下1次通过,复测再次成功;问界M9在80km/h速度下测试失败,复测仍失败,后在70km/h速度下测试成功 [4] - **地库下坡儿童嬉戏**:在10km/h站姿测试中,理想L9与问界M9均通过,但问界M9离假人距离更远;在10km/h坐姿测试中,两车均发生碰撞 [4] - **隧道盲区故障车自燃**:理想L9在80km/h测试失败,在70km/h测试成功;问界M9在70km/h测试失败,在60km/h测试成功 [5] - **暗夜逆光儿童鬼探头**:理想L9在90km/h测试失败,在80km/h测试成功并复测成功;问界M9在60km/h测试失败,在50km/h测试成功 [6] 测试过程与行业观察 - 5项测试中有3项执行了相同标准的复测,2项(假人组团鬼探头横穿、暗夜逆光儿童鬼探头)执行了不同标准的复测 [10] - 测试主持人初始预期为问界M9表现更优,但随着测试深入,愈发认为理想L9应为第一 [10] - 测试采用直播形式增强了参考性,但结果仅代表特定5个场景下的表现,不能完全等同于车辆在所有情况下的AEB能力 [10]