Workflow
Scaling Law
icon
搜索文档
公布最新研究!这次1XWorldModel如何颠覆人形机器人领域?
机器人大讲堂· 2025-06-29 03:53
1X World Model技术突破 - 1X Technologies发布全球首个人形机器人世界模型1X World Model,该模型基于视频生成技术(Sora)和自动驾驶世界模型(E2EAD)构建,能通过输入图像状态与动作指令模拟未来场景,解决具身机器人评估难题[1][2] - 模型在动作可控性方面取得突破,能根据不同动作命令生成多样化结果,精准模拟物体间交互如抓取箱子、保持其他箱子静止等效果[3][5] - 与主流文本转视频模型不同,1X World Model需由精确机器人轨迹控制,能精准模拟执行精确动作的后果,如开门、擦拭台面等复杂操作[7][8] - 模型预测与现实执行结果对比验证表现出色,能准确复现开门动态过程,严格遵循指令轨迹完成空抓动作,具有可靠评估不同策略执行质量差异的能力[10] 模型表现评估方法 - 传统基于物理的模拟器(如Bullet、Mujoco等)难以精准模拟现实复杂交互,需大量手工建模且仿真精度有限[14] - 1X World Model通过采集超3000小时真实操作数据,利用多模态数据融合技术,直接从海量真实传感器数据中学习世界动态,准确预测未来场景演变[16] - 模型能准确预测未来状态和任务成功率,预测结果与现实表现保持高度一致统计分布特性,为模型架构优化和检查点选择提供数据支撑[18] - 实证表明在1X World Model评估中表现突出的检查点实际评估中通常更优,当两个检查点存在15%的真实成功率差距时,具备70%对齐度的世界模型能以90%准确率预测更优策略[20] 扩展定律验证与多任务迁移 - 研究表明1X World Model策略评估准确性随数据规模提升而改善,在Airfryer、Arcade和Shelf三个任务上验证了数据规模的影响[25] - 定量分析显示随着数据量增加,模型预测准确率持续提升,例如增加交互数据后能准确建模托盘分离运动及底座限制等细微物理交互[32] - 多任务迁移实验表明,在仅有2.16亿token的Shelf数据上模型对齐度为63.06%,结合14.6亿token的Arcade数据后提升至71.17%,验证了通过任务经验积累实现泛化的可行性[35] - 机器人自主策略rollout数据(特别是失败案例)对提升对齐度至关重要,缺乏失败数据会使模型过度乐观,出现错误估计抓取半径等问题[38] 行业影响与未来展望 - 1X World Model解决了机器人领域高质量数据稀缺问题,提供了精准评估任务表现的统一框架,使通用智能机器人发展迈入新阶段[41] - 模型进展可能让机器人技术经历类似"GPT时刻",加速家庭服务机器人商业化落地,并重塑整个AI产业竞争格局[42] - 随着训练算力提升和真实世界数据积累,模型预测准确率持续攀升,预示着机器人技术可能即将迎来关键的"数据奇点"[41]
通往 AGI 之路的苦涩教训
AI科技大本营· 2025-06-26 11:10
核心观点 - Google DeepMind CEO Demis Hassabis预测未来5到10年内有50%概率实现通用人工智能(AGI)[1] - AI发展历程中最大的教训是过度依赖人类经验而非算力与数据规模[2][3] - 当前AGI探索面临技术路径的隐忧,包括强化学习的局限性、脑模拟的算力瓶颈以及NLP的认知边界问题[9][14] 技术路径分析 - **强化学习**:虽为早期突破性技术,但存在"短视"缺陷,需结合更宏观的智能框架[14] - **脑模拟**:受限于算力瓶颈与理论盲区,难以完全复现人类认知机制[14] - **自然语言处理(NLP)**:虽进展迅速,但语言能力不等同于认知能力,模型输出与真实思想存在本质差异[9][15] 行业趋势与反思 - **算力驱动**:历史表明AI突破的核心引擎是计算规模而非人类直觉[2][3] - **大模型争议**:Scaling Law下参数膨胀可能掩盖智能本质,引发"进化还是幻觉"的质疑[15] - **跨学科融合**:脑科学与AI交叉研究成为新方向,强调对世界理解与知识迁移的能力[7][13] 关键人物与事件 - **刘嘉教授**:从AI转向脑科学再回归,提出AGI需融合认知科学、心理学等多学科视角[7][13] - **AlphaGo事件**:标志性技术转折点,推动研究者重新审视智能的本质与构建路径[7] - **《苦涩的教训》**:Richard Sutton指出AI发展应放弃人类经验依赖,专注算力与数据扩展[2][3] 未来探讨方向 - AGI构建是否需突破语言模型的表层能力,实现真正的认知理解[9][15] - 技术路线选择如何平衡短期效果(如NLP)与长期智能本质(如脑模拟)[14] - 跨学科研究(脑科学+AI)对突破现有范式局限的潜在价值[7][13]
Kimi还能找到月之亮面吗?
36氪· 2025-06-25 08:08
行业竞争格局演变 - 行业焦点从Kimi的长文本能力转向多模态生成(视频/代码)和Agent应用[1] - 大厂入场导致竞争加剧:字节豆包依托抖音生态实现流量垄断 单月投流预算达1.24亿[9] - 技术护城河被侵蚀:DeepSeek开源长文本模型 豆包整合视频库 Kimi仍依赖单一文本交互[12] Kimi发展历程分析 - 早期技术优势:2023年率先实现20万至200万字长文本处理 形成非对称竞争力[2][3] - 资本追捧因素:技术稀缺性+创始人学术光环(CMU博士/苹果谷歌导师)+资本防御性布局焦虑[3][4] - 估值逻辑:参照OpenAI 860亿美元估值 阿里8亿美元投资占股36%[4] 战略失误与运营问题 - 投流失控:单月最高投放2.2亿 日均烧钱700万 投流费用占比达70%[7][30] - 用户质量失衡:DAU从50.83万飙升至589.7万但高知用户流失 品牌调性受损[8][11] - 技术空心化:资源向流量倾斜 延误多模态和视频理解等关键技术升级[11] 潜在突围方向 - 提升价值密度:优化Kimi Researcher的交互逻辑 实现"打断+追问"深度研究功能[15][16] - 深耕垂直场景:医疗病历分析/法律条款审查等B端需求 配套完整开发者工具链[18][19] - 聚焦核心用户:服务数千万效率工作者 建立内容质量而非数量的竞争优势[22][23] 行业启示 - 战略定力关键:识别主要矛盾(真实付费需求) 避免被资本和流量带偏节奏[25][26] - 商业化前置:产品开发需同步规划变现路径 可持续增长率公式揭示投流占比应<30%[29][30] - 护城河本质:客户付款凭证比融资头条更重要 技术信仰需通过商业闭环验证[31]
Kimi没有梦想
虎嗅· 2025-06-24 05:32
行业动态 - AI行业产品迭代频繁,大模型版本更新速度达月均一次,但市场关注度集中于AI自媒体领域[1] - 行业存在代际更替现象,当前"杭州六小龙"取代了上一代"AI六小虎"的行业地位[2] - 技术路线争议显现,2024年11月OpenAI科学家质疑Scaling Law局限性,DeepSeek推出基于强化学习的新模型挑战传统技术路径[20][21] Kimi公司发展历程 - 2023年成立初期以长文本处理为技术特色,创始人杨圣提出"长文本是AI新内存"的理论框架[11][12] - 2023年内完成两轮融资累计近20亿人民币,2024年初获阿里8亿美元投资后估值飙升至30亿美金[13][14] - 公司战略多次转向,从长文本主业扩展到Agent开发、社区运营等新业务线[5][7] 运营策略问题 - 采取激进用户增长策略,投入大量资源进行短视频投流,内容定位偏离技术路线[16] - 早期投资人推崇"数据飞轮"理论,但2024年底行业证实Scaling Law存在技术天花板[18][19][20] - 营销决策被质疑模仿移动互联网烧钱模式,类比ofo单车的失败案例[17] 公司危机事件 - 2024年11月11日爆发重大商业伦理争议,创始人涉及老股东仲裁案及套现指控[22] - 舆论危机导致融资渠道受阻,尤其失去国资投资可能性[23] - 市场评价公司为"大号版循环智能",反映商业模式可持续性受质疑[24] 创始人背景 - 杨圣以卡耐基梅隆博士学历和AGI信仰建立"天才少年"人设,初期技术路线选择具前瞻性[11] - 但后期战略执行出现偏差,未能维持技术领先优势[6] - 创始人叙事光环因商业纠纷完全破裂,影响公司形象[22]
小鹏想要的,不止“留在牌桌上”
虎嗅APP· 2025-06-19 23:55
核心观点 - 小鹏汽车通过MONA M03车型实现销量和营收高速增长 同时净亏损大幅收窄 并通过精准产品定位和高效营销策略成功吸引女性及年轻用户群体 [3][4][6][13][16] - 公司持续加码自研AI芯片和智驾技术 通过大规模基座模型验证Scaling Law在自动驾驶领域的有效性 并计划在G7车型上实现超高算力配置以支持未来智驾功能升级 [20][21][23][28][34] 销量与财务表现 - 2024年1-5月销量同比增长293% 一季度营收同比增长142% 净亏损收窄52% [4] - 零跑汽车同期销量增长161% 营收增长187% 净亏损收窄87% [4] 产品策略:MONA M03 - 定价10万元级别 续航达620公里CLTC(实际450-500公里) 配备电动弹开门把手、电动尾门和智能泊车功能 [7] - 采用后桥扭力梁悬架 无仪表盘 方向盘仅两个滚轮 仿皮座椅 215/50 R18窄轮胎 无热泵空调 [8] - 从滴滴收购项目后仅用6-8个月完成产品调整 工程验证阶段至量产阶段内核全面优化 [9] 用户群体与营销创新 - 女性用户占比达38.6% 平均年龄28.5岁 未婚未育比例76.5% 远高于行业21.3%的女性用户平均水平 [13] - 快速推出白色内饰选项响应女性需求 女性下单比例进一步升至50% [14][16] - 采用青春化营销策略 邀请王勉、何广智、欧阳娜娜等明星参与发布会 打造"MONA小镇"沉浸式体验场景 [16] 技术研发与智驾布局 - 自研"图灵AI芯片"配备40核处理器、DSA、双ISP和双NPU 单颗支持300亿参数大模型 三颗组合算力超2200TOPS [20][21] - 基座模型累计训练2000万条30秒视频片段 参数规模达10亿至720亿 验证Scaling Law在智驾领域有效性 [28][29] - 引入强化学习机制 实现复杂场景下无保护左转、多车道变道、障碍物避让等高阶智驾功能 [30][33][34] 公司战略定位 - 明确"卷科技"路线 避免与传统车企拼价格 聚焦AI和智驾技术差异化竞争 [18][19] - 通过引入传统汽车行业人才优化采购、成本控制和销售体系 为技术创新提供支撑 [37][38]
小鹏想要的,不止“留在牌桌上”
虎嗅· 2025-06-19 23:13
销量与财务表现 - 零跑和小鹏1-5月销量同比分别增长161%和293%,一季度营收同比分别增长187%和142%,净亏损分别收窄87%和52% [2] - 两家车企营销策略差异显著:零跑保持低调仅举办两场车型发布会,小鹏则采用高强度营销流程包括多阶段产品发布和车主文化活动 [2][3] 产品策略与市场定位 - 小鹏MONA M03以10万元定价实现销量占比超50%,核心优势为620公里CLTC续航(实际450-500公里)、智能泊车等刚需配置,同时削减非核心功能如后桥扭力梁悬架、热泵空调等控制成本 [7][8][9][10][11] - 产品调整高效:小鹏在6-8个月内完成滴滴C1车型改造,通过用户需求调研优化配置,形成差异化竞争力 [12] 用户画像与营销创新 - MONA M03女性用户占比达38.6%(行业平均21.3%),年轻化(平均28.5岁)和未婚用户(76.5%)特征显著,通过白色内饰等快速响应提升女性占比至50% [18][19][20][21] - 营销活动精准定位:邀请欧阳娜娜等明星强化新手司机视角,打造"MONA小镇"场景化展示,发布会风格年轻化 [23][24][25] 技术研发与自动驾驶 - 小鹏自研"图灵AI芯片"单颗算力超700TOPS,G7搭载3颗实现2200TOPS算力,远超行业主流300TOPS配置,目标验证自动驾驶领域Scaling Law效应 [27][30][31] - 基座大模型采用思维链推理(CoT)技术,已训练720亿参数模型,累计处理2000万条30秒视频数据,结合强化学习实现自动驾驶能力持续进化 [36][40][42] - 实际路测显示复杂场景处理流畅,如无保护左转、多车道变道等,计划通过OTA升级将点对点智驾成功率提升至70% [44][45][47][48] 公司战略与行业竞争 - 小鹏明确"卷科技"路线,避免与传统车企价格战,聚焦智驾和AI技术差异化 [26][27] - 通过引入传统汽车人才优化供应链和成本控制,为技术创新提供支撑,目标建立体系化能力而非依赖单一爆款 [50][51]
推荐大模型来了?OneRec论文解读:端到端训练如何同时吃掉效果与成本
机器之心· 2025-06-19 09:30
核心观点 - 推荐系统正经历由大型语言模型(LLM)驱动的生成式革命,端到端架构成为解决传统级联架构瓶颈的关键[2] - 快手提出的OneRec系统首次实现端到端生成式推荐全链路重构,在效果与成本上实现双赢[2][8] - OneRec已在快手双端应用,承接25% QPS,提升停留时长0.54%/1.24%,LT7显著增长[2][33] 技术架构创新 - **架构设计**:采用Encoder-Decoder框架,将推荐转化为序列生成任务,Encoder压缩用户行为序列,MoE架构Decoder实现参数扩展[6][11] - **多模态分词**:首创协同感知方案,融合视频标题、标签、语音转文字等多维信息,分层语义编码(RQ-Kmeans三层ID)[13][14] - **强化学习整合**:通过P-Score奖励模型(个性化融合目标预测值)和ECPO优化算法,提升用户停留时长而不损失曝光量[19][22][25] 性能与效率突破 - **算力利用率**:训练/推理MFU提升至23.7%/28.8%,较传统精排模型(4.6%/11.2%)提升3-5倍[27][31] - **成本优化**:OPEX降至传统方案的10.6%,关键算子数量压缩92%至1,200个[27][31] - **训练加速**:自研SKAI系统优化Embedding训练,UGMMU减少kernel数量,时间加权LFU算法提升缓存效率[36] 实验效果 - **短视频场景**:AB测试显示停留时长提升0.54%/1.24%,LT7增长0.05%/0.08%,交互指标全面正向[33] - **本地生活场景**:GMV增长21.01%,订单量提升17.89%,新客获取效率提高23.02%,已100%全量上线[34] - **Scaling Law验证**:参数规模从0.015B增至2.633B时,训练损失显著下降,符合大模型扩展规律[15] 未来方向 - **多模态桥接**:需构建用户行为与LLM/VLM的原生融合架构[38] - **奖励系统完善**:当前设计较初级,需强化对用户偏好和业务需求的引导[38] - **推理能力提升**:Infer阶段Scaling能力不足,需进一步优化[38]
云载 AI·健行未来——火山引擎“AI+医药大健康”行业论坛圆满落幕
财富在线· 2025-06-19 09:13
AI+医药大健康行业论坛核心观点 - 医药大健康行业正经历AI驱动的范式转变,云计算、大数据与AI技术深度融合将释放普惠价值 [1] - AI在科研创新、医疗信息化、药企数字化三大领域实现场景落地:充当科研机构"算力伙伴"、医院"转型助手"、药企"数据治理与智能应用提供方" [1] - 行业需结合临床医疗、生物学等数据,在疾病预防、药物设计等环节开发原创性AI技术 [3] AI技术应用成果 科研领域 - 广州实验室与火山引擎联合开发的Bio-OS-Co-Pilot系统,通过多智能体协作将数年科研流程压缩至小时级,加速建模、多模态融合等环节 [4] - AI通过贝叶斯定理、Transformer等原理支撑大模型能力跃升,实现复杂科研问题的可学习化重构 [4] 药企数字化转型 - 津药达仁堂通过数智化战略使数字化成熟度指数提升14.3%,零售动能驾驶舱实现"查打一体"闭环,AIGC内容工厂实现营销内容全链路生产 [6][8] - 数智化网络调研平台累计提升价值600多万元,效率提升8倍,ROI达3.8,并挂牌北京国际大数据交易中心首个中医药数据产品 [8] 医疗服务优化 - 美中宜和已部署AI胎心监护、病历书写助手等临床工具,计划构建以智能数据平台为核心的"AI医院"重构服务模式 [10] - 医院AI系统正从"以人为核心"向"智能体驱动"演进,医疗数据标准化处理成为关键 [10] 医疗AI落地挑战与方向 - 行业面临数据治理难度大、AI严肃性要求高等挑战,需从高性价比场景切入构建可持续迭代机制 [12] - 科研数据分析、后勤支持等"低风险高价值"场景将优先落地,AI在诊前引导环节可显著提升效率 [14][15] - AI在临床决策中定位为"助手",未来研究方向需从医院效率转向患者获得感提升 [15] 未来展望 - 火山引擎将持续完善豆包大模型能力,推动AI在生命健康领域的深度落地,构建智能医疗生态 [17]
电子行业2025年中期投资策略:算力需求仍将加大,端侧应用加速落地
东莞证券· 2025-06-17 09:21
报告核心观点 全球AI大模型竞争激烈,国产大模型崛起,算力需求持续加大,AI端侧应用加速落地,建议围绕AI算力和AI端侧两条主线布局,关注相关领域公司[176] 终端复苏及AI创新驱动,2024及25Q1业绩向好 - 行业2024年业绩向好,受益于宏观经济改善、补贴政策和AI大模型导入,智能终端需求复苏,云端算力硬件需求加大,营业收入28036.40亿元,同比增长17.04%,归母净利润和扣非后归母净利润分别增长24.10%和36.12% [13] - Q1业绩延续高增,受终端需求复苏和AI创新驱动,营业收入6949.32亿元,同比增长18.47%,归母净利润和扣非后归母净利润分别增长26.92%和32.12% [18] - 细分领域业绩亮眼,消费电子、PCB、CCL、面板制造营收和归母净利润均有不同程度增长 [26] 国产模型迅速崛起,DeepSeek推动模型平权 - 国产模型迅速崛起,比肩国际领先模型,中美竞争差距缩短,国产模型厂商在27个领先模型中占据22席 [29] - DeepSeek性能不断提升,R1-0528在多项基准测试中接近国际领先模型 [32] - 通义千问和豆包积极更新,具备较强竞争力 [37] - 国产模型API性价比凸显,有助于降低开发者使用门槛,加快AI大模型渗透 [42] 算力需求仍将加大,硬件业绩持续释放 - Scaling Law拓展至后训练、推理阶段,模型厂商在后训练和推理阶段投入更多算力,提升大模型深度思考能力 [47] - 推理带动Token消耗量增加,未来推理算力需求将进一步爆发 [50] - 海内外巨头资本开支高增,主权AI需求有望加速释放 [56][62] - 英伟达业绩略超预期,Blackwell出货加快,台系ODM厂月度营收高增,AI服务器出货动能充足 [63][66] - H20出口受限,国产算力市场打开,华为推出384超节点,集群能力大幅提升 [70][71] - AI服务器PCB迎来量价齐升,HDI需求有望井喷,多家陆系厂加快HDI布局 [76][79][82] - PCB和CCL产业链业绩持续释放,2024年和25Q1营收和归母净利润均快速增长 [84][97] AI端侧应用加速落地 AI手机渗透率有望提升,关税影响仍需进一步观察 - 终端需求回暖,2024年全球智能手机出货量同比增长约7%,2025Q1同比增长3% [112][115] - 终端推出系统级智能体助手,有望拉动用户换机需求 [120] - AI手机渗透率有望提升,预计2025年达到34%,同比提升约16个百分点,关注价值量提升环节 [131] - 关税影响仍需进一步观察,短期关注关税政策,中长期AI加持的智能终端有望加快落地 [135] Ray-Ban Meta爆品推动,AI眼镜出货量有望快增 - AI眼镜逐步落地,具备多媒体体验和多模态交互能力,有望加速渗透 [136] - Meta推出AI眼镜产品,出货量超百万,用户接受度提升 [140][144] - 国产终端积极跟进,密集推出多款产品,雷鸟V3具备多种优势 [144][151][153] - AI眼镜出货量有望快速增长,预计2025年达到376万副,2024 - 2028年复合增速为58.86% [155][156] - AI眼镜产业链新增多个环节,芯片是核心部件,AR眼镜光学显示系统成本占比较高 [160][163][169] 投资建议 - 围绕AI算力和AI端侧两条主线布局,关注AI服务器ODM、高端PCB/CCL产能公司,以及智能手机和智能眼镜相关环节 [176][179]
Scaling Law首次在自动驾驶赛道被验证!小鹏汽车CVPR演讲详解:AI「吃」下6亿秒视频后,智能涌现
量子位· 2025-06-16 04:50
核心观点 - 小鹏汽车在CVPR 2025上首次验证了Scaling Law在自动驾驶VLA模型上的有效性,展示了其"自动驾驶基座模型"的技术突破[1][46] - 公司通过720亿参数的云端VLA大模型+车端蒸馏小模型架构,实现了无规则代码托底的纯AI司机能力,决策丝滑度显著超越传统方案[4][30][42] - 新技术路线突破L2端到端局限,以"世界模型+强化学习"构建具备链式思考(CoT)能力的AI驾驶系统[18][38][40] - 量产车G7搭载3颗自研图灵AI芯片(2200TOPS),成为首款实现"VLM大脑+VLA小脑"架构的L3级AI汽车[22][53][55] 技术架构 - **云端基座模型**:720亿参数VLA大模型,骨干网络采用LLM架构,已训练2000万条30秒视频片段,验证Scaling Law效应[30][43][46] - **车端部署**:通过知识蒸馏将云端能力迁移至车端小模型,解决直接训练小模型的模态坍塌问题,实现5天/次迭代周期[42][46][47] - **世界模型**:开发中的实时建模系统可生成corner case训练数据,模拟智能体博弈行为,强化基座模型能力[39][40] - **芯片算力**:自研图灵AI芯片单颗等效3颗主流芯片,G7搭载3颗达2200TOPS,超算集群达10 EFLOPS(效率90%)[50][51][53] 能力验证 - **无规则驾驶**:完全依赖基座模型完成加减速、变道绕行、红绿灯等待等任务,无紧急避险动作[4][7][14] - **复杂场景**:成功通过福州特殊路口(两树间车道)、雨天窄路违停绕行、施工区突遇汇入货车等极端场景[15][17][11] - **决策优势**:相较传统方案(触发急刹概率高),新系统在目标距离/速度临界区间仍保持丝滑通过率[15][17] 行业突破 - **技术路线**:首创"云端大模型+车端蒸馏"架构,突破L2端到端黑箱局限,实现可解释的链式思考能力[23][26][60] - **量产应用**:G7成为行业首款搭载VLM(车辆大脑)+VLA(运动小脑)的量产车,定义AI汽车新标准[55][56][57] - **通用能力**:技术体系已扩展至机器人、飞行汽车领域,形成具身智能统一解决方案[64][65] 数据表现 - 训练数据量达2000万条30秒视频片段[43] - 云端模型参数量720亿,车端模型通过蒸馏实现能力迁移[30][42] - 超算集群算力10 EFLOPS,迭代周期5天/次[50] - 量产车G7算力2200TOPS(3颗自研芯片)[53]