Workflow
具身智能之心
icon
搜索文档
用SO-100,竟然完成这么多VLA实战......
具身智能之心· 2025-12-13 01:02
文章核心观点 - 文章指出,视觉语言动作模型在从理论到实际部署的落地过程中存在显著障碍,许多初学者和研究者即使拥有开源模型和硬件,也难以复现演示效果或成功部署[2][4] - 文章认为,打通数据采集、模型训练优化与部署的全流程存在高门槛,涉及大量未公开的实践技巧,导致学习曲线陡峭,效果难以保证[4][7] - 文章旨在推广一门名为《面向实战与求职的VLA小班课》的付费课程,该课程宣称提供从硬件到算法的全栈实战培训,以解决上述落地难题[10][12] VLA模型落地的主要挑战 - **模型复现与效果达成困难**:即使如GR00T、PI0等模型已开源,依据其代码也难以展示出良好的演示效果[2] - **训练与推理存在鸿沟**:训练过程类似“炼丹”,损失函数虽已降低,但部署到实体机器人进行推理时任务常失败,且原因难以定位[2] - **世界模型应用模糊**:业界讨论世界模型已一年多,但学习者不清楚如何在训练和推理中具体应用[2] - **全流程打通门槛高**:将数据、VLA模型、训练优化、部署整套任务打通对初学者非常困难,有人踩坑半年仍无法入门[4] - **模型训练依赖技巧与细节**:π0、π0.5、GR00T等模型的训练存在许多“trick”,对细节和技巧要求很高[4][7] VLA落地的关键模块与技术难点 - **数据采集**:主要方法包括基于模仿学习的遥操作、VR、全身动捕捉,以及强化学习,在机械臂领域多采用前两种,如何保证数据质量及实现sim2real是关键[5][6] - **模型训练与仿真调试**:在真机数据不足时,仿真和sim2real尤为重要,常使用mujoco、Isaac Gym等框架,训练技巧是关键,例如如何微调模型、在小数据量下取得好结果[7] - **模型部署与轻量化**:训练完成后需对模型进行“瘦身”,因具身模型参数量大,即使2B规模对边缘芯片部署挑战也大,需采用量化、蒸馏等轻量化操作以保证性能并最小化参数量[9] 课程内容与结构 - **课程定位**:课程由具身智能之心平台联合VLA专家开发,宣称是国内首个面向实战与求职的VLA小班课[10] - **课程内容覆盖面广**:涵盖机械臂硬件、数据采集、VLA算法、评测、仿真、主流VLA模型部署、VLA+世界模型、各类真机实验以及具身产业讲解[12] - **课程硬件配套**:购买课程即赠送一套SO-100机械臂,包含示教臂和执行臂[17] - **讲师背景**:讲师为某机器人公司VLA高级研究员,拥有5年以上机器人行业实战经验,熟悉全栈技术,并在顶级期刊发表论文10余篇[20] - **面向人群**:包括正在具身领域求职者、VLA入门进阶者、相关领域学生、希望从传统CV/机器人/自动驾驶转行者,以及对领域感兴趣的其他人员[22] - **技术要求**:建议推理使用3060及以上显卡,训练使用2张以上3090ti显卡,学员可自租云服务器,并需具备一定的Python和PyTorch基础[22] - **课程收获承诺**:学员将掌握真机调试与数据采集、各类VLA算法真机部署、模型量化技术,对产业落地有清晰认识,简历可获得足够项目支撑,学完可达1-2年以上算法工程师经验水平[25] 课程时间安排 - **开课时间**:课程于2025年12月30日正式开课[23] - **课程章节时间表**: - 第一章:2025年12月30日[26] - 第二章:2026年1月7日[26] - 第三章:2026年1月10日[26] - 第四章:2026年1月25日[26] - 第五章:2026年1月30日[26] - 第六章:2026年2月6日[26] - 第七章:2026年2月16日[26] - 第八章:2026年2月21日[26] - 第九章:2026年2月25日[26]
看一次就能执行!VLA的零样本学习是伪命题吗?
具身智能之心· 2025-12-13 01:02
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Guangyan Chen等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在机器人研究领域,视觉 - 语言 - 动作(VLA)模型虽已展现出端到端控制的潜力,但通用操纵策略的开发仍面临核心瓶颈——现有模型难以泛化到训练分布之外 的任务,而人类仅需观察一次示范即可快速掌握新技能。 北京理工大学与 LimX Dynamics 联合提出的 ViVLA 框架 ,以 "单样本视频模仿学习" 为核心目标,通过 "统一动作空间构建 - 并行解码优化 - 大规模数据生成" 的 三层技术体系,首次实现机器人从单段专家示范视频中高效学习新技能,为通用机器人政策学习提供了全新范式。 论文题目:See Once, Then Act: Vision-Language-Action Model with Task Learning from One-Shot Video Demonstrations 核心亮点: ...
效率提升25%,灵巧操作数采困境被「臂-手共享自主框架」解决
具身智能之心· 2025-12-13 01:02
编辑丨机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 实现通用机器人的类人灵巧操作能力,是机器人学领域长期以来的核心挑战之一。近年来,视觉 - 语言 - 动作 (Vision-Language-Action,VLA) 模型在机器人技能学 习方面展现出显著潜力,但其发展受制于一个根本性瓶颈: 高质量操作数据的获取。 ByteDance Seed 团队最新的研究论文《End-to-End Dexterous Arm-Hand VLA Policies via Shared Autonomy》[1],针对这一关键问题提出了解决方案。 该研究的核心贡献在于提出了共享自主 (Shared Autonomy) 框架,通过合理划分人类操作员与自主 AI 系统的控制职责——人通过 VR 遥操作控制机械臂 (负责高层 定位和避障),DexGrasp-VLA 自主控制灵巧手 (负责精细抓握),消除了同时遥操作臂和灵巧手的需求,大幅降低操作员认知负荷,有效解决了机器人部署中最关 键的数据采集成本问题。通过将数据采集 ...
全球强化学习+VLA范式,PI*0.6背后都有这家公司技术伏笔
具身智能之心· 2025-12-13 01:02
文章核心观点 - 视觉-语言-动作模型与在线强化学习结合是具身智能领域一个极具前景的技术方向,能够解决仅靠模仿学习导致的泛化能力不足问题,使机器人更鲁棒、更通用 [4][8][50] - 清华大学与星动纪元团队提出的iRe-VLA方法,通过“分阶段冻结参数”和“探索-内化”的循环迭代,有效解决了对大模型直接进行强化学习时面临的稳定性、算力与模型坍塌三大难题,为VLA+RL的落地提供了可行方案 [16][19][48] - 实验证明,iRe-VLA方法在仿真与真实机器人任务中均显著提升了任务成功率与泛化能力,例如将抓取新物体的成功率从35%提升至80%,并在未训练过的物体上实现从37%到61%的成功率提升 [38][43] VLA+RL的重要性与挑战 - **重要性**:仅靠监督微调的模仿学习在遇到未见情况或数据不完美时,机器人会不知所措,而在线强化学习允许机器人通过试错发现更优解,是实现机器人**非常鲁棒、持久工作**的关键 [8] - **挑战一:环境差异**:物理机器人任务周期长、奖励稀疏,与在离线数据集上训练的聊天机器人不同,学习更为困难 [12] - **挑战二:模型坍塌与不稳定性**:直接对数十亿参数的VLA模型进行在线强化学习,极易出现“灾难性遗忘”或训练崩溃,性能可能倒退 [12] - **挑战三:算力负担**:在本地对几十亿参数模型进行全量梯度更新,硬件要求极高,常超出机器人控制器算力极限 [12] 行业解决方案路径 - **第一种:外挂式干预**:训练额外价值函数或小型RL策略来引导冻结的VLA模型生成动作,VLA本身参数不变,**没有真正发生质变** [19] - **第二种:暴力美学**:直接使用PPO等算法全量微调VLA,勇气可嘉但易导致模型坍塌且算力要求高 [19] - **第三种:从探索到内化的循环**:以iRe-VLA为代表,利用监督微调将RL探索出的高价值行为稳定内化为模型的原生能力,是更可行的路径 [13][19] iRe-VLA方法核心架构与流程 - **模型架构**:VLA模型分为**VLM主干**和轻量级**Action Head**,采用LoRA技术避免全量微调 [17][18] - **第一阶段:在线强化学习**:**冻结VLM主干**,仅训练轻量级的Action Head和Critic Head,使训练稳定且计算量小,可在单张4090显卡上运行,让机器人安全探索 [21][26] - **第二阶段:监督学习**:**解冻VLM主干**,对整个模型进行全参数微调,训练数据混合了RL探索出的新成功轨迹与原始专家数据,防止灾难性遗忘,此阶段计算量大,通常在云端A100集群进行 [32] - **循环迭代**:两个阶段交替进行,形成“探索-内化”的持续学习循环 [30] 实验结果与分析 - **训练稳定性**:iRe-VLA训练曲线稳步上升,而标准PPO直接微调VLA则震荡剧烈,甚至性能下降,证明分阶段冻结参数至关重要 [35] - **仿真环境表现**:在MetaWorld和Franka Kitchen基准测试中,iRe-VLA在已学任务上表现大幅提升,例如将成功率从43%提升到83%,并能学会完全没见过的任务 [38] - **真实世界表现**:在Panda机械臂抓取新物体任务中,仅靠SFT的成功率约为35%,经iRe-VLA在线学习后,成功率**飙升到了80%**,且在完全未参与训练的第三类物体上,成功率也从37%提升至61%,显示出强大的泛化能力 [40][43] - **消融实验**:若第二阶段不解冻VLM,模型性能提升将遇到瓶颈,证明解冻大模型参数对掌握复杂技能和提升泛化性是必要的 [45] 方法的意义与优势 - **经济性**:巧妙分配算力,本地进行轻量级探索,云端进行重量级消化,符合实际部署场景 [54] - **持续学习**:使机器人能通过自我探索,在不遗忘旧技能的前提下,不断掌握新物体和新任务的操作技能 [54] - **行业影响**:iRe-VLA是**全球最早将在线RL引入VLA的工作之一**,被Physical Intelligence的π*0.6论文引用,代表了该方向的前沿进展 [19][50]
具身智能之心论文辅导正式推出了,国内最专业的师资来啦!
具身智能之心· 2025-12-12 07:59
公司业务与服务 - 公司正式推出具身智能之心论文辅导服务,提供专业师资支持 [1] - 公司服务覆盖大模型、视觉语言模型、机器人技术等多个前沿研究方向,包括VLA、强化学习、3DGS等 [1] - 公司提供论文全流程指导、实验指导以及申博指导等服务 [4] - 公司服务范围涵盖从顶级会议期刊到毕业设计等多种论文级别,包括CCF-A/B/C类会议、SCI各分区、EI等 [5] 市场表现与成果 - 公司辅导的论文中标率很高,已有多篇被CVPR、AAAI、ECCV等顶级会议和期刊收录 [4] - 公司根据不同论文级别设定不同的辅导价格 [4] 客户咨询与联系 - 公司支持带课题或研究方向进行咨询 [2] - 客户可通过指定微信联系公司进行更多咨询或获取论文辅导内容 [2][6][7]
大摩预测了25家人形机器人公司将主导行业,没有宇树、智元
具身智能之心· 2025-12-12 07:59
摩根士丹利报告核心观点 - 摩根士丹利发布报告预测25家人形机器人企业将主导该行业 其中中国有7家企业上榜[2] - 报告名单的侧重点并非常规理解的整机制造商 而是隐藏在背后的关键“零部件/模组供应商” 包括AI芯片、视觉传感器、精密执行器和电源管理芯片等领域的公司[3][4] - 报告认为这些基础部件供应商是人形机器人发展浪潮中沉默却关键的基石[4] 上榜企业名单与领域分布 - 报告列出了25家全球公司 涵盖综合科技、半导体、软件、电子制造、汽车智能解决方案、激光雷达等多个细分领域[2] - 中国上榜的7家企业具体为:百度(综合)、阿里巴巴(综合)、地平线机器人(汽车智能解决方案)、均胜电子(汽车智能解决方案)、科大讯飞(智能翻译)、德赛西威(电子制造)、禾赛科技(激光雷达)[2][3] - 全球其他代表性公司包括英伟达(美国/半导体)、ARM(英国/软件)、三星电子(韩国/半导体)、意法半导体(欧洲/半导体)、英飞凌(德国/半导体)等[2] 报告引发的行业讨论 - 报告名单未包含宇树、智元等国内知名的人形机器人整机制造商 引发了部分从业人员对其“专业性”的质疑[4] - 报告选择标准强调核心基础部件供应商的重要性 而非终端产品制造商[3][4] - 目前中国国内已形成近150家人形机器人创业公司 无论行业是否存在泡沫或泡沫多大 基础部件都被视为刚需[4]
GLaD:知识蒸馏将3D几何先验注入VLA模型,任务成功率突破94%
具身智能之心· 2025-12-12 01:22
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Minghao Guo等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 一、研究背景与核心动机 视觉-语言-动作(VLA)模型是具身智能领域的关键技术,能够让机器人直接从视觉观测和自然语言指令中生成控制动作。现有VLA模型大多依赖CLIP、SigLIP等 2D视觉编码器,这类编码器擅长捕捉图像与文本的语义对应关系,却无法编码3D空间信息(如深度、物体位姿、空间关系)。 这种缺陷会导致模型在操作任务中出现错误的注意力分配,如figure1所示:在"将桌布从桌角移到桌边"和"拾取盘子与ramekin之间的黑碗并放到盘子上"任务中,传 统VLA模型会错误关注无关区域,无法精准定位任务相关物体,进而影响操作任务的完成精度。 为解决这一问题,研究团队提出GLaD框架,核心思路是通过知识蒸馏将3D几何先验注入VLA模型,使其同时具备语义理解和空间推理能力,且无需依赖额外的深 度传感器或3D标注。 ...
被拒≠失败!这些高影响力论文都被顶会拒收过
具身智能之心· 2025-12-12 01:22
Waymo的AI战略与知识蒸馏 - Waymo近期发布深度博客,阐述了其以Waymo基础模型为核心的AI战略[1] - 谷歌首席科学家Jeff Dean在社交媒体上分享了该博客,并重点介绍了Waymo使用的蒸馏方法,该方法与创建Gemini Flash模型的思路类似,旨在基于更大模型创建可机载运行的高计算效率模型[1] 同行评审制度的历史局限性 - 回顾AI发展史,许多支撑起万亿级产业的基石技术在最初问世时,都曾被顶级学术会议拒之门外[6] - 同行评审制度虽为质量守门人,但在面对过于超前或离经叛道的研究时,存在系统性认知滞后,包括简单性陷阱、范式惯性和对理论严谨性的过度要求[41] - 科学发展的非线性表明,同行评审善于识别错误,但往往拙于鉴别天才,真正决定研究生命力的是其解决问题的能力与时间检验[43] 曾被拒稿的里程碑式技术与论文 LSTM (长短期记忆网络) - 论文《Long Short-Term Memory》于1996年被NIPS会议拒稿[7][8] - 在当时神经网络寒冬的背景下,其门控机制被认为参数过多、过于复杂且缺乏生物学合理性[9] - 该论文目前引用量已超过139,707次,并在2010年代随算力与数据爆发,于语音识别和机器翻译中展现出统治级表现[8][10] SIFT (尺度不变特征变换) - David Lowe提出的SIFT算法在1997年和1998年先后被ICCV和CVPR会议拒稿[12] - 拒稿理由是算法被认为过于繁琐、不够优雅,不符合当时学术界对严密数学推导的偏好[12] - 该算法最终以海报形式发表,统治计算机视觉领域长达15年,其论文引用量超过27,389次[13][16] Dropout - Geoffrey Hinton团队关于Dropout的论文在2012年投稿NIPS时被拒[17] - 评审认为随机“删除”神经元的方法过于激进、缺乏数理逻辑,并将作者使用的生物学隐喻视为不够科学的工程技巧[17] - 该技术后来成为AlexNet赢得ImageNet比赛的关键,论文引用量超过60,231次,并获得了NeurIPS时间检验奖[17][21] Word2Vec - Tomas Mikolov等人(包括Jeff Dean)关于Word2Vec的论文在首届ICLR会议上被“强烈拒绝”[20][22] - 评审意见尖锐,认为工作“不科学”、“定义模糊”,且过度关注工程优化而缺乏理论解释[20] - 作者通过开源代码使其迅速普及,成为NLP领域基石,论文引用量超过50,855次,并在2023年获得NeurIPS时间检验奖[20][22] 知识蒸馏 (Knowledge Distillation) - 由Geoffrey Hinton、Oriol Vinyals和Jeff Dean合著的论文在2014年被NeurIPS拒稿,理由是其“不太可能产生重大影响”[3][4][31] - 评审未能认识到“暗知识”概念的深远意义,即知识隐含在错误类别的概率分布中[25] - 该论文最终在研讨会上发表,开启了模型压缩领域,目前引用量已超过28,600次,并成为大模型落地的重要方法[4][27][31] YOLO (You Only Look Once) - 论文《You Only Look Once: Unified, Real-Time Object Detection》在2015年被ICCV会议拒稿[29][32] - 在R-CNN系列主导的时代,评审因其定位精度(mAP)不如当时最优方法而拒绝,忽视了其实现45 FPS实时检测的速度突破[29] - YOLO系列已成为工业界最受欢迎的检测框架,其论文引用量超过69,782次[30][32] RoBERTa - 论文《RoBERTa: A Robustly Optimized BERT Pretraining Approach》在投稿ICLR 2020时被拒[34] - 评审认为其新颖性和技术贡献有限,只是证明了“仔细调参”和“更多数据”的有效性[34] - 该工作成为后续NLP研究的标准基线,论文引用量超过23,479次,揭示了优化训练细节的实战价值[34] Mamba - 论文《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》在ICLR 2024的评审中折戟[35][38] - 评审认为与其前作相比增量不足,且未能在所有任务上全面超越Transformer[37] - 尽管被拒,该架构在社区引发巨大反响,基于Mamba的变体大量涌现,成为2024年最具影响力的架构创新之一,论文引用量已超过6,799次[38][39] 跨领域的启示与案例 - 即使是阿尔伯特·爱因斯坦关于引力波的论文也曾被《Physical Review》送审并收到尖锐的匿名评审意见,尽管该意见后来被证实指出了论文中的一个错误[44][47] - 这些案例表明,一项研究的最终价值取决于其解决问题的能力及历史回响,而非短暂的评审决定[47] - 许多具有深远影响的研究者,包括图灵奖和诺贝尔奖得主,都曾经历过论文被拒[48]
NeurIPS'25! AutoSeg3D:在线完成任意3D分割,只需1张4090
具身智能之心· 2025-12-12 01:22
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨 具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 前沿 在大模型时代都在拼scaling,对于具身自驾这种任务似乎都想要8卡起步训练一个模型,今天借助分享的机会也给大家推荐可以1张4090就能发顶会的方向,就是本 文写的具身场景点云实例分割。当然不是说推荐给大家一个用少量资源"水论文"的方式,当时让学生做这个方向也是因为觉得是可以真实落地的技术,也没特别出 乎意料,这篇论文已经开始在两家公司进行技术转化切实落地。对于具身来说,VLA或者各种所谓世界模型是很fancy,但是还有很多听起来不那么fancy的方向既 能发论文又能真实落地,也希望能看到更多底层技术可以被研究优化支撑真正的产业化。 也欢迎大家来无界-AutoLab联合实验室(上海)实习,一起共创各种有意 思的技术方向:) -- Dylan老师 论文总结 (1)作者发现现有的在线 VFM 辅助方法通常先用 SAM 等 VFMs 预测 2D ...
AAAI 2026 Oral | 机器人也能“看人学活”?一次示范就能学会新任务!
具身智能之心· 2025-12-12 01:22
研究背景与问题 - 从人类示范中学习是机器人执行任务的一种潜力巨大的方式 但现有方法通常依赖粗对齐的视频对 只能学习全局或任务级别的特征 忽略了复杂操作和泛化所需的细粒度帧级动态信息[3] - 现有模型在已见任务上表现良好 但面对人类展示的从未见过的新任务时表现不佳 原因在于主流方法依赖粗糙的人机视频对齐 机器人只能大概知道人在干什么 却不知道人手具体如何动作[8] - 数据不够精细导致模型学不到关键动作细节 许多方法将整段视频压缩成固定长度向量 丢失了细节 使得模型无法理解动作间的微小差别 从而缺乏真正的泛化能力[8] 解决方案与核心创新 - 复旦大学和上海创智学院提出了一种范式转变 将细粒度的人机动作对齐视为一个条件视频生成问题[3] - 核心创新是让机器人看着人类做 然后脑补出自己应该怎么做 即直接生成一段对应的机器人操作视频 该方法要求模型逐帧预测机器人下一步如何移动 从而在生成过程中学会动作细节和理解操作逻辑[8] - 为支持该方法 研究团队引入了一个全新的第三人称数据集H&R 该数据集包含2,600段通过VR远程操控系统采集的精准同步的人类和机器人动作视频 涵盖4类基础任务和6类复杂长程任务[3][9] Human2Robot技术框架 - 该方法分为两个阶段 第一阶段是视频预测 机器人看到人类操作时 模型直接生成一段机器人应该如何动作的视频 模型先学会生成单帧 再进阶训练整个视频以掌握完整的动作演化过程[12][13][14] - 视频预测模型包含三个关键组件 Spatial UNet负责捕捉机械臂形状和手部动作等关键信息 Spatial-Temporal UNet负责理解动作连贯性并学会逐帧预测的时间关系 Behavior Extractor负责提取人手的位置、速度和方向等运动线索[15] - 第二阶段是动作解码 由于视频渲染速度慢不适合实时操作 因此只取一次去噪后的中间特征 这些特征已包含机械臂下一步的位置、动作趋势和物体相对关系 然后训练一个动作解码器来输出机器人的关节角或位姿[16][21] 实验结果与性能 - 在已见任务上 Human2Robot方法在所有任务上均取得最高成功率 对比基线方法DP、XSkill和VPP Human2Robot保持超过10–20个百分点的优势[20] - 具体数据表明 在Push & Pull任务上Human2Robot成功率为100% 在Pick & Place任务上为90% 在Rotation任务上为90% 平均成功率为93%[19] - 引入KNN推断的Human2Robot在所有任务上仍优于各基线方法 相比完整版本 KNN策略仅带来约10–20%的成功率下降 处于可接受范围内[20] 泛化能力评估 - 该方法能够实现对新的位置、物体、实例 甚至全新任务类别的一次性泛化 对于一个没见过的任务 只需要给一段人类完成任务的视频 即可让机器人完成这个任务[4] - 在六类泛化设置中 Human2Robot在位置、外观、实例与背景变化下均保持领先 并能完成组合任务与全新任务 而XSkill与VPP在后两者上均失败[27] - 泛化优势被认为源于H&R数据集提供的明确人机动作对应关系 以及视频条件提供的细粒度动态信息 这使得策略具备了跨任务泛化能力[27] 消融研究与有效性验证 - 测试了直接从人类视频预测机器人动作的方式 该方法平均成功率仅为23% 动作执行抖动明显 对抓取等关键行为不敏感 说明仅依靠人类视频推断机器人动作映射较为困难[25] - 为验证视频生成预训练的必要性 设计了未进行预训练的变体 结果显示该方法几乎无法完成任务 最简单的推拉任务成功率仅为20% 抓取放置任务仅为10% 证明视频预训练对于建立动作先验至关重要[26] - 可视化分析表明 仅经过一步去噪的预测已包含足够的动作信息 可有效支持后续的动作规划 30步去噪结果与真实机器人视频高度一致 验证了所提出视频预测模型架构的有效性[24]