Workflow
强化学习
icon
搜索文档
强化学习教父重出江湖, 生成式AI的时代要结束了?
36氪· 2025-11-07 07:11
公司核心动态 - 强化学习奠基人、2024年图灵奖得主Richard Sutton以首席科学官身份加入ExperienceFlow AI,并创建“超级智能研究实验室”[5][6] - 公司定位为打造“经验驱动的去中心化超级智能”,总部位于旧金山[12] - 公司提出“自主企业”概念,旨在让AI系统能独立分析、规划、执行并优化流程[15] - 公司技术路线强调去中心化智能架构,允许企业与国家在自有计算资源和私有数据上构建独立智能体网络[16][20] 行业技术路线转向 - 生成式AI时代正接近终点,其依赖人类数据喂养的模式将面临极限,下一阶段将进入从经验中学习的新纪元[9][18] - 智能的核心从模型参数量转向“如何通过经验产生知识”,学习方式从模仿转向理解[13][18][34] - 强化学习的底层逻辑是智能体在环境中采取行动、获得奖励、调整策略,学习来自行动而非输入[9] - 真正的超级智能将推动制造、医疗、金融、零售、物流、机器人等关键行业的现实应用发展[15][26] 产品与市场愿景 - 公司技术旨在解决通往通用人工智能(AGI)的最后一道关键难题,推动持续学习、泛化能力及基于模型的层级规划[13] - 去中心化智能架构被视为下一轮算力与经济增长的引擎,将推动全球计算、硬件和数据生态的新一轮有机增长[16] - “自主企业”形态的公司将由能独立学习、协同判断的智能体构成,重新定义生产组织方式和企业概念[23][26] - 公司技术实现“AI主权”,让每个组织或国家都能训练出独具特色的智能,形成分布式的知识系统[21][28]
从转型和研究来看,什么方向更适合第一篇论文?
具身智能之心· 2025-11-06 11:47
研究方向选择 - 具身智能领域的研究方向包括视觉语言导航、视觉语言动作、强化学习以及真实到仿真再到真实的闭环方法[1] - 对于从事同步定位与地图构建研究的同学,视觉语言导航和视觉语言动作是较好的切入方向[1] - 拥有机械臂硬件的研究者可选择展开视觉语言动作研究,预算不足的研究者可利用仿真环境或低成本硬件如so-100进行实验[1] - 四足机器人和人形机器人更适合强化学习方向,而视觉语言动作的研究难度较高[1] 研究方法与支持 - 产生优秀的研究想法对新人研究者至关重要,但往往需要经历多次尝试[1] - 公司提供从选题创新点挖掘、实验设计、代码调试到论文写作和投稿策略的全流程闭环辅导服务[2] - 辅导服务覆盖中国计算机学会推荐A类到C类国际学术会议以及科学引文索引一区到四区期刊[2] - 导师团队由来自国内外名校的博士及头部企业研究员组成,具备顶级会议如ICML、ICLR、CoRL、ICRA、NeurIPS、CVPR的投稿和审稿经验[2] - 公司提供工业界与学术界双视角,不仅关注论文发表,更注重研究成果的落地价值[3]
ICML 2026新规「避坑」指南:参会非必须、原稿将公开、互审设上限
机器之心· 2025-11-06 05:28
ICML 2026 会议基本信息 - 会议将于2026年7月7日至12日在韩国首尔举办 [4] - 所有论文将采用双盲审稿机制 [4] - 最终被录用的论文将在大会上进行展示 [4] 论文提交格式与页数要求 - 投稿须以单个文件形式提交 [4] - 正文部分最多8页 [5] - 参考文献、影响声明和附录部分页数不限 [5] - 论文被录用后,作者可在最终版本中为正文部分额外增加1页 [6] - 补充材料不再设单独提交截止日期 [6] 重要政策变更 - 论文被接收后,作者可选择是否亲自到会现场进行报告,或仅将论文收录至会议论文集 [7] - 无论作者选择哪种方式,所有被录用的论文在论文集中的待遇完全相同,均有资格参与奖项评选 [8] - 对于仅选择论文收录的论文,应至少有一位作者完成线上注册 [9] - 除定稿版本外,大会还将公开论文的原始投稿版本 [10] - 被拒稿的论文作者也可选择是否公开其原始投稿版本、评审意见等相关记录 [10] 投稿重要日期 - 提交网站开放日期:2026年1月8日 [14] - 摘要提交截止日期:2026年1月23日 [14] - 全文提交截止日期:2026年1月28日 [14] - 摘要和论文提交截止日期为严格截止,不会有任何形式的延期 [15] 作者与互审要求 - 所有提交必须至少有一位作者同意担任审稿人 [17] - 一位作者最多只能在其本人的2篇提交中被指定为互审审稿人 [17] - 若某作者有4篇或以上投稿,则必须担任评审员 [17] - 若评审员短缺,此门槛可降低为3篇 [17] - 未满足互评要求或草率完成评审的投稿可能会被直接拒稿 [17] 评审与伦理规范 - 禁止双重或并行投稿 [18] - 允许使用生成式AI辅助写作或研究,但作者须对内容负全部责任,且LLM不能署名为作者 [21] - 禁止任何形式的提示注入,违者直接拒稿 [21] - 禁止抄袭、禁止在评审期间宣传正在投稿至ICML、禁止与评审员等串通 [21][22] 论文内容附加要求 - 每篇论文须附带潜在社会影响说明,置于论文末尾独立部分 [23] - 被接收论文作者需提交简明易懂的通俗摘要 [24] - 多篇投稿的作者可自愿对其论文进行质量排序 [25] 征稿主题范围 - 征稿主题涵盖通用机器学习、深度学习、机器学习理论、优化、强化学习、可信机器学习及应用驱动型机器学习等多个领域 [14]
喝点VC|a16z对话Replit创始人:最后要抽象掉的就是代码本身;语法对人类来说是反直觉的。所以最终英语才是编程语言
Z Potentials· 2025-11-06 03:03
AI编程平台Replit的技术演进 - Replit通过AI Agent技术将编程从语法输入升级为思维输入,用户只需用自然语言描述想法即可生成完整应用[6][10] - 平台已支持多语言编程环境,能够自动选择最适合的技术栈(如Python/Streamlit用于Data App,JavaScript/Postgres用于Web App)[8][9] - 系统具备完整的自动化部署能力,可在20-40分钟内完成从数据库创建到前端部署的全流程,并自动进行浏览器测试[16][17] - 平台同时保留传统IDE功能,开发者可查看源码、使用Git等底层工具,实现抽象化与透明化的平衡[17] AI Agent技术突破 - Agent持续运行时间实现指数级增长:从Agent1的2分钟到Agent3的200分钟,部分用户案例达到12小时[27] - 关键技术突破在于"验证环路"机制,通过多代理系统进行测试-修复迭代,使推理链可无限延伸[28][29] - 采用强化学习训练模式,结合代码执行环境让模型学习多步推理轨迹,显著提升长时推理能力[25][26] - 模型表现类似于"高效程序员",能够自主处理技术问题(如包兼容性检查)并调用搜索工具[33] 可验证领域的AI进展 - 在具有明确验证标准的领域(编程、数学、蛋白质结构等)进步显著,SWE-Bench测试准确率从5%提升至82%[40][44] - 代码领域发展最快,因具备编译检查和结果验证的双重验证机制[39][43] - 经济价值驱动技术优化,当前系统已能生成40页专业级分析报告,达到实用化水平[53][54] - "软领域"(如医疗诊断、法律论证)进展缓慢,因缺乏明确的真假验证标准[42][45] 编程抽象化的发展历程 - 编程语言抽象层级持续提升,从机器码到高级语言再到自然语言,每代革新都伴随行业质疑[14][15] - 英语成为终极编程语言,消除语法障碍是降低"偶然复杂度"的关键步骤[10][12] - 历史规律显示技术大众化不可逆转,类似JavaScript革命曾遭质疑但最终成为主流[15] AGI发展路径争议 - 当前技术范式依赖人类标注数据,与"无限算力扩展"的AGI路径存在根本分歧[47][48] - 迁移学习能力有限,不同领域需单独训练,尚未出现真正的通用智能[47][49] - 模型在争议性话题上可生成双向论证,但缺乏真相探索能力[55][56] - 经济实用性与理论突破形成张力,局部优化可能阻碍通用解决方案的探索[59][60] Replit创始人背景与平台起源 - 创始人早期开发浏览器代码执行技术,其开源项目被Codecademy等平台采用[66][68] - 平台核心理念是将所有开发环境云端化,通过Emscripten技术实现语言编译到JavaScript[67] - 创业灵感源于传统编程环境配置的复杂性,旨在消除开发者的环境配置负担[65]
深度|Andrej Karpathy:行业对Agent的发展过于乐观,一个能真正帮你工作的Agent还需要十年发展时间
Z Potentials· 2025-11-05 02:57
AI Agent发展路径与时间框架 - 行业认为AI Agent的发展将是一个长达十年的渐进过程,而非短期内能实现的突破,目前仍处于早期阶段[5][6] - 当前Agent系统在持续学习、多模态能力和熟练使用电脑等关键能力上存在明显短板,距离成为能真正协助工作的"员工"或"实习生"还有很大差距[7] - 正确的技术路径是先通过大型语言模型解决表示学习问题,再叠加行动与交互能力,早期试图直接构建全能Agent的尝试因缺乏强大表征能力而失败[9][10] AI与生物智能的本质差异 - AI系统是通过模仿人类和学习互联网数据构建的"数字化灵体",其优化机制与生物通过进化形成的智能存在根本区别[11][12] - 动物智能大部分由进化过程在基因层面预设,而非通过生命周期内的强化学习获得,人类在解决问题和推理等智力活动中并不主要依赖强化学习[13][14] - 预训练可被视为一种"低配版进化",同时完成知识积累和智能算法学习两重任务,但AI学习机制与人类睡眠中的记忆重组和抽象过程完全缺失[15][22] 大语言模型的技术特性与局限 - 模型在预训练阶段对训练数据形成的是"模糊回忆",而上下文学习则类似于人类的工作记忆,这是智能感鲜活呈现的关键[19][20] - Transformer架构可能对应于大脑的"通用皮层组织",但AI系统仍缺少许多关键脑区结构,如海马体和杏仁核对应的机制[21] - 模型坍缩问题表现为输出分布高度集中缺乏多样性,这直接影响合成数据生成的价值,而人类通过寻求外部熵来防止认知过拟合[48][51] 编程领域AI应用的现实状况 - 代码生成模型在处理高度定制化、结构独特的项目时表现不佳,最有效的使用方式仍是自动补全而非全自动Agent模式[30][33] - 编程成为AI最成功应用领域的原因包括文本中心交互、高质量训练语料、完备验证基础设施以及客观的评估标准[72][73] - AI在编程领域的进步更类似于编译器的进化而非程序员的完全替代,是计算机技术自然延伸的连续谱而非突变[38][39] 强化学习与训练数据挑战 - 强化学习被形容为"用吸管吮吸监督信号",整个长轨迹仅依靠最终一个比特信息进行参数调整,信号极其嘈杂[40][41] - 互联网预训练语料质量极差,模型大部分算力浪费在"压缩垃圾"上,未来突破关键在于数据集质量的跃升[58][59][63] - 过程监督面临自动化分配部分奖励的难题,LLM裁判易被对抗样本欺骗,需要新的算法思路而非简单迭代改进[44][46] AI产业发展趋势与影响 - 行业正变得更加务实,调整算力投资结构而非一味追求参数规模扩大,寻求不同阶段性价比最优配置[62] - AI对经济的影响将表现为任务级自动化而非职位完全替代,可能出现"AI协调层"管理尚未完全可靠的AI员工[68][69] - AI发展路径极不均衡,目前绝大多数经济价值集中在编程相关应用,而非均匀分布在所有知识性工作领域[71]
郎咸鹏给理想VLA新画的4个饼以及值得留意的5点
理想TOP2· 2025-11-04 13:33
VLA技术发展路线图 - 短期目标是在2025年底至2026年初搭建出训练的强化闭环,目标是让用户体验到车辆“活”了的感觉,实现持续成长 [1] - 中期目标是通过强化闭环在中国市场超越特斯拉,核心优势在于拥有比特斯拉更便利的闭环迭代环境 [1] - 两年周期内,VLA结合强化学习将引发业务大变革,预计2025年开始,经过2025-2026两年迭代,到2027年将形成企业真正的护城河,即整个业务流程的变革能力而非单一的模型、数据或芯片 [1] - 远期目标是利用VLA技术实现L4级别自动驾驶,并预期未来还会有新技术出现 [1] 强化闭环系统的工作机制与价值 - 强化闭环系统能自动识别问题,如用户接管、驾驶顿挫、急刹车等,自动收集问题数据并回传进行强化训练,完成迭代后上线,实现自我优化 [2] - 该能力被视为未来自动驾驶运营商的核心立足点之一,但可能不构成严格的护城河,因为最终可能有多家主体掌握自动驾驶技术 [2] 对VLA技术路径的倾向性看法 - 认为驾驶所需的智能程度相对较低,以目前大语言模型展现的智能水平足以应对自动驾驶,主要需解决时延问题 [3] - 业务流程改革完成后,经过1-2年时间,能更清晰界定车端算力与模型参数量需求,倾向于需求不会太大,给出的锚点是车端1000或2000 TOPS,云端32B参数模型,并认为将320B模型蒸馏成4B很不合适 [3] - 存在一种观点认为,在遇到明显瓶颈期前,算力和参数量整体上是越大越好,这与“the bitter lesson”的核心思想一致,即充分利用算力的通用方法最终会胜出 [3] 技术方法论与行业趋势 - DeepSeek的方法在浅层上通过更好的方法降低了对算力的需求,但深层内核符合“the bitter lesson”,其方法本身是通用的元方法,可通过增加算力提升性能 [4][5] - 自动驾驶领域的前进方向符合“the bitter lesson”,任何试图将人类对世界的理解硬编码到算法中的尝试大概率会被淘汰 [5] - 理想团队认为华为的W Engine与其所说的世界模型概念相似,而其他友商关于世界模型的讨论仍停留在模型本身层面 [9] 公司领导力与战略决策 - 公司CEO在2025年2月底提出加快交付VLA,其判断基于模仿学习本质不具备人类智能 [6] - CEO与校招生保持每月一次沟通,与自动驾驶负责人之间建立了基于信任的默契和并肩作战的基础 [6] - 公司管理强调“关注人不关注事”,团队内部的双向信任是公司能够调整价值观稀释问题的基础 [6] 智驾部门组织架构调整 - 智驾团队的核心护城河被定位为业务体系而非个人,部门现设有11个二级部门,负责人均具备业务背景而非纯管理出身 [7] - 核心管理者倾向内部培养,而Research/算法研究人才可从外部引进 [7] - 具体部门调整包括将原模型算法团队拆分为基础模型部、VLA模型部和模型工程部等,并新增创新业务部 [7] - 取消封闭开发模式,原因包括追赶者收益降低以及体现员工关怀,公司高层可能已形成阶段性共识需提高员工关怀 [7] - 部门负责人自述团队经历了三代骨干更迭,当前为新班子主导 [7] 对竞争对手的评价与定位 - 团队非常关注特斯拉FSD V14的进展,并计划在美国进行实车体验,认为特斯拉Ashok在ICCV 2025上的演讲与理想VLA理念高度一致 [8] - 回应博世不看好VLA的观点,指出博世不自研基座模型且缺乏大模型相关工作经验,数据量不大,并认为可通过强化学习和超级对齐解决模型幻觉问题 [9] - 针对华为的观点,强调在完成端到端过程中发现corner case数据收集的核心在于数据分布和质量,需要系统具备人类思维推理能力,并认为反对VLA的声音恰恰证明了VLA方向的正确性 [9] 公司运营与资源规划 - 公司战略分析法的核心是认知决定战略,战略决定业务,业务决定组织和资源 [12] - 2024年公司云端算力为8 EFLOPS,价值约10亿人民币数量级,当前推理算力与训练算力投入各占一半被认为比较合理 [11] - 公司正在研发42B参数的云端模型,并希望云端模型参数量不要过大 [11] - 对于自研自动驾驶芯片,策略是如果一颗芯片效果不佳,就采用两颗芯片的方案 [11] - 预测到2027年行业可能不再使用MPI作为核心评价指标 [11] - 2023年公司主基调是扩招,但自动驾驶负责人认为团队规模不需过大,比特斯拉团队多一些即可 [11] - 自动驾驶负责人将50%精力投入短期日常管理事务,30%投入中长期战略规划,20%投入技术和业务进展 [11]
强化学习AI系统的设计实现及未来发展
36氪· 2025-11-04 12:52
强化学习在大语言模型中的核心作用 - 强化学习是推动大语言模型提升智能程度的核心且复杂的训练环节,其复杂度体现在算法和系统整体要求上 [1] - 强化学习系统算法的工程化成熟度使大语言模型与强化学习得以很好融合,Agent既是强化学习算法的载体,也是大语言模型作为行动模型的载体 [3] - 从简单的聊天机器人向Agent进化的重要分水岭是模型能够自主选择合适行为并根据这些行为采取最优策略 [6] 强化学习算法演进与实践 - 人类反馈强化学习是早期引爆大模型热潮的关键技术,Instruct GPT利用人类反馈强化学习信号在GPT-3基础上研发出了能很好遵循指令并具备理解能力的学习系统 [8] - 业界实践采用人类反馈与机器反馈相结合的方式,DeepSeek的生成式奖励模型在输出分数前会以文字形式输出对分数的解释,提升模型能力 [9] - 算法探索走向两条道路:一是基于偏好对的DPO算法避免奖励模型训练和Critic函数使用,二是在编程等纯推理类场景中应用的GRPO算法 [16][20] - GRPO算法在进行Critic估计时没有采用模型估计方法,而是将推理过程重复多次,通过与均值和标准差的关系来估计优势 [20] 超大规模强化学习系统挑战 - 强化学习系统包含推理、评估和训练三部分,不是单纯的训练系统,在迈向超大规模时每个维度都面临升级挑战 [29] - 推理引擎需要支持权重的动态更新和高效传递,例如670亿参数模型的权重需要广播到整个集群是巨大挑战 [36] - 推理过程必须可以被打断,当模型更新时需要中断推理,暂停当前进程,等待权重更新后再重新计算KV Cache [43] - 训练部分需要在框架兼容性和效率之间权衡,选择Megatron等高效框架会牺牲与Hugging Face生态系统的兼容性 [47] 行业开源生态发展 - 中国厂商在强化学习框架领域非常勤奋,推出了许多高质量开源框架包括Open RLHF、VeRL、AReaL、Roll、Slime等 [53][55][57] - 这些框架都是从RLHF时代逐渐演进而来,主要区别在于采用的调度引擎、训练引擎和推理设计 [57] - 未来开源系统需要在推理效率、评估系统算力提升以及训练性能与生态平衡方面进行共建 [58] 强化学习应用趋势 - 强化学习应用范围从简单对齐人类指标转变为追求模型智能上限即推理能力,今年许多大模型在高考场景中取得接近985大学生的成绩 [25] - 下一阶段将探索端到端强化学习在业务场景中的应用,希望模型能深入研究某一领域,这是开放型长期决策问题 [28] - 评估环节的价值和耗时占比正变得越来越高,需要更全面综合的方法来全方位评估模型能力 [12]
Z Product|当广告遇上强化学习,前谷歌华人高管打造广告投放的“第二大脑”,MAI首轮融资2500万美金
Z Potentials· 2025-11-04 02:46
行业痛点与市场机会 - 数字广告行业高度复杂且碎片化,涉及Google Ads、Meta Ads、TikTok Ads等多个平台,参数繁多,优化难度大[3] - 中小企业缺乏数据科学团队和优化算法,难以有效管理广告投放,面临获客成本持续上升和人工优化效率下降的双重压力[3] - 现有自动化解决方案多停留在基于规则的层面,难以应对多平台投放和实时数据动态,行业存在依赖人工优化复杂系统的结构性问题[3][4] 公司产品与核心技术 - MAI是一个AI驱动的营销平台,核心产品是强化学习驱动的广告自动化系统,旨在让中小企业获得接近大公司级别的广告优化能力[9] - 系统通过直接连接企业电商后台(如Shopify)、客户关系系统(如Hubspot)及主要广告平台数据流,实现端到端整合,并在出价、预算分配、素材选择等多个层面同时进行动态优化[9][12] - 与基于大语言模型的营销产品不同,MAI专注于策略决策,其强化学习框架具备跨平台、跨阶段的适应能力,例如自动识别不同平台或时段的表现并动态调整预算分配[12] - 产品提供自然语言界面,用户只需提出业务目标(如“在不增加预算的情况下提高转化率”),系统即可生成并执行计划,同时提供可解释的决策路径[16] 产品效能与客户案例 - MAI系统平均为客户带来40%的销售提升,目前每月已优化数百万美元的广告支出[7][9] - 营养补剂品牌NutritionFaktory在使用MAI后,在广告预算增加三倍的同时,整体广告支出回报率(ROAS)依然保持在4倍以上,并迎来历史上最赚钱的月份[25] - 高端电动自行车品牌Velotric在MAI介入三个月后,广告回报率提升118%,整体销售额增长32%,搜索广告成本下降9%,转化价值翻倍[27] 商业模式与收费 - MAI采用按客户广告支出比例收取服务费的收费模式,通常为10%,例如月投放预算2万美元则服务费为2千美元,使公司利益与客户广告表现保持一致[21] - 公司主要面向两类客户:标准化月度服务的“Growth”用户(服务费为广告支出的10%)以及需要深度整合与专属服务的“Scale”企业客户(企业级报价)[21][22] 创始团队与公司背景 - MAI由前Google Ads与Instacart华人高管Yuchen Wu(CEO)和Jian Wang(CTO)联合创立,团队在广告、电商和机器学习领域拥有深厚经验[7][29] - 公司成立于2024年9月,于2025年获Kleiner Perkins领投的2500万美元融资,用于拓展全球市场,此轮融资亦获得高榕资本和UpHonest Capital等机构支持[7][36]
当还在纠结研究方向的时候!别的同学已经CCF-A了......
具身智能之心· 2025-11-04 00:05
服务核心定位 - 公司推出针对具身智能领域的科研论文辅导服务,旨在解决研究人员在论文选题、入门及技术方向选择上的困难 [1] - 服务提供从CCF-A到CCF-C类会议、SCI一区到四区期刊以及毕业论文、申博等全区间辅导 [2] 服务覆盖的技术方向 - 辅导服务覆盖多模态大模型、视觉语言动作模型、强化学习、视觉语言导航、遥操作、数据采集、机器人仿真、虚实迁移、端到端学习、扩散模型等多个前沿顶会方向 [2] - 服务针对具身智能领域的研究方向选择难题,例如在强化学习与视觉语言动作模型之间、传统SLAM与视觉语言导航之间如何选择提供指导 [1] 服务团队与特色 - 导师团队由来自国内外名校的博士及头部大厂研究员组成,拥有在ICML、ICLR、CoRL、ICRA、NeurIPS、CVPR等顶级会议的投稿与审稿经验 [2] - 提供全流程闭环辅导,涵盖从选题创新点挖掘、实验设计、代码调试、论文写作到投稿策略的全方位支持 [2] - 服务兼具工业界与学术界双视角,不仅关注论文发表,更关注技术的落地价值 [3] 咨询与获客策略 - 公司为前10名咨询者提供免费匹配专属导师的服务,可进行深度会议并获得个性化的会议、期刊选投建议 [4]
机器人“干中学”,人类不用再给工厂中的机器人当保姆
第一财经· 2025-11-03 12:49
技术应用与突破 - 智元机器人团队研发的真机强化学习技术已在与龙旗科技合作的验证产线中落地 [1] - 强化学习是一种让机器人通过不断尝试和反馈自主优化动作策略的AI训练方式 [1] - 传统强化学习通常在仿真环境中完成,但仿真到真实环境之间存在沟壑,虚拟策略需大量调试才能在真机稳定复现 [1] - 真机强化学习直接嵌入真实产线,使产线作业的通过率、作业节拍、良率直接成为机器人优化目标 [3] - 机器人可通过产线的原生信号完成训练,部署时间可缩减至分钟级 [3] 行业现状与挑战 - 人形机器人企业进入实际场景时,常需耗时数月进行部署和调试 [2] - 在工厂实际产线中,仅有两三台机器人作业,但负责调试与维护的工作人员达数十人 [2] - 为人形机器人配备10位工作人员进行调试、标定与安全监控被视为常态 [2] - 真机强化学习部署过程中可能存在物料损耗或安全风险,需通过预训练和底层控制将风险控制在可控范围内 [3] - 该技术不仅依赖算法本身,更依赖于与工厂系统在通信技术、数据接口等方面的深度对接 [3] 未来发展路径 - 团队正通过本地私有云与OTA机制,实现不同工序的真机强化学习经验共享,以解决批量复制难题 [3] - 此方法旨在实现模型的批量更新和复现 [3] - 需在实际环境中逐步打通底层环节,以确保工序间的数据流和反馈闭环真正形成 [3]