强化微调(RFT)

搜索文档
还在卷端到端模型?Embodied-R1另辟蹊径:用“指向”+强化学习实现SOTA性能!
具身智能之心· 2025-09-02 00:03
点击按钮预约直播 点击下方 卡片 ,关注" 具身智能 之心 "公众号 >>直播和内容获取转到 → 具身智能之心知识星球 通用具身智能的发展长期受限于一个核心难题:"视觉到行动的鸿沟"(seeing-to-doing gap)。这一鸿沟源于两大挑战: (a) 数据稀缺 ,有限的机器人数据难以将语言和视觉与物理动作充分关联; (b) 形态异构 ,多样的机器人形态阻碍了知识的有效迁移。 尽管现有的视觉-语言-动作(VLA)模型在模仿专家演示方面表现出色,但在新环境中,其性能往往会急剧下降。无论是端到端模型存在的知识遗忘问题,还是 模块化模型易于出现级联故障的弊端,都未能有效解决这一根本性问题。如何让机器人真正"理解"它所看到的,并将其转化为精准的物理操作,是推动通用机器 人发展的关键。 在机器人研究中,如何让"看到的"顺利转化为"做到的",一直是一个难题。虽然近年来的视觉语言模型(VLM)和视觉语言动作模型(VLA)大幅提升了机器人 理解场景与指令的能力,但当机器人真正要操作物体时,性能常常大打折扣。VLM本身具有强大的环境感知和视觉理解能力,但基于VLM进行继续训练的端到 端VLA却几乎完全失去了零样本的操作能力 ...
深度|ARR过亿美金AI招聘00后创始人:未来最有价值的是拥有“反常识性观点”和“品味”的人,人们最应该优化自己的适应性
Z Potentials· 2025-04-24 03:10
AI赋能人才评估 - Mercor通过训练模型预测人才胜任力 准确率超越人类判断 实现招聘流程自动化 所有顶尖AI实验室已采用该系统招聘数千名工作人员[5] - 评估范围覆盖所有经济价值技能 包括咨询 软件工程 视频游戏等领域 基础模型公司和应用层公司均需上游评估任务支持[6] - 人类数据市场正经历从众包模式向筛选顶尖人才的转变 评估重点转向经济价值工作而非零样本测试[7][8] 人才评估技术演进 - 模型在文本测量领域表现超人类 可处理高体量标准化流程 但对多模态信号理解仍需发展[11][12] - 线上公开内容如GitHub Dribbble等蕴含被忽视的人才信号 模型可高效挖掘这些数据[14] - 国际背景与专业热情等隐藏信号可通过模型识别 解决人才匹配低效问题[15][16] 劳动力市场变革 - 知识型工作价值呈幂律分布 模型可识别90百分位高绩效者 显著影响企业决策[9] - 客服 招聘等领域已出现岗位替代 实体世界自动化速度将慢于数字世界[18][20] - 未来劳动力市场将碎片化转向全球化 实现人与Agent协同工作匹配[47][48] 评估系统构建 - 需按行业创建Agent评估任务 从同质化领域如客服切入 逐步扩展至复杂工作[26] - 强化微调(RFT)数据效率极高 仅需数百样本即可定制模型 优于监督式微调[42][43] - 评估系统需关注经济价值工作 如软件工程师的协调能力 而非单一任务表现[25] 企业招聘策略 - 早期阶段应优先人才密度而非速度 数据驱动识别关键人才特征[48] - 构建"数据飞轮"机制 通过绩效反馈优化招聘决策 形成正向循环[46] - 统一评估体系受限于技术 当前LMS能力突破使自动化匹配成为可能[49]