强化学习

搜索文档
阶跃星辰姜大昕:多模态目前还没有出现GPT-4时刻
虎嗅APP· 2025-05-08 13:13
公司概况 - 阶跃星辰由前微软全球副总裁姜大昕创立于2023年 核心团队包括首席科学家张祥雨和系统负责人朱亦博 形成技术研发与AI基础设施建设的铁三角架构 [5][7] - 公司员工规模达400余人 其中80%为技术研发人员 采用扁平化管理模式 员工可通过私信直接与CEO沟通 内部设有技术协同会和见闻分享群 [5][6] - 商业模式聚焦ToB服务和开发者API接口 2024年下半年多模态API调用量增长超45倍 2024年12月完成B轮数亿美元融资 [5][7] 技术战略 - 核心主张"理解生成一体化架构" 将原生成小组和理解小组整合为统一团队 认为这是实现多模态突破的关键路径 [2][3][4] - 建立Step系列通用大模型矩阵 覆盖语言模型和原生多模态模型 是国内少数坚持预训练路线的公司之一 [14][15] - 2025年1月发布推理模型Step R1-V-Mini 性能超越OpenAI早期版本 计划未来三个月推出满血版Step-R1 [17] 行业趋势判断 - 模型演进遵循三阶段路径:模拟世界(模仿训练)→探索世界(强化学习)→归纳世界(自主发现规律) 与OpenAI的AGI五级划分逻辑一致 [9][12] - 当前竞争焦点转向"智能上限" OpenAI等五大厂商半年内发布超8款新品 国内月之暗面等公司同步发力 [7][9] - 多模态领域尚未出现"GPT-4时刻" 核心卡点在于缺乏可扩展的理解生成一体化架构 需突破predict next frame技术难题 [2][28] 产品应用 - 推出Step 1X-Edit图片编辑模型 实现初级理解生成一体化 对原图忠实度达90%以上 正在开发更先进版本 [31] - 布局智能终端Agent生态 与手机/汽车/机器人领域头部企业合作 提供云端Agent构建平台和运行环境 [36] - 落地巡店等商业场景 通过规则Prompt实现操作规范检测 准确率超90% 显著提升连锁门店管理效率 [19] 发展路线 - 短期聚焦强化学习在预训练模型的应用 提升长思维链推理能力 解决奖励函数定义等工业界难题 [17] - 中期突破视觉领域理解生成一体化 构建可扩展架构以处理高维连续空间 最终实现世界模型 [24][28] - 长期通过"超级模型+超级应用"双轮驱动 形成从云到端的Agent生态体系 重点布局智能硬件场景 [33][36]
阶跃星辰姜大昕:多模态目前还没有出现GPT-4时刻
虎嗅· 2025-05-08 11:50
公司概况 - 阶跃星辰由前微软全球副总裁姜大昕于2023年创立,总部位于上海,北京办公室距离微软中国办公地仅504米 [1] - 公司核心管理团队包括CEO姜大昕(战略与技术研发)、首席科学家张祥雨(技术研发)、系统负责人朱亦博(AI基础设施) [1] - 公司员工规模达400余人,其中80%为技术研发人员,采用扁平化管理模式,员工可通过私信直接与CEO沟通 [2] - 2024年12月完成B轮数亿美元融资,是"AI六小虎"中少数坚持预训练路线的公司 [3] 技术战略 - 核心聚焦多模态基础模型研发,坚持"理解生成一体化架构"技术路线,认为这是实现AGI的必经之路 [1][11] - 已建立Step系列通用大模型矩阵,涵盖语言模型和多模态模型,2024年下半年多模态API调用量增长超45倍 [1][11] - 2025年1月发布推理模型Step R1-V-Mini,计划未来三个月推出满血版Step-R1 [14] - 近期将算法团队重组为"生成理解"团队,体现对理解生成一体化架构的重视 [1] 行业趋势判断 - 多模态领域尚未出现"GPT-4时刻",核心瓶颈在于缺乏统一的理解生成一体化架构 [1] - 模型演进路径分为三阶段:模拟世界(模仿训练)→探索世界(强化学习)→归纳世界(自主发现规律) [5][7] - 当前两大技术趋势:1) 将长思维链推理能力融入语言/多模态模型 2) 视觉领域理解生成一体化 [18][19] - 智能体(Agent)发展需要两个条件:多模态能力和慢思考能力,2024年这两方面取得突破性进展 [31] 产品应用 - 主要收入来源:面向品牌客户的ToB服务和面向开发者的API接口业务 [3] - 已推出Step 1X-Edit图片编辑模型,采用初级理解生成一体化技术,未来几个月将发布更先进版本 [30] - 重点布局智能终端Agent生态,与手机、汽车、机器人领域头部企业合作,提供云端Agent开发平台 [34][35] - 实际应用案例包括茶百道/瑞幸门店巡店系统,通过视觉推理实现90%以上的操作规范检测准确率 [17] 竞争格局 - 基础模型领域竞争激烈,过去半年仅OpenAI/Google/Meta/Grok/Anthropic就发布不少于8款新品 [3] - 国内竞争对手包括月之暗面、MiniMax等,但阶跃星辰在多模态覆盖广度和原生多模理念上具有差异化优势 [3][12] - 公司认为当前竞争焦点仍是"追求智能上限",将持续投入强化学习和多模态前沿技术研发 [4][15]
98年清华小伙,如何带着一群草根在机器人马拉松中逆袭?
混沌学园· 2025-05-08 11:08
公司发展历程 - 2023年9月公司成立时面临融资困境,团队由草根创业者组成,缺乏顶尖学历和行业资源,初期接触的投资机构均无果而终[6][7][8] - 团队自筹100万资金在北京顺义别墅实验室开发出首台人形机器人样机,凭借实物展示获得清华系投资机构760万元种子轮融资[11] - 2024年初公司经历技术瓶颈和人才危机,现金仅够支撑10个月运营,通过重组团队转向强化学习算法路线,5个月内实现机器人跑跳动作并在世界机器人大会展示,获得5000多万元pre-A轮融资[13][14][15][25] - 2025年通过"后空翻"技术展示和39900元定价策略实现商业化突破,抖音投放1小时获得数百条销售线索,随后在机器人马拉松比赛中包揽二三名,订单总量突破1000台[28][30][31][34] 技术突破路径 - 初期用1个多月时间完成从硬件样机到嵌入式系统全跑通,实现机器人行走功能,创造行业速度记录[11][13] - 技术路线从传统模型预测控制(MPC)转向深度强化学习(DRL),通过专项算法题筛选潜力工程师,5个月内实现机器人跑跳单腿跳等高级动作[20][22][24][25] - "后空翻"技术成为关键突破点,该动作对硬件爆发力、结构稳定性、电池放电能力和极限工况算法提出综合挑战[28][30] 商业化策略 - 采用"技术+流量+极致性价比"组合拳:空翻技术展示制造噱头,39900元定价仅为行业均价的60%,形成市场冲击[30][31] - 通过抖音1小时精准投流获得首批销售线索,快速搭建销售团队实现闭环,两个月内从零订单到产能满载[31][34][35] - 借力机器人马拉松赛事获得媒体曝光,三轮车测试辅助设备成为创新亮点,包揽比赛名次带来持续流量[34] 团队建设经验 - 早期面临"三无团队"(无顶尖学历/明星履历/行业资源)困境,通过实物demo打破投资机构对豪华团队的迷信[6][7][39] - 资金危机时逆向操作:在现金仅剩10个月时仍投入重组团队,通过算法题筛选理论基础扎实且热爱行业的潜力人才[18][22][24] - 建立"技术验证-资本注入"良性循环:用世界机器人大会展示获得pre-A轮融资,用商业化突破稳定现金流[25][31][35]
学海拾珠系列之二百三十四:利用强化学习和文本网络改进相关矩阵估计
华安证券· 2025-05-08 08:07
量化模型与构建方式 1. **模型名称**:RL-TBN(基于文本网络的强化学习模型) - **模型构建思路**:通过融合强化学习的动态优化与文本网络(TBN)的结构化先验,构建数据驱动的协方差矩阵估计框架。强化学习采用近似策略优化(PPO)算法,TBN用于衡量企业间的产品相似性[3] - **模型具体构建过程**: 1. **收缩方法**:将样本协方差矩阵向目标矩阵收缩,公式为: $$\widetilde{\mathbf{R}}_{t}=(1-\alpha)\widehat{\mathbf{R}}_{t}+\alpha\mathbf{\widetilde{R}}_{t}$$ 其中$\alpha$为收缩强度,$\widetilde{\mathbf{R}}_{t}$为目标矩阵(如TBN或单位矩阵)[32][33] 2. **TBN构建**:解析公司10-K报告中的产品描述,计算企业间相似性得分。通过归一化词向量和余弦相似度构建TBN矩阵: $$B_{t}={\frac{M_{t}M_{t}^{\mathsf{T}}}{\|M_{t}\|_{F}^{2}}}$$ $M_t$为归一化后的企业产品描述矩阵[37][38] 3. **强化学习优化**: - 状态定义为股票收益向量$s_t = (r_{1,t}, r_{2,t}, ..., r_{N,t})$ - 动作为收缩强度$\alpha_t$ - 奖励函数采用指数效用:$r_t = \frac{1 - e^{-\gamma r_{p,t}}}{\gamma}$,其中$r_{p,t}$为投资组合收益率[48] - 使用PPO算法更新策略,目标函数为: $$J(\theta) = \mathbb{E}[\min(\rho_t(\theta) A_t, \text{clip}(\rho_t(\theta), 1-\epsilon, 1+\epsilon) A_t)]$$ $\rho_t$为策略比率,$A_t$为优势函数[53] - **模型评价**:RL-TBN结合了TBN的低波动性优势和RL的动态适应性,能有效降低估计误差并提升投资组合稳健性[4][5] 量化因子与构建方式 1. **因子名称**:基于文本网络的相似性因子(TBN因子) - **因子构建思路**:通过分析公司10-K报告中的产品描述,量化企业间产品相似性,作为股票相关性的先验信息[36] - **因子具体构建过程**: 1. 提取每家公司10-K报告中描述产品的非通用名词(约200个/公司) 2. 构建二进制词向量$P_i$并归一化: $$V_{i}={\frac{P_{i}}{\|P_{i}\|_{2}^{2}}}$$ 3. 计算企业间余弦相似度,形成TBN矩阵$B_t$[37][38] - **因子评价**:TBN因子具有低波动性和基本面关联性,能捕捉行业结构和供应链关系,优于传统相关性矩阵[23][24] --- 模型的回测效果 1. **RL-TBN模型**: - 年化波动率:0.088 - 夏普比率:1.351 - 风险价值(VaR):0.129 - 换手率:未明确数值(但提及考虑20bps交易成本)[4][77][79] 2. **基准模型对比**: - 样本协方差法(Sample):波动率0.186,夏普比率0.805 - TBN固定收缩法(TBN_Half):波动率0.186,夏普比率0.805 - 等权重组合(Naive):波动率未明确,夏普比率低于RL-TBN[77][79] --- 因子的回测效果 1. **TBN因子**: - 预测股票相关性:滞后一期的TBN相似性得分对下一期股票相关性的回归系数为0.349(显著)[106] - 矩阵范数稳定性:TBN的Frobenius范数波动显著低于样本相关性矩阵[100][101] - 经济周期敏感性:高收缩强度($\alpha>0.773$)与低投资者情绪(-0.106)和高宏观经济不确定性(0.938)显著相关[94][95] --- 补充分析 - **面板向量自回归(PVAR)**:验证TBN与股票相关性的动态关系,过渡矩阵显示TBN对相关性有持续影响[109][110] - **脉冲响应分析**:TBN相似性得分每增加1单位,未来股票相关性下降0.133单位(统计显著)[106][110]
国泰海通:具身智能驱动人形机器人商业化落地 算法突破等成行业上涨催化剂
智通财经网· 2025-05-08 07:56
行业前景 - 具身智能是人形机器人商业化落地核心因素 驱动感知性能、算力、通信效率等需求增长 [1] - 人形机器人潜在应用场景覆盖生产制造、社会服务、危险作业等领域 对人类社会适配性高 [1] - 2024-2028年中国人形机器人智能水平整体处于Lv1 少部分产品向Lv2探索 市场规模不足百亿元 [1] - 2045年以后中国人形机器人市场规模有望突破万亿元 [1] 技术发展 - 多模态大模型提高人机交互效率 英伟达GR00T、特斯拉Grok3整合多模态感知 提升交互及决策精度 [2] - 优必选基于DeepSeek-R1研发具身推理大模型 预期可实现复杂环境中准确高效反应和决策 [2] - 强化学习成为运动算法主要范式 基于奖励函数实现步态、奔跑等运动高效学习并增强泛化能力 [2] - 纯视觉+六维力传感器+电子皮肤有望成为传感器标准方案 显著降低硬件成本并提高感知灵敏度 [2] 基础设施 - EtherCAT具备高实时性、低延迟与高同步性 通信延迟由CAN协议的毫秒级降至微秒级 预计成为主流通信协议 [2] - 机器人智能向具身智能演进 端侧算力需求持续增长 驱动端侧芯片性能升级 [2]
突破多模态奖励瓶颈!中科院清华快手联合提出R1-Reward,用强化学习赋予模型长期推理能力
量子位· 2025-05-08 06:58
核心观点 - 多模态奖励模型(MRMs)在多模态大语言模型(MLLMs)表现提升中起关键作用,强化学习(RL)可增强其长期推理能力但存在训练不稳定问题 [1] - 中科院自动化所、清华大学、快手和南京大学团队提出R1-Reward模型,基于MM-RLHF框架,通过StableReinforce算法实现训练稳定性突破 [1][11] - 模型在benchmark上超越SOTA模型5%-15%,且推理采样次数增加时性能可进一步提升 [2][3][42] 技术突破 算法创新 - 提出StableReinforce算法:改进损失函数裁剪操作(Pre-Clip)、设计优势过滤器(3-sigma规则)、引入一致性奖励机制 [11][23][26] - 优化目标函数:$$\ell_{Reward}(\theta)=E_{x,y_w,y_l}[-\log\sigma(r(y_w|x)-r(y_l|x))]$$ 强化好答案与坏答案的分差 [12] - 渐进式训练策略:先用GPT-4o生成20万条偏好数据(R1-Reward-200k)进行监督微调,再针对高难度样本进行RL训练 [33][36][41] 性能表现 - 在VL Reward-Bench等测评基准上准确率提升8.4%-14.3%,推理时采样15次投票策略可使准确率从71%跃升至86.47% [11][38][42] - 输出分析内容平均长度减少15%,显示推理效率提升 [44] - "Any Correct"策略在K=15时接近100%准确率,显示模型潜力 [42] 方法论 问题重构 - 将奖励模型训练转化为基于规则的RL任务:模型需判断两个答案的优劣并给出分析 [8] - 设计三重奖励函数:格式奖励(规范输出结构)、结果奖励(匹配人类偏好)、一致性奖励(分析逻辑自洽) [40] 数据策略 - 构建R1-Reward-200k数据集,标注样本难度(GPT-4o尝试次数),RL阶段专注训练高难度样本 [11][36][41] - 冷启动解决方案:通过GPT-4o生成带思考链的SFT数据,缓解长思考链冷启动问题 [33][34] 实验发现 - 模型展现人类式反思能力:能自主发现计算错误并修正 [43] - 投票机制显著提升性能,验证RL在多模态奖励建模中的潜力 [39][42] - 一致性奖励有效解决"精神分裂"问题(分析结论与最终答案矛盾) [30][31] 应用前景 - 为RL在多模态奖励模型中的应用提供新范式 [45] - 开源模型与代码(Hugging Face/GitHub)推动行业研究 [46] - 未来可探索更先进的推理时扩展方法和训练策略优化 [45]
仅看视频就能copy人类动作,宇树G1分分钟掌握100+,UC伯克利提出机器人训练新方式
量子位· 2025-05-08 04:04
技术突破 - UC伯克利团队研发出VideoMimic系统,可将视频动作迁移到真实机器人,无需动作捕捉技术[1][3] - 系统已成功让宇树G1机器人模仿100多段人类动作[2] - 核心原理是从视频提取姿态和点云数据,在模拟环境中训练后迁移到实体机器人[3][17] 技术实现细节 - 工作流程包括视频到仿真环境转换、仿真训练、真实机器人部署验证三大步骤[18] - 从单目RGB视频获取人体三维姿态和稠密场景点云,通过SMPL人体模型表示[19] - 将稠密点云转换为轻量级三角网格模型以提高碰撞检测和渲染效率[21] - 训练过程分为四个渐进阶段,最终得到泛化能力强的控制策略[24][32] - 策略输入包括机器人本体感受信息、局部高度图和期望躯干运动方向[24] 应用效果 - 宇树Go1机器人已学会适应各种地形,包括跨越路肩和上下楼梯[7][9][12] - 机器人能在脚底滑动时快速反应恢复平衡避免跌倒[14] - 掌握了行走、爬楼梯、坐下、站立等多种动作[16][25] 硬件配置 - 宇树Go1机器人拥有12个自由度,配置与仿真模型相似[30] - 搭载深度相机和IMU等传感器,提供环境感知和本体感受信息[31][37] - 嵌入式计算平台支持策略模型实时推理[39] - 策略模型以50Hz频率运行,与机器人控制周期匹配[40] 研究团队 - 项目由UC伯克利团队开发,四位共同一作均为博士生[43] - 包括Arthur Allshire、Hongsuk Choi、华人学者章俊一和David McAllister[43][44][48][52] - 导师包括Pieter Abbee、Jitendra Malik等知名学者[43][44][45]
梁文锋和杨植麟再“撞车”
创业家· 2025-05-07 09:57
大模型技术进展 - DeepSeek推出数学定理证明专用模型DeepSeek-Prover-V2,参数规模达6710亿,较前代V1.5的70亿参数提升近百倍,miniF2F测试通过率88.9%,解决普特南测试49道题 [3] - 月之暗面同期发布Kimina-Prover模型,开源1.5B和7B参数版本,miniF2F通过率80.7%,普特南测试解决10道题,性能低于DeepSeek-Prover-V2 [3] - 两家公司技术报告均强调强化学习应用,DeepSeek通过子目标分解优化数学推理,月之暗面聚焦形式推理模型架构 [4] 公司竞争格局 - DeepSeek面临阿里巴巴开源模型追赶,通义千问Qwen3参数量为R1的1/3但性能全面超越,阿里开源模型全球下载量超3亿次,衍生模型超10万个 [15] - 月之暗面Kimi用户增长受字节跳动豆包和腾讯元宝挤压,QuestMobile数据显示2025年2月AI应用月活排名为DeepSeek(1.94亿)、豆包(1.16亿)、腾讯元宝(4200万),Kimi跌出前三 [14] - 腾讯元宝通过微信引流和14亿元投流费用实现用户快速扩张,超越Kimi的1.5亿元营销投入 [14] 技术路径与产品迭代 - DeepSeek押注数学/代码、多模态、自然语言三大AGI路径,数学与代码被视为封闭可验证的智能试验场 [7] - Prover-V2基于DeepSeek-V3微调,采用子目标分解和思维链技术强化推理能力,与R2/V4版本无直接关联 [9] - 市场传闻R2模型可能采用华为昇腾芯片,但行业人士指出其生态系统和训练鲁棒性存在短板 [10][11] 行业动态与挑战 - 百度发布文心4.5 Turbo和X1 Turbo,成本更低且性能提升,计划6月开源文心大模型系列 [16] - 李彦宏公开批评DeepSeek存在处理单一文本、幻觉率高、响应速度慢等缺陷,但承认其行业影响力 [16] - 头部公司持续面临创新压力,DeepSeek需推出R2/V4巩固优势,月之暗面通过内测社区功能增强用户粘性 [5][14]
搞不懂CUDA的人有救了,Devin开发商开源Kevin,强化学习生成CUDA内核
机器之心· 2025-05-07 04:34
| 机器之心报道 | | --- | 编辑:蛋酱、泽南 本周三,知名 AI 创业公司,曾发布「全球首个 AI 软件工程师」的 Cognition AI 开源了一款使用强化学习,用于编写 CUDA 内核的大模型 Kevin-32B 。 Kevin-32B 基于 QwQ-32B 在 KernelBench 数据集上使用 GRPO 进行了多轮强化学习训练,实现了超越 o3 和 o4-mini 的顶级推理表现。 对此,机器学习社区表现出了极大的兴趣。有人表示期待 DeepSeek R1 风格的训练方法用来提升代码效率已久,这回终于有人站出来了。 在一篇博客中,Cognition AI 详细介绍了新模型强化学习训练的机制。 代码是一个不断迭代的过程 —— 需要我们编写、执行程序,评估结果,并根据反馈优化代码。大语言模型(LLM)在代码生成方面的最新进展尝试将此过程融入 推理阶段,并使用并行采样等方法。虽然这些方法是有效的,但它们依赖于搜索而非实际学习 —— 在这其中模型权重被冻结。 Cognition AI 探索了多轮强化学习,使用来自环境的中间反馈,并屏蔽模型思维以避免在多轮训练中上下文爆炸。 他们提出的模型 Kev ...
万字长文带你读懂强化学习,去中心化强化学习又能否实现?
机器之心· 2025-05-07 04:34
强化学习范式革新 - 强化学习(RL)成为AI模型性能提升的新范式 尤其体现在DeepSeek-R1和R1-Zero模型的突破性进展上 [2][3][20] - 传统预训练Scaling Law面临数据耗尽危机 Ilya Sutskever预测互联网数据作为预训练燃料的时代即将终结 [16][19] - 模型改进形成三支柱框架:预训练Scaling 测试时间计算(TTC) Scaling 强化学习微调Scaling 其中RL可形成自我改进闭环 [25][26] DeepSeek技术路径 - 创新性采用GRPO(组相对策略优化)替代PPO 移除价值模型和复杂奖励系统 计算开销降低50% [44][45][46] - R1-Zero完全摒弃监督微调(SFT) 通过硬编码验证器实现纯强化学习训练 但输出可读性差 [35][37] - R1模型分四阶段优化:冷启动SFT→GRPO→拒绝采样SFT→RL微调 平衡推理能力与人类可读性 [52][54][56] 去中心化应用潜力 - 训练场(Training Grounds)模块最具去中心化价值 可分布式生成数学/物理/编程等领域的验证型推理数据 [73][74][77] - PETALS框架实现模型层分布式托管 支持8位量化通信 176B参数模型可在消费级GPU协作推理 [92][94][98] - RL Swarm架构实现策略模型P2P协作学习 在Qwen-2 5B模型实验中输出质量提升30% [102][103][104] 硬件与算法协同 - FP8量化技术大幅降低内存需求 4000系以上NVIDIA显卡可支持 促进异构硬件参与 [84][87][89] - DiPaCo路径分片技术使MoE模型训练分布式成为可能 150M参数路径可匹配13B密集模型效果 [99][101] - 模块化专家系统(如HDEE)预示未来方向 异构领域专家可并行训练后集成 [106][107] 行业生态演进 - Hugging Face启动Open R1项目 旨在完全开源复现R1技术栈 [109] - Prime Intellect通过SYNTHETIC-1项目尝试分布式复制R1训练流程 [109] - 谷歌DeepMind与哈佛合作证明8位量化PPO训练速度提升1 5-2 5倍 [87]