深度强化学习
搜索文档
98年清华博士辍学造机器人,一个月融了小5亿
36氪· 2025-11-26 10:42
融资情况 - 北京人形机器人企业松延动力完成近2亿元Pre-B+轮融资,由中金资本领投,允泰资本、厚为资本跟投 [1] - 融资将用于技术创新与研发投入、拓宽高价值应用场景生态合作、打通从研发到大规模量产交付的通路 [1] - 继10月26日完成由方广资本领投的近3亿元Pre-B轮融资后,两次融资间隔不足一月,总融资金额近5亿元,年内累计完成五轮融资 [1] 产品战略与定位 - 发布首款定价在万元内的高性能人形机器人"Bumi小布米",售价9998元,主要面向科技爱好者和学编程的青少年 [1][4] - 产品定位为错位竞争,通过将价格从几万元拉至几千元,开拓新客群而非在现有市场内卷,目标是将蛋糕做大 [5] - 产品线覆盖B端和C端,小布米一脚踏B端(教育机构、赛事合作)、一脚踏C端(面向有7~13岁小孩的家庭消费者),同时公司也有针对高端科研场景、售价69900元及十几万的EDU版机器人 [11][12] - 与"编程猫"达成战略合作,共同打造"人形机器人编程教育实验室",以教育场景为切入点向准消费级市场渗透 [1][25] 成本控制与商业模式 - 公司认为消费电子产品80%的成本由设计决定,20%由产量决定,通过一把手工程推动成本优化 [6] - 降本方法包括要求结构工程师在设计阶段针对开模进行设计、材料选型采用复合材料以降低整体成本、推动供应链垂直整合 [6] - 目前销售渠道独家集中在京东,因京东对具身智能、机器人产品扶持政策力度最大,营销ROI超级高,尤其是在京东投放比一般消费电子、家电的ROI高很多 [23][24] - 财务模型健康,投流ROI夸张,预计销量达到1万台以上能覆盖研发成本,实现相对健康的净利 [23] 行业竞争与市场认知 - 公司欣赏宇树科技,认为其坚持多年等到了行业爆发,但双方场景完全不一样,宇树主要聚焦科研领域 [16][19] - 公司认为自身通过认知时间差做先行者,快速构建马太效应,利用飞轮效应形成壁垒:卖得越多,成本越低、品牌曝光越多,销量再涨 [15] - 行业存在"创新者的窘境",即已占据一定生态位的企业不愿放弃现有安稳去赌不确定的未来,这为公司提供了差异化竞争机会 [22] - 公司判断向C端渗透的时机基于自身能力维度,包括订单基础、供应链议价能力等,而非单纯看行业时机 [12] 创始人认知与公司发展 - 创始人从技术导向转向市场连接意识觉醒,认识到产品与市场连接的重要性,包括营销、宣传、影响投资人决策等 [2][38][39] - 公司发展转折点来自创始人认知提升,从"闷头搞技术"到重视市场连接,而非单纯依赖外部事件如机器人马拉松比赛 [38] - 公司前两年关键词是"生存"和"活着",今年目标是"留在牌桌上",通过高性价比机器人战略打开局面 [38] - 创始人自我评价为不及格创业者,认为组织建设尚未达标,但认知上从自傲转向谦逊,意识到自身不足是最大进步 [43][44]
人类战队迎来最强AI挑战者?马斯克宣布Grok 5 迎战《英雄联盟》最强人类
搜狐财经· 2025-11-26 10:17
公司AI模型发展规划 - 埃隆・马斯克宣布公司旗下AI大模型Grok 5将于2026年挑战《英雄联盟》顶级人类战队 [1] - Grok 5计划提前发布,现调整至2026年推出,其参数规模达6万亿个,是当前Grok 3和Grok 4的两倍 [4] - 马斯克直言Grok 5将在各项指标中遥遥领先,毫无疑问成为全球最智能的人工智能 [4] 技术验证目标与赛事细节 - Grok 5的核心设计目标是通过阅读说明和实验玩转任意游戏,此次跨界挑战旨在验证其通用人工智能能力 [3] - 赛事限制条件包括仅通过摄像头观看显示器,视野范围不超过正常视力水平,以及响应延迟与点击率严格匹配人类极限 [3] - 谷歌DeepMind研究主管提议新增《星际争霸》对战项目,马斯克予以回应,为赛事扩容留下可能 [3] 行业技术测试背景与意义 - 《星际争霸》和《英雄联盟》等即时战略游戏已成为AI能力测试的重要场景 [5] - 成熟AI可通过深度强化学习实现高精度操作与战术决策,但在长期战略规划和突发情况应对上仍与人类选手存在差距 [5] - Grok 5与顶级人类战队的公平对决,有望成为AI发展史上的重要里程碑 [5]
首个AI控制器完成卫星在轨姿态调整验证
科技日报· 2025-11-14 00:20
技术突破 - 全球首个人工智能在轨卫星姿态控制器在InnoCube纳米卫星上完成验证,标志着航天系统自主化的关键进展 [1] - AI控制器在9分钟的卫星过境期间执行了完整的姿态机动操作,通过控制反作用轮精准调整卫星姿态并保持稳定控制 [1] - 技术核心采用深度强化学习,神经网络在模拟环境中自主学习控制策略,而非依赖传统固定算法 [1] 技术优势 - 创新方案将耗时数月的参数调试过程自动化,使控制器能自主适应实际环境变化,摆脱人工校准束缚 [1] - 采用无线卫星总线SKITH,以无线数据传输取代传统布线,为控制器减重并减少潜在故障源 [2] - 经过地面高保真模拟训练的AI控制器在真实太空环境中表现出色 [1] 应用前景 - 该验证为深空探测开辟新前景,智能自主控制系统将成为通信延迟的行星际或深空任务中航天器生存的关键 [2] - 最新进展表明行业正在迎来卫星控制的新时代 [2] - InnoCube是创新空间技术的平台,助力科学家直接在轨道上测试新概念 [2]
AI 赋能资产配置(十九):机构 AI+投资的实战创新之路
国信证券· 2025-10-29 07:16
核心观点 - 大语言模型正将海量非结构化文本转化为可量化的Alpha因子,从根本上拓展了传统投研的信息边界[1] - 从大语言模型的信号提取、深度强化学习的动态决策到图神经网络的风险建模,AI赋能资产配置的全链条技术栈已具备现实基础[1] - AI正从辅助工具转向决策中枢,推动资产配置从静态优化迈向动态智能演进,重塑买方的投研与执行逻辑[1] - 头部机构的竞争已升维至“AI原生”战略,其核心是构建专有、可信且能驾驭复杂系统的AI核心技术栈[2] - 对国内资管机构而言,破局之道在于战略重构与组织变革,走差异化、聚焦式的技术落地路径[3] AI技术对资产配置范式的重塑 大语言模型的应用与挑战 - 大语言模型凭借自注意力机制能够精准捕捉词汇在句子中的复杂关系与上下文含义,实现更精准的金融情绪判断,将投资分析从数字领域拓展至语义领域[11][12] - 金融专用大语言模型的开发遵循预训练加微调的两步范式,业界已开发出BloombergGPT(500亿参数)、FinGPT、FinBERT与FinLlama等专用模型[13] - 大语言模型可直接为算法交易系统提供情绪信号,并实现7×24小时不间断监控全球信息流以识别潜在风险早期信号[14] - 大语言模型应用面临数据偏见与模型幻觉、高昂计算成本、可解释性难题等挑战,金融专用大语言模型的竞争正演变为围绕专有数据与微调专业知识的军备竞赛[15][16] 深度强化学习的革新价值 - 深度强化学习采用“智能代理”与“环境”交互的学习范式,目标是在长期内实现最优回报的决策策略,而非一次性精准预测[17][18] - 主流深度强化学习算法包括演员-评论家方法、近端策略优化和深度确定性策略梯度,其中深度确定性策略梯度专为连续行动空间设计,非常适合投资组合管理任务[19][20] - 深度强化学习面临数据依赖与过拟合风险、市场周期适应性难题、高昂计算成本以及现实世界约束整合等发展瓶颈[21][22] 图神经网络的风险建模能力 - 图神经网络将整个金融系统抽象为网络,其中“节点”代表金融机构,“边”代表它们之间的相互关联,能够捕捉风险通过网络进行“传染”的动态过程[23] - 图神经网络通过“消息传递”机制让每个节点聚合其邻居节点信息,从而感知其在网络中的局部和全局环境,为监管部门提供强大的压力测试模拟工具[24][25] - 图神经网络可帮助投资者识别高度关联的“公司集群”,构建更有效的投资组合对冲策略,实现对整个“社区”风险的对冲[26] 头部资管机构的AI实践 贝莱德的AlphaAgents系统 - AlphaAgents系统通过模拟人类投资委员会的“协作与辩论”机制,设立基本面分析、情绪分析和估值分析三个具有明确角色分工的AI智能体[30][31] - 系统选择GPT-4o作为核心模型,在事实分析基础上进入对抗性辩论与共识辩论环节,通过多轮讨论直至所有智能体达成一致共识[31][33] - 回测实验显示,在风险中性策略下,多代理投资组合的累计回报和夏普比率显著优于所有单代理组合及市场基准,而在风险规避策略下成功实现了规避下行风险的策略目标[34][35] - AlphaAgents代表了人机协作模式的根本性升级,其多智能体辩论机制提高了分析严谨性并减少AI幻觉问题,为AI决策的可解释性提供重要支撑[39] 摩根大通的AI原生战略 - 摩根大通每年在AI上投入20亿美元,2025年技术预算高达180亿美元,其中AI是核心部分,通过设立专门AI研究部门系统性地推进金融AI基础研究[42][43] - 2024至2025年间,摩根大通AI部门共发表140篇出版物,包括15篇期刊论文和63篇会议论文,其中8篇发表于AAAI顶级会议[44] - 摩根大通的AI战略围绕三大支柱:构建专有可信的AI核心技术、通过模拟与自动化决策掌控复杂系统、从物理与另类数据中创造信息优势[45][53][58] - 在可信AI领域,摩根大通研究在不直接接触敏感数据前提下实现模型公平性的方法,以及开发具备数学上可证明隐私保护能力的合成数据[46][47] 对国内资管机构的启示 - 国内资管机构应进行顶层设计并寻求差异化破局,成立跨部门AI战略委员会,制定符合公司特色的转型路线图,采取“聚焦突破”策略[63] - 技术实施层面应采取“三步走”策略:夯实数据基础、基于开源框架进行模型选择、确立“人机协同”原则将AI定位为投研团队的“智能副手”[64] - 必须打破传统部门壁垒,构建融合投资洞察、数据科学和工程实现的跨职能团队,采取“外部引进与内部培养”双轨制进行人才建设[65][66] - 需要建立覆盖模型全生命周期的治理框架,特别关注大语言模型的“幻觉”问题,前瞻性布局“可信AI”能力建设[67]
9998元抱回家!全球首款万元以下人形机器人来了,21自由度,能说会走,会尬舞
机器之心· 2025-10-22 08:46
产品发布与定价 - 全球首款万元以内消费级人形机器人Bumi小布米将在双十一登陆京东首发,价格9998元[4][2] - 价格低于高配旗舰手机,显著低于行业参照系如宇树R1起步价3.99万元和松延动力N2促销价3.99万元,首次将人形机器人门槛打入万元以内[5][6] - 限时优惠价9998元仅在双十一至双十二期间开放[48] 产品性能与设计 - 身高94厘米,体重12公斤,底座长34.5厘米、宽19厘米,设计轻巧紧凑,便于在狭窄空间活动且易于搬运[16] - 全身拥有21个自由度,比公司N2型号多3个,主要集中在腰部和腿部,使动作更稳、更自然、步态更协调[20] - 采用48V平台电池系统,续航时间1到2小时,适用于教育、陪伴等短时场景或具备固定充电设备的业务应用[32][33] - 材料采用高强度塑料躯干与外壳,关键受力部位使用高强度铝合金,兼顾轻量化与强度耐用[18] 智能化与功能应用 - 具备听、说、理解及回应人类语言和动作指令的能力,交互流畅自然[35][36] - 支持图形化编程,零代码门槛,可作为教育工具让孩子通过拖拽积木块式指令学习AI、算法和工程思维[37] - 教育场景是公司重点方向,订单规模大,覆盖多层次教育类场景,如人工智能课堂和幼儿园互动游戏[37] 公司技术与商业化进展 - 公司成立不到两年完成6轮融资,产品成为今年最出圈的人形机器人之一[7] - 自研技术底座包括伺服电机和运动控制算法,采用深度强化学习训练机器人,其N2型号是全球第一台能“一镜到底”完成连续完美空翻的机器人[41][43][45] - 商业化进展突飞猛进,继宇树科技后成为国内又一家销量破千的人形机器人公司,7月单月交付破百台[40][48] - 产品N2在今年四月北京亦庄人形机器人半程马拉松中作为唯一独立完赛机器人获得亚军,后续在世界人形机器人运动会上获得自由体操冠军等成绩[8][9][11] 行业与供应链 - 公司产品策略专注“小个子”人形机器人,相较于全尺寸产品,在科研、教育、文娱等场景更具成本效益和灵活性[40] - 国产供应链成熟推动成本下降,谐波减速器、行星滚柱丝杠等核心部件已实现国产替代,公司产品关键环节高度国产化,主控芯片采用瑞芯微RK3588S[46][47][48] - 摩根士丹利报告指出,减速器、电机等核心部件多数机器人厂商仍需从中国采购[48]
ICLR 2025 | SmODE:用于生成平滑控制动作的常微分方程神经网络
自动驾驶之心· 2025-09-01 23:32
研究背景与核心问题 - 深度强化学习已成为解决物理世界最优控制问题的有效方法,在无人机控制和自动驾驶控制等任务中取得显著成果[5] - 控制动作平滑性是深度强化学习技术面临的重要挑战,主要源于输入状态中的高频噪声干扰和神经网络Lipschitz常数缺乏约束[5] - 课题组此前在ICML2023提出的LipsNet从约束神经网络Lipschitz常数角度实现控制平滑,而本研究同时解决导致动作不平滑的两个根本原因[5] 技术创新与解决方案 - 提出使用常微分方程(ODE)的平滑神经元结构替代传统线性激活神经元,构建平滑神经网络(SmODE)作为强化学习策略网络[4][7] - 设计具有低通特性的常微分神经元,通过可学习的状态依赖系统时间常数实现高频噪声动态滤除[7][8] - 构建状态依赖映射函数g,从理论上证明该函数能有效控制常微分神经元的Lipschitz常数[9][10] - 采用仿生建模方式给出平滑常微分神经元具体表达式:$$\frac{\mathrm{d}x_{i}}{\mathrm{d}t}=\sum_{j}\left[-{\frac{w_{i j}}{C_{\mathrm{m}_{i}}}}\sigma_{i}\left(x_{j}\right)x_{i}+{\frac{w_{i j}}{C_{\mathrm{m}_{i}}}}\sigma_{i}\left(x_{j}\right)\cdot\operatorname{tanh}(h\left(x_{j},\theta\right))\right]+x_{\mathrm{leak}_{i}}$$[11] 网络架构设计 - SmODE网络结构包含输入模块(多层感知器MLP)、平滑常微分模块和输出模块(线性变换层+谱归一化)[14] - 平滑ODE模块由三层组成,每层神经元数量可根据任务复杂度灵活选择[14] - 作为通用策略网络可与各类经典深度强化学习算法结合,本工作与DSAC算法相结合[16] - 策略损失函数在基本策略损失基础上添加限制时间常数和Lipschitz常数的损失项:$$\operatorname*{min}{\mathcal{L}}_{\pi}^{\prime}(\theta)={\mathcal{L}}_{\pi}(\theta)+\lambda_{1}\mathbb{E}_{s\sim{\mathcal{R}}}\left[\sum_{i=0}^{N}f(\cdot)\right]+\lambda_{2}\mathbb{E}_{s\sim{\mathcal{R}}}\left[\sum_{i=0}^{N}h^{2}(\cdot)\right]$$[16][17] 实验验证结果 - 在高斯噪声方差0.05条件下,SmODE在正弦曲线和双车道变换曲线跟踪任务中比MLP表现出更低动作波动率和更小横向速度变化[19] - 在MuJoCo基准测试中采用DSAC算法,策略网络配置为MLP、LipsNet、LTC和SmODE进行对比[21] - 在八项MuJoCo任务中设置两种高斯噪声水平(level 1:0.005-0.150,level 2:0.015-0.250)[21] - SmODE在大多数任务中表现最佳:InvertedDoublePendulum-v3获得9357±2分(动作波动0.15),Reacher-v2获得-5.67±1分(波动0.22)[22] - Humanoid-v3任务中SmODE获得10819±81分(波动0.45),显著优于LTC的10626±128分(波动0.60)和MLP的10892±342分(波动0.62)[22] - Walker2d-v3任务中SmODE获得6039±112分(波动0.73),而LTC为5861±482分(波动1.10),MLP为5663±508分(波动1.21)[22] 技术优势与应用前景 - SmODE网络将常微分方程作为神经元核心组件,实现自适应低通滤波和Lipschitz常数有效控制[23] - 该方法在训练过程中无需引入动作变化惩罚项,推理过程中无需附加滤波处理[7] - 能够有效抑制动作输出震荡问题,显著提升各种强化学习任务中的平均回报[23] - 为现实世界中的强化学习应用提供新思路,特别是在自动驾驶和工业机器人等具身智能模型领域具有应用潜力[1][4]
中原金太阳申请考虑碳捕捉效益的配电网内风电容量区间计算方法专利,实现碳效益‑经济成本的动态权衡
金融界· 2025-08-23 01:21
公司基本情况 - 河南中原金太阳技术有限公司成立于2020年 位于郑州市 属于科技推广和应用服务业企业 [2] - 公司注册资本达90000万人民币 [2] - 公司对外投资41家企业 参与招投标项目91次 拥有专利信息21条 行政许可6个 [2] 技术创新与专利布局 - 公司申请"一种考虑碳捕捉效益的配电网内风电容量区间计算方法"专利 公开号CN120524785A 申请日期2025年3月 [1] - 专利涉及风电容量配置领域 通过建立考虑碳捕捉效益的风电容量配置信息数据集和计算模型 [1] - 采用深度强化学习实现风电出力-碳价信号联合预测 利用图卷积网络提取电网拓扑隐式特征 [1] - 设计混合整数神经架构搜索优化多目标帕累托前沿 结合贝叶斯深度学习量化容量区间置信概率分布 [1] - 该方法能实现碳效益-经济成本的动态权衡 通过在线学习机制持续提升模型环境适应性 [1] 行业技术发展方向 - 专利技术深度融合人工智能算法与能源系统物理规律 体现能源行业数字化智能化转型趋势 [1] - 碳捕捉效益与风电容量计算的结合 反映新能源行业对碳减排和经济效益协同优化的技术需求 [1] - 风电不确定性量化模型和置信概率分布计算 显示行业对可再生能源并网稳定性的关注 [1]
狄耐克:脑机交互事业部提出基于深度强化学习的主动式脑机接口共同控制方案
快讯· 2025-07-02 03:19
公司动态 - 狄耐克脑机交互事业部彭俊仁博士在《Annals of the New York Academy of Sciences》发表关于人类脑电图与TD3深度强化学习协同控制方法的论文 [1] - 公司提出基于深度强化学习的主动式脑机接口共同控制方案 通过人类与AI代理协同决策提升系统普适性 [1] - 下一步将聚焦脑电波交互核心技术突破与产业化落地 推动技术从实验室走向实际应用 [1] 行业技术 - 现有脑机接口系统存在局限性 约15%-30%用户因生理差异无法有效操作传统设备 [1] - 当前技术仅计算人类内部脑电活动 未充分考虑环境因素对系统的影响 [1] - 多智能体共同控制方法为脑机接口普适化提供了新的技术范式 [1]
具身智能领域,全球Top50国/华人图谱(含具身智能赛道“师徒关系图”)
Robot猎场备忘录· 2025-06-30 08:09
具身智能技术发展 - 具身智能赛道涉及大语言模型(LLM)、视觉多模态模型(VLM)、强化学习(Reinforcement Learning)、深度强化学习(Deep Reinforcement Learning)、模仿学习(Imitation Learning)等前沿技术 [1] - 人形机器人算法从早期模型控制算法(LIPM+ZMP)演进到动态模型控制(MPC+WBC),当前主流为模拟+强化学习(IL+RL),但MPC仍被部分公司采用 [1] - IL+RL技术主要由高校和头部科技大厂研发,导致人形机器人初创公司以"学院派"教授团队为主 [1] 顶尖研究机构与人才分布 - UC Berkeley在AI+Robotics领域排名第一,斯坦福大学次之 [2] - UC Berkeley"归国四子"吴翼、高阳、许华哲、陈建宇均经历"清华大学-UC Berkeley-清华交叉信息研究院-创业"路径,其中三人师从Vision领域权威Trevor Darrell教授并加入BAIR实验室 [2] - 斯坦福大学代表学者王鹤(师从Leonidas J Guibas)现任北大助理教授并创立银河通用,卢策吾(师从李飞飞和Leonidas Guibas)任上海交大教授并创立非夕科技和穹彻智能 [3] 全球Top50华人背景特征 - 具身智能领域Top50华人普遍拥有UC Berkeley、斯坦福、MIT、CMU等顶尖院校求学经历并师从行业权威 [4] - 全球Top50华人图谱涵盖高校教授、科技大厂核心成员及初创企业创始人,详细记录其求学院校、导师、研究方向、论文成果及职业履历 [3][5] 研究机构专项 - UC Berkeley(加州大学伯克利分校)作为具身智能领域核心院校被单独列出 [6]
港科大 | LiDAR端到端四足机器人全向避障系统 (宇树G1/Go2+PPO)
具身智能之心· 2025-06-29 09:51
核心观点 - 香港科技大学团队提出Omni-Perception框架,通过直接处理原始LiDAR点云数据,实现四足机器人全向避障能力,解决了传统方法在复杂三维环境中的局限性 [2][4] - 该框架结合PD-RiskNet感知网络、高保真LiDAR仿真工具和风险感知强化学习策略,形成端到端的闭环控制系统 [4][5] - 在动态障碍、空中障碍等复杂场景中表现优于传统方法,成功率显著提升 [24][27] 技术架构 Omni-Perception框架组成 - **PD-RiskNet感知网络**:分层处理近场和远场点云,近场采用最远点采样(FPS)和GRU提取局部动态特征,远场通过平均下采样和GRU捕捉全局路径特征 [8][18] - **高保真LiDAR仿真工具**:支持4096个并行环境,渲染速度比Isaac Sim提升300%,并模拟噪声和自遮挡效应 [19][21] - **风险感知强化学习策略**:将避障任务建模为马尔可夫决策过程,直接输出关节控制信号,跳过运动学逆解 [9][11] 强化学习设计 - **状态空间**:包含本体状态(关节位置、速度)、外感知状态(10帧LiDAR历史点云)和任务指令(目标速度) [10] - **奖励函数**:结合避障速度追踪奖励(36个扇区障碍检测)和距离最大化奖励(LiDAR射线优化),辅以稳定性惩罚项 [12][13][14] - **训练参数**:PPO算法,4096个并行环境,学习率1e-3,折扣因子γ=0.99 [19] 性能优势 计算效率 - 相比传统SLAM+规划流水线,减少中间处理环节,计算开销更低 [7] - LiDAR仿真工具在4096环境、32k射线场景下无内存溢出,速度达Isaac Sim的5-10倍 [21][22] 场景适应性 - **动态障碍**:成功率76.7%,碰撞率56.7%,显著优于FPS+MLP(33.3%)和FPS+GRU(30.0%) [23][24] - **空中障碍**:成功率70%(传统方法0%),静态障碍成功率100% [27] - **极端场景**:密集植被中成功率60%,细长障碍(直径<1cm)需进一步优化 [28] 实现细节 PD-RiskNet网络 - **近场路径**:输入垂直角度θ>阈值的点云,输出187维特征向量,监督信号为特权高度信息 [18] - **远场路径**:输入θ<阈值的点云,输出64维特征向量,关注全局路径规划 [18] - **动作网络**:4层全连接(1024→512→256→128),输出12维关节目标位置 [19] 域随机化策略 - **物理参数**:附加质量-1.0kg至5.0kg,质心位置偏移±0.2m,电机强度缩放0.8-1.2倍 [20] - **环境参数**:地面摩擦系数0.4-1.0,重力偏移±1.0m/s²,LiDAR噪声率10% [20] 验证结果 - **真实数据对比**:仿真复现了LiDAR非重复扫描模式和自遮挡效应,几何结构匹配度高 [21] - **多场景测试**:在动态障碍场景中,传统高程图方法成功率0%,而Omni-Perception有效应对 [24][27]