强化学习

搜索文档
前OpenAI CTO新公司TML,5个月获20亿种子轮融资,估值飙升至120亿!
搜狐财经· 2025-07-18 01:23
公司融资与背景 - Thinking Machines Lab(TML)完成20亿美元种子轮融资,刷新历史纪录 [1] - 公司成立于2025年2月,五个月内即获得巨额投资 [1] - 融资由a16z领投,英伟达、Accel、ServiceNow、思科、AMD及简街资本等多家知名机构参与 [1][4] 团队与技术 - 创始人米拉·穆拉蒂为前OpenAI首席技术官,被誉为"ChatGPT之母" [3] - 团队吸引OpenAI联合创始人约翰·舒尔曼等二十余位顶级AI研究员加盟 [1] - 公司专注于强化学习技术,构建针对企业KPI优化的AI模型 [3] 业务方向 - 核心业务分为企业定制型AI解决方案和通用消费级AI产品 [3] - 企业定制型AI直接针对营收、利润等核心KPI进行优化 [3] 行业认可 - a16z领投显示风投机构对TML的信心 [4] - 英伟达和AMD的参投体现芯片领域对TML技术实力的认可 [4] - 多家知名企业和投资机构参与融资,表明市场广泛看好公司发展潜力 [4]
Thinking Machines Lab完成20亿美元种子轮融资,估值达120亿美元
搜狐财经· 2025-07-17 17:19
公司融资与业务 - 前OpenAI首席技术官米拉・穆拉蒂创办的AI公司Thinking Machines Lab(TML)完成20亿美元种子轮融资(约合人民币143.46亿元),创下史上最大规模种子轮融资纪录 [3] - 融资由安德森・霍洛维茨基金领投,英伟达、Accel、ServiceNow、思科、AMD、简街资本等参投 [3] - TML成立于2025年2月,仅5个月即获得巨额融资 [3] - 公司核心业务围绕"企业定制型AI"和"通用消费级产品"两条路径展开,尤其强调前者 [3] - 团队基于强化学习构建模型,使AI能围绕客户核心KPI(如营收、利润等)进行优化,直接服务于业务增长目标 [3] 团队与行业影响 - OpenAI联合创始人约翰・舒尔曼等二十余位顶级AI研究员加入TML,使其迅速成为行业焦点 [3] - 投资方阵容强大,包括AI芯片巨头英伟达和AMD,显示产业对TML前景的看好 [4] - 知名风投a16z以及Accel、ServiceNow、思科、简街资本等企业和机构的加入,表明各界对TML发展潜力的认可 [4] 创始人背景 - 米拉・穆拉蒂1988年出生于阿尔巴尼亚,毕业于美国达特茅斯学院 [4] - 曾担任高盛实习分析师、卓达航天高级概念工程师 [4] - 2018年加入OpenAI,五年内历任应用AI和合作伙伴副总裁、产品和合作关系高级副总裁、首席技术官,被称为"ChatGPT之母" [4]
近半年「自动驾驶」篇强化学习论文推荐~
自动驾驶之心· 2025-07-17 12:08
自动驾驶强化学习研究进展 核心观点 - 强化学习(RL)在自动驾驶领域展现出巨大潜力,可提升车辆安全性、可靠性和智能化水平[3] - 2025年精选的10篇RL应用论文聚焦实际挑战与创新解决方案,涵盖轨迹规划、决策制定、仿真训练等方向[4][7] - 技术突破包括:3DGS仿真训练、VLM与RL融合、GRPO优化等,部分成果性能超越传统方法35%[10][26][35] 关键技术突破 轨迹规划 - CarPlanner采用自回归结构和生成-选择框架,在nuPlan数据集上超越IL和规则方法的SOTA表现[9] - ReCogDrive结合VLM与扩散规划器三阶段训练,在NAVSIM基准达到89.6 PDMS,较纯视觉SOTA提升5.6分[17][19] 决策系统 - RRL-SG通过对抗摄动训练和RSS安全掩码,实现策略鲁棒性与碰撞安全双重保障[13] - LGDRL框架引入LLM专家指导,任务成功率90%,学习效率显著优于基线算法[23][24] - AlphaDrive基于GRPO奖励优化,仅用20%数据即超越SFT方法35%性能[26][28] 仿真训练 - RAD利用3DGS技术构建闭环训练环境,碰撞率较IL方法降低3倍[10] - RIFT通过双阶段仿真框架提升交通场景逼真度,采用dual-clip机制增强训练稳定性[33][36] 基础理论研究 - D2RL通过状态编辑解决高维空间训练难题,获Nature封面论文并提升测试效率10³–10⁵倍[42][43][44] - 同济大学综述系统分析RL在运动规划中的应用,提炼关键设计经验与前沿挑战[29][30] 多模态融合 - Drive-R1通过长/短COT数据集训练实现视觉推理与轨迹规划对齐,在nuScenes创SOTA记录[35][37] - 快慢架构整合LLM指令解析与RL实时决策,碰撞率降低同时更贴合用户偏好[41] 行业影响 - IEEE引用2600+的综述推动RL技术现实部署,覆盖控制器优化、路径规划等6大应用方向[43] - 4000人技术社区聚集300+企业与机构,形成30+技术栈的完整学习体系[47][48]
暑假打比赛!PRCV 2025空间智能与具身智能视觉感知挑战赛启动~
自动驾驶之心· 2025-07-17 07:29
竞赛概述 - 竞赛聚焦空间智能与具身智能视觉感知技术,旨在推动高效、高质量的技术研究,探索强化学习、计算机视觉、图形学等前沿方法创新,并促进神经渲染、场景优化和机器人抓取等方向的应用 [2][4] - 竞赛由北京科技大学、清华大学、中国科学院自动化研究所等多家单位联合组织,北京九章云极科技有限公司提供赞助和技术支持 [5] 参赛要求与流程 - 参赛者包括国内研究团体、企事业单位及高校师生,团队不超过5人,每人仅能加入1个团队 [8][9] - 报名需通过邮件提交团队信息,截止日期为7月31日,比赛分阶段进行,包括数据集发布、结果提交和评审,最终在PRCV2025大会上颁奖 [5][6][10] 竞赛资源与任务 - 提供大规模无人机航拍图(500-1000张1k分辨率)和具身智能仿真场景数据,九章云极提供8卡H800 GPU算力支持 [11][12] - 赛道1要求构建多视角航拍图像的三维重建模型,评估渲染质量(PSNR)和几何精度(F1-Score) [17][19][20] - 赛道2要求完成动态遮挡场景中的抓取任务,评估任务完成度(成功率、位姿误差)和执行效率(耗时、路径效率) [21][23] 奖项与知识产权 - 每个赛道设一等奖(6000元+500度算力券)、二等奖(3000元+200度算力券)、三等奖(1000元+100度算力券)及优胜奖 [25] - 参赛方案知识产权归团队所有,数据仅限竞赛使用,禁止扩散,组织方承诺保密 [29] 相关会议PRCV2025 - PRCV2025为国内模式识别与计算机视觉顶级会议,涵盖学术前沿、产业应用与技术创新,投稿截止2025年6月30日 [27][30] - 会议由四大国家级学会联合主办,上海交通大学承办,Springer出版论文集并被EI/ISTP检索 [31][32]
人形机器人联合会议:产业迭代下的近期投资机会解读
2025-07-16 15:25
纪要涉及的行业和公司 - **行业**:人形机器人、服装、工程机械、缝制机械、高机、智能驾驶、汽车CE、机器人CE - **公司**:智源、杰克股份、恒立液压、禾川科技、恒力、索成科技、恒帅股份、宁波华翔、德玛科技、中兴科技、上海人形、Google DeepMind、上海智己机器人、力控公司、杨浦智能、麦思杰 纪要提到的核心观点和论据 人形机器人产业 - **核心观点**:短期内板块仍有机会,应围绕定点或供应链核心公司投资,关注电机领域及供应链结构变化带来的机会 [1][3] - **论据**:产业迭代速度远超传统制造业等领域,研发周期约两个月;电机领域高密度电机等方向明确,如恒帅股份新一代斜波散电机有优势;供应链二级、三级供应商机会大,国内智源商业模式类似苹果ODM模式且商业化迭代速度快 杰克股份 - **核心观点**:在服装行业稀缺性强、自动化升级优势显著、业绩增长潜力大 [4][6][8] - **论据**:设备几乎覆盖服装行业所有工位;设备与自身机器人高度兼容,数据接口和软件无缝对接,市场份额高;主业营收约60亿,模板机配套市场空间达三四百亿,设备效率提升且国内外市场扩展 恒立液压 - **核心观点**:处于阶段性底部,有望迎来向上趋势 [9] - **论据**:一季度工程机械景气度高点后进入二季度淡季但表现优于预期,三季度预计加速增长,挖掘机和高空作业平台处于周期底部,卡特中挖油缸放量及泵阀份额提升将推动收入增长 禾川科技 - **核心观点**:需关注技术创新及市场拓展情况评估未来发展潜力 [9] - **论据**:今年4 - 5月推出股权激励措施,三季度预计盈亏转正,致力于成为人形机器人代工商,与上海人形合作紧密,计划推出迭代产品并补齐核心零部件工艺短板 [15] 索成科技 - **核心观点**:在物理AI仿真平台领域有独特优势,值得关注和投资 [22][28] - **论据**:是中国市场唯一在该领域拥有卡位、场景、产品和收入的私有稀缺资产;2025 - 2026年物理AI目标收入3000 - 5000万元;内部预计2025 - 2026年复合增长率25%,目前市值处于历史低位,有较大上升空间 其他重要但可能被忽略的内容 - 2025年第二季度以来机器人板块产业迭代加速,围绕强化学习和大模型两种技术路线存在分歧,类似电动车领域城市NOA与L4级自动驾驶区别 [2] - 恒力在精密丝杠和导轨业务产能提升、出货量增加,导轨业务放量,下游应用广泛,在机器人业务有进展,采用国内外双线并行策略开拓市场 [13][14] - 国内关税政策影响缝制机械行业,二季度降幅快速收窄,预计三季度、四季度紧缩情况改善,全年海外市场高增长,国内市场增幅逐步拉回 [10][11] - 2024年欧美经济下滑使高机板块景气度回落,今年上半年受拖累,预计下半年CVR增速双位数增长,高机和非挖板块业绩将迎来拐点 [12] - 基于模型和无模型的强化学习在智能驾驶和通用人形机器人中应用不同,特斯拉未来可能更多采用基于模型的强化学习 [17] - 基于模型的强化学习在人形机器人中难以落地,原因是构建世界模型困难和模拟路径选择复杂 [18] - Google DeepMind的AlphaGo是基于模型强化学习的成功案例,但建立通用机器人的L4级别基于模型仍具挑战性 [19][20] - 物理AI仿真平台可通过高效合成数据解决建立世界模型困难及数据不足问题,如银河通用使用仿真数据训练,智源发布3D数据集资产 [21] - 市场对索成科技有核心担忧,但公司通过收购补全学科、拓展渠道,增强物理AI战略能力 [25][26]
科锐国际(300662):AI+加速落地 禾蛙AI2.0发布在即
新浪财经· 2025-07-16 12:53
公司动态 - 公司将于7月17日召开大禾蛙AI2 0生态一周年发布会 禾蛙平台是公司旗下人力资源服务产业互联网平台 已实现AI赋能招聘全流程 打破行业协作壁垒 提升交付效率 深度赋能客户 [1] - 公司更新CTS系统 实现新简历自动推送匹配情况 自动生成定制化推荐报告 稍作调整即可使用 [1] - 公司新推出Voice电话客户端 实现候选人电话直连呼出 联系记录自动生成总结文本 显著提升效率 [1] - 公司升级CRM系统 可实时检索外部企业招聘信息 分析企业使用人力资源服务概率 增加AI客户订阅功能 灵活筛选客户融资动态 与客户开发流程无缝衔接 [1] 技术研发 - 公司内部测试Agent原型系统 目标是实现技术灵活应用与持续进化 [2] - 公司研发基于强化学习的CRET1模型 目标是构建面向Agent能力的推理Embedding模型 实现结构化推理突破 解决招聘中人岗匹配的多跳检索与推理判断问题 [2] 行业展望 - 科技赋能可提升公司内部效率 形成可输出产品后 将强化各业务协同与交叉效应 [2] - 国内大客户国外布局与海外公司本地扩张 可能带来人力资源增量需求 [2]
ICCV 2025满分论文:一个模型实现空间理解与主动探索大统一
具身智能之心· 2025-07-16 09:12
具身智能导航技术突破 - 清华大学联合团队提出统一空间理解与主动探索的新型模型MTU3D,实现动态环境中的高效空间感知与自主导航,被ICCV 2025接收并获满分评价[3] - 模型突破传统静态观察局限,通过探索-理解闭环协同机制,使智能体在移动中逐步构建环境认知,成功率最高提升20%[3][29] - 技术核心将强化学习的探索能力与3D视觉语言模型的语义理解融合,形成端到端协同训练框架[13][14] 模型架构与数据策略 - 采用双模块设计:在线空间记忆构建模块实时处理RGB-D流数据,空间推理模块通过Cross-Attention实现指令匹配[16][17][22] - 创新性使用物体查询(Object Queries)和边界查询(Frontier Queries)结构化表征空间,支持动态记忆更新[19][20][21] - 虚实结合数据策略整合ScanNet和HM3D的90万条导航轨迹,覆盖视觉指引/探索行为/目标定位等多元任务[25][26] 性能表现与行业影响 - 在GOAT-Bench多模态长期导航测试中,MTU3D成功率达52.2%,较基线提升20%以上,展现卓越任务规划能力[29][30] - SG3D-Nav多步骤任务中关键指标s-SR提升至23.8,显著优于强化学习方法[31] - 真机实验验证技术落地性,A-EQA任务中GPT-4V成功率从41.8%提升至44.2%,推动具身问答发展[32][37] 技术演进方向 - 研究团队来自北京通用人工智能研究院,负责人李庆博士专注多模态智能体与具身智能领域[2] - 行业正经历从虚拟空间向物理世界的范式迁移,MTU3D为AI实体化提供关键空间认知解决方案[3][40] - 方法论突破体现为:语义地图实时构建、探索-理解联合优化、低成本虚实数据融合三大创新点[18]
小哥硬核手搓AI桌宠!接入GPT-4o,听得懂人话还能互动,方案可复现
量子位· 2025-07-16 07:02
AI宠物技术实现 - 核心硬件采用3D打印底座和圆锥形头顶,悬挂一条触手结构,触手源自SpiRobs机器人,能抓取尺寸相差超两个数量级、重量达自身体重260倍的物体[8][10] - 视觉系统通过立体摄像头追踪触手末端,使用YOLO模型进行3D三角测量校准[12][31] - 触手控制采用2D映射简化操作,通过电脑触控板拖动光标即可调整触手动作[22][23] 控制系统架构 - 低级控制层结合开环预设动作(如点头)和闭环RL策略(如手指跟踪),立体视觉约束RL观察空间[25][26] - 高级控制层采用GPT-4o实时API处理语音与视觉事件,无需微调即可下达底层指令[26][27] - 为增强生命感,在待机状态加入轻微摇摆行为,并通过Prompt工程解决LLM调用问题[28][29] 强化学习与仿真优化 - 在MuJoCo中重建软体触手模型,设置目标跟踪环境,使用PPO策略梯度结合MLP和帧堆叠训练[33] - 添加动力学随机化(质量、阻尼、摩擦)以贴近真实环境,通过控制惩罚和指数移动平均解决抖动问题[36][37] - 最终实现仿真到真实环境的迁移,验证控制策略有效性[38] 开发者背景与灵感来源 - 开发者Matthieu Le Cauchois为ML工程师,研究方向包括强化学习、NLP,曾创立AI公司Typeless并被Doctolib收购[39][41][42] - 项目灵感源自皮克斯台灯机器人,强调通过动作和时机传递情绪意图,动物形态设计增强宠物陪伴感[48][49][53] - 工程文件开源,包含3D打印CAD数据和控制脚本,支持低成本复现[20][54]
2025下半年TMT投资策略展望
2025-07-16 06:13
纪要涉及的行业和公司 - **行业**:AI算力、运营商 - **公司**:亚马逊、微软、谷歌、Meta、英伟达、华为、新一胜、中国移动、中国电信、中国联通 纪要提到的核心观点和论据 AI算力行业 - **核心观点**:AI算力景气度仍值期待,但市场对未来持续投入存在分歧,建议保持适当仓位,精选个股,关注北美链 [1][28][29] - **论据** - **资本开支强劲**:今年一季度北美四大厂商亚马逊、微软、谷歌和Meta资本开支总金额773亿美金,同比增长62%;Meta将全年资本开支由600 - 650亿美元上调至640 - 720亿美元 [2][3] - **算力需求大**:模型参数量增加、推理场景、agent应用等对算力消耗大;国内大模型商用落地日均token消耗量激增,如2024年下半年从千亿级到万亿级,月复合增长率45%;单个agent算力需求显著高于简单模型,单个用户查询token处理量预计两年内增加100倍 [5][8][9][10] - **历史复盘**:以光模块等算力公司为例,过去经历两轮大周期,当前基于PTTM计算公司估值较便宜,虽AI与云计算不同,但可作为参考 [21][22][27] 运营商行业 - **核心观点**:运营商虽面临经营压力,但业绩增速大概率可实现两到三年维度的平稳增长,是AI大赛道中有想象力的布局方向 [34][36] - **论据** - **业绩增速放缓但有望提速**:今年一季度三大运营商营收同比仅增长0.8%,但二季度开始随着政企订单恢复,预计收入和利润端业绩将提速 [35] - **收入端增长有持续性**:家庭端天照宽带用户渗透率有提升空间,宽带up值可提升;云计算等ICT项目和产品保持不错增速 [36][37] - **利润端平稳增长**:成本费用压降,资本开支持续下降,折旧和摊销占收比及绝对值可能下降,自由现金流变好,支撑净利润平稳增长 [37] - **股息充裕**:自由现金流强,可供分配股息充裕,虽一季度经济现金流下降,但全年有望平稳 [38][39] 其他重要但是可能被忽略的内容 - **AI算力行业** - **强化学习遵循scale law**:强化学习成为激发复杂推理的核心技术,遵循规模、参数量和算力的法则,agent构建也遵循此规律 [7][8] - **算力投资性价比**:英伟达和华为推出机柜方案,研究表明K = 36以上对性能提升明显,但大于72或等于5760时性价比不高 [16][17] - **估值锚点**:基于未来盈利预测的估值可信度不高,可基于历史PTTM给出合理估值锚点 [20][21] - **Agent应用** - **成为AI应用落地主要承载**:OpenAI给出agent公式,国内也在加速发展,如Manus提出通用Agent概念、智博的陈词成为国内首款公开可用的Digital Search等 [30][33] - **对算力和token消耗大**:agent从规划到执行各环节对token消耗大,如上下文窗口、验证模块、多模式场景等 [14][15] - **运营商行业** - **资本开支下降**:运营商资本开支在2023年出现拐点,2024年下降10%,今年预期下降9%,因6G商用远、AI投资可控 [39] - **资产质量高**:运营商资产质量高,坏账风险低,个人和家庭用户预付费为主,政企用户欠费少 [40]
特斯拉及国产链进展更新、港股及一级市场融资情况
2025-07-16 06:13
纪要涉及的行业和公司 - **行业**:机器人行业 - **公司**:特斯拉、富银金工、龙盛、中鼎、军普、智晟、赛力斯、莱斯科技、奇瑞汽车、三花、军胜电子、凤霄科技、广和通、岳江机器人、Figure AI、智源机器人、乐巨机器人、福利业、语数、创世纪、华睿金迷、奥比中光、熊耐利德、宏茂股份 纪要提到的核心观点和论据 1. **特斯拉** - **核心观点**:对特斯拉机器人业务保有信心,后续可能超预期,国内产业链未来几个月有机会,本周后半周可能有小高潮 [1][2][3] - **论据**:马斯克5月24日宣布回归本体工作,有望推动机器人业务全面加速;杭州TRY拿到新订单,特斯拉在机器人上尝试新改进,如万象节、旋转轴承等 [1][2] 2. **港股上市企业** - **核心观点**:港股制造业公司及机器人等高端制造标的受关注度提升 [6] - **论据**:港股流动性和估值持续改善,截止今年5月7号,港交所主板90亿动平均线成交额达2373亿港币,同比增长130%,市盈率从去年五月的十倍左右提升到12.8倍;优质基本面和高安全系数使股票有上涨势能;A股上市企业纳入港股通有资源倾斜,如岳江机器人 [6][7][8] 3. **一级市场标的** - **Figure AI** - **核心观点**:建议关注与Figure相关的国内厂商 [13] - **论据**:Figure与宝马合作有进展,虽曾遭质疑但有回击;Figure03代机器人有多项更新,有望在未来6 - 12个月集中更新发布并成为重要量产机型 [10][11][12] - **智源机器人** - **核心观点**:智源机器人是与华为合作潜力大的整机厂,估值超150亿 [13][15] - **论据**:完成B轮和B + 轮融资,有华为基因的邓总加入;与华为、中天科技合作开展抗氧人型机器人项目;自2020年底发售产品,截至今年一季度累计交付超100台人形机器人给北汽 [13][14][16] - **乐巨机器人** - **核心观点**:乐巨机器人与华为合作密切 [16] - **论据**:完成新一轮融资交割,估值不到50亿;在2025年全球人工智能中单展和去年华为云开发者大会上展示产品 [15][16] 4. **语数** - **核心观点**:语数在运动控制领域达到全球顶尖水平,表现超资本市场预期 [20][21] - **论据**:不是简单单一动作编程,有全球最顶尖的运动控制、平衡和固态调整能力;后续会有系列赛,如深圳重庆机景的新一轮系列赛 [20][21][23] 5. **行业整体** - **核心观点**:看好机器人板块,6 - 8月产业催化多,若6月海外无系统性风险,6月是板块低点 [23][24] - **论据**:国内外多家公司有新产品发布、合作签约等催化事件,如特斯拉股东大会后可能有更新、华为有相关合作及开发者大会等 [23] 其他重要但是可能被忽略的内容 - 未覆盖但有明显变化的公司,如四菱、英沃、双菱等,可私下交流 [5] - 国内机器人一级市场融资热情高涨,25Q1融资案例数达23年全年水平,巨声模型和零销售发展将推动行业应用落地 [18] - 二级市场和一级市场有密集的人资并购案例,涉及传感器、连销手等多个领域 [20]