强化学习

搜索文档
观察者网WAIC直播实录:AI大潮下的具身和人形,中国在跟跑还是并跑?
观察者网· 2025-08-03 05:36
行业格局与公司战略 - 美的集团通过2016年收购库卡机器人实现To B转型 布局四大板块:楼宇科技 工业技术 机器人与自动化 新兴AI业务[4] - 美的2023年启动人形机器人规划 凭借核心零部件技术积累和完整产品线切入赛道 2024年加速产品开发与应用尝试[4] - 库卡机器人主要服务汽车制造 3C 船舶 飞机制造等行业 在美的灯塔工厂应用广泛[5] - 格灵深瞳作为首家科创板AI计算机视觉上市公司 深耕金融安防领域 近期拓展体育考试训练和AI PC大模型一体机业务[5] - 真格基金重点布局AI与机器人早期项目 已投资月之暗面 Manus Genspark等具身智能企业[6][57] 技术演进路线 - 人形机器人关节数量从传统200+缩减至40个左右 强化学习算法显著降低调试难度[8][9] - 技术路线从液压传动转向电动传动 控制方式从rule-base转向learning-base 中国供应链优势推动成本下降[12] - 双足形态在动态平衡性上具优势 轮式更适合标准化场景 智元创新的轮足折叠设计尝试融合两者优势[13][16][19] - 五指灵巧手在70%场景可被两指夹具替代 但数据采集和复杂操作仍需五指结构[27][28] - 视频模型和world model成为具身智能关键技术 需解决物理世界数字化重建的高成本难题[37][43] 应用场景展望 - 工业场景将率先落地 上汽计划引入500台人形机器人进厂 聚焦搬运 装配等六大核心工序[9][15] - 家庭场景面临安全隐私等挑战 需分阶段从工业→商业→家庭推进 预计5-10年实现普及[13][66][67] - 家电机器人化成为新方向 如智能烤箱通过视觉识别和自动调节实现主动服务[64] - 高人力成本场景优先突破 如美国餐厅后厨等海外市场更具商业化潜力[58][73] 中美竞争态势 - 中国占据全球40%人形机器人专利 机电产业链优势显著 核心部件价格快速下降[69][72] - 美国在AI基础技术领先 中国在场景落地和政策支持方面占优[70][71] - 人才储备呈现"中美华人竞争"格局 中国需突破算力瓶颈并拓展全球化市场[72][73]
AI大潮下的具身和人形,中国在跟跑还是并跑?
观察者网· 2025-08-03 05:35
具身智能与人形机器人发展现状 - 具身智能被视为通往AGI的必经之路 特斯拉Optimus和波士顿动力Atlas的进展引发全球关注 [1] - 中国在具身智能领域已从"跟跑"转向与美国"并跑"甚至寻求"弯道超车" [1] - 行业讨论焦点集中在电机供应链 强化学习算法 落地场景与资本路径 [1] 美的集团机器人战略布局 - 2016年起通过收购库卡等企业布局To B业务 形成四大板块:楼宇科技 工业技术 机器人与自动化 新兴AI业务 [3][4] - 人形机器人业务2023年启动规划 2024年加速发展 依托电机 减速机等核心零部件技术积累 [4] - 库卡机器人主要服务汽车制造(60%) 3C(20%) 船舶/航空(15%)等工业领域 [4] 格灵深瞳技术路线 - 中国首家科创板AI上市公司 深耕计算机视觉12年 覆盖金融安防 智慧体育等场景 [5] - 推出视觉基础大模型MVT 1.5版本 实现图像到视觉token的转换 [5][32] - 探索视频模型技术 提升机器人对动态场景的理解能力 [36] 人形机器人技术演进 - 关节数量从传统200+缩减至现代40个(全身30个) 强化学习使复杂控制成为可能 [8][9] - 技术路线从液压传动(波士顿动力)转向电动传动(中国供应链优势) [12] - 控制方式从rule-base转向learning-base 提升任务泛化能力 [11][12] 形态路线争议 - 双足形态:适合动态复杂场景(工厂阶梯 火星移民) 具备动力学平衡优势 [16][18] - 轮式形态:平坦场景效率更高(家庭 标准工厂) 安全性更优 [13][15] - 混合形态:智元推出可折叠轮足机器人 尝试平衡效率与适应性 [20] 灵巧手发展路径 - 五指灵巧手:符合人机交互直觉 数据采集便利 但成本高达数万元 [22][25] - 两指夹爪:满足70%基础任务 成本优势明显 成为当前主流方案 [25][26] - 美的认为通用人形机器人必须配备五指手 工业场景则倾向专用末端 [22][23] 技术概念解析 - 具身智能:实现感知-决策-执行的完整闭环 需与物理世界持续交互 [30][33] - World Model:物理世界的数字重建 面临数据采集成本高难题 [40] - 强化学习:具身智能必备组件 但reward函数设计仍是关键挑战 [42][46] 中美产业对比 - 中国优势:机电产业链成熟(占全球人形机器人专利40%) 人才储备充足 政策支持力度大 [63][64] - 美国优势:AI基础研究领先 人力成本推动场景落地更快 [63][66] - 硬件创新中国占优(蔚小理等) 软件创新美国领先 全球市场成为共同目标 [66] 商业化落地展望 - 工业场景优先:上汽计划引入500台人形机器人 分阶段实现自动化 [9][60] - 家庭场景需突破:安全标准 隐私保护 个性化交互等核心问题 [61] - 数据采集瓶颈:需建立类似特斯拉FSD的规模化数据获取机制 [57]
赛道Hyper | 字节推出实时双语真人互译模型
华尔街见闻· 2025-08-03 02:20
技术突破 - 字节跳动Seed团队推出端到端同声传译模型Seed LiveInterpret 2.0,在中英语音同传的效率与效能上表现不俗,是首个延迟&准确率接近人类水平的产品级中英语音同传系统 [2] - 该模型引入强化学习机制,在延迟、译文准确率和节奏控制上进行联合建模优化,从技术原理上为低延迟提供了支持 [2] - 采用全双工语音理解与生成框架,接收源语言语音时即可开始生成目标语言语音,实现"边听边处理",语音延迟低至2s-3s,较传统机器同传平均等待时间减少超60% [4] 性能指标 - 语音到文本场景中,输出首字平均延迟仅2.21s,语音到语音场景中输出延时2.53s [4] - 专业同传译员按中英双向RealSI标准数据集打分,语音到文本的中英互译平均得分74.8分(满分100分),语音到语音翻译译音质量得分66.3分 [4] - 支持"中英双向语音到语音同传+声音克隆",SVIP(语音译文有效信息比例)在zh-en方向67.8,en-zh方向64.7,音质、节奏和语调接近真人 [5] 创新功能 - 具备"0样本声音复刻"功能:无需提前录说话人声音,能实时采集对话语音即可模仿用户音色,用"原声"输出目标语言译文 [5] - 在会议、演讲等跨语种交流场景,能降低听众理解难度,更好传递说话人语义和情绪,使交流更自然 [5] - 发言人能听到自身音色的外语译文,利于把握节奏,也让听众更易接受信息 [6] 应用场景 - 国际商务场景中,可提升跨境谈判、跨国会议的沟通效率与准确性,对国际贸易和投资有促进作用 [7] - 教育领域可为师生提供实时翻译,打破语言壁垒,方便获取国外教育资源,促进学术合作 [7] - 旅游场景中若整合进智能手机,可成为更智能的"随身翻译",解决异国沟通麻烦 [7] 行业影响 - 可能促使传统同声传译服务提供者改进,如结合人工智能提升服务质量和效率,适应市场变化 [7] - 硬件设备制造商迎来机会,Ola Friend耳机计划8月底接入该系统,成为首个支持其语音同传功能的硬件 [8] - 未来有望支持更多语言,方便不同语言交流,在智能客服、影视作品跨国传播等领域也有潜力 [8]
AI编程大战一触即发
财联社· 2025-08-02 12:58
Anthropic与OpenAI的API访问纠纷 - Anthropic以OpenAI违反服务条款为由切断了其对Claude系列AI模型的API访问权限[1] - 纠纷核心在于OpenAI通过API将Claude接入内部评估工具进行对比测试以优化自有模型[3] - Anthropic商业条款禁止客户使用其服务开发竞争性产品或进行反向工程[3] - OpenAI回应称评估其他AI系统是行业惯例并表示尊重Anthropic的决定[3] - 此前Anthropic曾以类似理由限制AI编程初创公司Windsurf对Claude的访问[4] Claude的市场表现与估值 - Claude在编程、文本创作与安全性方面表现突出推动Anthropic收入大增[2] - Anthropic正进行新一轮融资估值或将达到1700亿美元[2] - Claude Code已成为全球开发者的首选工具使用量激增导致增设使用限制[3] - Claude在代码优化、自动补全等方面一度领先GPT系列[5] GPT-5的研发进展与竞争态势 - GPT-5即将发布在编程等多个领域展现出显著性能提升[5] - 测试显示GPT-5在大型复杂代码库修改方面表现优于Claude Sonnet 4[5][6] - GPT-5可能改写AI编程助手市场格局挑战Anthropic主导地位[7] - OpenAI内部代号Orion的GPT-5原型因数据问题被降级为GPT-4.5发布[8] - OpenAI通过大规模推理模型与强化学习方法找到性能提升突破口[9] - 强化学习技术被用于提升GPT-5在推理、编码、文本生成等方面的能力[9] 行业竞争格局 - Claude与GPT-5即将在AI编程能力上进行正面对决[1] - 双方竞争焦点集中在AI编码这一关键应用场景[5] - OpenAI通过对比测试确保GPT-5在多领域不落后于竞争者[10]
OpenAI 坎坷的 GPT-5 研发之路
傅里叶的猫· 2025-08-02 12:31
行业格局演变 - OpenAI虽保持AI领域领头羊地位但面临Anthropic技术竞争和Google的追赶,Anthropic提出热门MCP技术并专注AI本质研究,而OpenAI被批评过度侧重商业化和营销[4] - Anthropic在开发者编程模型领域抢占先机,Cursor编程助手采用其技术倒逼OpenAI将自动化编程列为首要目标[13] - 谷歌、xAI等竞争对手加速布局强化学习技术,行业技术路线趋同化[19] GPT-5技术演进 - 初始研发模型Orion因数据匮乏和规模扩展失效未能达标,最终降级为GPT-4.5发布[10] - o3模型基于Q*突破发展而来,母模型在科学理解能力上实现"质的飞跃",但转化为聊天版本时因语言体系差异导致性能损失90%以上[11][12] - 最终版GPT-5聚焦实用性改进:编程能力可自主优化代码细节,AI代理任务处理准确率提升30%,算力使用效率提高20%但未显著增加能耗[13][14] - 强化学习成为关键技术突破点,通过"通用验证器"实现跨领域能力验证,推动编程和创意写作进步[18] OpenAI内部挑战 - 人才流失严重,Meta高薪挖走十余名核心研究员,涉及强化学习等关键技术团队[16] - 与微软关系紧张,知识产权独家使用权至2030年的协议引发研究员抵触,上市计划中股权分配博弈持续(微软或获33%营利部门股权)[16][17] - 未来三年半计划投入450亿美元服务器租赁成本,当前商业化收入主要依赖ChatGPT和API业务[17] 行业趋势判断 - AI行业进入"慢时代",技术突破从堆数据算力转向细节优化(如人机交互、算力分配),竞争焦点转向落地能力[15][19] - 强化学习被视作AGI雏形,OpenAI高管透露技术路线图已规划至GPT-8[17][19]
GPT-5难产,外媒爆料:性能提升不大,OpenAI高管Slack上当众破防
机器之心· 2025-08-02 04:43
GPT-5技术进展 - GPT-5在编程、数学和复杂任务处理能力上有显著提升,尤其在自动化编码和客服退款规则制定方面表现优于前代[15] - 新模型能更高效分配计算资源,在不增加消耗的情况下生成更高质量的文本和代码答案[20] - 性能改进幅度不及早期GPT-3到GPT-4的飞跃,显示技术突破速度放缓[15] 技术开发挑战 - 从研究模型转为ChatGPT版本时性能收益大幅下降,沟通方式差异导致效果折损[32][33] - Orion模型原计划作为GPT-5发布,因未达预期改为GPT-4.5,预训练阶段遇到数据质量和规模扩展问题[27] - Meta挖走十多位关键研究人员导致团队动荡,研究副总裁公开抱怨管理问题[25][26] 核心技术创新 - 采用"通用验证器"技术自动评估模型输出质量,覆盖从编程到创意写作的广泛领域[38][39] - o3推理模型通过增加英伟达芯片和网络搜索能力,在科学理解上取得突破[29][30] - Test-Time Scaling技术证明增加计算时间可持续提升模型性能[13] 商业与融资动态 - 最新融资83亿美元使估值达3000亿美元,年收入预计年底突破200亿美元[42] - 微软可能获得重组后33%股权,双方在技术授权条款上存在争议[24] - 450亿美元GPU采购计划依赖技术改进带来的投资者信心[16] 战略方向 - 自动化编码能力成为研发重点,被视为实现AI自我进化的关键[21] - 公司高管公开表示现有技术路径可支持GPT-8目标,并最终实现AGI[18] - 强化学习被视为通向AGI的核心技术,获得xAI和谷歌等竞争对手重点关注[39]
MuJoCo教程来啦!从0基础到强化学习,再到sim2real
具身智能之心· 2025-08-01 16:02
具身智能技术发展 - 具身智能正在全面崛起,重新定义人类与机器的关系,从理解语言指令到在复杂环境中灵活移动和精确操作物体 [1] - 全球顶尖科技公司如Tesla、Boston Dynamics、OpenAI、Google等都在竞相布局具身智能领域 [1] - 具身智能将彻底改变制造业、服务业、医疗健康、太空探索等多个行业 [1] MuJoCo技术优势 - MuJoCo是连接虚拟世界与现实世界的重要桥梁,为机器人学习提供高保真、高效率的训练环境 [4] - 通过MuJoCo,研究者可以构建高度逼真的虚拟机器人和环境,使AI系统在仿真中进行数百万次试验和学习,仿真速度比现实时间快数百倍 [6] - MuJoCo采用先进的接触动力学算法,精确模拟机器人与环境的复杂交互,支持高度并行化计算和多种感知模态 [6] - MuJoCo已成为学术界和工业界的标准工具,Google、OpenAI、DeepMind等科技巨头都在使用 [8] 具身智能实战教程 - 课程采用项目驱动的学习方式,涵盖从物理仿真原理到深度强化学习、机器人控制理论到Sim-to-Real迁移技术的完整知识体系 [9] - 课程设计六个层次递进的实战项目,包括智能机械臂控制、视觉引导抓取系统、强化学习驱动的运动技能等 [11][16] - 每个项目都配有详细的中文指导文档、参考代码和调试技巧,并来自中国机器人企业的实际应用场景 [30] 课程结构与学习目标 - 课程分为六个学习模块,每周有明确的学习目标和实践项目 [15] - 学习模块包括MuJoCo基础、高级建模与传感器集成、强化学习与智能决策、机器人控制理论、多智能体系统与交互学习、Sim-to-Real迁移 [17] - 完成课程后,学员将熟练掌握MuJoCo各项功能、强化学习核心算法和机器人控制理论,具备完整的项目开发经验和创新能力 [32][33] 行业应用与前景 - 具身智能技术将在工厂精密装配、医院手术协助、家庭服务、危险环境救援等多个场景中发挥革命性作用 [1] - 课程设计的实战项目直接对接产业需求,帮助学员快速适应行业发展趋势 [30] - 掌握MuJoCo和具身智能技术将使学员成为该领域的复合型人才,具备技术开发和团队协作的核心能力 [33]
对话理想智驾团队:端到端像「猴子开车」,VLA有机会抵达「ChatGPT时刻」
雷峰网· 2025-08-01 11:11
核心观点 - 理想汽车发布首款纯电SUV理想i8,售价32.18万至36.98万元,被视为公司在纯电赛道的关键一步 [2] - 理想i8将搭载下一代智能辅助驾驶方案VLA司机大模型,成为重要卖点 [3] - VLA代表以强化学习为核心的新范式,具备思维能力、沟通能力、记忆能力和自主学习能力四大核心能力 [6] - 公司已积累12亿公里有效数据,云端算力规模达13EFLOPS [1][6] - VLA模型通过生成式方法和仿真环境构造稀缺数据,突破传统模仿学习路径的瓶颈 [6] 产品发布 - 理想i8为六座家庭SUV,定价参考理想L8,目标达到L8上市首月交付5293辆的水平 [2] - 理想i8交付时间定于8月20日,因需同步交付VLA司机大模型 [3] - 公司从去年开始预研VLA,今年初成立项目组攻关工程化研发 [4] 技术突破 - VLA通过强化学习解决端到端模型的数据质量和训练效率双重瓶颈 [5][6] - 端到端模型MPI从去年7月的十几公里提升至今年初的近100公里,7个月内增长近10倍 [4] - 从3月到7月底近5个月,端到端模型性能只提升2倍左右,显示遇到瓶颈 [5] - VLA推理帧率达10Hz,相比之前端到端的3Hz提升三倍多 [8] - 公司自研4B基座模型,采用MoE混合专家架构,专门针对嵌入式芯片定制 [9] 数据与算力 - 公司积累12亿公里有效数据,云端算力规模达13EFLOPS(2万张H20等效训练卡,3万张等效L20推理卡) [6][7] - 在规则算法时代训练卡不到1EFLOPS,端到端时代增长到10EFLOPS,增长10倍左右 [12] - 公司使用FP8格式实现1000TOPS算力,计划向FP4演进 [20][31] 仿真测试 - 公司90%以上测试采用仿真测试替代实车测试 [16] - 仿真测试效果优于实车测试,成本更低 [17] - 公司2024年进行150多万公里实车测试验证仿真环境可靠性 [28] - 仿真系统准确率达99.9%以上 [28] 安全指标 - 理想车主人驾数据为60万公里出一次事故,辅助驾驶功能下为350到400万公里发生一次事故 [13] - 目标将MPA提升到人类驾驶的10倍,即600万公里出一次事故 [13] - 当前MPA指标为300万公里左右 [13] 行业定位 - 公司是国内最早落地VLA的车企,认为技术壁垒在于世界模型仿真能力 [37][55] - VLA技术可拓展到其他机器人领域,公司已成立相关机器人部门 [55] - 公司采用"预研一代、研发一代、交付一代"的技术发展思路 [54] 用户体验 - VLA版本在内部评分上已全面超越端到端7.5版本 [58] - 重点提升行车舒适度,其次为安全和效率 [14] - 计划为不同用户提供个性化驾驶风格体验 [30]
2025上半年AI核心成果及趋势报告-量子位智库
搜狐财经· 2025-08-01 04:37
应用趋势 - 通用类Agent产品深度整合工具使用,可完成数小时人类工作量的自动化任务,交付内容丰富[1][13] - 以视觉操作为核心的Computer Use Agent(CUA)推向市场,正与文本类深度研究Agent融合[1][14] - 垂直场景加速Agent化,自然语言操控成工作流一部分,AI编程获市场验证,收入增长迅猛[1][16][17] - 头部编程应用收入增长速度创纪录,不同应用达到5亿美元年收入所需时间缩短至2年[17][18] - 模型上下文协议(MCP)受关注但尚未规模化落地,可为大模型Agent提供技术支撑[1][19] 模型趋势 - 推理能力持续提升,数理和代码类问题进步显著,部分模型在国际竞赛中表现优异(如代码竞赛准确率提升+129%)[21][22] - 大模型工具使用能力增强,端到端融合视觉与文本,多模态推理能力提升[1][25][26] - 图像生成控制能力、审美等全面增强,普通用户可仅通过自然语言进行复杂图像编辑[28] - 视频生成模型整合原生配音,可控性和物理规律协调性增强(如Veo 3支持音画同步生成)[29] - 小模型加速普及(如Qwen3-0.6B/1.7B/4B),降低部署门槛[30] 技术趋势 - 资源投入向后训练和强化学习倾斜,强化学习重要性提升,未来算力消耗或超预训练[1][33] - 多智能体系统成前沿范式,在线学习有望成下一代学习方式[1] - Transformer架构及混合架构快速迭代优化,代码验证成AI编程自动化提升的前沿[1] 行业趋势 - xAI的Grok 4跻身全球第一梯队,证明大模型无护城河[2] - 算力成关键竞争要素,头部玩家计算集群规模达数十万卡且持续扩张[2] - OpenAI领先优势弱化,谷歌和xAI迎头赶上,中美通用大模型差距缩小[2] - 中国在多模态领域表现突出,AI编程成必争之地,国内外头部玩家密集布局[2][17]
基模下半场:开源、人才、模型评估,今天的关键问题到底是什么?
Founder Park· 2025-07-31 14:57
中国开源模型的崛起 - 中国开源模型如Kimi、Qwen、智谱GLM-4.5等近期密集发布,Hugging Face热门榜几乎被中国模型垄断[1][3] - 中国模型发展速度惊人,一旦模式被验证可行,中国擅长集中资源快速工程化实现[5][8] - 中国开源模型可能成为发展中国家的模型标准,尤其在"全球南方"市场占据优势[6][7] 中美AI竞争格局 - 大模型竞争已演变为中美之间的比拼,开源标准可能转向中国模型[3] - 美国如Meta等公司正加大投入,但中国在公私合作和资源投入方面更具优势[8][10] - 中国机构如清华大学已拥有先进语言模型,而美国部分高校资源相对不足[8][10] 模型训练与人才 - 不同机构间人才差异并不显著,模型好坏更多取决于资源利用效率[15][16] - 顶尖实验室内部普遍存在混乱,但关键在于能否产出有效模型[19][20] - 实验速度和基础设施比单纯追求"天才"更重要,需要重视团队协作价值[21][22] 模型评测与基准测试 - 当前更需要好的基准测试来评估模型能力,而非仅关注技术细节[3][24] - 制作高质量评测的门槛越来越高,但可能带来新的话语权[24][25] - 评测领域存在巨大蓝海机会,定义新任务不需要庞大算力[26] 强化学习与推理技术 - RL无法泛化到数学和代码之外的说法被夸大,这些领域只是更容易验证[32] - GSPO算法通过分组序列策略优化显著提升样本效率[28][29] - 模型推理研究进展有限,蒸馏小模型比RL更实用[27] 未来挑战与趋势 - 验证难度将越来越大,特别是在科学发现等复杂领域[36][37] - 智能体相关能力可能成为未来关键基准,参数规模扩张不再是主要路径[23] - 行业需要改变模型优势的传达方式,超越单纯基准测试分数[24]