世界模型
搜索文档
VLA:何时大规模落地
中国汽车报网· 2025-08-13 01:33
VLA技术发展现状 - 理想i8成为首款搭载VLA司机大模型的车型,主打"像家人一样懂你"的辅助驾驶体验 [2] - 博世认为VLA短期难以落地,坚持投入一段式端到端技术,因多模态对齐和数据训练困难 [2] - 行业对VLA落地时间存在分歧,乐观预测2025年为元年,保守估计需3-5年技术成熟 [2][12][13] 技术路线对比 - 模块化端到端保留部分人工设计接口,存在感知与决策衔接难题 [2] - 一段式端到端采用全局优化模型,特斯拉FSD V12代码量从30万行缩减至2000行 [4] - VLA通过思维链实现可解释性决策,在潮汐车道等复杂场景表现优于传统端到端 [4][5] - VLA单日可完成30万公里仿真测试,显著降低实车数据依赖 [5] 技术演进路径 - 行业主流从端到端+VLM双系统转向VLA原生融合架构 [6] - 端到端+VLM需同步处理TB级视频流与百亿参数模型,车载算力紧张 [6] - VLA通过对比学习实现多模态特征对齐,仿真复现率达99.9% [7] - 理想汽车通过端到端+VLM升级至VLA架构,实现空间理解等四大能力 [5] 算力与芯片挑战 - 当前智驾芯片算力不足,英伟达Orin(254TOPS)不支持语言模型直接运行 [9] - 英伟达Thor芯片实际算力缩水,基础版仅300TOPS [9] - VLA低速自动驾驶需10赫兹运行频率,高速需20赫兹 [9] - 车企加速自研芯片:理想马赫100计划2026量产,特斯拉AI 5算力或达2500TOPS [11] 落地时间表 - 短期(2025-2026):特定场景如高速路/封闭园区应用 [14] - 中期(2027-2029):算力达2000TOPS时覆盖城市全场景,接管率或低于0.01次/公里 [14] - 长期(2030年后):光计算架构+脑机接口实现类人直觉决策 [14] - 需突破多模态对齐、训练效率、芯片能效比等关键技术 [14]
热爆了!中国机器人企业近100万家、融资超240亿,但仍有三大具身智能“非共识”争论
钛媒体APP· 2025-08-12 23:25
行业规模与增长 - 中国现存机器人相关企业达95.8万家 其中2024年注册量19.32万家 同比增长4.59% 2025年前7个月注册量15.28万家 同比增长43.81% [2] - 华东地区机器人企业占全国39.64% 人形机器人整机平台超160家 占全球50%以上 核心零部件供应链企业逾600家 [2] - 2025年1-7月具身智能和机器人领域投资事件超200起 融资总额超240亿元 预计2025年中国人形机器人市场规模超82亿元 占全球50%以上 [4] - 花旗预测2050年全球人形机器人市场规模达7万亿美元(约50万亿元人民币) 全球人形机器人数量近6.5亿台 其中超50%来自中国市场 [4] 技术路线争议 - 行业存在VLA模型与世界模型的技术路径分歧 VLA模型通过视觉-语言-动作多模态框架实现端到端闭环 但当前性能尚未达到理想状态 [6][8] - 宇树科技CEO王兴兴认为VLA模型存在泛用性不足问题 训练新动作需从头开始 且强化学习的Scaling Law尚未出现 [6][8] - 世界模型路线(如视频生成模型)可能更快收敛 但存在GPU消耗大、精度要求过高等问题 谷歌DeepMind的Genie3模型展现物理对齐潜力 [8][9] - 星动纪元陈建宇认为世界模型是VLA技术的一种路径 下一代VLA模型需融合语言交互、视觉感知和物理世界操作能力 [9][10] - 国家创新中心江磊指出全参数模型尚未适用 需通过云端与终端算力协同构建"云网一端"架构 [14][15] 数据与模型发展瓶颈 - 王兴兴强调行业过度关注数据而忽视模型架构 当前模型统一性和泛用性不足 具身智能的"ChatGPT时刻"预计在1-5年内实现 [19][22] - 陈建宇认为模型优先级高于数据 需提升数据利用效率 当前工业场景机器人效率达人类70% 预计明年达90% [21] - 自变量机器人CEO王潜指出数据质量控制困难 端到端架构是突破性能上限的关键 需3-5年达到ChatGPT水平 [22][24] - 江磊强调中国拥有全球最大机器人数据集和最多模型从业者 制造业与数据优势是重大历史机遇 [24] 真机数据与合成数据应用 - 超90%企业倾向真机数据训练 仅银河通用、跨维智能等少数企业坚持合成数据路线 [26] - 银河通用99%训练数据为合成数据 通过自研引擎生成百亿级抓取和柔性操作数据集 真实数据仅占1% [26] - 跨维智能自研DexVerse引擎构建仿真到现实的端到端闭环 彻底颠覆传统真实数据采集模式 [27] - 星海图赵行强调真机数据是打破能力天花板的关键 需在真实环境中采集数据 [29] - 卢策吾指出复杂操作(如擦桌子)更依赖真实数据 比例应由模型自动计算而非人为决定 [29] 商业化与应用场景 - 行业分歧在于机器人应侧重娱乐表演(如跳舞)还是实用场景(如进厂打工、家庭服务) [30][32] - 宇树科技终极目标是工业与家务场景 现阶段通过娱乐展示运动能力 [32] - 王兴兴预测行业处于"ChatGPT时刻"前夜 未来2-5年需解决端到端模型、低成本硬件和算力问题 [33] - 王鹤预计人形机器人每三年产值乘10 未来十年市场规模超1000亿元 二十年后达万亿级 [33] - 行业将进入淘汰赛阶段 分析称80%企业可能无法跨越量产门槛 [33]
拐点已现:"人工智能+"的价值70%来自物联网,AI归位物理世界
36氪· 2025-08-12 11:07
AI技术突破与物联网融合 - Google发布Genie 3模型,首次实现实时互动的3D环境生成 [1] - OpenAI推出GPT-5,但部分用户反馈其表现不如前代GPT-4o [5][6] - AI产业化进程中,物联网成为核心驱动力,预计2025年全球物联网终端连接数突破270亿 [1] 物联网在AI进化中的关键作用 - 物联网终端为AI应用提供67%-72%的原始数据来源 [1] - 物联网不仅是数据采集器,更是AI与现实世界交互的桥梁 [2] - 物理世界数据成为AI突破虚拟智能天花板的关键,具备场景泛化性价值 [7][8] AI模型发展的瓶颈与转向 - 大模型依赖参数和算力堆叠的范式遭遇边际效益递减 [5] - 虚拟智能面临推理能力不足、物理常识缺失等瓶颈 [7] - AI转向物理世界感知与交互,Genie 3和具身智能体成为新方向 [7][12] 智能体经济的崛起 - AI竞争焦点从模型能力转向平台化、软硬件一体化和数据闭环 [15] - AIoT重新定义为主动智能体,成为智能体时代的新基建 [16] - AIoT平台、具身智能模型、Agent生态形成三位一体共振发展 [18] 产业格局与未来趋势 - AI重心从虚拟世界向物理世界迁移,AIoT成为关键基石 [19] - 智能工厂、智慧城市等领域依赖端到端数据闭环和持续进化 [15] - 未来十年AIoT将主导智能体发展,推动实体经济智能化升级 [19]
理想汽车的VLA“长征”
经济观察网· 2025-08-12 10:04
核心观点 - 公司选择长期主义技术路线 自研VLA司机大模型 通过强化学习实现机器理解决策逻辑 区别于行业主流端到端架构的模仿学习模式 [1][3][11] - VLA模型具备持续进化能力 可实现事故预防率提升至人类驾驶10倍(600万公里/次事故) 并支持个性化驾驶风格学习 [4] - 公司构建数据/算法/算力/工程四位一体护城河 包括43亿公里辅助驾驶数据积累 自研MoE架构模型部署 以及日均30万公里仿真测试能力 [9][12][5] 技术架构优势 - VLA采用CoT思维链技术 实时呈现决策逻辑 解决端到端模型"无脑执行"痛点 [11] - 通过强化学习实现"越开越像用户"个性化体验 未来支持Face ID自动切换驾驶风格 [4] - 模型部署突破: 4B MoE混合专家架构 轨迹生成时延仅15毫秒 32B云端大模型蒸馏至3.2B车端模型 [12][15] - 算力优化实现700TOPS有效算力 采用QAT量化感知训练与底层指令重写技术 [15] 数据与测试体系 - 累计43亿公里辅助驾驶里程数据 12亿公里有效回传数据 经过严格"老司机数据"筛选标准 [9] - 仿真测试替代90%实车路测 2025年上半年累计测试超4000万公里 单日峰值达30万公里 [5][9] - 仿真一致性达99.9%以上 基于150万公里实车测试进行验证校准 [10] - 建立超40万个场景评测体系 形成技术壁垒 [7] 性能目标与进展 - 当前辅助驾驶事故率350-400万公里/次 人类驾驶约60万公里/次 [4] - 目标2025年底将MPI接管里程提升至400-500公里 2026年达1000公里 [8] - 智能驾驶试驾率72.4% 试驾满意度92% 30万以上车型AD Max交付占比75.4% [8] 行业技术痛点 - 端到端+VLM架构训练数据超1000万Clips后性能增长缓慢 [3] - 实车测试无法复现极端场景 接管里程数字存在统计缺陷 [3] - 人工采集数据成本高昂 部分企业雇佣数百人实车路测 [3] 价值观与原则 - 安全绝对优先原则: 拒绝危险指令执行 即便牺牲初期体验保守 [22][25] - 技术发展三原则: 安全优先/有效算力至上/用户共建迭代 [25] - VLA架构被评估为长期技术路线 可持续延续至机器人技术时代 [25]
对话星动纪元陈建宇:人形机器人的通途与征途
环球网资讯· 2025-08-12 10:01
技术路线 - 具身智能领域的技术路线正从争议走向共识,VLA(Vision-Language-Action)范式成为行业智能底座,端到端模型在实践中被证明有效 [1] - VLA是一个覆盖"感知-理解-行动"的完整闭环,近期备受关注的"世界模型"被视为VLA范式下的重要演进方向 [2] 效率提升 - 人形机器人执行效率在部分工业场景已达人类的70%以上,预计明年提升至90%,端到端架构实现实时反馈与控制是关键 [3] - 软硬件深度协同是攻坚重点,自研灵巧手已实现稳定量产且成本大幅下降,VLA模型能端到端直接控制每个手指关节的高频动作 [3] 应用场景 - 人形机器人的杀手级应用路径清晰:先B端后家庭,工业场景是必经阶段,企业级应用能验证技术、积累数据并推动产业飞轮 [3] - 未来五年可能是家用机器人爆发的关键窗口期,简单形态家用机器人将很快普及,高净值家庭或率先尝试通用人形机器人 [4] 生态建设 - 行业倾向于"软件定义硬件"逻辑,模型可适配不同硬件但硬件决定模型能力上限,灵巧手采用直驱设计以利于高质量数据收集 [5] - 开源成为推动生态共建的主动选择,仿人机器人强化学习框架"Humanoid Gym"及生成式大模型"VPP"已在社区获得广泛关注 [5] 公司发展 - 公司坚持"双腿运载双手"理念并深度自研核心零部件如关节电机、减速器,强调软硬一体打磨以尽快形成闭环 [3] - 公司创始人表示世界级成果仍是进行时,实验室理想正熔铸于产业化实践,但尚未达到其个人标准 [6]
商汤王晓刚:世界模型将加快AI从数字空间进入物理世界,「悟能」想做那个桥梁
机器之心· 2025-08-12 07:34
具身智能与世界模型 - 具身智能「大脑」以「世界模型」为内核,成为AI下一阶段竞争焦点 [1] - 世界模型被视为通往「类人智能」的解法,业界形成新共识 [1] - 2025年下半年具身智能「大脑」成为全球AI领域焦点 [1] - 世界模型技术研究曲线与具身智能产业发展路径交汇,引发行业争夺战 [2] 行业动态与厂商布局 - 谷歌推出具身智能RT-2模型,AI教母李飞飞聚焦具身智能创业 [3] - 国内厂商密集发布具身智能平台:智源研究院RoboBrain、华为云CloudRobo、字节跳动GR-3、京东JoyInside、商汤「悟能」、腾讯Tairos [3] - 商汤优势在于计算机视觉起家、多模态大模型打磨经验、智能驾驶沉淀、大装置算力支持 [3] - 商汤通过「悟能」平台将多年积累赋能行业 [3] 技术突破与挑战 - 大模型带来导航、人机交互、VLA端到端操作三方面技术突破 [7][8] - 自动驾驶技术进步使机器人导航功能提升 [9] - 多模态大模型带来全新人机交互方式 [10] - 世界模型通过学习物理规律和交通法则实现更高层次智能 [12] - 硬件质量和数据缺乏是主要挑战,尤其是规模化数据生产困难 [13] - 仿真数据与现实差距大,计算机视觉技术可带来新动能 [14] 商汤的技术布局 - 「开悟」世界模型应用于智能汽车,衍生出「悟能」具身智能平台 [5] - 平台包含10万3D资产,支持多视角学习,保持150秒时空一致性 [5] - 世界模型三大技术优势:时空一致性(11摄像头同步)、内容可编辑、反应速度实时 [21][23][24] - 「悟能」平台提供第一视角和第三视角数据,推动端到端VLA实现 [27][29] - 与机器人厂商合作形式为提供SDK软件功能API调用 [33] 应用场景与未来展望 - 机器狗可实现陪伴守护,家庭机器人建立情感连接 [30] - 具身智能成熟后将形成人机社交网络,机器人可完成多项家庭功能 [36] - 每项功能突破都将带来巨大市场想象空间 [37] - 商汤规划提供包含视觉、交互、导航、操作的「机器人大脑」 [39]
WRC 2025聚焦(2):人形机器人临近“CHATGPT时刻” 模型架构成核心突破口
新浪财经· 2025-08-12 06:33
行业核心观点 - 人形机器人行业正处于ChatGPT时刻前夜 最快1-2年实现关键突破 [1] - 2025H1国内整机及零部件厂商平均增长50-100% [1] - 技术突破与算力升级将驱动市场规模和生态格局全面重塑 [2] 行业发展阶段 - 短期1-2年国内市场在政策补贴与场景拓展推动下保持高速增长 整机厂及核心零部件厂商订单可见度高 [2] - 中期2-5年端到端具身智能模型有望成为主流架构 推动从示范样机向大规模商业化迈进 [2] - 长期5年以上家用与工业市场年出货量或达百万级别 竞争焦点转向成本控制与生态体系建设 [2] 技术瓶颈分析 - 硬件并非最大瓶颈 整机和灵巧手已满足多数应用需求 量产与工程化仍需优化但非根本制约因素 [3] - 具身智能AI模型架构是关键短板 VLA模型存在先天不足 数据不足且结合RL训练后效果有限 [4] - 视频生成/世界模型路径更具潜力 通过模拟任务再映射控制 更易收敛且速度可能优于VLA [4] 技术突破方向 - RL Scaling Law有待突破 当前缺乏迁移性 新任务需从零训练 需实现类似语言模型的Scaling Law [5] - 视频生成路径需降低画质追求以减少GPU算力消耗 重点关注执行效率 [4] - 分布式算力是未来趋势 本体算力仅相当于数个手机(峰值功耗约100W) 需依赖工厂/小区级局域服务器 [6] 产业链投资机会 - 硬件端关注进入量产爬坡阶段的驱动器与传感器厂商 [2] - 软件端关注具备视频生成世界模型研发能力的AI公司 [2] - 基础设施端看好分布式算力中心及边缘云服务商 将与5G/6G形成生态协同 [2] 全球化发展 - 海外特斯拉/Figure AI等龙头企业实现量产将加速全球产业链分工与技术标准统一 [2]
昆仑万维:正式发布并开源「Matrix-Game 2.0」模型
证券时报网· 2025-08-12 03:52
公司动态 - 昆仑万维发布自研世界模型Matrix系列升级版本"Matrix-Game2 0" 该版本在通用场景上实现实时长序列交互式生成 并成为业内首个开源方案 [1] - "Matrix-Game2 0"在实时生成和长序列能力上实现突破 能以25FPS速度在复杂场景中生成分钟级连续视频内容 较上一版本显著提升连贯性与实用性 [1] - 模型保持对物理规律与场景语义的精准理解 支持用户通过简单指令自由探索和构建结构清晰、细节丰富的虚拟环境 [1] 技术突破 - "Matrix-Game2 0"侧重低延迟、高帧率的长序列交互性能 打破内容生成与交互之间的技术壁垒 [1] - 该技术为虚拟人、游戏引擎、具身智能等前沿应用提供新可能性 成为构建通用虚拟世界的技术基座 [1] 行业影响 - 世界模型被视为具身智能与高级空间推理的下一前沿课题 [2] - "Matrix-Game2 0"预计对具身智能体训练、虚拟游戏世界搭建、影视与元宇宙内容生产等领域产生变革性影响 [2]
对话星动纪元陈建宇:世界模型是VLA的一个路径,未来5年家庭机器人会爆发
钛媒体APP· 2025-08-12 02:00
行业技术趋势 - 通用人形机器人被视为未来AI技术趋势 具备强大移动和操作能力 将革新生产力和社会服务能力 [2] - 世界模型是VLA技术路径 通过强化学习等技术改进精细化操作 泛化及认知能力 [2][3] - 端到端VLA模型需融合世界模型实现未来预测和认知 并通过强化学习提升通用泛化能力 [7] 技术发展路径 - 构建通用人形机器人的最短路径是直接向人类学习 因人类是唯一通用具身智能体 [2] - 模型优先级高于数据 需提升数据利用效率而非单纯扩大数据量 [4] - 全球首个融合世界模型与生成式模型的工作已实现 相关算法和模型已开源 [7] 产品与研发进展 - 公司提出VLA模型ERA-42 融合理解与生成 统一视觉 理解 预测 行动功能至端到端模型 [5] - 自研人形机器人星动L7采用模块化设计 适配物流分拣等场景 由VLA模型直接控制操作 [6] - 自研人形机器人星动Q5面向服务业 在零售门店等场景推进落地 具备拟人化交互能力 [6] - 自研灵巧手XHand 1具备12个主动自由度和触觉传感器 可完成上千个灵巧动作 [6] 商业化策略 - 优先聚焦B端场景落地 包括工业制造自动化作业和服务业场景化服务 [7] - 当前工业场景中智能机器人效率达人类70% 预计明年达90% [8] - 人形机器人最终杀手级应用在家庭场景 但前期需通过B端积累数据和打磨技术 [9][10] 公司背景与融资 - 公司成立于2023年8月 为清华大学孵化项目 坚持软硬一体技术路线 [5] - 成立不到两年完成3轮融资 今年7月完成近5亿元A轮融资 由鼎晖VGC和海尔资本联合领投 [5] 行业发展阶段 - 家用机器人爆发时间点预计在未来五年 简单形态机器人将进入家庭 高净值家庭或率先试用通用人形机器人 [4] - 具身智能行业尚未出现泡沫 估值未达智能汽车量级 因周期长且未形成规模化商业闭环 [8]
昆仑万维发布并开源Matrix-Game 2.0模型
新浪财经· 2025-08-12 01:22
公司动态 - 昆仑万维于8月12日发布并开源Matrix-Game交互世界模型的升级版本Matrix-Game 2.0 [1] - Matrix-Game 2.0能够生成跨场景的长时视频并保持动作和视觉的时序一致性 [1] - 新版本支持用户在交互过程中进行连续指令输入 [1]