Workflow
世界模型
icon
搜索文档
华为又投了一家具身智能机器人领域创企
Robot猎场备忘录· 2025-11-24 05:21
融资情况 - 公司于2025年10月30日完成亿元级A1轮融资,由华为哈勃和华控基金联合投资[2] - 公司于2025年8月28日完成Pre-A和Pre-A+两轮数亿元融资,投资方包括国中资本、紫峰资本、PKSHA Algorithm Fund、中金资本、广州产投、一村淞灵和华强资本[2] - 公司于2025年2月12日完成数千万元天使++轮融资,投资方包括普超资本、合鼎共资本和上海天使会[3] - 2025年公司已完成4轮融资,累计完成6轮融资,早期融资包括2024年9月近5000万元天使及天使+轮融资和2023年3月数千万元种子轮融资[3] - 公司是华为投资的第二家具身智能领域创企,另一家千寻智能Spirit AI已完成5轮累计近14亿元融资[4] 行业背景 - 2025年以来谷歌、OpenAI等国外科技大厂从大模型赋能转向投资和自研具身智能,国内蚂蚁、京东、阿里等大厂也加快投资步伐,华为是典型代表[6] - 资本开始青睐具备强大AI能力且同时涉及本体的初创公司,此类公司在2025年接连完成大额融资并取得商业化突破[25] 公司概况 - 公司于2023年1月在北京注册成立,定位为物理AI公司,专注世界模型驱动的物理世界通用智能,是国内第一家专注世界模型x具身大脑方向的科技公司[6] - 公司核心团队兼具领先研究能力和大规模产业落地经验,是少有的同时具备CV和大模型经验创始团队的具身智能初创公司[9] 核心团队 - 创始人兼CEO黄冠为清华大学人工智能方向博士,国家级创新领军人才,拥有超过十年AI技术和产业经验,曾在微软、三星、地平线等企业从事算法开发[12] - 首席科学家朱政为中科院自动化所博士、清华博士后,拥有超过70篇视觉和AI方向顶会论文,连续四年入选全球前2%顶尖科学家榜单[12] - 工程副总裁毛继明为百度、赢彻等T10级别架构师,曾担任百度Apollo仿真和工程负责人[12] - 产品副总裁孙韶言曾担任阿里云总监、地平线数据闭环产品线总经理[12] - 算法负责人陈新泽为中科院硕士,AI世界冠军得主[12] 技术路线 - 公司全栈自研,同时布局本体和大脑,产品包括世界模型平台GigaWorld、具身基础模型GigaBrain和通用具身本体Maker等物理AI全栈软硬件产品[10] - 公司技术路线是具身智能大模型和人形机器人本体同时涉及,在软硬件上全栈推进[25] 软件产品 - 世界模型平台GigaWorld应用于驾驶和具身两个方向,在驾驶方向已发表DriveDreamer、ReconDreamer等成果,在具身方向已发表EmbodieDreamer、RoboTransfer、EmbodiedGen等领先学术工作[13] - 公司将于近期发布具身世界模型平台GigaWorld-0[14] - 2025年7月公司发布全球首个主要依靠世界模型生成数据驱动的端到端VLA具身基础模型GigaBrain-0 Preview,实现开放世界零样本泛化[15] - 2025年10月底公司与湖北人形机器人创新中心联合发布端到端VLA具身基础模型GigaBrain-0,是国内首个利用世界模型生成数据实现真机泛化的VLA基础模型[15] - 2025年10月31日公司正式开源三大AI基础设施框架GigaDatasets、GigaModels和GigaTrain[16] 硬件产品 - 公司自研的全新一代具身智能人形机器人通用本体Maker H01即将推出,拥有丰富传感器配置和高度开放接口[17] - Maker H01尺寸为650*550*1620毫米,头部自由度2,单臂自由度7,躯干自由度4,底盘为四轮全向全驱,手臂额定负载3公斤最大负载5公斤,臂展794毫米[21] - 传感器配置包括头部RGBD相机1个、胸部RGBD相机1个、手部RGBD相机2个、头部RGB相机5个、底盘激光雷达1个和底盘超声波传感器8个[21] 业务进展 - 在自动驾驶世界模型方向已和多个头部主机厂达成签约合作,在具身世界模型和具身大脑方向已和多个具身本体、终端公司达成签约合作[22] - 应用场景包括科研、教育、展览、数据采集、工业、服务、家庭等多个领域[22] 行业地位 - 公司是国内第一家专注世界模型方向的创企,在世界模型和VLA大模型方向都处于领先水平[25] - 双系统架构技术路径VLA模型已成为具身智能领域模型主流,但仍存在数据、黑盒风险、泛化能力等问题[23] - 未来机器人通用大模型架构演进方向之一是将世界模型引入决策推理流程,英伟达、谷歌DeepMind和李飞飞的World Labs等头部公司都加速在世界模型方向布局[24]
8位具身智能顶流聊起“非共识”:数据、世界模型、花钱之道
36氪· 2025-11-24 01:00
行业资金需求与投入方向 - 加速进化创始人认为100亿元资金不足以推动具身智能发展,倾向于联合更多合作伙伴共同投入[1] - 智元机器人合伙人计划用100亿元构建全球最大的自我进化、自我闭环的数据飞轮[1][54] - 星海图联合创始人计划用资金构建最大的数据引擎,实现物理世界信息的全面数字化[55] 数据策略与瓶颈解决方案 - 招商局集团AI首席科学家强调真实物理世界数据的重要性,并主张以人自身作为本体采集数据作为成本最低的预训练方案[29][30] - 银河通用创始人认为在真实数据难以采集的场景下,合成数据将发挥重要作用[2][38] - 自变量创始人主张根据具体任务选取合适数据源,采用融合数据策略,互联网数据用于预训练,仿真数据用于导航规划,真实数据用于接触操作[2][46] 世界模型的技术定位 - 银河通用创始人认为世界模型所代表的预测能力是核心,但训练数据必须来自机器人自身,而非人类行为视频[4] - 智源研究院院长认为世界模型对具身智能有作用,但不一定是必须基座,需要基于时空状态进行预测[5] - 加速进化创始人关注世界模型的预测能力,希望模型能基于需求和环境输出未来100帧的动作[18][19] 模型架构发展路径 - 招商局集团AI首席科学家认为具身智能需要完全属于自己的架构,可能转向Vision First或Vision Action First模式,而非延续VLA范式[7] - 星海图联合创始人主张建立平行于大语言模型的基础模型,更可能是Large Action Model,并强调需要闭环模型而非开环的大语言模型[8][10] - 智元机器人合伙人认为最终解决方案将是融合系统,包含VLA、世界模型和强化学习等要素[11] 当前行业挑战与突破点 - 银河通用创始人指出人形机器人数量过少是制约Action First模型发展的关键瓶颈[16] - 智源研究院院长认为统一架构模型需要超大
认知驱动下的小米智驾,从端到端、世界模型再到VLA......
自动驾驶之心· 2025-11-24 00:03
小米汽车智能驾驶技术发展 - 智能驾驶能力发展遵循三个阶段:从1.0规则驱动到2.0数据驱动再到3.0认知驱动[7] - 技术发展路线为:2024年3月高精地图版本高速NOA → 2024年5月城区NOA → 2024年10月轻图和无图版本 → 2025年2月300万clips端到端版本 → 2025年7月1000万clips版本 → 近期世界模型版本[7] - 在安全、舒适和效率三个维度上,安全永远是第一位[4] - 泊车功能渗透率最高且用户使用最多,城区智驾投入最大且提升空间最大[8] - 2024年11月21日广州车展发布Xiaomi HAD增强版,将通过OTA冬季大版本Xiaomi HyperOS 1.11系列推送给用户[8] 世界模型技术特性 - 世界模型三大核心特性:生成的多样性(重建真实性+快速新场景生成+场景编辑)、多模态输入输出(文字/视频输入+视觉/LiDAR重建)、交互能力(闭环影响下一时刻自车行为)[9] - 世界模型更偏云端应用,通过数据生成、闭环仿真和强化学习提升模型性能,不直接参与车端Action输出[10] - 1.11版本引入世界模型和强化学习,主要解决极端corner case场景,采用重建+生成结合方式[8] VLA与端到端技术路线 - VLA(视觉语言动作模型)是认知驱动核心,为下一阶段量产目标,并非端到端的升级[7] - 端到端本质是模仿学习,VLA直接将大模型能力赋予自动驾驶,世界模型类似端到端plus[13] - VLA可与世界模型融合,学习人类高层次知识(交通规则/价值观)[13] - 小米大模型发展路线:LLM预训练 → VLM预训练 → 具身预训练 → 自驾VLA,已推出MiMo、MiMo-vl和MiMo-Embodied[13] - VLA的无损传递是相比端到端+VLM的最大提升[13] 自动驾驶技术社区资源 - 自动驾驶之心知识星球涵盖40+技术方向,包括VLA学习路线、端到端自动驾驶、世界模型等[16][27] - 社区成员来自300家机构与自驾公司,包括蔚小理、地平线、华为等头部企业[26] - 提供近40+开源项目、近60+数据集、行业主流仿真平台及各类技术学习路线[27] - 社区内部举办超过100场专业技术直播,邀请学术界和工业界大佬分享最新研究成果[99]
8位具身智能顶流聊起「非共识」:数据、世界模型、花钱之道
36氪· 2025-11-23 12:56
文章核心观点 - 国内具身智能行业顶尖从业者就技术路径、数据策略等关键问题存在显著非共识,反映出不同的战略重心和第一性原理[4][7][9] - 具身智能的发展面临数据瓶颈,100亿元资金被普遍认为不足以支撑行业突破,需用于吸引人才、构建数据飞轮和基础模型[7][67][68][69][70] - 行业普遍认为具身智能的最终形态将依赖于一个统一的基础模型架构,但当前技术路线尚未收敛,VLA范式受到反思[18][19][23][25][36] 技术路径分歧 - 世界模型被视为具身智能的核心预测能力,但其训练数据必须来自机器人自身,而非人类行为视频[14][15][16] - 有观点认为世界模型是具身智能的关键组成部分,但不一定是必须的基座,其价值在于基于时空状态进行预测[17] - 对当前主流的视觉-语言-动作模型范式提出质疑,认为其语言居中夹层的结构不符合人类操作本质,应探索视觉优先或动作优先的新架构[19][20] - 具身智能模型应是一个闭环系统,能根据世界反馈即时调整动作,这与大语言模型的开环一问一答模式有本质区别[22] - 另一种观点认为终极解决方案将是一个融合系统,包含VLA、世界模型和强化学习等要素,而非单一模型[23][24] - Transformer架构被认为具有跨模态处理的通用性,但需解决输出对齐问题,未来可能出现统一范式[27][28][35] - 长期来看,基于物理世界数据训练的具身多模态模型可能反超并吞并以虚拟世界数据为主的现有模型[40] 数据策略与瓶颈 - 数据稀缺是行业核心瓶颈,解决方案存在分歧:有主张优先采集真实物理世界数据,有强调在难以采集处使用合成数据[9][10] - 数据策略强调真实性、质量和多样性,需在真实场景而非数据厂采集,并最终通过机器人自主交互产生数据[45][46][47][48][49][50] - 视频数据因可海量获取且模拟真实世界而被视为基座模型学习的重要来源,结合真机微调和强化学习提升模型[51] - 仿真数据被强调用于解决复杂控制问题,如足式行走和灵巧手操作,可作为基础控制器启动真实世界数据飞轮[52][53][54][55][56] - 数据使用策略呈现融合趋势,根据不同任务阶段和特性选择互联网数据、仿真数据或真实数据[37][38][59] - 自动驾驶模式被引用为范例,通过C端产品大规模部署实现数据回收,是具身智能数据规模化的可行路径[59][60] 资金分配与战略重心 - 面对100亿元资金,战略重心集中于构建自我进化的数据飞轮、设计专属基础模型以及吸引全球顶尖人才[67][68][69][70] - 资金规模被评价为“不太够”,需联合行业伙伴共同推动,投资于智源研究院等机构以支持长期技术突破[7][67] - 决策的第一性原理包括相信规模定律驱动模型进化、做难而正确的事情、关注落地可行性以及创造长期真实价值[61][62][64][65]
李飞飞最新长文:AI很火,但方向可能偏了
创业邦· 2025-11-23 11:15
当前AI大模型的局限性 - 当前大语言模型的核心能力是基于统计规律“预测下一个词”,而非真正理解世界[6] - 模型在处理简单物理世界问题时会出现错误,例如无法准确判断车辆与树木的距离,或出现“杯子松手后飞上天”等违背常识的情况[7] - 这种局限被比喻为“黑暗中的秀才”:虽然通过阅读万卷书掌握了丰富的语言统计规律,但从未行万里路,缺乏对现实世界的直接感知和互动[7] 空间智能的定义与重要性 - 空间智能被定义为“不通过语言,理解物理世界,和物理世界互动的能力”,其核心是感知、想象和行动[8] - 智能的本质是能在不确定的世界中持续预测、行动并达成目标,这不能仅靠大脑凭空产生,而需扎根于物理现实[8] - 大自然花费了5亿年进化视觉系统,而语言仅进化了几万年,表明感知世界远比描述世界更为基础和重要[13] 世界模型:AI的未来发展方向 - 未来AI的发展方向可能从“预测下一个词”转向“预测下一帧世界”,即遵循物理逻辑而非语法逻辑[14][15] - 世界模型能生成具有真实物理规律(如重力、光影、遮挡关系)的可探索空间,与当前仅生成像素序列的AI视频有本质区别[15] - 实现世界模型需解决的核心挑战包括寻找类似“预测下一个词”的优雅任务函数,以及从互联网二维视频中提取海量空间数据[17] 空间智能的应用前景与商业机会 - 空间智能的成熟将推动机器人真正进入家庭,使其能够理解“花瓶易碎需绕行”等物理常识,执行叠衣服、整理房间乃至照顾老人等复杂任务[20] - 在内容创作领域,具备空间智能的AI可实现真正“可控”的视频生成,满足商业广告、电影制作中对角色走位、光影角度等的精确控制需求[20] - 李飞飞团队与索尼虚拟制作公司的合作案例显示,使用Marble技术搭建场景可使生产效率提升40倍[21] - 面向消费者的“想象成真”应用前景广阔,例如通过上传毛坯房照片和风格描述,几秒内生成可自由探索和修改的虚拟样板间[21] - 空间智能技术还可用于心理治疗(如恐高症暴露疗法)以及为机器人公司提供特定领域的合成数据“教材”[22]
雷军 :辅助驾驶不是自动驾驶,驾驶时仍需时刻保持专注
搜狐财经· 2025-11-23 08:56
11月23日,雷军发文总结小米端到端辅助驾驶HAD增强版的升级点。纵向加减速更舒适,旁车加塞时 可提前预判减速,及时跟车提速,行车更舒适安全。横向变道更丝滑,在变道并线、借道绕行时表现更 自然流畅。路况理解能力提升,在多车道复杂大路口能提前看懂导航信息,优化走对路、选对道的能 力。 此外,雷军还强调,辅助驾驶不是自动驾驶,驾驶时仍需时刻保持专注。此前在11月21日2025广州车展 开幕日,小米汽车端到端辅助驾驶"Xiaomi HAD增强版"正式发布,其在1000万Clips版本基础上引入"强 化学习"与"世界模型",AEB防碰撞辅助升级,新增紧急转向辅助。 ...
雷军提醒:辅助驾驶不是自动驾驶,驾驶时仍需时刻保持专注
搜狐财经· 2025-11-23 06:25
小米端到端辅助驾驶HAD增强版升级总结 - 公司于2025广州车展开幕日正式发布“Xiaomi HAD 增强版” [7] - 该版本在1000万 Clips 版本基础上引入了“强化学习”与“世界模型” [7] - 核心升级点包括纵向加减速更舒适、横向变道更丝滑、路况理解更充分 [3] 具体功能与性能提升 - 纵向控制:旁车加塞时能提前预判减速,及时跟车提速,提升舒适与安全 [3] - 横向控制:变道并线、借道绕行时更丝滑且不犹豫 [3] - 导航与决策:在多车道复杂大路口能提前看懂导航信息,优化走对路、选对道能力 [3] - 安全功能升级:AEB防碰撞辅助升级,并新增紧急转向辅助 [7] 辅助驾驶安全功能列表 - 车道相关:车道保持辅助(预警与纠偏)、紧急车道保持 [9] - 监测预警:盲区监测预警、车门开启预警、变道辅助预警 [9] - 其他安全:超速告警、红绿灯提醒、自适应防眩目矩阵 [10] - 侧向安全能力 [11] 技术定位与用户提醒 - 公司明确强调辅助驾驶不是自动驾驶 [6] - 提醒用户驾驶时仍需时刻保持专注 [6][10]
小米加码“安全课”
华尔街见闻· 2025-11-22 12:38
文章核心观点 - 小米汽车在广州车展上战略转向,将“安全”作为核心沟通信息,并展示其技术、组织与战略的成熟化,以应对销量达到50万辆规模后所面临的品牌安全信任挑战 [1][2][8] 战略与品牌定位转变 - 公司营销风格转变,从强调“性感”细节和制造网络爆梗,转向重点强调“安全”这一基础课题 [1][2][8] - 公司试图向外界传达其已从一家依靠创始人魅力驱动的创业公司,转变为拥有完善科层制、专业技术团队和工业底蕴的成熟车企 [6][7] - 公司需要证明在没有创始人个人吆喝的情况下,依然能依靠成建制的工程师团队造出安全可靠的车,以赢得对安全极度敏感的家庭用户市场 [7][8] 技术发展与安全能力 - 公司重点展示了Xiaomi HAD增强版及安全辅助功能,其技术核心是从“模仿”到“认知”的范式转移,采用“世界模型”构建高保真虚拟仿真引擎进行海量场景训练 [2] - Xiaomi HAD增强版AEB功能全面升级:前向速度域从5-135km/h扩展至1-135km/h,新增后向速度域1-30km/h [3] - 低速防碰撞识别对象从传统的车与人,延伸至水马、防撞桶、立柱和墙壁,并推出MAI与AEB的底层联动以应对“误踩油门”争议 [3] - 公司强调辅助驾驶不是自动驾驶,驾驶仍需时刻保持专注 [3] 经营表现与市场挑战 - 公司汽车业务在2024年第三季度首次实现单季度经营性盈利,单季交付量突破10万台 [3] - 公司从2024年3月28日发布SU7至今,仅用600余天便完成了第50万台整车的下线,速度在世界汽车工业史上罕见 [3] - 在交付量达到50万台规模后,任何小概率的安全瑕疵乘以庞大的保有量,都可能演变为冲击品牌根基的“黑天鹅”事件 [4] - 资本市场在强劲季报发布后出现股价下跌和剧烈波动,反映出对公司在流量红利见顶、保有量扩大后能否承受安全事故反噬的深层焦虑 [3][5] - 公司旗下YU7车型在10月取得SUV销量第一,但该车型面向家庭用户,其对安全的敏感度极高 [7]
100亿都不够烧!机器人公司CEO们给出新判断:具身智能不能再照搬LLM
搜狐财经· 2025-11-22 02:41
智源研究院技术进展 - 发布原生多模态世界模型Emu3 5,训练数据从15年视频扩展至790年,参数规模从8B提升至34B,并引入自研DiDA技术使视频、图像生成速度提升至与Diffusion、DiT类模型相当 [5] - 构建跨异构本体具身智能体系,包括RoboBrain(具身大脑)、RoboOS(跨本体操作系统)与基于VLA的RoboBrain-0,已在多款不同形态机器人本体上部署,能完成导览、导购到复杂交互任务 [5] - 展示全身控制能力,宇树G1机器人在其控制框架BAAI Thor加持下完成拖动1 4吨汽车的实验 [5] 行业核心议题讨论:模型与架构 - 世界模型需从海量视频中学习,面向具身智能所需的“下一时空状态预测”,而非语言主导的“下一个Token预测”,且必须建立在大量属于机器人的数据之上 [5][7] - 具身智能未来可能需要一套“先行动、再视觉、最后语言”的具身原生结构,以行动与感知为核心,而非沿用当下“大模型的语言中心范式” [10] - 具身智能的最终“大模型”并非单体模型,而是VLA+世界模型+RL的闭环系统 [12] 行业核心议题讨论:数据来源与使用 - 机器人必须在真实场景中学习真实性、多样性和规模化,但仿真是当前更现实的突破口,许多底层控制能力如行走、跳跃等全身控制及灵巧手操作需在模拟器中完成,真实世界仅做微调 [15] - 视频数据被视为最容易大规模获取且最接近真实世界的关键数据形式,训练逻辑可类比人类从视频理解世界再到真实交互校正的过程 [15] - 真实与仿真数据会形成螺旋上升关系,先落地采集真实数据,回仿真扩大覆盖,再回真实验证,不同阶段根据任务需求使用不同类型数据 [15] 行业核心议题讨论:资源投入与硬件形态 - 若有100亿元资金推进具身智能,投入优先级集中在顶尖人才吸纳、算力与数据引擎等基础设施,以及打造属于具身智能的模型体系 [17][19][21] - 人形机器人并非具身智能的唯一最终形态,硬件瓶颈问题的核心是场景需求,模型不定义硬件,硬件也不定义模型,场景定义硬件 [22][23] - 具身智能体系应分层,上层大模型可跨本体复用,但贴近执行的小脑层模型需随硬件结构细调,同一模型部署到不同本体上未必最优 [23]
小米HAD增强版辅助驾驶发布:引入强化学习与世界模型,AES紧急转向功能上车
凤凰网· 2025-11-21 02:33
公司战略与投入 - 公司正式发布小米HAD增强版并披露智能驾驶领域最新研发进展与人才布局 [1] - 公司在AI领域的战略投入持续加码,2025年仅AI研发投入预算就将超过70亿元 [1] - 公司目前的辅助驾驶专家团队规模已达1800人,其中包含108名博士 [1] 核心技术架构 - 小米HAD增强版基于原有的1000万clips训练基础,核心变化在于引入强化学习算法与世界模型 [1] - 公司采用“端到端”技术路径提升驾驶表现,通过世界模型在数字空间生成极端天气、复杂路况等场景进行算法训练 [1] - 该世界模型技术已获得ICCV和NeurIPS等国际学术会议的认可 [1] 功能性能优化 - 新版本重点优化纵向与横向控制体验,通过大模型预测旁车加塞意图以减少过度减速和急刹车 [2] - 系统在复杂路口(如右侧左转车道)的路径规划上展现出更强的导航理解与绕行能力 [2] - 公司正式推出AES紧急转向辅助功能,可在AEB无法避免碰撞且环境安全时自动触发变道避险,支持速度区间为80km/h至135km/h [2] 安全功能升级 - 前向AEB生效范围扩展至1km/h至135km/h,新增对防撞桶、水马、柱子及墙壁等异形障碍物的识别能力 [2] - 后向AEB覆盖1km/h至30km/h的倒车场景,安全辅助功能灵敏度经过反复平衡以兼顾刹停准确性与减少误触发 [2] 系统部署与推送 - 本次发布的智驾更新将包含在小米HyperOS 1.11.0版本中 [2] - 由于审核进度差异,不同车型的推送时间可能会略有不同 [2]