Workflow
世界模型
icon
搜索文档
世界模型,腾讯混元卷到了榜首
量子位· 2025-09-03 07:30
腾讯混元世界模型Voyager发布 - 腾讯混元发布业界首个支持原生3D重建的超长漫游世界模型HunyuanWorld-Voyager 该模型支持将视频直接导出为3D格式 并能够生成长距离且世界一致的漫游场景 [1][3][4] - 模型在发布后立即开源 距离上一代Lite版发布仅间隔两周 展现出快速迭代能力 [3] 核心功能与技术特性 - 新增"漫游场景"功能 支持通过鼠标和键盘在场景内自由活动 交互性远超360°全景图 用户可通过一句话或一张图生成高质量3D场景 [10][11][13] - 创新性将场景深度预测引入视频生成过程 通过空间与特征结合支持原生3D记忆和场景重建 避免传统后处理的延迟和精度损失 [31] - 采用视频生成与3D建模融合技术 基于相机可控的视频生成技术合成可自由控制视角的RGB-D视频 [32] - 关键组件包括世界一致的视频扩散架构和长距离世界探索机制 后者通过世界缓存机制支持迭代式场景扩展和平滑视频采样 [33] 数据集与训练体系 - 构建超过10万个视频片段的大规模数据集 整合真实世界采集与虚幻引擎渲染资源 通过自动化视频重建流水线实现无需人工标注的大规模数据构建 [33][34] - 训练数据构建引擎可自动估计相机位姿和度量深度 支持多样化训练数据的自动化生成 [33] 性能表现与基准测试 - 在斯坦福大学WorldScore基准测试中以77.62分位居综合能力首位 显著超越WonderWorld(72.69分)和WonderJourney(63.75分)等竞争对手 [36] - 在相机运动控制(85.95分)和风格一致性(84.89分)等细分指标表现突出 较第二名优势明显 [36] - 视频生成质量指标PSNR达18.751 SSIM达0.715 LPIPS为0.277 均优于See3D和FlexWorld等对比模型 [39] - 在场景重建任务中PSNR达18.035 SSIM达0.714 使用深度信息初始化点云后重建效果更佳 [42][43] 技术应用与扩展能力 - 支持视频场景重建 3D物体纹理生成 视频风格定制化生成和视频深度估计等多种3D理解与生成应用 [27] - 与混元世界模型1.0高度适配 可扩展1.0模型的漫游范围并提升复杂场景生成质量 [24] - 生成视频帧实时更新缓存形成闭环系统 支持任意相机轨迹同时维持几何一致性 [35] 模型部署要求 - 模型运行需要60GB GPU峰值内存 支持540p分辨率输出 [47] 腾讯开源生态布局 - 腾讯混元持续加速开源进程 产品矩阵包括MoE架构模型混元large 混合推理模型Hunyuan-A13B以及最小仅0.5B参数的端侧小模型 [48] - 最新开源翻译模型Hunyuan-MT-7B在国际机器翻译比赛中获得30个第一名 同时发布翻译集成模型Hunyuan-MT-Chimera-7B [48] 行业开源动态 - 阿里开源视频生成模型Wan2.2-S2V 美团发布首个开源大模型Longcat-Flash-Chat 显示国内大厂持续加码开源布局 [49][50][51]
28场锦秋小饭桌的沉淀:产品、用户、技术,AI创业者的三重命题
锦秋集· 2025-09-03 01:32
多模态硬件入口 - 多视角拍摄设备叠加AI后普及度提升 多模态影像数据具备显著入口价值[20] - AI眼镜产品面向近视人群(中日韩近视率超80%) 因长时间佩戴需求为持续获取人眼视角数据奠定基础[20] - 某大厂AI眼镜出货量达10万+ 主力人群为25-48岁(男女比例7:3) 周末活跃度极高[20] - 眼镜AI调用频率为手机7倍 开始替代小音箱成为新IOT交互入口[20] - 眼镜具备10+tops算力 理论上可运行轻量级AI大模型但耗电问题暂未解决[20] - 未来可能叠加眼动追踪与麦克风阵列波束成形技术 提升AI个性化理解与训练价值[21] 多模态记忆技术 - 多模态记忆串联视频/音频/文本形成完整逻辑链 实现场景复现与高效需求响应[22] - 通过全模态集成与双端压缩技术突破传统记忆模式效率瓶颈 实现海量数据高效利用[22] - 高压缩比技术将10分钟视频压缩至2帧仍保持原性能上限 实现小数据承载全信息[24] - 输入端动态抽帧技术根据画面变化调整频率(5-10帧/秒捕捉快速动作)[24] - 精准搜索技术集成视频/音频/OCR/文本等多模态信息 避免单一文本局限[25] 多模态AI Agent发展 - AI Agent核心在于动态工具选择与上下文感知系统 避免工具箱扩展导致系统崩溃[25] - 正攻克多模态数据整合难题 通过对齐不同模态实现统一语义理解与记忆检索[26] - 分层架构解决工具生态开放后的复杂度问题(上层代理选工具/下层工具执行)[26] - Agent技术趋势从自动化向可复用+生态化演进 用户操作可生成MCP模块形成复用套路[32] - 可能出现AI能力交易市场平台 核心逻辑为AI时代能力可复用[32] 情感陪伴与社交产品 - 情感陪伴产品融入日常生活 兼具情感共鸣与工具价值(如分析聊天记录/设置提醒)[33] - 虚拟角色需打通角色与用户/角色间记忆以提升真实陪伴感 统一风格模板助力社交[33] - Tolan成功切中轻情绪场景并融合工具能力(拍照识图/日程提醒) 但用户context获取方式影响体验[33] AI内容消费与平台 - 新交互方式更易产生新平台机会 否则内容可通过推荐权重调整在原有平台曝光[34] - 用户主动发起的角色互动成为内容产品解法 使Feed流交互转变为问答模式[35] - 从爆款起高楼比空地起高楼更合理 可先通过IP多平台破圈再聚合形成平台[35] 技术供给展望 - 模型大厂因coding商业价值高而重心转回文本模态 多模态理解与生成仍有期待空间[35] - 多模态理解能力待解锁(如精准定位视频片段/融入现实知识) 此为AI抖音难做原因[35] - OpenAI GPT realtime推出使Agent"前台聊天+后台执行"模式可能成为产品范式[36] - 新终端(如autoglm)为Agent操作与AI内容消费提供更大机会 不依赖手机载体[36] 产品工具推荐 - Claude Code较Cursor交互轮次明显减少且更清晰 长期看Cursor价值被压缩[37] - Showrunner通过融合100集对话风格+大语言模型生成内容 用户消费核心为语言非画面[38] - Loom在录屏产品打磨最佳(zoom in/out/编辑/便捷分享等功能完善)[39]
业务合伙人招募来啦!模型部署/VLA/端到端方向~
自动驾驶之心· 2025-09-02 03:14
业务拓展计划 - 公司计划在国内外招募10名业务合伙人[2] - 合伙人将负责自动驾驶课程研发、论文辅导业务开发及硬件研发[2] 技术研究方向 - 重点招募方向包括大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶[3] - 涵盖具身交互、联合预测、SLAM、3D目标检测等前沿技术领域[3] - 世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向也在招募范围内[3] 人才资质要求 - 要求应聘者来自QS200以内高校且具有硕士及以上学历[4] - 拥有顶级会议论文发表经历者将获得优先考虑[4] 合伙人待遇 - 提供自动驾驶行业资源共享包括求职、读博及出国留学推荐[5] - 设置丰厚的现金激励方案[5] - 提供创业项目合作与推荐机会[5]
通往AGI的快车道?大模型驱动的具身智能革命 | Jinqiu Select
锦秋集· 2025-09-01 15:29
具身智能与大模型融合综述 文章核心观点 - 具身智能被视为实现通用人工智能(AGI)的关键路径,通过"感知-决策-行动"闭环在真实世界中学习并执行复杂任务 [1] - 大模型(如LLM、LVM、LVLM、MLM、VLA)在多模态推理与生成能力上的突破,显著推动了具身智能的演进 [1][7][25] - 世界模型为智能体提供内部环境模拟能力,支持在虚拟空间中演练与优化策略 [1][2][116] - 分层决策与端到端决策成为自主决策的两大核心范式,分别适用于结构化环境与开放动态环境 [6][55][74] Embodied AI系统构成与运行流程 - 系统由物理实体(如人形机器人、智能车辆)和智能体(认知核心)构成,物理实体负责执行动作并接收反馈 [4] - 运行流程包括:从语言指令解读人类意图→主动探索环境→感知多模态元素→执行动作,模仿人类学习范式 [4] - 智能体通过模仿学习从人类演示或视频数据获取技能,通过强化学习整合外部反馈优化策略 [4] 具身智能核心:决策与学习 - 自主决策通过分层范式(分离感知、规划、执行模块)或端到端范式(统一框架集成功能)实现 [6] - 具身学习通过模仿学习(从演示获取技能)和强化学习(迭代优化提升技能)实现持续改进 [6] - 世界模型通过模拟真实世界推理空间,为智能体提供试验和经验积累机会 [6][116] 主流大型模型概览 - Large Language Model (LLM):包括BERT(2018年)、GPT系列(GPT-3参数量达1750亿)、PaLM等,突破zero-shot/few-shot学习能力 [9][10] - Large Vision Model (LVM):ViT将Transformer应用于计算机视觉,DINOv2通过自监督学习提升图像表示质量,SAM支持1100万图像预训练的分割任务 [11] - Large Vision Language Model (LVLM):CLIP通过图文对比学习对齐特征,BLIP-2引入QFormer实现跨模态融合,GPT-4V具备强大多模态推理能力 [12][13] - Multimodal Large Model (MLM):Gemini高效处理文本/图像/音频,DALL·E3通过增强文本编码器改善图像-提示对齐,Sora可生成60秒高质量视频 [14][15] - Vision-Language-Action Model (VLA):RT-2将动作空间离散化为256区间,开源模型(如Octo、TinyVLA)提升计算效率与泛化能力 [16][71] 大型模型通用能力增强技术 - In-Context Learning (ICL):通过精心设计提示实现zero-shot泛化,无需额外训练 [19] - X of Thoughts (XoT):CoT融入中间推理步骤,ToT探索多推理路径,GoT采用图结构实现非线性推理 [20] - Retrieval Augmented Generation (RAG):从外部知识库检索信息,确保响应准确性 [21] - Reinforcement Learning from Human Feedback (RLHF):整合人类偏好优化模型输出 [23] - Model Context Protocol (MCP):提供标准化接口增强模型与外部系统互操作性 [24] 分层自主决策 - 高层规划分为三类:基于结构化语言(LLM生成PDDL或直接作为规划器)、基于自然语言(LLM分解计划)、基于编程语言(指令转可执行代码) [31][33][38] - 底层执行通过传统控制算法(PID、MPC)、LLM驱动学习控制(模仿学习+强化学习)、模块化控制(调用预训练模型如CLIP/SAM)实现 [42][43][45] - 反馈机制包括:大模型自我反思(Re-Prompting重新生成计划)、人类反馈(交互式纠正)、环境反馈(多模态输入转化为语言调整计划) [49][52][54] 端到端自主决策 - VLA模型集成感知、语言理解、规划、动作执行与反馈优化,包含token化与表示、多模态信息融合、动作去token化三个组件 [58][60][62] - RT-2利用ViT进行视觉处理,PaLM集成多模态信息,动作空间离散化为8维度(含256区间) [63] - VLA增强方向:感知能力增强(BYO-VLA滤除视觉噪声)、轨迹动作优化(Octo结合扩散模型)、训练成本降低(π0利用流匹配提升实时性能) [65][70][71] 分层与端到端决策对比 - 分层架构优势:高可解释性、易集成领域知识、模块化设计;劣势:模块协调可能导致次优解、适应性受限 [74] - 端到端架构优势:最小化误差累积、强泛化能力、高效复杂任务处理;劣势:黑箱性质、高计算成本、依赖训练数据 [75] Embodied Learning方法 - 模仿学习:通过最小化专家动作负对数似然学习策略,依赖高质量演示数据 [83][84] - 强化学习:最大化长期累积奖励,PPO/SAC等算法提升稳定性,但需海量探索 [87][89] - 迁移学习:通过KL散度约束迁移源任务策略至目标任务,加速学习但需避免负迁移 [90][91] - 元学习:MAML框架通过少量样本快速适应新任务,但需多样任务预训练数据 [93][94] 大模型赋能的模仿学习 - Diffusion models增强策略:Diffusion Policy通过U-Net生成动作序列,3D-Diffusion利用3D输入提升空间感知 [100][101] - Transformer架构策略:RT-1结合大规模数据集提升泛化,ALOHA实现低成本硬件精确操作,RoboCat实现跨任务快速泛化 [102][103] 大模型赋能的强化学习 - 奖励函数设计:Text2Reward生成可解释Python代码,Eureka利用GPT-4实现全自动优化 [109] - 策略网络构建:Diffusion-QL增强多模态动作分布,Decision Transformer将问题重构为序列建模,LLM(如GLAM)直接生成动作序列 [113][114][115] 世界模型设计与应用 - 设计类型:隐空间世界模型(RSSM)、基于Transformer(IRIS/Genie)、基于扩散(Sora/UniPi)、联合嵌入预测架构(JEPA) [119][122][125][128] - 决策应用:模拟验证(NeBula构建概率信念空间)、知识增强(WKM提供全局先验知识) [133][134] - 具身学习应用:基于模型的强化学习通过模拟状态转换和生成数据提升学习效率 [135]
国家级创新领军人才带队,这家具身智能领域创企完成数亿元新一轮融资!
Robot猎场备忘录· 2025-08-30 00:21
融资情况 - 公司完成Pre-A和Pre-A+两轮数亿元融资 其中国中资本领投Pre-A轮 紫峰资本 PKSHA Algorithm Fund跟投 中金资本 广州产投 一村淞灵 华强资本投资Pre-A+轮 [2][3] - 公司累计完成6轮融资 包括2025年2月数千万元天使++轮融资 2024年9月近5000万元天使及天使+轮融资 2023年3月数千万元种子轮融资 [3][4] - 融资资金主要用于世界模型和具身智能方向技术产品研发 市场商务拓展和客户服务交付 [3] 公司定位与技术方向 - 公司定位为物理世界人工智能公司 专注世界模型平台与具身基础模型双轮闭环 加速物理世界通用智能 [5][6] - 公司产品包括世界模型平台GigaWorld 具身基础模型GigaBrain 上肢具身本体等Physical AI全栈系列产品 [6][11] - Physical AI指让自主系统感知 理解并执行真实世界中的复杂操作 被英伟达视为AI下一个前沿 [6] 核心团队 - 创始人兼CEO黄冠为清华大学人工智能博士 国家级创新领军人才 拥有超过十年AI技术和产业经验 [10] - 首席科学家朱政拥有超过70篇视觉和AI方向顶会论文 工程副总裁毛继明曾任百度Apollo仿真负责人 产品副总裁孙韶言曾任阿里云总监 算法负责人陈新泽为AI世界冠军得主 [10] - 团队包括世界级算法 数据 基础设施等模型全栈团队 以及拥有丰富人形机器人量产经验的硬件团队 [8] 技术产品进展 - 发布全球首个主要依靠世界模型生成数据驱动的端到端VLA具身基础模型GigaBrain-0 Preview 90%以上训练数据来自自研世界模型平台生成数据 生成效率达真机采集的10-100倍以上 [12] - 世界模型平台GigaWorld应用于驾驶和具身方向 已发表DriveDreamer ReconDreamer EmbodieDreamer等代表性成果 [13] - 具身世界模型平台GigaWorld-0将于近期发布 GigaBrain-0正式版将于2025年9月发布 [12][14] 商业化与行业地位 - 公司已与智能驾驶 具身智能 内容创作等方向多个行业头部企业达成合作 实现大规模产业落地 [9][18] - 公司是国内第一家专注世界模型方向的创企 在世界模型和VLA大模型方向处于领先水平 [6] - 国内同类企业包括它石智航 跨维智能 智元机器人采用多路径并行策略 [19] 行业趋势与竞争 - 双系统架构技术路径VLA模型已成为具身智能领域模型主流 但仍存在数据 黑盒风险 泛化能力等问题 [16] - 英伟达 谷歌DeepMind World Labs等头部科技公司加速在世界模型方向布局 [17] - 人形机器人赛道软硬件皆未收敛 世界模型被业内视为未来机器人通用大模型架构演进方向之一 [16][17]
直播分享!“具身数据困境”:仿真技术、真实数据与世界模型的碰撞交融
具身智能之心· 2025-08-29 16:03
行业技术路径 - 具身智能发展主要围绕仿真技术、真实数据与世界模型三大路径展开 这些路径既存在竞争又相互融合 [3] - 物理仿真技术已进入深水区 真实数据到仿真的转换技术(real2sim)正推动仿真路线发展 [11] - 业界构建了超大规模训练场Agibot World 包含百万真机与千万仿真数据集 系统研究具imbing智能的Scaling Law方法论 [4] 核心技术突破 - 端到端自动驾驶方案UniAD获IEEE CVPR 2023最佳论文奖 其技术方案被特斯拉2023年推出的FSD采用 [4] - 开发全球首个开源模块化真实感自动驾驶仿真器MARS 并获得CICAI 2023最佳论文Runner-up奖项 [5] - 神经渲染方法SlimmeRF实现渲染阶段精度与速度的可调节 获得3DV 2024最佳论文奖 [5] - Open X-Embodiment项目获得ICRA 2024最佳论文奖 CAST项目获得SIGGRAPH 2025最佳论文奖 [7] 数据争议与解决方案 - 针对真实数据不可替代性的争论 行业探讨这是策略选择问题还是AI演进必经之路 [3][11] - Genie3世界模型的问世引发行业关注 世界引擎可能成为解决具身智能数据问题的终极方案 [11] - 俯视图感知方法BEVFormer成为业界广泛使用的纯视觉检测基准 入选2022年百强影响力AI论文榜单 [4] 学术与产业贡献 - 研究团队在CVPR/ICCV/ECCV/SIGGRAPH/NeurIPS/ICLR等顶级会议发表50余篇论文 多次获得最佳论文奖项 [5][7] - 学术成果获得多项荣誉包括2024年中国吴文俊人工智能青年科技奖 香港博士政府奖学金等 [4][7] - 构建的具身智能训练场包含百万级真机与千万级仿真数据集 为行业提供大规模训练基础设施 [4]
拆解华为乾崑智驾ADS 4:世界模型乱战,尖子生如何闯关?
21世纪经济报道· 2025-08-29 13:53
智能驾驶技术演进 - 行业从依赖算力和规则驱动转向端到端模型 但传统端到端模型仅模仿人类驾驶行为 无法真正理解物理规律 [6] - 世界模型成为自动驾驶新方向 通过多模态数据融合和物理世界推演 实现预判与决策 而非单纯反应 [2][8] - 华为乾崑ADS 4系统于2025年4月发布 9月将量产上车 标志世界模型进入落地阶段 [3][4][9] 华为乾崑技术架构与优势 - 自研WEWA架构包含云端世界引擎(WE)和车端世界行为模型(WA) WE专注生成极端场景 WA实现实时推理与拟人化决策 [3][12][13] - 云端WE通过自研生成式模型创造高价值Corner Case(如突然横穿的行人) 并通过奖惩函数训练模型安全合规行为 [13][14] - 车端WA直接通过多模态信号(视觉、声音等)控车 专为驾驶优化 避免语言模型缺乏空间感知的缺陷 [10][14] - 智驾系统搭载量突破100万辆 覆盖11家车企28款车型 新车型匹配周期缩短至6-9个月 [15] 市场竞争与行业动态 - 2024年华为乾崑在国内三方前装辅助驾驶域控全栈软硬一体方案市场中占据79.0%份额 稳居第一 [9] - 特斯拉在CVPR2023展示世界模型研究 蔚来2024年发布自研NWM模型 可在100毫秒内推演216种场景 [11] - 小鹏采用云端大模型(LLM为骨干)与车端小模型协同 通过VLA路径将视觉信息转换为语言token再生成控制动作 [12] 技术路径对比 - 端到端模型依赖大规模真实数据 但可能模仿人类驾驶缺陷(如90%保守行为导致系统犹豫) 泛化能力存在天花板 [6][7] - VLA路径引入语言模型 擅长语义理解但缺乏三维空间精确感知 华为明确拒绝此路径 [10] - 世界模型通过融合深度学习与思维链推理 自主生成行为链 突破长逻辑局限 提升复杂环境判断能力 [8]
拆解华为乾崑智驾ADS 4:世界模型乱战,“尖子生”如何闯关?
21世纪经济报道· 2025-08-29 10:42
智能驾驶技术演进 - 行业从依赖算力、规则驱动转向端到端模型 但仍面临根本挑战 端到端模型本质是模仿人类驾驶行为 而非真正理解物理世界 导致系统可能继承人类驾驶缺陷如犹豫和保守 [6] - 2024年行业在特斯拉技术路线催化下集体驶向端到端 但随后意识到其局限性 包括无法超越训练数据品质与分布 泛化能力存在天花板 [6][7][10] - 2025年行业开始探索新路径 包括彻底抛弃模块化的端到端方案 引入视觉语言模型VLA/VLM 或加入世界模型以理解物理世界运行机制 [10] 世界模型核心价值 - 世界模型通过超大规模融合多模态数据 包括数百万公里真实路况、仿真场景与交通规则 构建动态可推理的数字化交通世界 使车辆能预测和推演而不仅是感知当下 [2] - 世界模型解决端到端模型只会模仿不会思考的瓶颈 让AI理解驾驶环境、预测未来变化并自主生成合理行为链 融合深度学习与思维链CoT推理框架 [11] - 世界模型突破训练数据稀缺和质量不均问题 打开模型能力天花板 提升复杂环境中的判断能力 [11][12] 华为乾崑技术布局 - 华为乾崑2025年4月发布基于世界模型的ADS 4系统 依托自研WEWA架构 包含云端世界引擎WE负责海量数据训练与场景生成 车端世界行为模型WA实现实时环境推理与拟人化决策 [4][19] - 华为乾崑智驾ADS 4系统将于2025年9月陆续上车 标志高阶辅助驾驶进入新阶段 系统开始理解物理规律本身而非仅学习人类驾驶行为 [4] - 华为乾崑在国内三方前装辅助驾驶域控全栈软硬一体方案市场中以79.0%的绝对市场份额稳居第一 [12] 华为技术路径差异化 - 华为乾崑拒绝VLA视觉语言模型路径 认为其缺乏对三维空间的精确感知与运动推演能力 选择专为智能驾驶而生的世界行为模型WA 直接通过多模态信息输入控车 [12][14][22] - 华为云端世界引擎WE专注生成极端场景和Corner Case 如突然横穿的行人、暴雨中的滚动障碍物 并通过严格算法校验确保合成场景符合真实世界物理 [21] - 华为车端世界行为模型WA从零开始训练 专为安全行驶设计 融合多模态感知信号实现实时推理 不依赖语言中介 更专注空间推理 [19][22][23] 行业竞争格局 - 除华为外 蔚来2024年发布中国首个智能驾驶世界模型NWM 具备多模态自回归特性 能在100毫秒内推演出216种可能场景/轨迹 [18] - 小鹏采用云端大模型和车端小模型并进路径 云端大模型以LLM为骨干 通过VLA路径将视觉信息转换为语言token进行训练 [19] - 特斯拉在2023年CVPR上展示世界模型研究动态 推崇扩散模型diffusion 但研发尚处于初期 [17] 华为规模化优势 - 华为乾崑智驾系统搭载量已突破100万辆 覆盖11家车企、28款车型 包括东风、长安、广汽、北汽、比亚迪、赛力斯等品牌 [24] - 百万量级智能车队实时反馈复杂场景 数据持续流向云端 通过世界引擎WE筛选和增强 生成有效训练场景 推动模型迭代 形成感知-云端训练-车端进化的自主进化闭环 [25] - 华为乾崑智驾方案匹配一款车型最快仅需6至9个月 加速规模化落地 为L3及以上级别自动驾驶做准备 [24][25]
极佳视界完成Pre-A&Pre-A+两轮数亿元融资,以世界模型加速“物理世界ChatGPT时刻”到来
36氪· 2025-08-28 08:21
融资情况 - 极佳视界完成Pre-A和Pre-A+连续两轮数亿元融资 Pre-A轮由国中资本领投 紫峰资本 PKSHA Algorithm Fund跟投 Pre-A+轮由中金资本 广州产投 一村淞灵 华强资本投资 [2] - 2025年2月完成数千万天使++轮融资 由普超资本 合鼎共资本 上海天使会投资 [2] - 半年内完成连续三轮融资 体现资本市场对团队实力 技术路线和产品业务进展的认可 [2] - 此前已完成亿元级种子 天使 天使+多轮融资 [2] 公司定位与愿景 - 极佳视界是一家物理世界通用智能公司 成立于2023年6月 专注世界模型驱动的物理世界基础模型 加速走向物理世界通用智能 [2] - 公司产品包括世界模型平台GigaWorld(驾驶+具身) 具身基础模型GigaBrain 通用具身本体等Physical AI全栈系列产品 [2] - 愿景是服务于物理世界ChatGPT到来后家庭 服务等大众端巨大量级市场 [4] 技术方向与行业趋势 - 物理世界的ChatGPT时刻成为下一个备受关注的时刻 极佳视界认为世界模型+VLA+强化学习范式正在逐渐完备 2-3年内将迎来物理世界ChatGPT时刻 [3][4] - 物理世界ChatGPT时刻定义为在100种常见任务中 90%的场景下达到95%的成功率 [4] - 海外头部科技公司如NVIDIA Google DeepMind World Labs等都在世界模型方向积极布局和快速突破 [4] - 世界模型是解决物理世界通用智能真机数据瓶颈的最佳方式 [4] 技术优势与产品进展 - 在世界模型和VLA大模型方向均处于全球一流水平 持续引领技术发展和产业落地 [5] - 2025年7月发布全球首个世界模型驱动的具身基础模型GigaBrain-0 Preview 是具有空间推理能力的双系统端到端VLA具身基础模型 [10] - GigaBrain-0在数据来源方面取得突破性进展 90%以上数据来自自研世界模型平台生成数据 不到10%来自真机实采数据 [10] - 在全球首次实现了柔性长程复杂操作的开放世界零样本泛化 [10] - 2025年9月将发布GigaBrain-0正式版 [11] - 在驾驶世界模型方向发表DriveDreamer系列代表性成果 全部被视觉和AI方向顶级会议收录 [13] - 在具身世界模型方向发表EmbodieDreamer RoboTransfer EmbodiedGen等代表性领先学术工作 [14] - 将于近期发布具身世界模型平台GigaWorld-0 [15] 团队实力 - 紧密依托清华大学自动化系智能视觉实验室 核心团队来自清华 中科院等知名院校顶尖研究人员 以及百度 微软 地平线等知名企业高管和产业专家 [6] - 核心团队发表人工智能顶级会议和期刊论文200余篇 主导获得数十个全球最具影响力人工智能比赛世界冠军 发布多个具有全球影响力的人工智能技术成果 [6] - CEO黄冠博士是清华大学自动化系博士 国家级创新领军人才 多次带领团队获得全球权威AI比赛世界冠军 发布多个全球知名AI成果 [7] - 首席科学家朱政博士拥有超过70篇视觉和AI方向顶会论文 超过16000次引用 是国内AI方向引用最高的青年科学家之一 [7] - 工程副总裁毛继明拥有超过16年的仿真/工程/数据/分布式架构方向经验 曾担任百度Apollo仿真和工程负责人 百度 赢彻等T10级别架构师 [7] - 产品副总裁孙韶言博士曾担任阿里云总监 地平线数据闭环产品线总经理 在物理世界超大规模数据闭环产品和架构方面拥有行业领先经验 [7] 商业化与产业合作 - 始终将商业量产落地放在第一位 率先实现了自动驾驶领域世界模型的大规模量产落地 在具身世界模型 具身大模型等方向实现广泛合作落地 [16] - 在驾驶世界模型方向与多家国内头部汽车主机厂 海外和合资头部汽车主机厂 AI芯片和Tier 1巨头等达成签约和量产合作 [16] - 在具身世界模型方向与多地人形机器人创新中心 实训场达成深度合作 打造全球领先的虚实结合训练场等全栈产品 [16] - 在具身VLA大模型方向与多家全球汽车行业巨头 头部具身本体公司等达成深度合作 共同探索具身智能在工业 服务 家庭等多个场景的落地 [16] 资金用途与竞争优势 - 融资资金主要用于技术产品研发和市场商务拓展 以及在客户交付上进行更多投入 [17] - 在算法优势之余 在数据 基础设施 产业落地等方面具备优势 多位一体地服务客户需求 [17] 资方观点 - 国中资本认为极佳视界是国内世界模型和具身智能方向的引领者 最早开始相关方向的技术布局和创新引领 快速实现了规模化的产业落地 [18] - 紫峰资本认为具身大模型是产业发展的关键 极佳视界团队拥有超过10年的物理AI经验 历经CV 自动驾驶等多个物理AI时代 持续作出全球领先的技术成果和实现大规模产业落地 [18] - 中金资本认为数据和模型是具身智能机器人发展的关键 极佳视界团队在具身智能的数据和模型都拥有领先的优势 [19] - 广州产投长期看好具身智能机器人未来广阔的市场空间 认为极佳视界的端到端VLA大模型在世界模型的加持下 在开放世界首次实现了柔性复杂长程操作的零样本泛化 [20] - 一村淞灵认为世界模型是语言模型之后下一个最本质的事情 极佳团队生成+重建联合优化范式以高斯泼溅为基础很有亮点 是国内最早开始系统布局世界模型的团队 并在多个应用方向快速实现了产业落地 [20] - 华强资本认为极佳视界在世界模型和VLA大模型方向都处于国内领先水平 看好团队在物理AI方向的技术深度 技术广度和产业经验上的全面优势 [21] - 普超资本认为极佳视界是国内空间智能和世界模型的引领者 最早进行技术布局和实现创新突破 并在驾驶 具身 内容等多个领域实现了规模化应用落地 [21]
自动驾驶之心业务合伙人招募来啦!模型部署/VLA/端到端方向~
自动驾驶之心· 2025-08-28 08:17
业务拓展计划 - 公司计划在国内外招募10名业务合伙人[2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发及硬件研发[2] 技术研究方向 - 重点招募方向包括大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶[3] - 涵盖具身交互、联合预测、SLAM及3D目标检测领域专家[3] - 需要世界模型、闭环仿真3DGS、大模型部署与量化感知推理等专业人才[3] 人才资质要求 - 要求应聘者来自QS200以内高校且具有硕士及以上学历[4] - 优先考虑拥有顶会论文发表记录的候选人[4] 合作激励机制 - 提供自动驾驶行业资源共享包括求职、读博及出国留学推荐[5] - 设立丰厚的现金激励方案[5] - 开放创业项目合作与推荐机会[5]