Workflow
世界模型
icon
搜索文档
3DGS重建!gsplat 库源码解析
自动驾驶之心· 2025-09-23 23:32
3D高斯泼溅技术及gsplat库 - 3D高斯泼溅是一种新兴的3D场景表示与渲染技术,与传统的深度学习模型和框架有显著区别,它更侧重于计算机图形学领域,涉及坐标系转换和激光雷达点云等技术[4] - 在自动驾驶和计算机视觉领域,3D高斯泼溅技术正被探索与感知系统及端到端模型进行结合,但其与大语言模型和自然语言处理领域基本没有关联[4] - 对于希望入门该领域的研究者,开源库gsplat被推荐为比官方Gaussian-splatting库更优的选择,因其文档和维护相对更好[5] gsplat库的技术特性与优化 - gsplat库对原始的3D高斯泼溅官方实现进行了多项优化,提供了更完善的工具链[5] - 该库支持超广角镜头畸变和卷帘快门相机模型,这使其更适用于如自动驾驶等复杂真实场景[12] - 库内提供了高效的高斯球参数压缩功能,能够将1M个高斯球的参数量从236MB压缩至16.5MB,仅造成0.5dB的峰值信噪比损失[13] - 压缩技术结合了量化、排序、K-means聚类以及PNG图像编码等多种方法[14] 3D高斯泼溅的核心算法流程 - 3D高斯泼溅使用位置、协方差矩阵、颜色和不透明度等参数来定义每个高斯球,其中协方差矩阵可通过缩放矩阵和由四元数表示的旋转矩阵分解得到[21] - 训练过程包含自适应密度控制,高斯球的数量会动态变化,通过复制、分裂和修剪等策略进行更新[23] - 复制操作的触发条件是图像平面梯度高且高斯球尺度小,适用于需要保留细节的区域[28] - 分裂操作的触发条件是图像平面梯度高且高斯球尺度大,适用于用多个小高斯拟合复杂几何结构[28] - 修剪操作的触发条件是高斯球的不透明度较低,定期重置策略则用于防止不透明度过早收敛[28] gsplat库的渲染与训练实现 - 渲染管线核心步骤包括:将3D高斯投影至2D图像平面、计算球谐函数着色、进行瓦片相交检测,最终光栅化到像素[42][45][46][53] - 训练循环包含数据准备、前向渲染、损失计算、反向传播、优化器更新以及策略后处理(执行高斯球的分裂与修剪)等标准步骤[33][35][37] - 支持多GPU分布式训练,采用类似模型并行的方式将高斯球参数切分到不同GPU,并在渲染前通过All-to-All通信交换数据,实现计算负载的并行化[65][66][71] 行业影响与未来展望 - 以OpenAI的Sora为代表的视频生成模型若持续发展,可能对未来计算机图形学领域产生深远影响,甚至成为该学科的基础技术之一[6][7] - 从业者期待“世界模型”类技术能在视频生成和场景重建等领域得到更广泛应用,即使其效果仅达到大语言模型影响力的四分之一,也将为算法和基础设施领域的从业者带来新的机会[9]
AI技术未来发展趋势预测
搜狐财经· 2025-09-21 13:31
技术突破方向 - 原生多模态大模型采用端到端统一架构,实现文本、图像、音频、3D数据深度融合处理,推理效率提升300% [1] - 世界模型加速落地,成为2025年具身智能的核心技术底座 [1] - AI智能体从知识增强转向执行增强,OpenAI的o1/o3模型已实现复杂任务自主决策,预计到2028年AI智能体将自动化15%企业日常决策 [3] - 模型训练范式革新,后训练阶段Scaling Law成为重点,强化学习优化推理效率,降低50%算力消耗 [4] - 训练转向小数据与优质数据驱动,减少对海量低质数据的依赖,提升模型可靠性 [4] 产业重构趋势 - AI代理深度分析用户行为,提供超个性化产品定制,客户满意度提升40% [6] - 实时决策系统渗透物流、营销领域,企业应对市场波动速度加快3倍 [6] - AI与物理世界深度融合,工业场景人形机器人量产化,端到端模型控制精度达毫米级 [6] - 智能工厂覆盖率超80%,推动制造业研发周期缩短28.4% [6] - 生物医学领域,多模态神经影像AI解码大脑三维结构,阿尔茨海默病预警提前至临床前10年 [6] - 联邦学习连接跨区域医疗数据,肺炎诊断特异性达99.2% [6] 社会融合挑战 - 伦理治理刚性化,负责任AI成为强制标准,可解释性模型在医疗、金融领域强制应用 [8] - 就业结构转型,重复性岗位自动化率超30%,创造型与情感交互型职业需求增长200% [8] - 人类创造力与AI执行力成为主流协作模式 [8] - 隐私与版权新机制普及,区块链赋能的AI数据确权技术解决生成内容版权归属争议 [8] - 差分隐私、联邦学习保护个人数据,用户隐私控制权立法强化 [8] 未来十年关键里程碑 - 2027年通用人工智能在封闭场景通过图灵测试 [12] - 2030年神经形态芯片量产,能效比提升1000倍 [12] - 2035年AI贡献全球GDP增长超40% [12]
打算招聘几位大佬共创平台(世界模型/VLA等方向)
自动驾驶之心· 2025-09-21 06:59
公司业务与招聘计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 业务合伙人将负责自动驾驶相关课程研发、论文辅导业务开发以及硬件研发 [2] 招聘主要技术方向 - 招聘方向涵盖大模型/多模态大模型、扩散模型、视觉语言模型、端到端自动驾驶、具身交互、联合预测、SLAM、3D目标检测、世界模型、闭环仿真3DGS、大模型部署与量化感知推理等前沿技术领域 [3] 岗位要求与待遇 - 候选人需来自QS200以内高校,拥有硕士及以上学历,拥有顶会论文者优先 [4] - 提供的待遇包括自动驾驶行业资源共享、丰厚的现金激励以及创业项目合作与推荐机会 [5]
无需训练的世界模型?西湖大学WorldForge开启空间智能新路径,让AI读懂3D世界
量子位· 2025-09-21 06:36
文章核心观点 - 西湖大学AGI实验室提出的WorldForge框架通过推理时引导策略实现视频生成的高精度时空控制 绕开传统微调或重训模型的高成本路径 为可控世界模型提供新研究方向 [1][8][14] 技术原理与架构 - 采用步内递归修正(IRR)模块 通过预测-校正微循环在去噪过程中逐步消除轨迹偏离 确保生成内容遵循预设运动轨迹 [4][5] - 流门控潜在融合(FLF)模块通过光流得分分离运动与外观特征 将轨迹信号精准注入高运动相关度通道 避免破坏画面质感 [6] - 双路径自校正引导(DSG)模块利用引导路径与非引导路径的输出差异生成校正项 同时保证轨迹精确性与画面质量稳定 [7] 应用场景与性能 - 支持单视图生成3D静态场景 仅需一张照片即可重建三维场景并生成360°环绕视频 [9] - 实现视频电影级重运镜 允许用户自由设计镜头轨迹智能补全新视角场景 效果领先需大量训练的SOTA模型 [11] - 具备视频内容二次创作能力 包括主体替换、物体擦除/添加及虚拟试穿等编辑功能 [12] 行业意义与创新 - 为视频生成领域提供不修改模型权重、即插即用的引导策略 降低技术与资源门槛 [1][14] - 通过推理时引导结构化模型内部世界知识 为可控世界模型构建开辟低训练成本新路径 [8][14]
开放几个自动驾驶技术交流群(世界模型/端到端/VLA)
自动驾驶之心· 2025-09-20 16:03
技术交流社群建立 - 自动驾驶领域专业社群成立 涵盖世界模型 端到端 VLA等多个前沿技术方向[1] - 社群定位为技术交流平台 面向开学季和秋招期从业人员与学生群体[1] - 通过指定联系方式可申请加入 需备注昵称与研究方向[1]
黄仁勋随特朗普访英:26亿美元下注英国AI,智驾公司Wayve或获5亿美元加码
搜狐财经· 2025-09-20 09:57
投资与合作 - 英伟达宣布在英国投资20亿英镑(约合26亿美元),以催化英国的人工智能初创企业生态系统 [1] - Wayve有望获得英伟达5亿美元的投资,双方已签署投资意向书 [1] - 英伟达曾于2024年5月参与Wayve的10.5亿美元C轮融资,其他投资者包括软银和微软 [2] 公司技术与产品 - Wayve的下一代Gen 3硬件平台将完全基于英伟达的DRIVE AGX Thor车载计算平台打造 [1] - 公司采用具身人工智能和端到端深度学习模型的技术路线,是世界上首家在公共道路上部署端到端深度学习驾驶系统的公司 [3][8] - 其AV2.0架构旨在实现通用化、可全球扩展的自动驾驶,区别于传统模块化的AV1.0系统 [8] - 为解决端到端模型的可解释性问题,公司开发了LINGO-2模型,这是一个闭环视觉-语言-动作驾驶模型,能解释其行为原因并接受自然语言指导 [10][12] - 为解决数据需求挑战,公司开发了视频生成世界模型GAIA-2,用于生成逼真且可控的驾驶场景视频以训练模型 [14][16] - 其人工智能驾驶系统不依赖高精地图,并具有硬件无关特性,能够兼容不同类型的传感器和车辆平台,已在美国、德国和日本等地进行测试验证 [19][20] 公司背景与团队 - Wayve于2017年由亚历克斯·肯德尔和阿玛尔·沙阿在英国剑桥大学附近创立 [3] - 联合创始人兼首席执行官亚历克斯·肯德尔拥有剑桥大学深度学习与计算机视觉方向的博士学位,其研究是公司创立的基础 [21] - 公司高管团队经验丰富,包括来自Mobileye、Waymo以及曾担任高盛、瑞银顶级汽车行业分析师的专业人士 [25]
任少卿加入中科大......
自动驾驶之心· 2025-09-20 05:35
任少卿职业动态 - AI领域专家任少卿开始在母校中国科学技术大学开班招生 [1] - 任少卿曾任Momenta联合创始人、蔚来汽车副总裁 [4] 任少卿学术背景 - 任少卿为07级中科大本硕博(微软亚洲研究院联合培养) [4] - 任少卿是ResNet和Faster R-CNN作者 [4] - 学术高被引超44万,是全球中国籍学者高被引第一 [4] - ResNet是21世纪全球最高被引论文 [4] - 曾获未来科学大奖-数学与计算机科学奖 [4] 招生信息 - 招生方向为AGI、世界模型、具身智能、AI4S等 [6] - 硕士、博士生都在招 [6] - 有推免资格的学生将于下周一(22日)开启紧急面试 [6]
任少卿在中科大招生了!硕博都可,推免学生下周一紧急面试
量子位· 2025-09-20 05:12
任少卿学术与职业背景 - 任少卿是计算机视觉与自动驾驶领域专家,为ResNet和Faster R-CNN的核心作者之一 [1][4][7][9] - ResNet是深度学习里程碑工作,解决了深度神经网络训练中的梯度消失难题,获得CVPR 2016最佳论文奖,被引用次数超过29万次 [7][8] - 其学术高被引超过44万,是全球中国籍学者高被引第一,ResNet是21世纪全球最高被引论文,2022年入选AI 2000榜单排名第十,2023年获未来科学大奖 [1][6] 在蔚来汽车的职业经历与技术贡献 - 任少卿于2020年加入蔚来汽车,担任智能驾驶研发副总裁,向CEO李斌直接汇报,后职权扩大至直接管理新设技术委员会并领导大模型部 [13][14] - 在蔚来期间主要负责城区领航辅助NOA的规模铺开和全域领航辅助NOP+功能的发布与迭代,主导推动"群体智能"数据驱动范式 [14] - 领导团队开发了NIO世界模型,该模型具备想象重建与想象推演能力,可生成高保真平行世界场景并进行长时序推演超过2分钟 [14][15] 中国科学技术大学招生信息 - 任少卿目前在中国科学技术大学招收硕士与博士生,招生方向为AGI、世界模型、具身智能、AI4S等 [1][2][3] - 具有推免资格的学生可参与紧急面试,有兴趣的学生可发送简历至指定邮箱进行咨询 [3][16]
具身的这几个方向,组成了所谓的大小脑算法
具身智能之心· 2025-09-19 00:03
具身智能技术框架 - 具身智能领域围绕大脑和小脑两大模块展开 大脑负责思考感知和任务规划 小脑负责高精度运动执行[3] - 细分技术包括仿真 VLA Diffusion Policy VLN 世界模型和强化学习等多个子模块[5] - VLA和世界模型在自动驾驶和具身领域同时发力 代表两个不同技术路线[5] 技术演进阶段 - 第一阶段聚焦抓取位姿检测 通过点云或图像预测末端执行器姿态 但缺乏任务上下文和动作序列建模[7] - 第二阶段进入行为克隆阶段 通过专家演示数据学习端到端映射 但存在泛化能力弱和误差累积问题[7] - 第三阶段引入Diffusion Policy方法 通过扩散模型生成动作轨迹 提升策略稳定性与泛化能力[8] - 第四阶段探索VLA模型与强化学习 世界模型 触觉感知等模块融合 弥补现有局限[9] 关键技术发展 - VLA研究热点为端到端和分层两种方案 分别基于大模型和diffusion技术拓展 VLA+RL方案成为新探索方向[5] - Diffusion Policy负责学习具体动作和执行 包括状态扩散 动作空间扩散和三维空间扩散等多个方向[6] - 仿真技术发展sim2real和real2sim2real 解决真机泛化差问题 获多家具身公司认可[6] - VLN更关注目标导航 与移动操作相关联 map-free方案利于任务泛化[6] 应用与落地 - 技术发展推动人形机器人 机械臂 四足机器人等产品落地 服务于工业 家居 餐饮 医疗康复等领域[10] - 产业界重视推动具身智能从论文走向部署 对工程能力提出更高要求[14] - 需掌握在Mujoco IsaacGym Pybullet等平台完成策略训练与仿真测试的能力[14] - 需实现强化学习在VLA后训练上的应用 支持机器人反馈微调[14] 人才需求与培养 - 岗位呈现爆发式增长 导致许多专业人士转入具身智能领域[10] - 需要掌握具身大脑+小脑算法全体系知识点 熟悉模型优化方法[25] - 需掌握仿真 DP VLA VLA+RL模型的基本原理和实际应用[25] - 需熟悉世界模型在具身智能领域中的应用 掌握基于触觉信息的VLA主流方案[25]
从 ChatGPT 到 Marble,李飞飞押注的下一个爆发点是 3D 世界生成?
锦秋集· 2025-09-18 07:33
文章核心观点 - 李飞飞创立的World Labs推出空间智能模型Marble 其核心突破在于通过一张图片或文本提示生成持久存在且可自由导航的3D世界 在几何一致性、风格多样性、世界规模和跨设备支持上显著优于同类产品[1][2] - Marble并非孤立产品 而是李飞飞"世界模型-空间智能-三维表征"思路的集中落地 代表从语言理解到世界理解再到AGI的演进路径[3][6] - 世界模型被视为AI发展的第三阶段范式 其核心在于三维表征与时空一致性 而不仅是多模态拼接 这将推动内容生产、机器人和AR/VR领域的变革[6][21][29] 大语言模型边界与空间智能必要性 - 大语言模型在写作、推理等任务中展现强大能力 但其基于一维序列的结构无法原生理解三维世界 语言作为有损编码方式难以传递几何、物理和时序因果信息[5][9][10] - 二维像素和视频输入不会自动生成三维结构 关键在模型内部表征需原生支持三维表达 满足可微渲染、视角一致性和物理一致性要求[11][14] - 空间智能是AGI的必要条件 因为世界本质是三维的 二维观测是不完备投影 且语言训练信号是纯生成的 无法替代对三维结构的直接建模[16] 世界模型的技术实现路径 - 数据策略采用混合路径:真实采集+重建生成+仿真合成 以解决三维数据匮乏问题 同时强调数据质量与一致性约束的重要性[20][26] - 算法层面注重"重建与生成合流" 同一套三维表示既能重建真实场景 也能生成虚拟世界 NeRF等方法让小规模算力也能实现原创突破[20][24] - 算力资源配置体现学术与产业分工:工业界侧重系统工程与产品化 学术界专注表示方法和跨模态原理研究[25] 产业发展与落地节奏 - 内容生产为首要落地场景 目标将3D内容生成成本从AAA游戏级降至创作者可及水平 应用覆盖游戏、虚拟摄影、工业设计和教育领域[6][29] - 机器人被视为天然应用场景 空间智能连接数字脑与物理界面 但需先打磨三维表示与交互能力 再承接高风险实体操作[30] - AR/VR作为后续发展阶段 需实现从静态场景到动态要素、可交互性和场景语义的逐步演进[29] 范式演进与投资逻辑 - AI发展遵循三要素共振规律:数据×算力×算法 ImageNet时代是二维标注数据驱动 世界模型时代是三维表示驱动[18][21][23] - 范式演进分为三阶段:监督学习(ImageNet)→生成式建模(扩散/GAN)→三维世界模型(重建×生成)[21][24] - 投资逻辑围绕"找到时代最被低估的数据形态" 三维表示被视为当前最具潜力的数据形态[21][23]