雷峰网
搜索文档
负债35亿元!扫地机器人巨头宣布破产,被中国代工厂收购;麦当劳回应涨价,网友:谁允许了;我国首批L3级自动驾驶车型进入准入目录
雷峰网· 2025-12-16 00:33
扫地机器人行业格局变动 - 行业鼻祖iRobot申请破产重组并被深圳杉川机器人公司收购 杉川将获得iRobot的100%股权 此举有助于杉川从代工向自主品牌转型并重塑美国市场格局 [5] - iRobot衰落的核心原因是未能及时跟上行业发展节奏 疫情期间与中国清洁电器企业的发展脱节 科沃斯、追觅、石头等中国公司推动行业快速迭代 [5][6] - iRobot财务状况急剧恶化 截至9月27日现金及等价物仅剩2480万美元(约合人民币1.75亿元) 较2024年底的1.34亿美元大幅减少 总负债高达5.08亿美元(约合人民币35.8亿元) 股东权益为负2680万美元 [6] - iRobot市值从2021年的35.6亿美元峰值缩水至约1.4亿美元 此前曾是亚马逊14亿美元收购交易的目标 [6] 消费与零售行业动态 - 麦当劳中国于12月15日起对大部分餐品提价 涨幅普遍在0.5元到1元 包括巨无霸、麦香鱼等经典汉堡单价均上涨1元 [9] - 麦当劳全球门店总数从2023年的41822家增长至2024年的43477家 净增1655家 中国市场2024年新增917家门店 总数达6820家 平均每天至少新开两家店 [10] - 玛莎拉蒂格雷嘉车型在中国市场大幅降价促销 燃油版官方指导价65.08万元优惠至38.88万元 降价超26万元 纯电版从89.88万元降至35.88万元 大降价54万元 低配车型迅速售罄 [25] - 玛莎拉蒂此次降价旨在清理库存 因进口延迟导致与新款车型上市时间重叠 该品牌在华销量从2017年的1.44万辆峰值跌至2024年的1228辆 [26] - 当当创始人李国庆宣布60岁再创业 成立新电商公司“李享生活” 主打线上高端会员店 商品加价率控制在1.25倍 第一年计划服务5000个会员 [22] 自动驾驶与汽车产业政策 - 中国首批L3级有条件自动驾驶车型获得准入许可 涉及长安汽车和北汽蓝谷麦格纳的两款纯电动轿车 标志着L3级自动驾驶从试点迈入合规准入新阶段 [14] - 长安获批车型可在交通拥堵场景下于高速公路和城市快速路单车道内自动驾驶 最高车速50km/h 功能目前仅限在重庆市部分指定路段开启 [14] - 北汽蓝谷(极狐)获批车型可在高速公路和城市快速路单车道内自动驾驶 最高车速80km/h 应用范围限定在北京市部分高速路段 [14] - 国家市场监督管理总局发布《汽车行业价格行为合规指南(征求意见稿)》 明确指出汽车生产企业使用其他方式使实际出厂价格低于其生产成本等行为存在重大法律风险 赛力斯集团发布声明响应 称将严格杜绝成本倒挂等行为 [38] 半导体与人工智能芯片 - 壁仞科技获证监会境外发行上市备案 拟发行不超过3.72458亿股并在香港上市 公司成立于2019年 是一家通用智能芯片设计公司 [12] - 壁仞科技自2020年起累计融资超过50亿元人民币 创始人为前商汤科技总裁张文 公司CTO为前海思自研GPU团队负责人洪洲 [12][13] - 摩尔线程将于12月20-21日在北京举办首届MUSA开发者大会 这是国内首个聚焦全功能GPU的开发者盛会 旨在展示其MUSA统一系统架构的全栈能力 [15][16] - 高通宣布收购RISC-V初创企业Ventana微系统公司 此举意味着高通可能启动双架构并行战略 未来芯片产品有望同时集成自研Arm架构核心与高性能RISC-V架构核心 [58] 科技巨头与人工智能进展 - 埃隆·马斯克身家达到6770亿美元 成为历史上首位身家超过6000亿美元的人 特斯拉市值一夜增加537亿美元(约合人民币3786亿元) [44] - 特斯拉已在得克萨斯州奥斯汀启动无人驾驶Robotaxi路测 测试车辆内未配备任何乘员 公司人工智能业务负责人称“就此启幕” [45] - SpaceX寻求在2025年中后期上市 目标估值约为1.5万亿美元 马斯克持有约42%股权 其上市有望使马斯克成为全球首位“万亿美元富豪” [44] - OpenAI聘请谷歌前高管Albert Lee负责企业发展业务 释放出将持续物色战略投资与并购目标的信号 以在与谷歌等对手的竞争中抢占优势 [46] - OpenAI要求Meta向法院提交文件 以确认其是否曾参与马斯克今年早些时候发起的、针对OpenAI的970亿美元收购要约 [51] 消费电子与新品发布 - 华为宣布nova 15系列手机将于12月22日发布 全系支持北斗卫星消息 其中Ultra版配备麒麟9系芯片 电池容量达到6600mAh 全系标配100W超级快充 [35][36] - 小米17 Ultra预计在12月下旬发布 新机将是小米史上最强影像旗舰 主摄由上代索尼传感器升级为豪威集团全新1英寸传感器 并引入LOFIC技术 潜望长焦和屏幕也将升级 [32] - 苹果计划在2027年推出iPhone 20 采用无开孔“真全面屏”和四曲面弯折设计 以致敬初代iPhone诞生20周年 LG Display据称为此研发投入约4000亿韩元(约合19.17亿元人民币) [52][53] 云服务与AI生态治理 - 云市场正从粗放增长步入治理期 部分代理商为冲业绩以超高返佣进行低价厮杀 导致行业陷入“卖越多亏越惨”的恶性循环 AI时代的生态亟需重构 [17] - 华为云已开始打击虚假业绩并整治渠道经理 联合1300多位伙伴举行廉洁宣誓仪式 旨在打造更健康的生态圈 为未来云和AI的征途进行底层系统焕新 [17][18] 公司财务与资本运作 - 寒武纪公告拟使用母公司资本公积金27.78亿元用于弥补母公司累计亏损 截至2024年底 母公司累计未分配利润为-27.78亿元 资本公积期末余额为96.25亿元 [20][21] 其他行业资讯 - 蚂蚁集团旗下AI健康应用AQ品牌升级为“蚂蚁阿福” 定位从AI工具转向AI健康朋友 目前App月活用户已超1500万 跻身国内AI App前五 每天回答用户500多万个健康提问 [28] - 丰田汽车因全景监控系统程序设计不当在中国召回近10万辆汽车 涉及多款进口及国产车型 包括雷克萨斯、丰田埃尔法、普拉多、bZ4X等 [49][50] - 抖音电商出台新规严格规范以“打假”“测评”为名发布虚假信息并谋取不当利益的行为 存在违规的账号将被列为“争议账号”并关闭内容加热及商业变现功能 [40]
谁将定义中国智算未来?从系统可用的算力基建,到产业认可的价值闭环丨GAIR 2025
雷峰网· 2025-12-15 07:44
" 谁能构建未来智算的标准、模式与底座,谁就将在下一代智能化 竞争中拥有真正的主导权。 " 作者丨杨依婷 赵之齐 刘伊伦 编辑丨包永刚 上午场深入分享的余韵尚未散尽, GAIR 2025「AI算力新十年」 下午场便接续开启,思辨与洞察仍在回 响,关于中国智算体系未来走向的更宏大命题,已在会场内外激起新的波澜和期待。 本次大会由GAIR研究院与雷峰网共同举办,于深圳·博林天瑞喜来登酒店隆重召开。作为粤港澳大湾区的 AI标杆盛会,GAIR 自创办以来始终致力于连接技术前沿与产业实践,推动人工智能生态的交流、融合与 发展。 下午的论坛以 【谁将定义中国智算未来】 为主题,关注的焦点,从"实现0到1的突破",转向"完成1到N 的系统化构建和价值闭环",算力不再只以内核、生态或架构的单点创新为中心,而是迈向以系统运营、 模式创新与价值闭环为核心的全栈竞争。 在这一主题之下,下午的八位嘉宾从学术研究、产业实践、基础设施运营到算力服务模式创新等多个维度 展开了密集而深刻的分享。 他们讨论的议题不再局限于单个技术路线或单项产品突破,而是聚焦于一个更宏大的命题:谁能构建未来 智算的标准、模式与底座,谁就将在下一代智能化竞争中拥 ...
浙江大学研究员彭思达:底层空间感知技术对训练机器人有何作用?丨GAIR 2025
雷峰网· 2025-12-15 07:44
团队主要聚焦于赋予机器人三项基础能力:一是相机定位(Camera Pose Estimation),即让机器人知 道自己在空间中的位置;二是深度估计(Depth Estimation),使机器人了解场景中各物体与自身的距 离;三是物体运动估计(Object Motion Estimation),让机器人感知世界的运动状态。 这些底层空间感知技术有何作用?首先,它们能为机器人提供关键的决策信息。例如,无人机在空间中需 要先知道自身位置、与场景目标的距离,才能实现基础避障;进而还需了解目标物体的运动情况,才能进 行追踪。基于从场景中获取的三维空间信息,机器人的行为规划便能得到有力支持。 其次,这些技术可用于生成训练数据。当前具身智能领域的一大难题是数据匮乏。以往有人尝试仿真或遥 操获取数据,但遥操数据虽好却难以规模化扩展,而仿真技术目前仍与真实世界存在较大差距。 彭思达提出,其实可将人类视作一种特殊形态的机器人——具备完整的身体结构与行为模式。若能发明一 种数据采集设备,将人类日常行为完整记录下来,就相当于获取了机器人所需的行为数据,从而可用于训 练人形机器人。这其中便涉及相机定位、深度估计与物体运动估计等技术。 ...
阿斯麦CEO:中国不可能接受被卡脖子,不如让其保持依赖;国家发文禁止亏本卖车,多家车企响应;月薪100K!京东招募AI芯片人才
雷峰网· 2025-12-15 01:11
半导体与芯片行业动态 - 阿斯麦CEO表示,西方应通过拒绝提供最新产品来维持中国对西方技术的依赖,目前对华出口设备比最新技术落后八代,技术水平相当于2013、2014年的产品,技术差距超过十年[2][3] - 摩尔线程计划使用不超过75亿元的部分闲置募集资金进行现金管理,公司募资总额约80亿元,实际募集资金净额为75.8亿元[3][4] - 京东正招募端侧AI芯片领域人才,月薪范围在25K-100K,产品或将用于机器人、智能家电等硬件侧,公司2025年三季度研发投入达56亿元[7] - 台积电在美国的投资被要求超过2000亿美元(约合1.4万亿元),并创造3万个工作机会,其美国子公司Q3季度盈利仅0.41亿新台币,较Q2季度的42.23亿新台币暴跌99%[12] - 苹果与三星、SK海力士的DRAM长期供货协议即将到期,两家韩国厂商计划自2026年1月起提高对苹果的芯片报价,这可能影响包括iPhone 18系列在内的多款产品[28] - 美国高官表示,中国拒绝购买英伟达H200芯片,转而支持华为等国产半导体[32] 汽车行业政策与市场 - 国家市场监督管理总局发布《汽车行业价格行为合规指南(征求意见稿)》,禁止汽车生产企业亏本卖车,长城、长安、小鹏、比亚迪等多家车企已表态支持[6] - 瑞士车主计划在中国购买极氪7X并出口至瑞士自用,因中国版起售价仅22.99万元,而荷兰单电机后驱版起售价约43.89万元,欧洲版售价几乎是国内两倍[20][21] 人工智能与手机发展 - 罗永浩发文指出,真正尝试打造AI手机的厂商寥寥无几,质疑国内手机厂商在AI手机赛道上犹豫不前,并提到豆包手机在技术路径上做出了探索[11] - 豆包手机助手与中兴通讯合作推出努比亚M153工程机,其核心卖点是强大的跨应用操作能力,但近期有报道称登录部分应用受限,字节跳动对此回应称相关监管约谈消息不实[22] - 华为Mate 80系列销量约75.49万,在4000元以上价位段终结了iPhone长期垄断前三的局面,华为在2025年第48周和第49周连续两周以27.81%和22.89%的市场份额位居中国智能手机市场第一[23] 互联网科技公司动向 - 百度原大搜算法策略部T10级别技术专家王俊峰转岗至百度健康,出任策略研发部1号位[9] - 抖音生活服务推出“抖音买单”功能,已在上海、深圳、杭州等城市启动试点,覆盖餐饮、便利店等线下高频消费场景[13] - 宇树科技推出专为机器人打造的全球功能共享中心“宇树应用商店”,用户可一键上传或下载舞蹈、武术等模型[25] - 微软AI部门CEO苏莱曼表示,不会通过天价薪酬与Meta等巨头抢夺人才,并指出硅谷顶尖AI人才薪酬已达数百万美元级别[29][30] - 谷歌在收到迪士尼的停止侵权通知后,下架了数十个涉及迪士尼知识产权的AI生成视频[31] - SpaceX启动华尔街投行甄选程序,为潜在IPO提供顾问服务,公司最新内部估值约8000亿美元,并筹备最早于2026年进行IPO,计划融资超过300亿美元,目标整体估值约1.5万亿美元[33] 企业舆情与公司治理 - 山东威海村支书冯玉宽因模仿小米发布会风格带货“金谷小米”被投诉,视频下架,小米公司发布声明称投诉针对的是恶意模仿、捏造污蔑行为[5] - 韵达股份董事会换届选举,提名5名非独立董事候选人,其中4人为实际控制人聂腾云的家庭成员,包括其24岁的儿子聂毅鹏,公司前三季度归属母公司股东的净利润为7.3亿元,同比大幅下滑48.15%[19][20] - 徕芬扫振电动牙刷i2发布会布景被指撞景电影《周处除三害》灵堂场景,官方回应称该设计在2023年就已使用,与电影无关[14] - 抖音集团副总裁李亮回应平台“造神”说法,称博主“爱吃蛋”涨粉近400万、累计获赞1408.8万,是因为内容稀缺、实用并唤起了共鸣,并非算法“造神”[16][17]
东方理工金鑫:如何找到自动驾驶与机器人统一的「空间语言」丨GAIR 2025
雷峰网· 2025-12-14 06:27
文章核心观点 - 文章介绍了宁波东方理工大学金鑫教授团队在空间智能与世界模型领域的研究进展,其核心思路是采用“混合”路径构建世界模型,即结合明确的物理规则知识与数据驱动方法,并率先应用于工业制造等产业场景以实现技术验证与落地 [3][4][5] 空间智能(世界模型)的起源与概念 - 空间智能概念在SLAM技术时期已被讨论,2024年由斯坦福大学李飞飞教授拓展至与物理世界的交互、感知和理解 [8] - 世界模型技术近期取得显著进步,例如李飞飞团队发布的Marble 3D世界模型和谷歌DeepMind发布的Genie 3,后者在写实性、一致性及物理正确性上达到更高水平 [9] - 世界模型有望成为继数据增强、数据合成之后,为人工智能训练提供高效路径的新选择 [9] 空间智能的技术框架 - 团队将空间智能或世界模型划分为三个部分:空间感知(基础3D建模与物理定律嵌入)、空间交互(支持智能体与环境及多智能体间互动)、空间的理解泛化与生成(基于充分理解衍生生成能力) [10][12][13][14] - 整体工作细分为两个方向:空间构建(搭建仿真环境)与智能体训练(在环境中训练AI),两者可形成不断优化迭代的闭环 [15][18] 核心研究成果:自动驾驶场景生成 - **UniScene**:团队提出的专注于驾驶场景生成的工作,已被CVPR接收,后续有V2等版本 [20] - **生成动机**:由于合规、隐私及车队规模限制,真实数据难以覆盖足够多的“corner case”危险场景,需通过生成式方法合成逼真有价值的场景数据 [22] - **技术路径**:采用以Occupancy(占据栅格)为中心的生成方案,因其蕴含丰富语义与必要几何信息,是连接场景理解与建模的有效“桥梁” [27][32] - **生成流程**:以简单的鸟瞰图布局为输入,首先生成语义Occupancy,再以此为中心分别衍生生成激光雷达点云和多视角视频,是一个两阶段的解耦过程 [34] - **进展与产业合作**:UniScene V2版本在NuPlan数据集上扩展了数据量,新增深度图和语义分割模态,并能根据车辆传感器位置生成对应视角数据 [37][40];该版本在GitHub上线不到一周获得数百个star(后超过2000个) [41];正与理想汽车合作,测试生成器对带有镜头畸变数据的泛化能力,以低成本支持其自动驾驶算法迭代 [41] 核心研究成果:规划与机器人场景生成 - **OmniNWM**:团队引入闭环的“规划-生成”串联机制,将规划的轨迹作为条件输入,预测执行该轨迹后未来场景的变化,可称为“万能的驾驶导航世界模型” [42][44] - **模型能力**:需同时预测全景RGB视频、语义分割、深度图、3D结构及未来规划轨迹,重点在于状态、动作及闭环奖励三个维度的扩展 [45][50] - **技术迁移**:将相同方法论迁移至机器人领域,应用于具身智能场景进行数据合成,能以Occupancy为桥梁生成机器人视频,处理软体、绳体等物体的数据合成,并与主流仿真器兼容实现批量并行生成 [45] 核心研究成果:机器人数据与训练模型 - **InterVLA数据集**:为补充机器人第一人称视角数据缺失,团队构建了包含约3.9千个序列的新基准数据集,包含第一人称视角视频、第三人称视角视频及动作捕捉数据 [46][49][57] - **DreamVLA模型**:针对“抓放”等任务,提出将大语言模型中的“思维链”思想引入视觉-语言-动作模型,让模型在输出最终动作前,先输出“世界嵌入”或“世界知识”等中间产物,形成多模态推理链条 [63][71][73] - **模型效果**:相比于Open-VLA等方案,DreamVLA泛化性更好,并能实现更快、更高效的收敛 [75] - **方位基础模型**:通过模块化方案赋予机器人“方位感知”能力,使其能像人一样从合适方位抓取物体(如抓瓶身而非瓶盖) [76][80] - **解耦世界模型**:将“解耦学习”嵌入世界模型,提取对任务至关重要的环境关键因子,排除非任务相关干扰,从而提升训练效率与模型鲁棒性 [81][83] 研究背景与团队发展 - 研究重点自2024年初开始聚焦世界模型与空间智能,标志着从处理2D视觉信号转向理解3D、4D等高维信号,旨在让AI获得对物理空间的认知能力 [85] - 团队在2025年NeurIPS会议上有两篇合作论文受到广泛关注 [85] - 团队学生培养取得初步成效,2024年有一位博士获得国家奖学金,2025年增加至两位 [91] - 招生最看重学生的自驱力与对科研的热情,并通过实习期进行双向考核 [91][92] 产业应用与场景选择 - 基于宁波强大的制造业背景(拥有104家国家级制造业单项冠军企业,数量全国第一),团队优先选择工业场景构建“工厂世界模型”,与奥克斯空调、均胜电子、吉利汽车等当地龙头企业紧密合作 [93] - 与专注于探索底层原理的知名团队(如LeCun团队、李飞飞团队)不同,该团队采取“两条腿走路”策略,既探索前沿技术,又聚焦有特色的应用场景 [94] 世界模型的构建方法与挑战 - **构建数据**:分为静态数据(物体级静态资产)和动态数据(RGB视频、激光点云、动作捕捉数据),两者均为必需 [95][96] - **构建步骤**:采用自上而下的技术路径,先定义物理规则,再叠加动态数据,最后以静态数据打底,涉及数据采集、处理、合成与模型训练 [97] - **兴起原因**:AIGC技术使得通过生成方式快速创建物理正确、视觉真实的场景成为可能,在效率与成本上相比传统手工建模有量级提升 [97] - **最大挑战**:成本最高的部分是前期静态资产和动态场景数据的创建与采集;技术难度最大的在于将软体、弹性体、流体等第一性原理和物理规则有效嵌入模型中 [98] 技术路径讨论与行业观点 - **关于Sora等视频生成模型**:认为其是否为世界模型取决于应用场景,在游戏、娱乐等内容生成领域有价值,但在需要精细空间感知与动作策略的机器人或自动驾驶领域存在局限性 [99] - **载体差异**:当前趋势是采用数据驱动的端到端模式(如VLA模型),倾向于为不同形态的智能体(汽车、机械臂)构建统一的世界模型服务,避免重复造轮子 [99][100] - **技术路径选择**:团队倾向于“混合”路径,结合端到端黑盒方法的能力与显性、可解释的组件 [101] - **学术界价值**:面对企业界强大的大模型路径,不必焦虑于快速商业变现,技术持续发展总需要新的突破,许多奠基性技术最初源于高校 [102] - **物理规律掌握**:关键在于构建高度物理真实的世界模型本身,若能真实还原材质物理属性,仿真环境中训练出的智能体行为结果会与真实世界一致 [102][103] - **实现方法**:采用知识库与数据库结合的混合路径,对明确规则(如碰撞检测、摩擦力)进行知识嵌入,对复杂现象(如流体运动)则采用数据驱动方法 [104][105]
GAIR 2025 「数据&一脑多形」分论坛,激辩 AI 演进路径
雷峰网· 2025-12-14 06:27
" 过去十年,AI的核心突破是从 「 专用 」 走向 「 通用 」 的语 言理解;未来十年的关键战役,或许就是将这种通用性,从语言世 界拓展到物理世界。 " 作者丨 吴彤 刘欣 齐铖湧 梁丙鉴 编辑丨 林觉民 马晓宁 在 12月13日举行的第八届GAIR全球人工智能与机器人大会"数据&一脑多形"分论坛上,两个看似独立却 紧密交织的技术前沿——数据的价值重构与一脑多形(One Brain, Many Forms)的架构革命,成为探索 下一代智能系统的核心焦点。 一方面,数据正从传统的"资源"角色,向更本质的"认知基础"与"价值载体"演进。 随着多模态大模型的爆发,高质量、结构化、富有逻辑链的数据已不再是模型的"养料"那么简单,它正演 化为定义模型认知边界与价值对齐的核心框架。 本次论坛深入探讨了如何在数据洪流中构建更具解释性、可信度与进化能力的知识体系,以及如何通过数 据流动重塑产业智能化的闭环。数据不再仅仅是起点,更是驱动智能持续进化、与人和社会和谐共生的核 心纽带。 另一方面,"一脑多形"的范式正在重新定义智能的构建方式。 它超越了单一模型解决特定任务的局限,指向一个更具适应性与扩展性的未来:一个统一的底层 ...
AI算力新十年:技术革新、生态协同与商业闭环,共探「下一个寒武纪」之路丨GAIR 2025
雷峰网· 2025-12-13 12:05
" 在算力成为基础设施的时代,究竟什么样的技术路径、生态战略 和商业逻辑,能够穿越周期,占据未来价值链的顶端? " 作者丨杨依婷 刘伊伦 编辑丨包永刚 2025年12月13日, GAIR 2025「AI 算力新十年」 专场在深圳·博林天瑞喜来登酒店正式启幕。 作为国内前沿技术与产业变革的重要风向标,GAIR大会历经七届积淀,见证并推动了中国 AI 产业从算法 突破、硬件迭代,到商业落地的完整过程。本届论坛直面智能体系的底层核心—— 算力 ,从架构、生 态、工具链到产业化落地,探寻未来十年的关键变量。 上午场以 「谁是下一个寒武纪」 为主题,六位来自产、学、研、投等多个维度的嘉宾依次登台,以不同 视角揭示国产算力的现状与未来——这不仅是在探寻一家明星企业,更是在追问: 深圳理工大学算力微电子学院院长唐志敏:通过软件定义算力,才能打破芯片技术壁垒 首位登场演讲的嘉宾是深圳理工大学算力微电子学院院长,龙芯 CPU、海光 CPU 创始人唐志敏。深耕微 电子与算力领域三十余载,唐志敏院长亲历了中国自主芯片从无到有、从弱到强的攻坚历程,更在算力芯 片(XPU)的体系结构、软件生态与产业发展领域有着深厚积淀,对于算力时代下 ...
GAIR 2025 世界模型分论坛:从通用感知到视频、物理世界模型的百家争鸣
雷峰网· 2025-12-13 09:13
" 具身智能爆发第三年,世界模型凝聚了哪些共识? " 作者丨 张进 吴彤 梁丙鉴 刘欣 齐铖湧 编辑丨 林觉民 马晓宁 13 日,第八届 GAIR 全球人工智能与机器人大会世界模型分论坛圆满成功。 这场的演讲嘉宾是在世界模型领域,研究不同方向的五位青年学者,他们带来了五场围绕世界模型的精彩 演讲,话题聚焦通用感知、三维技术、物理模型、世界模型、数字人重建。通过他们的演讲、我们得以窥 见当下围绕着世界模型的研究是多么广泛与丰富。 目前,世界模型的研究尚处于起步阶段,共识尚未形成,有关该领域的研究形成了无数支流,而这股潮流 中,今天到场的几位嘉宾,用他们的智慧和力量给世界模型领域研究带来了不同的启发。 浙江大学研究员彭思达:面向具身智能的通用空间感知技术 在"世界模型"分论坛上,首位演讲者是浙江大学研究员彭思达。他是浙江大学软件学院"百人计划"研究 员、博士生导师,研究方向为三维计算机视觉和计算机图形学。此次他带来的主题演讲是《面向具身智能 的通用空间感知技术》,介绍了其团队近期在赋予机器人通用感知能力方面的多项工作。 团队主要聚焦于赋予机器人三项基础能力:一是相机定位(Camera Pose Estimatio ...
港中深韩晓光:3DGen,人类安全感之战丨GAIR 2025
雷峰网· 2025-12-13 09:13
文章核心观点 文章通过港中深助理教授韩晓光的视角,探讨了在视频生成模型(如Sora)兴起的背景下,三维生成与世界模型构建的必要性及其不可替代的价值 核心观点认为,尽管端到端的“炼丹”式AI在性能上取得突破,但为了满足人类对可解释性、安全感和精细可控的需求,尤其是在构建可交互的虚拟世界、发展具身智能以及实现数字到实体制造等领域,三维生成与显式的、结构化的建模方法是不可或缺的 [2][3][4][58][61][63] 三维生成发展历程与现状 - 三维生成在深度学习兴起前就已存在,早期主要聚焦于“类别限定”的生成,即为椅子、车辆等特定类别分别训练模型 [9] - “开放世界”的三维生成大约从2023年的Dreamfusion工作开始兴起,实现了从文本直接生成3D模型,但基于优化方法,生成速度较慢,通常需要半小时到一小时 [11][12][14] - 当前进入大模型时代,例如Adobe的Large Reconstruction Model和上海科大的Clay工作提出了“原生模型”概念,商业应用如腾讯混元3D的3.0版本已能实现从单张图像生成高质量三维模型 [16] 三维生成的发展趋势 - 趋势一:更精细,追求几何层面的极致细节表现,例如数美万物的Spark 3D [19] - 趋势二:更结构化,生成的三维模型需要能被拆解成独立部件以便编辑,例如混元3D的“X-Part”工作 [19] - 趋势三:更对齐,解决生成模型与输入图像在细节上不对应的问题,例如输入图像栅栏有5条横杠而生成模型变成6条的问题 [20] 视频生成兴起对三维生成的冲击与反思 - 视频生成技术(如Sora)的出现对三维内容创作领域造成冲击,因为它能用文本指令直接输出视频,跳过了传统三维建模、绑定、渲染等复杂流程 [24][28] - 视频生成当前存在核心局限:物理模拟不够真实、3D空间不一致、内容可控性不足(如难以精细修改视频中物体的特定属性) [29][30] - 尽管Sora2和谷歌Veo3已展示出初步的可控能力(如控制视角变化),但真正的危机感促使行业思考视频生成模型是否真的不需要3D [34][37] 视频模型与三维结合的潜在路径 - 路径一:完全不用3D,采用纯2D的端到端范式,依赖海量视频数据训练 [38] - 路径二:利用3D仿真作为“世界模拟器”,先根据条件生成可控但不真实的CG视频,再用神经网络将其转化为真实视频 [39] - 路径三:将3D信息作为控制信号输入,例如基于三维重建的场景模型来生成空间一致的长视频,以解决“长程记忆”问题 [38][39] - 路径四:用3D合成数据辅助训练,利用3D仿真批量生成可控的、带标注的视频数据,以增强端到端视频模型的训练 [39] 世界模型的分类与三维的必要性 - 世界模型的核心是对真实世界进行数字化,以计算方式理解和表达规律,并用于预测 [41] - 第一类:服务于“人类共同体”的宏观世界模型,如气候模拟、社会系统推演 [43] - 第二类:服务于“个人”的体验与探索模型,核心是可交互性,需要数字化物理与交互规律以构建沉浸式虚拟世界 [43] - 第三类:给机器用的世界模型,如用于自动驾驶或具身智能机器人,需要能根据动作预测环境变化 [44] - 为实现可交互的世界模型(如VR体验需要触觉反馈),3D是必要的 [45] 具身智能与三维生成的关系 - 发展具身智能的主流方法是“向人类学习”,这需要首先对人类与物体的交互过程进行精确的、动态的数字化捕捉与还原,3D乃至4D的还原是必要基础 [48] - 为了让机器人安全高效地探索和学习,需要创造可交互的三维仿真环境,因此具身智能同样离不开3D [48] 从数字到实体的制造需求 - 在三维打印、智能制造、CAD模型生成等领域,实现从虚拟设计到实体制造的个性化定制,3D是绝对的基础,例如牙齿生成项目就是为了制造精确的牙齿模型 [50][52] 技术路线之争:显式与隐式 - 隐式(数据驱动)路径:构建端到端神经网络,依赖“潜变量”编码所有信息,是典型的“黑箱”逻辑 [56] - 显式(模型驱动)路径:显式地重建三维模型,并基于明确的几何与物理公式进行计算和判断,依赖对世界的明确建模 [57] - 可解释性与安全感:显式的、可视化的3D/4D信息是人类能够直观理解和信任的维度,能带来安全感,而高维的“潜变量”则让人难以理解其运作原理 [57][58][59] - 当前AI时代过分追求性能而可解释性不足,实现可解释性需要3D作为人类能够直观理解的基石 [61][63]
GAIR 2025 大会首日:AI重构教育、科学与产业的十三重碰撞
雷峰网· 2025-12-13 04:02
" 立于AI技术浪潮的又一个高点,GAIR试图超越对技术本身的讨 论,转而探寻其重塑教育、产业乃至文明的内在力量。 " 作者丨周蕾 赵之齐 张嘉敏 编辑丨周蕾 2025年12月12日,深圳南山。 第八届GAIR全球人工智能与机器人大会主论坛,于上午9:30在深圳南山·博林天瑞喜来登酒店正式拉开帷 幕。本次大会为期两天,由GAIR研究院与雷峰网联合主办,高文院士任指导委员会主席,杨强院士与朱晓 蕊教授任大会主席。 作为粤港澳大湾区的AI标杆盛会,GAIR自2016年创办以来,始终坚守"传承"与"创新"的双重底色——从 学界泰斗的精神传承,到华人顶会主席们的思想接力,再到青年学者的锋芒展露,这里不仅是技术交流的 平台,更是承载中国AI四十年发展记忆的精神家园。 时隔四年,GAIR从海外重返深圳主场。这四年来,大模型掀起巨浪、人工智能迈上更高舞台的四年,知识 生产不再局限于传统路径,产业变革更是按下"加速键"。值此岁末年初的节点,GAIR如期赴约,用一场 高质量的观点碰撞,为行业与大众回顾科技高速的脚步,呈现AI时代的前沿洞见。 12月12日的主论坛,延续GAIR一贯的学术前沿特色,设有: "AI之道:教育的重新定 ...