雷峰网
搜索文档
智驾公司高层欺上瞒下,停摆前已被全面接管;物流公司砸1.5亿布局L4;新势力供应链负责人备货不足被裁撤丨智驾情报局VOL.8
雷峰网· 2025-12-16 08:28
智驾公司高层内斗或为停摆元凶,欺上瞒下失信集团被全面接管 上期雷峰网聊到智驾独角兽 A 停摆,是因为其在技术方面存在硬伤,但实际上A公司早就因人事管理问题 被集团B全面接管。 据知情人爆料,早在上个月公司通过群聊通知停工消息前,该公司的全员群就已被禁言。目前留下的 300 多位员工,也是去年 11 月大裁员后剩余的人员,而这家公司的下滑趋势,其实早在去年 4 月份就已显 现。 当时 B 集团纪委收到了一封举报信,信中指明 A 公司一位年薪近百万的销售存在简历造假问题。集团大 老板得知此事后十分震怒,当场拍了桌子要求彻查。这一查不要紧,竟暴露出 A 公司财务方面的大问题, 导致 A 公司彻底失去了集团大老板的信任。从那时起,A 公司的公章和包括审批付款在内的所有权限,都 被集团收回。 想当年 B 集团老大对 A 公司负责人乙可算是无条件信任,然而乙却不堪大任,把公司事务全权交由外援 管理,自己当起了甩手掌柜。这些找来的外援也不是省油的灯,带着上家公司的精英味儿,没有创业精 神,只想着宫斗捞钱。等乙发现问题时,却已为时已晚,只好配合这些外援向大老板演戏。这家曾经的集 团亲儿子沦落到如今的局面,一切都有迹可循。(更 ...
负债35亿元!扫地机器人巨头宣布破产,被中国代工厂收购;麦当劳回应涨价,网友:谁允许了;我国首批L3级自动驾驶车型进入准入目录
雷峰网· 2025-12-16 00:33
扫地机器人行业格局变动 - 行业鼻祖iRobot申请破产重组并被深圳杉川机器人公司收购 杉川将获得iRobot的100%股权 此举有助于杉川从代工向自主品牌转型并重塑美国市场格局 [5] - iRobot衰落的核心原因是未能及时跟上行业发展节奏 疫情期间与中国清洁电器企业的发展脱节 科沃斯、追觅、石头等中国公司推动行业快速迭代 [5][6] - iRobot财务状况急剧恶化 截至9月27日现金及等价物仅剩2480万美元(约合人民币1.75亿元) 较2024年底的1.34亿美元大幅减少 总负债高达5.08亿美元(约合人民币35.8亿元) 股东权益为负2680万美元 [6] - iRobot市值从2021年的35.6亿美元峰值缩水至约1.4亿美元 此前曾是亚马逊14亿美元收购交易的目标 [6] 消费与零售行业动态 - 麦当劳中国于12月15日起对大部分餐品提价 涨幅普遍在0.5元到1元 包括巨无霸、麦香鱼等经典汉堡单价均上涨1元 [9] - 麦当劳全球门店总数从2023年的41822家增长至2024年的43477家 净增1655家 中国市场2024年新增917家门店 总数达6820家 平均每天至少新开两家店 [10] - 玛莎拉蒂格雷嘉车型在中国市场大幅降价促销 燃油版官方指导价65.08万元优惠至38.88万元 降价超26万元 纯电版从89.88万元降至35.88万元 大降价54万元 低配车型迅速售罄 [25] - 玛莎拉蒂此次降价旨在清理库存 因进口延迟导致与新款车型上市时间重叠 该品牌在华销量从2017年的1.44万辆峰值跌至2024年的1228辆 [26] - 当当创始人李国庆宣布60岁再创业 成立新电商公司“李享生活” 主打线上高端会员店 商品加价率控制在1.25倍 第一年计划服务5000个会员 [22] 自动驾驶与汽车产业政策 - 中国首批L3级有条件自动驾驶车型获得准入许可 涉及长安汽车和北汽蓝谷麦格纳的两款纯电动轿车 标志着L3级自动驾驶从试点迈入合规准入新阶段 [14] - 长安获批车型可在交通拥堵场景下于高速公路和城市快速路单车道内自动驾驶 最高车速50km/h 功能目前仅限在重庆市部分指定路段开启 [14] - 北汽蓝谷(极狐)获批车型可在高速公路和城市快速路单车道内自动驾驶 最高车速80km/h 应用范围限定在北京市部分高速路段 [14] - 国家市场监督管理总局发布《汽车行业价格行为合规指南(征求意见稿)》 明确指出汽车生产企业使用其他方式使实际出厂价格低于其生产成本等行为存在重大法律风险 赛力斯集团发布声明响应 称将严格杜绝成本倒挂等行为 [38] 半导体与人工智能芯片 - 壁仞科技获证监会境外发行上市备案 拟发行不超过3.72458亿股并在香港上市 公司成立于2019年 是一家通用智能芯片设计公司 [12] - 壁仞科技自2020年起累计融资超过50亿元人民币 创始人为前商汤科技总裁张文 公司CTO为前海思自研GPU团队负责人洪洲 [12][13] - 摩尔线程将于12月20-21日在北京举办首届MUSA开发者大会 这是国内首个聚焦全功能GPU的开发者盛会 旨在展示其MUSA统一系统架构的全栈能力 [15][16] - 高通宣布收购RISC-V初创企业Ventana微系统公司 此举意味着高通可能启动双架构并行战略 未来芯片产品有望同时集成自研Arm架构核心与高性能RISC-V架构核心 [58] 科技巨头与人工智能进展 - 埃隆·马斯克身家达到6770亿美元 成为历史上首位身家超过6000亿美元的人 特斯拉市值一夜增加537亿美元(约合人民币3786亿元) [44] - 特斯拉已在得克萨斯州奥斯汀启动无人驾驶Robotaxi路测 测试车辆内未配备任何乘员 公司人工智能业务负责人称“就此启幕” [45] - SpaceX寻求在2025年中后期上市 目标估值约为1.5万亿美元 马斯克持有约42%股权 其上市有望使马斯克成为全球首位“万亿美元富豪” [44] - OpenAI聘请谷歌前高管Albert Lee负责企业发展业务 释放出将持续物色战略投资与并购目标的信号 以在与谷歌等对手的竞争中抢占优势 [46] - OpenAI要求Meta向法院提交文件 以确认其是否曾参与马斯克今年早些时候发起的、针对OpenAI的970亿美元收购要约 [51] 消费电子与新品发布 - 华为宣布nova 15系列手机将于12月22日发布 全系支持北斗卫星消息 其中Ultra版配备麒麟9系芯片 电池容量达到6600mAh 全系标配100W超级快充 [35][36] - 小米17 Ultra预计在12月下旬发布 新机将是小米史上最强影像旗舰 主摄由上代索尼传感器升级为豪威集团全新1英寸传感器 并引入LOFIC技术 潜望长焦和屏幕也将升级 [32] - 苹果计划在2027年推出iPhone 20 采用无开孔“真全面屏”和四曲面弯折设计 以致敬初代iPhone诞生20周年 LG Display据称为此研发投入约4000亿韩元(约合19.17亿元人民币) [52][53] 云服务与AI生态治理 - 云市场正从粗放增长步入治理期 部分代理商为冲业绩以超高返佣进行低价厮杀 导致行业陷入“卖越多亏越惨”的恶性循环 AI时代的生态亟需重构 [17] - 华为云已开始打击虚假业绩并整治渠道经理 联合1300多位伙伴举行廉洁宣誓仪式 旨在打造更健康的生态圈 为未来云和AI的征途进行底层系统焕新 [17][18] 公司财务与资本运作 - 寒武纪公告拟使用母公司资本公积金27.78亿元用于弥补母公司累计亏损 截至2024年底 母公司累计未分配利润为-27.78亿元 资本公积期末余额为96.25亿元 [20][21] 其他行业资讯 - 蚂蚁集团旗下AI健康应用AQ品牌升级为“蚂蚁阿福” 定位从AI工具转向AI健康朋友 目前App月活用户已超1500万 跻身国内AI App前五 每天回答用户500多万个健康提问 [28] - 丰田汽车因全景监控系统程序设计不当在中国召回近10万辆汽车 涉及多款进口及国产车型 包括雷克萨斯、丰田埃尔法、普拉多、bZ4X等 [49][50] - 抖音电商出台新规严格规范以“打假”“测评”为名发布虚假信息并谋取不当利益的行为 存在违规的账号将被列为“争议账号”并关闭内容加热及商业变现功能 [40]
谁将定义中国智算未来?从系统可用的算力基建,到产业认可的价值闭环丨GAIR 2025
雷峰网· 2025-12-15 07:44
文章核心观点 - 中国智算产业的发展重心正从单点技术突破转向以系统运营、模式创新与价值闭环为核心的全栈竞争,未来主导权将属于能够构建智算标准、模式与底座的主体[2][3] - 智算的未来不仅由技术定义,更由能够高效整合资源、产出普惠服务并在各行各业形成价值闭环的商业模式与产业生态决定[30][33] 清华大学王智:工业大模型的训推协同与系统优化 - 工业大模型面临三大挑战:难以刻画工业场景和流程、难以在算力受限环境训练部署、难以满足工业规范和动态任务[6] - 提出“虚实融合”的智能数据制备路径,IGen框架仅凭单张照片即可在仿真中生成上千条机器人操作演示数据,将无人工示教的模型成功率从0%提升至75%[7] - 提出成本感知的大模型任务规划框架与机理感知的调度框架,让大模型在调用工具链时能权衡性能与成本,并通过大小模型协同实现高效决策[7] - 针对工业边缘环境,提出可理论分析梯度压缩影响的虚拟队列框架及面向非独立同分布数据的高效稀疏压缩器,以在弱算力弱网络下保证训练收敛[8] - 提出多维度联合轻量化方法对模型结构与输入信息进行动态协同优化,并对视觉-语言-动作模型进行“时空联合压缩”,以提升推理速度[8] 美的刘向阳:企业数字化底座决定AI能力 - 企业未能从AI中获得业务价值的根本原因在于数字化基本功不扎实,数字化底座是决定企业AI能力高度的“地基”[11] - 企业自建数据中心常面临技术老旧、产品杂乱、稳定性和安全性难保障的问题,且架构问题易引发系统性风险[11][12] - 大型企业使用多云(如美的使用超过8朵云)易导致云孤岛和数据孤岛,跨云迁移耗时长达半年以上[13] - 美的选择“自建云能力”路径,构建了一套从IaaS到PaaS、从AI算力平台到安全体系的云计算能力,可部署于自有数据中心或公有云,且应用迁移无需业务改造[13] - 该数字化底座将GPU利用率从可能只有10%提升至少4到5倍,并通过统一AI网关实现多模型接入、权限控制与计费,使AI能力嵌入业务系统[13] 并行科技赵鸿冰:以用户视角构建算力服务 - 公司研发“ParaSelect”性能预测与智能选型系统,可根据应用特征为用户推荐最佳算力平台[16] - 通过深度优化,将某客户1300亿参数大模型训练的GPU利用率从75%提升至95%,整体效率提升40%[16] - 在昇腾910平台上通过适配优化,使Llama2-7B训练性能达到A800的92.8%,性价比达1.23倍[16] - 算力服务运营需满足“可用、好用、降本”三个关键维度[17] - 构建“厂网结合”运营模式,管理自建集群及全国47个智算中心与15个超算中心,总计管理超200万CPU核心与5万GPU卡[17] - 引用数据称算力中每投入1元可带动3-4元的经济产出,并强调AI是未来十年核心驱动力,算力是基石[17] 清程极智师天麾:聚焦软件层与MaaS模式 - 算力价值释放的关键在于芯片与应用之间的软件层,特别是推理引擎,它决定了模型能否跑得稳、跑得值[20] - 指出2024年MaaS迎来明显爆发,其核心优势在于门槛低、成本低、迭代快,一次大模型调用可能只需几分钱甚至不到一分钱[20] - 当前MaaS市场存在供需信息差,不同云厂商在模型相同、价格相近的情况下,吞吐与延迟差异可能达到五倍之多[21] - 公司推出“AI Ping一站式大模型服务评测与API调用平台”,通过标准化测评帮助用户理解不同MaaS服务的真实能力[21] 鼎犀智创吕海峰:AI for Science驱动新材料研发 - 材料科学已进入“AI for Science”的第五研发范式,传统试错模式周期长、成本高,无法满足战略产业需求[25] - 提出“模型+实验”的干湿结合闭环研发路径:用AI大模型进行分子设计,通过模拟仿真进行虚拟筛选,最终驱动全自动化实验平台进行合成与表征[25] - 该闭环不仅能产生高质量真实实验数据,还能实现实时反馈与迭代优化,形成自我强化的智能循环[25] - 公司以纳米碳材料为切入点,已成功发现多种新型催化剂并提升制备效率,在与头部企业合作中将客户真实实验效率提升数倍,显著缩短研发周期[26] 圆桌对话:算力产业阶段与价值闭环路径 - 当前算力产业核心痛点包括:不少智算中心算力平均利用率不足40%,大模型训练退潮后需求转向分散的推理侧导致算力消纳困难[28] - 算力建设已从“先建后用”的粗放模式转向“性价比优先、场景倒推建设”的新阶段,需根据用户与场景决定硬件选型与软件设计[28] - 2024年上半年国产大模型依靠中文数据优势与高质量数据集追平国际水平,下半年垂类模型与Agent应用爆发,例如某医院AI分身使医生日接诊量从10人提升至30人[28] - 算力价值闭环的核心标志,一种观点是算力需达到“方便、易用、便宜”,MaaS模式通过技术优化实现硬件透明化与低成本调用,形成正向循环[29] - 另一种观点认为价值闭环的终极标准是“让客户用AI赚到钱”,需解决痛点并创造收益才能让客户持续付费,而非单纯售卖硬件[29] - 行业价值转化瓶颈包括:基座模型能力需提升并向小模型迁移、算力架构需升级(如超节点高速互联)、高质量数据与行业专家资源稀缺[29] - 展望未来,2025年将是中国AI从训练向推理转型的关键年,MaaS市场持续壮大;2026年推理市场与国产化进程将加速,国产芯片与液冷技术的适配将成为关键[30]
浙江大学研究员彭思达:底层空间感知技术对训练机器人有何作用?丨GAIR 2025
雷峰网· 2025-12-15 07:44
团队主要聚焦于赋予机器人三项基础能力:一是相机定位(Camera Pose Estimation),即让机器人知 道自己在空间中的位置;二是深度估计(Depth Estimation),使机器人了解场景中各物体与自身的距 离;三是物体运动估计(Object Motion Estimation),让机器人感知世界的运动状态。 这些底层空间感知技术有何作用?首先,它们能为机器人提供关键的决策信息。例如,无人机在空间中需 要先知道自身位置、与场景目标的距离,才能实现基础避障;进而还需了解目标物体的运动情况,才能进 行追踪。基于从场景中获取的三维空间信息,机器人的行为规划便能得到有力支持。 其次,这些技术可用于生成训练数据。当前具身智能领域的一大难题是数据匮乏。以往有人尝试仿真或遥 操获取数据,但遥操数据虽好却难以规模化扩展,而仿真技术目前仍与真实世界存在较大差距。 彭思达提出,其实可将人类视作一种特殊形态的机器人——具备完整的身体结构与行为模式。若能发明一 种数据采集设备,将人类日常行为完整记录下来,就相当于获取了机器人所需的行为数据,从而可用于训 练人形机器人。这其中便涉及相机定位、深度估计与物体运动估计等技术。 ...
阿斯麦CEO:中国不可能接受被卡脖子,不如让其保持依赖;国家发文禁止亏本卖车,多家车企响应;月薪100K!京东招募AI芯片人才
雷峰网· 2025-12-15 01:11
半导体与芯片行业动态 - 阿斯麦CEO表示,西方应通过拒绝提供最新产品来维持中国对西方技术的依赖,目前对华出口设备比最新技术落后八代,技术水平相当于2013、2014年的产品,技术差距超过十年[2][3] - 摩尔线程计划使用不超过75亿元的部分闲置募集资金进行现金管理,公司募资总额约80亿元,实际募集资金净额为75.8亿元[3][4] - 京东正招募端侧AI芯片领域人才,月薪范围在25K-100K,产品或将用于机器人、智能家电等硬件侧,公司2025年三季度研发投入达56亿元[7] - 台积电在美国的投资被要求超过2000亿美元(约合1.4万亿元),并创造3万个工作机会,其美国子公司Q3季度盈利仅0.41亿新台币,较Q2季度的42.23亿新台币暴跌99%[12] - 苹果与三星、SK海力士的DRAM长期供货协议即将到期,两家韩国厂商计划自2026年1月起提高对苹果的芯片报价,这可能影响包括iPhone 18系列在内的多款产品[28] - 美国高官表示,中国拒绝购买英伟达H200芯片,转而支持华为等国产半导体[32] 汽车行业政策与市场 - 国家市场监督管理总局发布《汽车行业价格行为合规指南(征求意见稿)》,禁止汽车生产企业亏本卖车,长城、长安、小鹏、比亚迪等多家车企已表态支持[6] - 瑞士车主计划在中国购买极氪7X并出口至瑞士自用,因中国版起售价仅22.99万元,而荷兰单电机后驱版起售价约43.89万元,欧洲版售价几乎是国内两倍[20][21] 人工智能与手机发展 - 罗永浩发文指出,真正尝试打造AI手机的厂商寥寥无几,质疑国内手机厂商在AI手机赛道上犹豫不前,并提到豆包手机在技术路径上做出了探索[11] - 豆包手机助手与中兴通讯合作推出努比亚M153工程机,其核心卖点是强大的跨应用操作能力,但近期有报道称登录部分应用受限,字节跳动对此回应称相关监管约谈消息不实[22] - 华为Mate 80系列销量约75.49万,在4000元以上价位段终结了iPhone长期垄断前三的局面,华为在2025年第48周和第49周连续两周以27.81%和22.89%的市场份额位居中国智能手机市场第一[23] 互联网科技公司动向 - 百度原大搜算法策略部T10级别技术专家王俊峰转岗至百度健康,出任策略研发部1号位[9] - 抖音生活服务推出“抖音买单”功能,已在上海、深圳、杭州等城市启动试点,覆盖餐饮、便利店等线下高频消费场景[13] - 宇树科技推出专为机器人打造的全球功能共享中心“宇树应用商店”,用户可一键上传或下载舞蹈、武术等模型[25] - 微软AI部门CEO苏莱曼表示,不会通过天价薪酬与Meta等巨头抢夺人才,并指出硅谷顶尖AI人才薪酬已达数百万美元级别[29][30] - 谷歌在收到迪士尼的停止侵权通知后,下架了数十个涉及迪士尼知识产权的AI生成视频[31] - SpaceX启动华尔街投行甄选程序,为潜在IPO提供顾问服务,公司最新内部估值约8000亿美元,并筹备最早于2026年进行IPO,计划融资超过300亿美元,目标整体估值约1.5万亿美元[33] 企业舆情与公司治理 - 山东威海村支书冯玉宽因模仿小米发布会风格带货“金谷小米”被投诉,视频下架,小米公司发布声明称投诉针对的是恶意模仿、捏造污蔑行为[5] - 韵达股份董事会换届选举,提名5名非独立董事候选人,其中4人为实际控制人聂腾云的家庭成员,包括其24岁的儿子聂毅鹏,公司前三季度归属母公司股东的净利润为7.3亿元,同比大幅下滑48.15%[19][20] - 徕芬扫振电动牙刷i2发布会布景被指撞景电影《周处除三害》灵堂场景,官方回应称该设计在2023年就已使用,与电影无关[14] - 抖音集团副总裁李亮回应平台“造神”说法,称博主“爱吃蛋”涨粉近400万、累计获赞1408.8万,是因为内容稀缺、实用并唤起了共鸣,并非算法“造神”[16][17]
东方理工金鑫:如何找到自动驾驶与机器人统一的「空间语言」丨GAIR 2025
雷峰网· 2025-12-14 06:27
文章核心观点 - 文章介绍了宁波东方理工大学金鑫教授团队在空间智能与世界模型领域的研究进展,其核心思路是采用“混合”路径构建世界模型,即结合明确的物理规则知识与数据驱动方法,并率先应用于工业制造等产业场景以实现技术验证与落地 [3][4][5] 空间智能(世界模型)的起源与概念 - 空间智能概念在SLAM技术时期已被讨论,2024年由斯坦福大学李飞飞教授拓展至与物理世界的交互、感知和理解 [8] - 世界模型技术近期取得显著进步,例如李飞飞团队发布的Marble 3D世界模型和谷歌DeepMind发布的Genie 3,后者在写实性、一致性及物理正确性上达到更高水平 [9] - 世界模型有望成为继数据增强、数据合成之后,为人工智能训练提供高效路径的新选择 [9] 空间智能的技术框架 - 团队将空间智能或世界模型划分为三个部分:空间感知(基础3D建模与物理定律嵌入)、空间交互(支持智能体与环境及多智能体间互动)、空间的理解泛化与生成(基于充分理解衍生生成能力) [10][12][13][14] - 整体工作细分为两个方向:空间构建(搭建仿真环境)与智能体训练(在环境中训练AI),两者可形成不断优化迭代的闭环 [15][18] 核心研究成果:自动驾驶场景生成 - **UniScene**:团队提出的专注于驾驶场景生成的工作,已被CVPR接收,后续有V2等版本 [20] - **生成动机**:由于合规、隐私及车队规模限制,真实数据难以覆盖足够多的“corner case”危险场景,需通过生成式方法合成逼真有价值的场景数据 [22] - **技术路径**:采用以Occupancy(占据栅格)为中心的生成方案,因其蕴含丰富语义与必要几何信息,是连接场景理解与建模的有效“桥梁” [27][32] - **生成流程**:以简单的鸟瞰图布局为输入,首先生成语义Occupancy,再以此为中心分别衍生生成激光雷达点云和多视角视频,是一个两阶段的解耦过程 [34] - **进展与产业合作**:UniScene V2版本在NuPlan数据集上扩展了数据量,新增深度图和语义分割模态,并能根据车辆传感器位置生成对应视角数据 [37][40];该版本在GitHub上线不到一周获得数百个star(后超过2000个) [41];正与理想汽车合作,测试生成器对带有镜头畸变数据的泛化能力,以低成本支持其自动驾驶算法迭代 [41] 核心研究成果:规划与机器人场景生成 - **OmniNWM**:团队引入闭环的“规划-生成”串联机制,将规划的轨迹作为条件输入,预测执行该轨迹后未来场景的变化,可称为“万能的驾驶导航世界模型” [42][44] - **模型能力**:需同时预测全景RGB视频、语义分割、深度图、3D结构及未来规划轨迹,重点在于状态、动作及闭环奖励三个维度的扩展 [45][50] - **技术迁移**:将相同方法论迁移至机器人领域,应用于具身智能场景进行数据合成,能以Occupancy为桥梁生成机器人视频,处理软体、绳体等物体的数据合成,并与主流仿真器兼容实现批量并行生成 [45] 核心研究成果:机器人数据与训练模型 - **InterVLA数据集**:为补充机器人第一人称视角数据缺失,团队构建了包含约3.9千个序列的新基准数据集,包含第一人称视角视频、第三人称视角视频及动作捕捉数据 [46][49][57] - **DreamVLA模型**:针对“抓放”等任务,提出将大语言模型中的“思维链”思想引入视觉-语言-动作模型,让模型在输出最终动作前,先输出“世界嵌入”或“世界知识”等中间产物,形成多模态推理链条 [63][71][73] - **模型效果**:相比于Open-VLA等方案,DreamVLA泛化性更好,并能实现更快、更高效的收敛 [75] - **方位基础模型**:通过模块化方案赋予机器人“方位感知”能力,使其能像人一样从合适方位抓取物体(如抓瓶身而非瓶盖) [76][80] - **解耦世界模型**:将“解耦学习”嵌入世界模型,提取对任务至关重要的环境关键因子,排除非任务相关干扰,从而提升训练效率与模型鲁棒性 [81][83] 研究背景与团队发展 - 研究重点自2024年初开始聚焦世界模型与空间智能,标志着从处理2D视觉信号转向理解3D、4D等高维信号,旨在让AI获得对物理空间的认知能力 [85] - 团队在2025年NeurIPS会议上有两篇合作论文受到广泛关注 [85] - 团队学生培养取得初步成效,2024年有一位博士获得国家奖学金,2025年增加至两位 [91] - 招生最看重学生的自驱力与对科研的热情,并通过实习期进行双向考核 [91][92] 产业应用与场景选择 - 基于宁波强大的制造业背景(拥有104家国家级制造业单项冠军企业,数量全国第一),团队优先选择工业场景构建“工厂世界模型”,与奥克斯空调、均胜电子、吉利汽车等当地龙头企业紧密合作 [93] - 与专注于探索底层原理的知名团队(如LeCun团队、李飞飞团队)不同,该团队采取“两条腿走路”策略,既探索前沿技术,又聚焦有特色的应用场景 [94] 世界模型的构建方法与挑战 - **构建数据**:分为静态数据(物体级静态资产)和动态数据(RGB视频、激光点云、动作捕捉数据),两者均为必需 [95][96] - **构建步骤**:采用自上而下的技术路径,先定义物理规则,再叠加动态数据,最后以静态数据打底,涉及数据采集、处理、合成与模型训练 [97] - **兴起原因**:AIGC技术使得通过生成方式快速创建物理正确、视觉真实的场景成为可能,在效率与成本上相比传统手工建模有量级提升 [97] - **最大挑战**:成本最高的部分是前期静态资产和动态场景数据的创建与采集;技术难度最大的在于将软体、弹性体、流体等第一性原理和物理规则有效嵌入模型中 [98] 技术路径讨论与行业观点 - **关于Sora等视频生成模型**:认为其是否为世界模型取决于应用场景,在游戏、娱乐等内容生成领域有价值,但在需要精细空间感知与动作策略的机器人或自动驾驶领域存在局限性 [99] - **载体差异**:当前趋势是采用数据驱动的端到端模式(如VLA模型),倾向于为不同形态的智能体(汽车、机械臂)构建统一的世界模型服务,避免重复造轮子 [99][100] - **技术路径选择**:团队倾向于“混合”路径,结合端到端黑盒方法的能力与显性、可解释的组件 [101] - **学术界价值**:面对企业界强大的大模型路径,不必焦虑于快速商业变现,技术持续发展总需要新的突破,许多奠基性技术最初源于高校 [102] - **物理规律掌握**:关键在于构建高度物理真实的世界模型本身,若能真实还原材质物理属性,仿真环境中训练出的智能体行为结果会与真实世界一致 [102][103] - **实现方法**:采用知识库与数据库结合的混合路径,对明确规则(如碰撞检测、摩擦力)进行知识嵌入,对复杂现象(如流体运动)则采用数据驱动方法 [104][105]
GAIR 2025 「数据&一脑多形」分论坛,激辩 AI 演进路径
雷峰网· 2025-12-14 06:27
" 过去十年,AI的核心突破是从 「 专用 」 走向 「 通用 」 的语 言理解;未来十年的关键战役,或许就是将这种通用性,从语言世 界拓展到物理世界。 " 作者丨 吴彤 刘欣 齐铖湧 梁丙鉴 编辑丨 林觉民 马晓宁 在 12月13日举行的第八届GAIR全球人工智能与机器人大会"数据&一脑多形"分论坛上,两个看似独立却 紧密交织的技术前沿——数据的价值重构与一脑多形(One Brain, Many Forms)的架构革命,成为探索 下一代智能系统的核心焦点。 一方面,数据正从传统的"资源"角色,向更本质的"认知基础"与"价值载体"演进。 随着多模态大模型的爆发,高质量、结构化、富有逻辑链的数据已不再是模型的"养料"那么简单,它正演 化为定义模型认知边界与价值对齐的核心框架。 本次论坛深入探讨了如何在数据洪流中构建更具解释性、可信度与进化能力的知识体系,以及如何通过数 据流动重塑产业智能化的闭环。数据不再仅仅是起点,更是驱动智能持续进化、与人和社会和谐共生的核 心纽带。 另一方面,"一脑多形"的范式正在重新定义智能的构建方式。 它超越了单一模型解决特定任务的局限,指向一个更具适应性与扩展性的未来:一个统一的底层 ...
AI算力新十年:技术革新、生态协同与商业闭环,共探「下一个寒武纪」之路丨GAIR 2025
雷峰网· 2025-12-13 12:05
文章核心观点 在算力成为基础设施的时代,产业各界正从芯片架构、软件生态、商业应用等多维度探索能够穿越周期、占据价值链顶端的技术路径与战略 核心在于通过软件定义、生态协同、应用驱动和系统级创新来突破硬件限制,构建自主可控的AI算力体系 [1][3][35] 技术路径与架构创新 - 算力芯片发展面临核心矛盾:摩尔定律放缓导致传统处理器迭代变慢,而生成式AI对算力的需求呈指数级增长 [7] - 应对矛盾的主流方向是推动“异构计算”,但带来了编程复杂度激增和软件兼容性差的新瓶颈 [7] - 反对指令系统碎片化,认为现有指令系统足以支撑架构创新,RISC-V应成为产业统一标准,其包容性可整合CPU、GPU及AI处理器特性 [9] - 计算芯片产业呈现螺旋式发展,未来将回归融合异构特性的CPU中心化架构 [9] - 在工艺受限背景下,需依靠新的技术路径超越国际领先者,国内创新企业路径呈现多元化特征 [32] - 数据中心AI芯片部分企业摒弃对单卡算力的盲目追求,转而构建更高效的系统,例如TPU路线通过打造大规模超节点、省去交换机和HBM,在集群层面追求更高性价比 [33] - 大算力芯片正在向三维架构变革,先进封装及其检测设备成为决定性能和良率的核心,光电合封被认为是下一代AI算力的基石,能以数量级优势提升集成度、降低功耗 [33] 软件生态的关键作用 - 软件生态对算力芯片产业具有决定性作用,生态是绕不开的命题,X86架构历经四五十年沉淀的软件生态壁垒极高 [7] - 用户选择的核心在于软件优化的积累,而非单纯硬件性能 [8] - 当前算力性能突破需跨学科交叉与软件深度优化双轮驱动,通过软硬件协同优化,在现有制程限制下实现算力效能最大化 [8] - 中国半导体受全球趋势及制程限制,必须通过软件定义算力,打破传统软硬件隔阂 [8] - 软件生态是GPU硬件行业的胜负手,其竞争已超出硬件性能本身 [16] - 软件层面需要深度拥抱开源软件生态,如DeepSeek,Qwen,ChatGLM3等,借助生态的力量充分释放硬件的算力 [17] - 破局国产算力技术生态需要拥抱开源,构建开放、统一的技术体系,避免“烟囱式”发展 [18] - 国产AI推理芯片的发展方向之一是软件生态兼容,以平衡算法迭代与算力利用率 [28] 产业发展趋势与挑战 - 2025年,AI芯片消耗将迎来重要转折,推理芯片消耗量或将超过训练芯片,源于企业端推理需求的爆发,例如谷歌日调用量已达43万亿Token,字节跳动近期或突破40万亿 [27] - 全球算力投资资本支出预计将超过4600亿美金,超过美国登月计划的总投入,中国市场中BAT等互联网大厂占据了68%以上的份额 [16] - AI商业化主战场包括AIGC在数字人、游戏、影视行业,今年国内产值预计超1000亿,全球数字内容生成市场规模已近500亿美金,加上AI编程领域、虚拟交互 [16] - 国产算力行业将迎来淘汰赛,由于系统级产品研发需海量资金投入,今年国内算力企业正全力冲击资本市场,预计未来一年A股和港股至少6家公司冲刺上市,资金技术储备不足、生态布局薄弱的企业或将加速出局 [17] - 大模型发展有从“百模大战”向“十模争锋”的收敛趋势 [12] - 模型发展正逐渐走向集约化路线,不是只比谁规模大,而是看谁能用最少的数据、最少的算力、最少的能耗做出好用的模型 [13] - 中国已成为大模型领域的开源生态领导者,HuggingFace Top10模型中,9个来自中国公司,在实际商业化场景中,中国开源模型生成的Token量已超过全球其他开源模型总和 [16] - 中国AI发展路径为“数据飞轮”模式:应用生产数据-数据训练算法-算法定义芯片-芯片赋能规模化应用,区别于美国通过政策强推技术突破的路径 [27] 企业实践与解决方案 - 燧原科技得益于丰富的商业化应用场景,产品迭代获得了坚实支撑,国民级爆款应用已经用到了燧原的算力 [17] - 鹏城实验室作为国家实验室定位“保底线”,致力于保障国产算力主权和模型的自主可控 [13] - 鹏城实验室发布了2000亿参数的大语言模型后,又推出了33B和2B参数的中小尺寸模型,并将2B参数模型全过程开源,包括所有数据和数据配比、权重和训练环节 [13] - 鹏城实验室正与气象、金融、文博、生态环境、智能制造等行业合作,推动大模型在典型场景中的示范应用 [13] - 摩尔线程提供了从Model Studio一站式平台、深度融合的MT-MegatronLM与DeepSpeed框架,到底层MUSA计算库及KuaE集群平台的全栈软件支持 [23] - 摩尔线程构建了贯穿训练前、中、后期的智能工具体系,包括SimuMax支持训练资源规划与时间估算,慢节点检测系统,分布式Profiling系统等 [23] - 对于特定大模型,千卡集群需耗时173天,而在万卡集群上,即便模型浮点运算利用率会从40%降至30%,训练时间也能被大幅压缩至23天 [21] - 大模型训练完成时间越短越好,最好不要超过1个月 [21] - 云天励飞已完成芯片架构升级,实现全流程国产工艺转型,构建起覆盖端边云的产品矩阵 [29] - 国产AI推理芯片的发展方向包括突破存储技术瓶颈支持3D memory技术,以及通过异构计算优化性价比,目标在未来三到五年内让百万Token成本降至1元以内 [28] 边缘与端侧算力创新 - 随着桌面级AI应用井喷,专为这些场景设计的LPU架构等应运而生,它们通过3D DRAM堆叠等技术,在有限功耗和成本下实现惊人的内存带宽 [33] - 在端侧AI芯片方向,存算一体与近存计算成为关键,例如将计算单元嵌入存储芯片的3D-CIM架构,或在LPDDR内存中集成处理能力的PIM方案,目标是在手机有限的面积和功耗预算内,流畅运行数10亿参数的大模型 [33]
GAIR 2025 世界模型分论坛:从通用感知到视频、物理世界模型的百家争鸣
雷峰网· 2025-12-13 09:13
" 具身智能爆发第三年,世界模型凝聚了哪些共识? " 作者丨 张进 吴彤 梁丙鉴 刘欣 齐铖湧 编辑丨 林觉民 马晓宁 13 日,第八届 GAIR 全球人工智能与机器人大会世界模型分论坛圆满成功。 这场的演讲嘉宾是在世界模型领域,研究不同方向的五位青年学者,他们带来了五场围绕世界模型的精彩 演讲,话题聚焦通用感知、三维技术、物理模型、世界模型、数字人重建。通过他们的演讲、我们得以窥 见当下围绕着世界模型的研究是多么广泛与丰富。 目前,世界模型的研究尚处于起步阶段,共识尚未形成,有关该领域的研究形成了无数支流,而这股潮流 中,今天到场的几位嘉宾,用他们的智慧和力量给世界模型领域研究带来了不同的启发。 浙江大学研究员彭思达:面向具身智能的通用空间感知技术 在"世界模型"分论坛上,首位演讲者是浙江大学研究员彭思达。他是浙江大学软件学院"百人计划"研究 员、博士生导师,研究方向为三维计算机视觉和计算机图形学。此次他带来的主题演讲是《面向具身智能 的通用空间感知技术》,介绍了其团队近期在赋予机器人通用感知能力方面的多项工作。 团队主要聚焦于赋予机器人三项基础能力:一是相机定位(Camera Pose Estimatio ...
港中深韩晓光:3DGen,人类安全感之战丨GAIR 2025
雷峰网· 2025-12-13 09:13
文章核心观点 文章通过港中深助理教授韩晓光的视角,探讨了在视频生成模型(如Sora)兴起的背景下,三维生成与世界模型构建的必要性及其不可替代的价值 核心观点认为,尽管端到端的“炼丹”式AI在性能上取得突破,但为了满足人类对可解释性、安全感和精细可控的需求,尤其是在构建可交互的虚拟世界、发展具身智能以及实现数字到实体制造等领域,三维生成与显式的、结构化的建模方法是不可或缺的 [2][3][4][58][61][63] 三维生成发展历程与现状 - 三维生成在深度学习兴起前就已存在,早期主要聚焦于“类别限定”的生成,即为椅子、车辆等特定类别分别训练模型 [9] - “开放世界”的三维生成大约从2023年的Dreamfusion工作开始兴起,实现了从文本直接生成3D模型,但基于优化方法,生成速度较慢,通常需要半小时到一小时 [11][12][14] - 当前进入大模型时代,例如Adobe的Large Reconstruction Model和上海科大的Clay工作提出了“原生模型”概念,商业应用如腾讯混元3D的3.0版本已能实现从单张图像生成高质量三维模型 [16] 三维生成的发展趋势 - 趋势一:更精细,追求几何层面的极致细节表现,例如数美万物的Spark 3D [19] - 趋势二:更结构化,生成的三维模型需要能被拆解成独立部件以便编辑,例如混元3D的“X-Part”工作 [19] - 趋势三:更对齐,解决生成模型与输入图像在细节上不对应的问题,例如输入图像栅栏有5条横杠而生成模型变成6条的问题 [20] 视频生成兴起对三维生成的冲击与反思 - 视频生成技术(如Sora)的出现对三维内容创作领域造成冲击,因为它能用文本指令直接输出视频,跳过了传统三维建模、绑定、渲染等复杂流程 [24][28] - 视频生成当前存在核心局限:物理模拟不够真实、3D空间不一致、内容可控性不足(如难以精细修改视频中物体的特定属性) [29][30] - 尽管Sora2和谷歌Veo3已展示出初步的可控能力(如控制视角变化),但真正的危机感促使行业思考视频生成模型是否真的不需要3D [34][37] 视频模型与三维结合的潜在路径 - 路径一:完全不用3D,采用纯2D的端到端范式,依赖海量视频数据训练 [38] - 路径二:利用3D仿真作为“世界模拟器”,先根据条件生成可控但不真实的CG视频,再用神经网络将其转化为真实视频 [39] - 路径三:将3D信息作为控制信号输入,例如基于三维重建的场景模型来生成空间一致的长视频,以解决“长程记忆”问题 [38][39] - 路径四:用3D合成数据辅助训练,利用3D仿真批量生成可控的、带标注的视频数据,以增强端到端视频模型的训练 [39] 世界模型的分类与三维的必要性 - 世界模型的核心是对真实世界进行数字化,以计算方式理解和表达规律,并用于预测 [41] - 第一类:服务于“人类共同体”的宏观世界模型,如气候模拟、社会系统推演 [43] - 第二类:服务于“个人”的体验与探索模型,核心是可交互性,需要数字化物理与交互规律以构建沉浸式虚拟世界 [43] - 第三类:给机器用的世界模型,如用于自动驾驶或具身智能机器人,需要能根据动作预测环境变化 [44] - 为实现可交互的世界模型(如VR体验需要触觉反馈),3D是必要的 [45] 具身智能与三维生成的关系 - 发展具身智能的主流方法是“向人类学习”,这需要首先对人类与物体的交互过程进行精确的、动态的数字化捕捉与还原,3D乃至4D的还原是必要基础 [48] - 为了让机器人安全高效地探索和学习,需要创造可交互的三维仿真环境,因此具身智能同样离不开3D [48] 从数字到实体的制造需求 - 在三维打印、智能制造、CAD模型生成等领域,实现从虚拟设计到实体制造的个性化定制,3D是绝对的基础,例如牙齿生成项目就是为了制造精确的牙齿模型 [50][52] 技术路线之争:显式与隐式 - 隐式(数据驱动)路径:构建端到端神经网络,依赖“潜变量”编码所有信息,是典型的“黑箱”逻辑 [56] - 显式(模型驱动)路径:显式地重建三维模型,并基于明确的几何与物理公式进行计算和判断,依赖对世界的明确建模 [57] - 可解释性与安全感:显式的、可视化的3D/4D信息是人类能够直观理解和信任的维度,能带来安全感,而高维的“潜变量”则让人难以理解其运作原理 [57][58][59] - 当前AI时代过分追求性能而可解释性不足,实现可解释性需要3D作为人类能够直观理解的基石 [61][63]