世界模型
搜索文档
马斯克从英伟达挖人做AI游戏,第一步:研发世界模型
36氪· 2025-10-13 02:14
xAI入局世界模型竞争 - 马斯克的xAI公司已加入全球AI巨头在世界模型领域的竞争[1][5] - 公司于2024年夏季从英伟达招募了多名资深研究员以增强实力[1][5] 人才招募策略 - xAI至少雇佣了两位来自英伟达的研究人员:Zeeshan Patel和Ethan He[6][7] - Zeeshan Patel专注于大规模多模态模型与训练框架研发,曾在英伟达从事生成式世界模型研究[6] - Ethan He的Google Scholar被引数达8495次,研究方向包括MoE模型、多模态模型和世界模型[7][8] - 两位研究员此前均参与了英伟达Omniverse平台的核心开发工作[8] 技术基础与平台应用 - Omniverse是成熟的物理一致性仿真平台,能精确模拟现实物理规律[9] - 该平台被应用于机器人训练、3D建模、数字孪生和自动驾驶等领域[9] - xAI计划将英伟达在图形与物理模拟领域的技术积累应用于自家世界模型体系[10] 世界模型战略定位 - 世界模型被视为实现AGI(通用人工智能)的核心基础[12] - 该技术让AI系统能够真正理解和推理物理3D世界,而不仅限于文本处理[12] - 世界模型能生成可导航的3D环境,支持构建大规模虚拟世界和多元宇宙[12] 产品开发路线 - xAI入局世界模型的首批应用重点可能是电子游戏领域[14] - 团队正在开发能自动生成自适应、逼真3D场景的AI技术[14] - 目标是在2026年底前推出一款由世界模型驱动的AI生成游戏[1][14] 团队建设与资源配置 - xAI正在组建全模态团队,专门研究图像、视频、音频的综合理解与生成[15] - 公司招聘多模态技术岗位,年薪区间为18万-44万美元[15] - 特别设立"电子游戏导师"职位,时薪45-100美元,负责向模型讲解游戏机制和设计逻辑[15] 生态系统协同效应 - xAI的世界模型研发可能与马斯克旗下其他公司产生协同效应[16] - 特斯拉提供机器人和自动驾驶数据,Neuralink提供脑机接口技术[16] - 社交平台X可作为实时反馈渠道,共同构建完整的AI生态系统[16]
马斯克从英伟达挖人做AI游戏!第一步:研发世界模型
量子位· 2025-10-13 01:35
xAI入局世界模型的战略举措 - 公司xAI正式进入世界模型领域,加入与Google DeepMind、Meta、英伟达等巨头的竞争[7][8] - 为增强实力,公司于2024年夏季从英伟达招募了多名资深研究员,包括Zeeshan Patel和Ethan He[9][18] - 新招募的研究员均曾参与英伟达Omniverse平台的核心开发,该平台是成熟的物理一致性仿真系统,与世界模型需求高度契合[21][23][24][25] 关键人才背景与专长 - Zeeshan Patel专注于大规模多模态模型与训练框架研发,拥有苹果AI/ML部门及英伟达研究院的生成式世界模型研究经验[10][11][12] - Ethan He在计算机视觉领域拥有深厚积累,Google Scholar被引数达8495,研究经历涵盖FaceBook AI的大规模视频自监督学习及英伟达的MoE模型、多模态模型[14][15][16][17] - Ethan He的代表作包括被引3483次的《Channel pruning for accelerating very deep neural networks》和被引1850次的《Amc: Automl for model compression and acceleration on mobile devices》[19] 世界模型的战略意义与应用方向 - 世界模型被视为AGI的核心底座,旨在让AI系统理解并推理物理3D世界,而不仅限于文本处理[26][27][29] - 公司xAI入局后的首批应用落点可能是电子游戏,团队正尝试开发能根据玩家行为实时变化的AI生成3D场景[33][34] - 公司目标是在2026年底前推出一款由世界模型驱动的伟大AI生成游戏[2][35] 业务布局与资源整合 - 公司内部正组建全模态团队,招聘岗位涵盖音频理解生成、多模态理解等方向,年薪区间为18万至44万美元[37] - 公司还公开招聘电子游戏导师,时薪45至100美元,旨在向模型传授游戏机制与叙事逻辑[38][39][40] - 世界模型有望将公司xAI、特斯拉的机器人及自动驾驶数据、Neuralink的脑机接口以及的平台资源整合,形成AI帝国闭环[41][43][44][45] 行业背景与市场机遇 - 世界模型已成为AI巨头和实验室的兵家必争之地,DeepMind、Meta、英伟达等均已布局相关项目[32][36] - 行业数据显示,视频游戏行业年收入约2000亿美元,远超OpenAI约100亿美元的年收入,揭示了巨大的市场潜力[4]
机器人核心技术之一,马斯克发力“世界模型”
选股宝· 2025-10-13 00:29
文章核心观点 - 马斯克的xAI公司从英伟达聘请人工智能专家,专注于研发旨在掌握真实世界物理规律的世界模型 [1] - 世界模型是理解现实世界动态的生成式AI模型,使用文本、图像、视频和运动等数据生成视频,物理AI和世界基础模型是该领域关键基础设施 [1] - 英伟达已推出相关工具产品,国内CAE厂商在物理场仿真数据和行业应用理解方面具有优势 [1] 世界模型技术 - 世界模型通过对海量视频和机器人数据进行训练,旨在掌握真实世界的物理规律,不同于依赖文本的大语言模型 [1] - 该技术在理解现实环境物理特性的前提下,对运动以及感知数据中的空间关系等动态进行表征和预测 [1] 行业应用与竞争格局 - 英伟达推出两款工具类产品,应用于智能驾驶、机器人训练以及工业数字孪生的开发 [1] - 国内CAE厂商依靠长期的物理场仿真数据积累,在物理学行业应用方面具有很大优势 [1] 相关公司动态 - 索辰科技的“天工·开物平台”基于生成式物理AI技术和实景渲染技术 [1] - 能科科技是提供工业数字孪生解决方案的厂商 [2]
全球要闻:美股指期货集体反弹贸易担忧情绪缓和 美股Q3财报季本周揭幕
搜狐财经· 2025-10-13 00:17
美股市场表现 - 上周五美股遭遇“黑色星期五”,纳斯达克指数下跌3.56%至22204.43点,标普500指数下跌2.71%至6552.51点,道琼斯指数下跌1.90%至45479.60点,纳指与标普均创半年最大跌幅 [1][2] - 周线表现来看,道琼斯指数一周跌幅为2.73%,纳斯达克指数一周跌幅为2.53%,标普500指数一周跌幅为2.43% [3] - 周一早盘美股期货反弹,标普500指数期货和道指期货均涨近1%,纳指期货涨超1% [1] 地缘政治与政策动向 - 美国副总统万斯释放缓和信号,表示特朗普愿意与中国进行理性谈判,市场将此视为TACO交易策略可能再次上演的迹象 [5] - 美国政府持续关门,原定本周公布的9月CPI数据推迟至10月24日,美股Q3财报季拉开序幕,上市公司的经济表述和裁员动作将受投资者密切审视 [6] - 美联储官员本周将频频发声,鲍威尔将于北京时间周三凌晨讲话,鲍曼和沃勒也将公开亮相 [6] 主要科技股表现 - 热门科技股普遍大幅下跌,英伟达跌4.89%,微软跌2.19%,苹果跌3.45%,亚马逊跌4.99%,Meta跌3.85%,台积电跌6.41%,特斯拉跌5.06%,超微半导体跌7.72% [9][10] - 英伟达CEO黄仁勋在10月8日至10日期间卖出22.5万股公司股票,套现逾4280万美元,10月以来累计套现超1.1亿美元 [10][16] - 马斯克的xAI公司从英伟达聘请人工智能专家,专注于世界模型的研发 [10][16] 中概股与全球市场 - 热门中概股大幅下挫,阿里巴巴跌8.45%,拼多多跌5.32%,百度跌8.09%,小鹏汽车跌8.25%,蔚来跌10.05% [11] - 欧洲股市方面,英国富时100指数跌0.86%,法国CAC40指数跌1.53%,德国DAX指数跌1.50% [10] - 亚洲股市方面,恒生指数跌1.73%,日经225指数跌1.01% [10] 大宗商品与外汇 - 国际原油价格重挫,WTI原油收跌5.43%至58.17美元/桶,创5个月新低,布伦特原油收跌4.8%至62.09美元/桶 [14] - 现货黄金价格创历史新高,一度冲上4060美元/盎司,周线录得八连阳,伦敦银现上周五收涨1.08%至49.537美元/盎司 [13][14] - 美元指数跌破99关口,收跌0.56%至98.978 [13] 其他重要公司动态 - 伯克希尔对日本五大商社的投资从约63亿美元飙升至超300亿美元,持股比例打破10%上限 [16] - 伦敦现货白银市场出现历史性逼空,流动性几乎枯竭,价格相对纽约期货出现史无前例的溢价 [17][18]
网易云音乐回应“已故歌手李玟账号被异常登录”;“鸡排哥”粉丝破百万,账号开设仅20天;商务部公告附件首次改为wps格式丨邦早报
创业邦· 2025-10-13 00:08
人工智能与芯片行业 - xAI公司重心从语言理解转向开发可用于电子游戏与机器人领域的"世界模型",并从NVIDIA招募两位研究员Zeeshan Patel与Ethan He [3] - 澳大利亚莫纳什大学开发出硬币大小、运作方式类似大脑神经通路的微型流体芯片,由金属有机框架材料制成并通过离子传输模仿神经元可塑性 [17] 半导体与科技监管 - 闻泰科技发表声明,谴责荷兰政府以国家安全为由对安世半导体实施全球运营冻结,并指责安世半导体个别外籍管理层借政治压力试图改变公司股权结构 [5] - 市场监管总局对高通公司收购Autotalks公司违法实施经营者集中事宜立案调查,指出高通在2025年6月未申报且未沟通情况下完成收购 [6][7] 汽车与出行产业 - 比亚迪中标新加坡首个L4级自动驾驶巴士官方试点项目,计划于2026年中期在特定路线测试可载16名乘客的无人驾驶巴士 [5][6] - 小鹏汇天获中东地区阿联酋、卡塔尔、科威特企业首批600台飞行汽车订单,创下该领域海外最大批量订购纪录,其"陆地航母"累计订单达7000台 [13] - 焕新极氪001正式上市,起售价26.98万元,全系升级900V高压架构支持10%至80%电量补充仅需7分钟,零百加速2秒并搭载算力700TOPS的Thor-U芯片 [15] - 上汽奥迪9月终端销量5700辆,同比增长90% [14] - 上海市调整汽车以旧换新补贴规则,10月13日至12月31日期间采用个人消费者报名、公证摇号方式获取补贴资格 [13] 资本市场与公司动态 - 英伟达CEO黄仁勋在10月8日至10日通过20笔交易卖出22.5万股股票套现4280万美元,10月以来累计套现超1.13亿美元,仍持有超过7060万股公司股票 [5] - 华纳兄弟探索公司以报价过低为由拒绝派拉蒙天舞传媒每股约20美元的初步收购提议,华纳兄弟市值达423亿美元,派拉蒙市值为186亿美元 [6] - Base Power完成10亿美元C轮融资,公司估值达30亿美元,该能源初创公司在德州部署逾100兆瓦时家用储能系统,用户安装费695至995美元并签约三年以每千瓦时8.5美分购电 [14] - 纽瑞特医疗完成8亿元D轮融资,由深创投、人保资本领投 [14] - 睿维新材料完成数千万元A轮融资,由天图资本投资,资金用于扩大生物降解材料产能与技术迭代 [14] 消费电子与游戏 - 游戏《黑神话:悟空》即将迎来更新,PS5平台补丁占用空间约93.5GB [11] - 商务部公告附件首次改为wps格式,对含有中国成分的部分境外稀土相关物项实施出口管制,申请文件须以中文提交 [7] 社会人口数据 - 韩国70岁以上人口达654.3万,首次超过20至29岁年龄段人口,20多岁人口为630.2万比上一年减少19.3万 [17]
华尔街见闻早餐FM-Radio | 2025年10月13日
华尔街见闻· 2025-10-12 23:17
市场表现与资产动态 - 美股大幅下跌,标普500指数收跌2.71%至6552.51点,纳斯达克指数收跌3.56%至22204.43点,均创半年最大跌幅 [6][9] - 避险资产受追捧,美国10年期国债收益率日内跳水超10个基点至约4.03%,COMEX 12月黄金期货全周累涨约2.3% [6][9] - 加密货币市场重挫,比特币曾跌超10%至10万美元附近,全网杠杆仓位蒸发191亿美元,超过162万交易员被强制平仓 [6][21] 中美贸易与产业政策 - 中国商务部回应美方关税措施,表示对稀土等物项实施出口管制而非禁止出口,并宣布针对美对华造船等行业301调查实施反制 [4][13][20] - 上海提出加快培育硅光、6G、第四代半导体、类脑智能等前沿产业,重点支持优化产品设计、拓展应用场景 [4][14] - 美国正式公布对中国船舶征收额外港口费细则,行业分析认为将扰乱全球航运市场秩序并反向传导至美国国内供应链与通胀水平 [20] 科技与人工智能发展 - 马斯克旗下xAI加入“世界模型”竞赛,计划率先将该技术用于AI游戏生成,长远可能用于机器人AI系统 [8][17] - 中央网信办与国家发改委发布指引,强调以统筹集约方式开展政务领域人工智能大模型部署,防止形成“模型孤岛” [18] - 英伟达投资8亿美元成为美国AI初创公司Reflection AI最大投资方,后者专注开源AI模型,估值达80亿美元 [27] 半导体与硬件行业 - 荷兰政府裁决导致闻泰科技子公司安世半导体的中资股权仅剩1股,中资暂时失去对剩余99股的股东权利,该公司2024年收入约占闻泰科技年营收六分之一 [7][17] - 市场监管总局因未依法申报经营者集中,依法对高通公司收购Autotalks公司开展立案调查 [4][14] - 人形机器人公司Figure发布Figure 03,目标四年内量产10万台,该机器人由生成式AI驱动,集成了OpenAI与英伟达技术 [22] 大宗商品与能源市场 - 国际油价大幅下挫,WTI 11月原油期货收跌4.24%至58.90美元/桶,瑞银预计全球石油市场将在2025年出现1.2百万桶/日的供应过剩 [9][24] - 伦敦白银市场出现历史性逼空,现货白银相对纽约期货出现史无前例的溢价,市场流动性几乎枯竭 [24] - 汇丰银行指出,金价每上涨1%,中国纯黄金生产商的盈利水平将相应增长约2% [22] 公司动态与资本市场 - 娃哈哈集团确认宗馥莉辞去公司法人代表、董事及董事长等相关职务,宗馥莉将独立经营新品牌“娃小宗”,但仍是娃哈哈第二大股东 [7][17] - 香港最大持牌加密货币交易所运营商HashKey Group已秘密递交在港IPO申请,上市估值可达5亿美元 [22] - 全球最大经纪商TP ICAP旗下加密货币现货交易平台9月月交易量首次突破10亿美元,计划明年上半年上线稳定币交易对 [26]
2025人工智能全景报告:AI的物理边界,算力、能源与地缘政治重塑全球智能竞赛
欧米伽未来研究所2025· 2025-10-11 13:47
人工智能发展叙事转变 - 人工智能发展叙事正发生根本性转变,从算法突破和模型参数规模定义的竞赛,转向受制于物理世界的严苛限制,如能源供应、地缘政治和资本投入 [2] - AI的未来是一场关于基础设施、能源获取和全球权力平衡的宏大博弈 [2] 推理能力竞赛 - AI研究的核心战场已从语言生成转向更复杂的“推理”能力,OpenAI的o1模型引领了通过“思考过程”解决多步逻辑问题的竞赛 [3] - 推理能力成为衡量前沿模型智能水平的黄金标准,在代码、科学和数学等领域展现了强大的解决问题的能力 [3] 主要参与者格局 - 形成三大阵营:以OpenAI、Google和Anthropic为代表的闭源模型占据智能绝对前沿;以中国DeepSeek为首的新兴力量正快速追赶;中国主导的开源模型生态系统蓬勃发展 [4] - DeepSeek的R1模型在数学推理基准AIME上超越了当时的o1-preview版本,标志着中国AI力量首次在推理能力上与美国顶级实验室正面抗衡 [4] 能力-成本曲线与市场格局 - 领先AI实验室在激烈竞争如何以更低成本提供更强能力,谷歌和OpenAI旗舰模型的能力价格比正以每3到6个月翻一番的速度提升 [5] - 高昂的前期训练成本构筑了极高进入壁垒,巩固了少数巨头的领先地位;持续下降的推理价格正在催生AI应用的“寒武纪大爆发” [5] 推理能力评估的挑战 - 当前许多推理能力提升可能未超出基线模型的误差范围,基准测试存在被污染、数据集过小以及对解码参数高度敏感等问题 [6] - 在数学问题中加入无关干扰能让顶级模型的错误率翻倍,揭示当前AI可能在很大程度上仍是更高级的“模板匹配”而非真正逻辑推理 [6] 地缘政治影响 - 美国正全面转向“美国优先的AI”战略,通过出口管制、产业政策和巨额基础设施投资维护其在全球AI堆栈中的领导地位 [7] - 美国芯片出口管制政策的反复摇摆刺激了中国自主替代进程,中国主要云服务商已停止新的H20芯片订单转向采购国产芯片 [7] 中国AI开源生态崛起 - 中国AI社区走出独特“开源”道路,全球开发者社区中中国模型的累计下载量已经反超美国,到2025年9月全球区域模型采用率中中国模型占63%,美国仅为31% [8] - 基于Qwen模型二次开发的衍生模型数量已超过了曾经的“开源宠儿”Llama,中国通过开源在全球建立强大的开发者生态系统 [8][9] 中国开源战略优势 - 中国AI公司在技术实力、工具链支持和商业许可上全面发力,开源了高效的强化学习训练框架,并通过宽松许可证降低商业化应用门槛 [9] 物理世界瓶颈 - AI领导者们将目光投向“超级智能”目标,相关基础设施投资以“万亿”美元为单位规划,如OpenAI的“星际之门”项目和Meta的巨型数据中心 [10] - 电力供应成为限制AI发展的最关键瓶颈,到2030年美国电网停电频率可能增加100倍,到2028年仅美国就可能面临68GW的电力缺口 [10] 能源挑战与应对 - AI行业与能源行业深度融合,谷歌计划从未来的核聚变电站购买电力,但短期内数据中心建设需求可能导致部分地区延缓淘汰燃煤电厂 [11] - 数据中心选址不再仅考虑网络延迟,更要考虑电网接入能力、电价以及当地社区的接纳程度 [11] 世界模型技术前沿 - AI研究的前沿是“世界模型”,能够根据用户实时输入预测下一帧画面,创造可交互的虚拟环境,谷歌DeepMind的Genie 3和Odyssey项目已可生成可持续数分钟的互动世界 [11] - 世界模型技术为训练具身智能体提供了可无限扩展的模拟环境,有望以远超物理世界的效率获得解决现实问题的能力 [11]
马斯克没说谎,特斯拉的电动车真的“活了”
老徐抓AI趋势· 2025-10-11 13:11
FSD v14技术突破 - FSD v14系统实现重大升级,车辆表现出对人类意图的共情能力,能够理解点餐场景等行为上下文[4] - 系统通过意图识别而非简单规则导航,在Drive-Through测试中实现全自动点餐流程,驾驶员无需触碰方向盘[4] - 技术突破可能源于世界模型(World Model)的引入,使车辆具备预测人类行为并自适应配合的能力[4] - FSD与Optimus人形机器人共享底层AI模型,形成"车是有轮子的身体,机器人是有双手的身体"的协同发展格局[5] 公司战略布局 - 特斯拉战略重心从造车转向AI平台训练,造车目的在于收集真实世界数据喂养FSD算法[11] - 公司每年AI研发投入超过100亿美元,资金来源于造车利润,目标赢得AI战争而非销量战争[10] - 未来竞争护城河在于AI驾驶系统的学习速度和规模化能力,硬件优势将逐渐淡化[12] - 公司正从制造业向算法时代转型,未来对手将是OpenAI、Google等AI公司而非传统车企[12] 产品发展路径 - FSD版本将持续升级,v14.3版本将实现"觉醒"特征,具备主动决策能力成为智能体(Agent)[6][7] - Robotaxi在美国部分城市低调运行,扩张后将使公司估值逻辑从车企转变为移动AI平台[15] - Optimus第三代机器人量产时间推迟至2026年,注重产品成熟度而非展示性[15] - 三叉戟战略(FSD、Robotaxi、Optimus)将推动公司从制造公司进化为自我演化的生态系统[13][15][17] 市场表现分析 - 2025年第三季度交付49.7万辆车创历史新高,但市场担忧需求透支导致股价高开低走[8] - 新推出廉价版Model 3和Model Y(定价分别为36,000美元和39,900美元)减配座椅通风等功能,市场反应冷淡[8] - 降价策略具有防御性对冲目的,防止四季度销量断崖式下滑,同时保持毛利率以支撑AI研发[10] - 公司通过价格策略为FSD发展争取时间,体现终局思维下的战略取舍[10][11] 技术演进前景 - FSD v14.2正式版参数量比上一代提升10倍,标志算法进入世界模型阶段[13] - 公司预计三年左右可能出现超级人工智能(AGI),AI红利将持续释放[17] - 自动驾驶达到L4/L5级别后,车辆核心价值将从配置转向智商,人类驾驶将成为业余行为[12] - 技术发展将加速行业变革,但需要持续跟踪和深入研究才能把握投资机会[18][19]
高通组局,宇树王兴兴说了一堆大实话
是说芯语· 2025-10-10 23:38
具身智能与机器人发展路径 - 公司目标是实现通用AI与通用机器人的结合,使其能在工厂或家庭中完成各种任务 [9] - 机器人发展的ChatGPT时刻定义为:能在陌生环境中根据自然语言指令完成任务 [10] - 技术路线图分为四个阶段:固定动作演示(已实现)、实时生成任意动作(预计2024年底/2025年初实现)、陌生场景执行任务(预计2025年底实现)、高成功率精细操作(需数年,目标成功率99.9%) [11] 机器人硬件与芯片挑战 - 行业目前可能低估了芯片对机器人的重要性 [15] - 通信协议优化是减少线缆的关键,工业机器人60-70%的故障源于线缆问题 [16] - 机器人硬件面临空间限制,高算力芯片难以安装,同时存在电池容量和散热难题 [20] - 具身智能设备峰值功耗需控制在100W以内,平均功耗20-30W,手机芯片在机器人应用上具有想象空间 [21][22] 行业协作与开源策略 - 行业处于黎明前夜,因技术路线差异大导致整体进展缓慢 [23] - 在模型尚无法直接部署的阶段,倡导开放态度,公司已开源其世界模型,包括权重、数据集及训练代码 [23][25] - 在AI领域需保持谦卑和学习态度,避免被过往经验限制创新 [28] 端侧AI与Agent发展 - Agent形态正从云端向端云协同演进,端侧模型具备“永远在线”、响应快和隐私保护优势 [31][32] - 端侧模型将成为Agent系统的核心编排者,负责感知用户需求并与云端模型协同 [34] - 端侧模型需持续提升知识密度,目标每三个月提升一倍,与芯片、终端深度协同至关重要 [35][36][38] Agent的服务本质与生态整合 - Agent的核心竞争力在于其提供服务的能力,选择Agent如同选择操作系统,取决于其服务生态 [42][43] - AI基于对话的自然交互模式有望打破PC、手机等终端的生态孤岛,成为统一交互模态 [41] 行业标准与基础设施共建 - 当前AI应用碎片化严重,缺乏跨终端的统一AI OS或Agent Framework [44] - 未来可能形成以Cloud OS为核心、终端Agent协同的新时代操作系统架构 [45] - 行业需通过产业共建推动基础设施发展,例如通过联合实验室优化混合AI方案 [46][47]
Waymo自动驾驶最新探索:世界模型、长尾问题、最重要的东西
自动驾驶之心· 2025-10-10 23:32
Waymo自动驾驶技术框架 - 公司开发名为Waymo基础模型的大规模AI模型,该模型支持车辆感知环境、预测其他车辆行为、模拟场景并做出驾驶决策[5] - 模型功能类似于ChatGPT等大型语言模型,基于海量数据集训练学习模式并进行预测,能够整合多源传感器数据理解周围环境[5] - 车端部署较小模型,通过知识蒸馏技术从云端大型教师模型提炼而来,针对速度和效率优化,在每辆车上实时运行[5] - 感知和行为任务包括物体感知、行为预测和行动规划均可实时在车上执行[7] - 云端大模型可模拟真实驾驶环境,在部署前进行虚拟测试和验证决策[7] 世界模型技术特性 - 世界模型能够编码所有传感器数据(摄像头、雷达、激光雷达)并内置世界知识,解码所有驾驶相关任务[11] - 通过蒸馏缩小后放置在车端进行感知和控制,在云端进行虚拟仿真,实现强大泛化能力和快速适应不同平台[11] - 该模型基本解决自动驾驶日常问题,重点转向解决长尾问题[11] 长尾问题解决方案 天气挑战 - 雨后路况水坑及不常发生洪水需要算法判断水深和大量上下文信息,对精确度和召回率要求极高[12] - 采用视觉语言模型解法,但需要大量此类语料库支持[12] - 雪地驾驶对硬件要求高,传感器需加热和清洁功能应对堵塞,挑战包括行驶路线决策、车辙识别和摩擦力估计[14] 能见度与遮挡处理 - 极端低能见度情况下如夜间高速公路,需要多模态传感器协同检测[15] - 凤凰城沙尘暴环境中激光雷达可在尘暴中清晰看到行人[15] - 遮挡推理需解决视线不佳区域物体存在状态判断,挑战包括定义不明确、非确定性、缺乏真值基准等[18] - 解决方案包括估计不确定物体先验信息(通过驾驶数据统计和微弱传感器线索)以及准确估计自车速度先验[21] 复杂场景理解 - 施工场景需识别标志、推理驾驶几何形状,根据锥筒等物体调整路线[24] - 动态场景如交通警官手势需要实时响应动态信号[24] - 活跃事故现场涉及大量应急车辆和路况堵塞,需要整体场景理解而非单个物体识别[24] - 复杂场景需使用大语言模型理解场景内容并做出决策,公司表示仍在探索阶段[24] 自动驾驶核心要素 - 自动驾驶作为人工智能落地场景,核心要素为数据、算法、算力三大件[25] - 公司特别强调数据重要性,认为大量数据是基础,但数据筛选和整理更为关键[25] - 高效高质数据能确保模型专注于解决正确问题[25] - 数据挖矿中视频搜索能力对理解事件含义至关重要,如汽车碰撞、漂移等[30] 系统响应性能要求 - 快速实时决策被强调为安全性和流畅性关键,算法到执行链路用时越短越优[30] - 响应速度拆解为传感器输入响应、算法运算结论输出、底盘执行机构三个环节[30] - 当前快速响应决策主要受限于各家算法处理输出响应频率[31] - 摄像头帧率大于24Hz,算法输出帧率需达到10Hz或20Hz,底盘刹车ESP响应频率达上百Hz[36] 运营基础设施 - Depots运营停车场和改装工厂被公司视为L4运营最重要设施[33] - 车辆可自动进入停车场寻找充电空位,充完电拔枪后自动驶出运营[33] - 改装车间完成传感器安装后,车辆可自动驶出生产线,直接进入运输卡车或开始运营[33] 行业发展趋势 - 辅助驾驶与自动驾驶产业最终将交叉融合,因算法软件底层逻辑相同[4] - 中国辅助驾驶算法公司如Momenta、元戎、大疆与L4公司共同在欧洲和中东市场拓展[4] - 工程落地是行业较大壁垒,需要协同汽车开发与测试运营,优秀自动驾驶公司多挖角传统汽车工程师[34]