世界模型

搜索文档
什么是真的AI思维?
36氪· 2025-07-15 23:54
AI思维的定义与核心原则 - AI思维是将智能优先原则应用于生产和服务组织过程中的全新问题解决方法论,其核心包括虚拟先行、规模化试错和算力对冲[11] - 虚拟先行指在投入真实资源前,先在数字世界创建高度对应的世界模型进行模拟推演,降低试错成本[12][14] - 规模化试错通过并行计算实现百万次低成本实验,将创新速度提升数个量级[15][16] - 算力对冲用廉价计算资源替代昂贵物理成本,典型案例包括药物研发模拟和市场进入决策[17] AI应用的层次演进 - 初级应用将AI视为工具(如大模型使用),无需特殊思维模式[1] - 进阶应用将AI作为价值创造主体,通过多智能体系统封装完整业务链[1][6] - 完全成熟的AI驱动形态是无人公司,其核心价值创造由AI智能体主导[19][20] 无人公司的技术架构 - 采用PAN(物理-智能体-嵌套)世界模型架构:需模拟真实物理动态、支持多智能体协同、实现分层嵌套决策[21] - 典型工作流:人类设定目标→AI在模型沙盒模拟→选择最优方案→自动执行[22] - 技术案例包括数字孪生工厂(Omniverse平台)和自动化营销系统[24][25] 行业应用现状与趋势 - 工业领域通过数字孪生实现虚拟工厂调试,降低物理安装成本[24] - 营销行业利用AIGC工具实现一人团队完成大规模内容生成与测试[25] - 科研领域加速假设验证循环,如AlphaGeometry解决奥数难题和ReasonerAgent辅助文献调研[26] 未来竞争范式转变 - 企业核心竞争力从经验积累转向世界模型保真度和模拟-行动飞轮速度[27] - 成功案例显示AI思维可提升10倍以上创新效率(如1小时生成千种营销方案vs传统团队1周3方案)[15] - 早期采用者将在敏捷性、效率和扩展性方面建立结构性优势[27][30]
中金:维持蔚来-SW(09866)目标价41港元 评级“跑赢行业”
智通财经网· 2025-07-14 01:45
估值与评级 - 蔚来港股当前对应2025年0 7x P/S 维持2025-26年Non-GAAP净利润预测 维持跑赢行业评级 [1] - 港股目标价41港币 对应2025年1 0x P/S 较当前股价存在40%上行空间 [1] 产品与技术 - 乐道L90于7月底上市 8月1日开启交付 展车已覆盖全国门店 [2] - L90通过36项技术创新实现舱内纵向空间4195mm 二排过道宽度180mm 纵向挑高1330mm [2] - 标配45项智能安全辅助功能 包括端到端架构AEB 安全性行业领先 [2] - 5月30日推出世界模型NWM首个版本 覆盖四大智能驾驶场景 技术架构具备迭代空间 [4] 经营与交付 - 2Q交付72,056辆 符合7 2-7 5万辆指引 [3] - 启动CBU改革 通过划分经营单元提升组织效率 2Q起费用端优化效果逐步显现 [3] - 公司指引4Q25实现盈利转正 [1][3] 财务与现金流 - 2Q起销量与现金流逐步改善 全年自由现金流有望实现正向流入 [4] - 运营现金流持续提升 产品周期强劲支撑业绩 [4] 市场预期 - 乐道L90预售定价超市场预期 预计在高端大三排SUV市场保持领先 [1]
某智驾公司一言难尽的融资。。。
自动驾驶之心· 2025-07-12 12:00
自动驾驶行业融资动态 - 某智驾公司因估值过高且量产项目稀少导致融资困难,估值接近头部企业但缺乏实际项目支撑 [3] - 该公司与头部车企达成特殊融资协议:车企投资智驾公司后,资金需全额返投至车企旗下经营困难的零部件子公司 [4] - 该操作实质为资金循环流转,旨在为车企子公司创造外部融资的公关宣传点,类似操作在该车企已有先例 [4] 行业竞争格局分化 - 头部智驾公司凭借算法优势与量产能力持续获得项目,年融资轮次可达1-2轮,形成良性发展循环 [5] - 技术实力薄弱的企业面临项目获取与融资双重困境,仅能获得有限市场份额 [5] - 2023年智驾市场竞争加剧,企业生存状态呈现"冰火两重天"两极分化 [5] 行业发展核心要素 - 实际量产交付能力被视为企业长期发展的关键,超越技术概念炒作的重要性 [5] - 算法性能提升与工程化落地能力是获得市场认可的基础要素 [5] - 部分企业为维系客户关系选择配合资本运作,但可能偏离技术深耕主线 [4][5] 技术发展趋势 - 行业聚焦端到端自动驾驶、世界模型等前沿技术方向 [7][9] - 感知技术领域形成BEV感知、Occupancy等30+技术路线矩阵 [7] - 大模型技术正渗透至感知、决策等多个技术环节 [7][9]
字节藏了一手“牌”
虎嗅APP· 2025-07-12 09:27
情感大模型技术特点 - 区别于传统聊天机器人,"情感大模型"注重用户情感体验,通过分析语调、停顿、表情理解情感并生成符合情绪的回应 [5] - 技术路径包括在通用大模型基础上增强多模态情感计算能力,以及专注于情感领域的生成式大模型 [7] - 采用端到端形式,训练所需算力比通用版本高30%-50%,对特殊数据要求高 [10] 市场前景与增长 - 全球人工智能伴侣市场规模预计从2023年3000万美元飙升至2030年1500亿美元,年均复合增长率236% [8] - 2024年全球机器人出货规模约4700万台,未来5年复合增长率超20%,消费类机器人占比81% [16] - CharacterAI移动端累计下载量突破3432万,网页端单月访问量达3.1亿,仅次于ChatGPT [9] 字节跳动布局策略 - 计划通过不同垂类大模型带动豆包月活在2025年实现翻倍 [14] - 坚持"火山开放,豆包自研"路线,兼顾生态与自有产品 [3] - 围绕抖音等C端体系推进娱乐、社交、陪伴场景渗透,同时提升火山引擎ToB输出能力 [14] 应用场景与案例 - 适用于助手类效率提升产品,在信息检索、陪伴、AI玩具、社交游戏等领域有优势 [15] - 国外案例包括CharacterAI的TalkingMachines实现视频互动,Miko推出AI伴侣 [7][12] - 国内案例包括FoloToy"显眼包"、Looi桌面机器人、CASIO宠物机器人Moflin等 [12]
字节藏了一手“牌”
虎嗅· 2025-07-12 07:27
字节跳动布局情感大模型 - 公司旗下火山方舟大模型平台计划上线"情感大模型"API服务,豆包则坚持自研路线,形成"火山开放,豆包自研"的双轨策略[1] - 火山引擎相关负责人否认"情感大模型"计划,但行业信息显示该技术能识别53种人类情绪,实现拟人化情感交互[2] - 公司计划通过垂类大模型带动豆包月活在2025年翻倍,并围绕抖音生态推进娱乐、社交场景渗透,同时强化火山引擎ToB输出能力[14] 情感大模型技术特性 - 技术核心在于"理解情绪+精准回应",通过分析语调、停顿、表情实现接近真人的交互体验[3][4] - 技术演化形成两条路径:通用大模型增强多模态情感计算能力,或专注情感领域的生成式大模型[5][6] - 训练算力需求比通用模型高30%-50%,需采用端到端形式且依赖特殊数据,但相比传统模型在算力使用上更高效[10] 行业市场前景 - 腾讯研究院预测未来2-3年人机陪伴市场将爆发,全球AI伴侣市场规模预计从2023年3000万美元增至2030年1500亿美元,年均复合增长率236%[7] - CharacterAI移动端下载量超3432万,网页月访问量3.1亿;消费类机器人2024年全球出货4700万台,未来5年复合增长率超20%[10][17] - GPT-4o等多模态模型加速情感陪伴落地,国内外企业已推出AI玩具、桌面机器人等产品,涉及儿童教育、情感治愈等场景[11][12][13] 技术发展趋势 - 国内技术比国外晚约1年,但在MoE架构和多模态学习方面取得进展,未来通用大模型可能融合情感、文生视频等细分模型[11][17] - HumeAI的EVI系统能检测53种情绪,其CEO认为情商是AI界面核心要求,需推断用户真实需求并执行[15] - 行业下一阶段进化方向可能是"世界模型",具备物理直觉和未来状态推演能力,但当前仍面临算力消耗、数据隐私等技术瓶颈[17]
具身数采方案一览!遥操作和动捕的方式、难点和挑战(2w字干货分享)
自动驾驶之心· 2025-07-10 12:40
遥操作概念与历史 - 遥操作起源于太空探索和军事领域,已有几十年历史,早期应用于手术机器人和远程挖掘机等场景[8][10] - 传统定义为通过设备远距离操控机器人,需具备空间隔离特性[10] - 具身智能兴起使遥操作重要性提升,因数据驱动范式需要真机采集实际场景数据[15][17] 当前遥操作技术方案 - 主流方案包括同构臂控制、VR操控和纯视觉IK解算[21][28] - 纯视觉IK方案因操作自由度高而受青睐,但存在遮挡问题[23][30] - 动捕系统面临精度挑战,需解决不同体型操作者与标准机器人的映射问题[73][78] 技术挑战与创新 - 系统延迟是关键瓶颈,整体需控制在40毫秒以内以避免眩晕[33][117] - 异构手部控制是难点,需设计新型映射算法解决结构差异[82] - 移动平台与机械臂协同控制尚未形成稳定技术路径[96][97] 行业应用与案例 - ALOHA系统创新性地整合移动操作最小配置与端到端算法框架[102] - 手术机器人采用主从臂设计实现精准控制,但存在视野遮挡问题[8][106] - 挖掘机遥操作通过1:1驾驶舱复刻实现85%现场操作效率[123] 未来发展方向 - 可能演进路径包括纯虚(无穿戴)和纯实(力反馈外骨骼)两种方案[37][45] - 需建立智能辅助系统,类似汽车ESP提供自动补偿功能[124][125] - 终极解决方案可能是脑机接口,直接传递运动意图[36][144] 人机交互设计 - 优秀系统应充分调动人手眼协调能力,建立自然操作直觉[53] - 3D显示技术(VR/裸眼)可提升操作沉浸感但面临眩晕挑战[113][114] - 语言、手势等多模态输入将共同构成未来交互方式[142][143] 机器人操作系统 - 当前ROS系统以功能模块为核心,未来需转向以人为中心设计[145][146] - 可能出现类似安卓的标准化平台,统一硬件接口和开发工具[146] - 行业存在封闭化趋势,各厂商开发私有中间件导致生态碎片化[154][155]
VLA统一架构新突破:自回归世界模型引领具身智能
机器之心· 2025-07-10 04:26
世界模型与多模态融合 - 世界模型正加速成为连接感知、理解与决策的关键基座,重塑多模态边界[4] - 现有方法多以语言模态为中心,忽视视觉信息的时序动态与因果结构[5] - UniVLA通过原生建模视觉、语言与动作信号,引入世界模型增强下游决策性能[5][14] UniVLA模型架构 - 采用全离散自回归机制,统一视觉、语言与动作信号的离散token表示[8][9] - 构建视觉-动作交错的多模态时序序列,支持原生统一建模[9] - 自回归训练范式高效稳定,具备大规模扩展潜力[9][24] 技术突破与性能表现 - 后训练阶段仅需海量视频数据,无需依赖大量动作标签即可提升决策性能[14] - 在CALVIN基准上平均成功率达95.5%,长程任务(LONG)成功率94.0%,显著超越TO-FAST的60.2%[19] - LIBERO基准整体成功率69.8%,较Robo VLMs提升32.3个百分点[20] - SimplerEnv任务中世界模型策略取得64.6%成功率,较基线提升64.6个百分点[16] 应用场景与未来方向 - 展现出真机操控和自动驾驶等现实场景的应用潜力[5] - 提出视频版VLA架构,有效捕捉时空动态特征[23] - 未来将探索与多模态强化学习深度融合,提升开放世界决策能力[24] 行业影响 - 刷新CALVIN、LIBERO、SimplerEnv等主流具身智能基准的SOTA纪录[5][17][18] - 为机器人从视频中学习真实世界知识提供新路径[15] - 开创区别于传统VLM拓展路径的全新技术路线[22]
筹备了半年!端到端与VLA自动驾驶小班课来啦(一段式/两段式/扩散模型/VLA等)
自动驾驶之心· 2025-07-09 12:02
端到端自动驾驶技术发展 - 端到端自动驾驶分为一段式端到端和二段式端到端两大技术方向,通过传感器数据直接输出规划或控制信息,避免模块化方法的误差累积 [1] - BEV感知打通模块化壁垒,UniAD统一感知和规划任务,标志着端到端时代的来临 [1] - 2024年理想汽车宣布E2E+VLM双系统架构量产,显示工业界对端到端技术的重视 [1] - 技术方向多样化:PLUTO(二段式)、UniAD(感知一段式)、OccWorld(世界模型一段式)、DiffusionDrive(扩散模型一段式)等算法涌现 [4] 技术挑战与学习痛点 - 端到端技术涉及多模态大模型、BEV感知、强化学习、视觉Transformer、扩散模型等多领域知识,学习路径复杂 [3] - 论文数量繁多且知识碎片化,缺乏高质量文档和系统实战指导,入门难度高 [3] - 目标驱动导航需闭环任务支持,但理论与实践衔接困难 [3] 课程核心内容与特点 - 课程覆盖端到端算法发展历史、技术范式(一段式、二段式、VLA)及工业界应用 [8][10] - 重点讲解背景知识:Transformer、BEV感知、扩散模型、VLM强化学习技术(RLHF、GRPO) [8] - 二段式端到端聚焦PLUTO、CarPlanner、Plan-R1等经典与前沿工作 [9] - 一段式端到端涵盖UniAD、OccWorld、DiffusionDrive、VLA等子领域,配套Diffusion Planner和ORION实战 [10][12][13] - 大作业为RLHF微调实战,可迁移至VLA算法 [14] 课程结构与安排 - 分五章展开:端到端概述、背景知识、二段式、一段式与VLA、RLHF大作业 [8][9][10][14] - 8月15日开课,三个月结课,离线视频+VIP群答疑+三次线上答疑 [20] - 章节解锁时间:第一章(8.01)、第二章(8.15)、第三章(8.30)、第四章(9.15)、第五章(10.30) [20] 目标人群与学习收获 - 需具备GPU(推荐4090+)、自动驾驶基础、Transformer/BEV/强化学习概念、Python/PyTorch能力 [22] - 学完可达1年经验算法工程师水平,掌握端到端框架及BEV、扩散模型、VLA等关键技术 [23] - 可复现主流算法,应用于实习、校招、社招场景 [23]
「世界模型」也被泼冷水了?邢波等人揭开五大「硬伤」,提出新范式
机器之心· 2025-07-09 07:10
世界模型的局限性批判 - 当前大语言模型(LLM)通过预测下一个单词生成输出,接近人类智力水平,但与真正的AGI仍有明显差距 [2][3] - 人类能力包含具体技能和深度复杂能力的区分,而AI系统尚不能完成所有基于相同认知架构的任务 [3][5] - 研究者提出构建世界模型的五个关键维度:数据准备、通用表征空间、推理架构、目标函数和决策系统应用 [7] PAN世界模型架构 - PAN采用分层、多级和混合连续/离散表示,结合生成式和自监督学习框架 [8] - PAN将发布27B参数的第一版,成为首个可运行的通用世界模拟器 [9] - PAN设计原则包括:多模态数据、混合表示、分层生成建模、生成损失和强化学习应用 [37] 对世界模型五个维度的批判 数据维度 - 感官数据量虽大但信息冗余度高,而文本是人类经验的高度压缩和抽象形式 [16][17] - 通用AI需要融合视频、文本、音频等多模态数据,单一模态会导致关键信息缺失 [18] 表示维度 - 仅用连续嵌入表示世界状态脆弱且难以应对噪声,离散符号序列更具稳健性 [19][20] - 最佳路径是混合表示,结合离散符号的稳健性和连续嵌入的感官细节捕捉能力 [23] 架构维度 - 编码器-编码器架构在功能上仍是自回归的,未能解决误差累积问题 [25] - 分层生成式潜在预测(GLP)架构能确保模型与真实数据挂钩,实现更鲁棒的推理 [27] 目标维度 - 潜在空间重构损失存在"平凡解崩溃"风险,需依赖复杂正则化项 [29] - 数据空间生成式重构目标提供稳定可靠的监督信号,避免崩溃问题 [30] 用途维度 - 模型预测控制(MPC)计算开销大,难以应对快速变化环境和长时程规划 [33] - 强化学习(RL)将计算成本转移到训练时,支持更具战略性的长远规划 [35] PAN模型的优势与应用 - PAN通过分层世界观实现数据处理效率,利用LLM促进跨模态泛化能力 [39] - PAN作为内部沙盒用于模拟、实验和预见未来,支持更高效的规划方式 [40][42] - 世界模型应模拟现实世界中所有可能性,当前范式仍处于原始阶段 [41]
具身智能论文速递 | 强化学习、VLA、VLN、世界模型等~
具身智能之心· 2025-07-08 12:54
强化学习提升VLA泛化能力研究 - 清华大学等机构通过PPO算法微调视觉-语言-动作模型(VLA),OOD场景任务成功率提升42.6%,语义理解任务成功率从61.5%提升至75.0%,动态干扰场景成功率从28.6%跃升至74.5% [2] - 构建了评估VLA微调方法泛化能力的多维度基准,验证PPO优于GRPO和DPO算法,并提出共享actor-critic骨干网络、模型预热等高效微调方案 [4] - 强化学习在VLA的语义理解和实体执行泛化能力上超越监督微调(SFT),视觉鲁棒性与SFT相当 [4] NavMorph自进化世界模型技术 - 中科院突破NavMorph技术,在R2R-CE基准未见环境中成功率(SR)达47.9%,路径长度加权成功率(SPL)提升至33.2% [13] - 模型通过World-aware Navigator推断环境动态潜在表示,结合Foresight Action Planner实现前瞻决策,Contextual Evolution Memory机制支持动态环境行动规划 [15] - 实验显示NavMorph在VLN-CE基准全面领先:单目相机场景下Test Unseen的SR达45.7%,全景相机场景SR提升至60%,SPL达52% [18] 行业技术进展 - 视觉语言导航领域主流方法对比显示,NavMorph在Val Unseen场景SR较基准最优模型(ETPNav*)提升7个百分点,SPL提高4个百分点 [18] - 具身智能领域形成产学研社区,近200家公司及研究机构参与技术交流,涵盖招聘、学习资源及前沿技术更新 [23]