Workflow
世界模型
icon
搜索文档
2025人工智能产业十大关键词
机器人圈· 2025-09-26 09:29
文章核心观点 人工智能技术、应用、生态三维共振 智能原生新世界加速形成[1] 基础超级模型 - 2024年底至2025年8月大模型综合能力提升超过30% 集成思考与非思考模式[3] - 头部模型GPT-5/Grok4/DeepSeek V3.1/Claude Opus 4.1/Qwen3-235B-A22B展现三大特征:自主选择处理模式、理解推理数学能力提升、内置代码与工具调用能力[3][4] - 技术采用路由融合与面向智能体的强化学习 显著增强真实业务场景表现[6] - 对用户产生三方面影响:使用门槛降低、工作流工具调用精准度提升、训练数据供应需求变化[6] 自主性更强的智能体 - 方升智能体基准测试显示当前智能体可自主完成复杂任务但能力仍有提升空间[9] - 通信协议成为交互桥梁 Anthropic的MCP与谷歌A2A协议实现互补协同[12] - 智能体任务处理长度每7个月翻一番 未来可完成人类数天至数周任务量[12] - 产品形态逐步清晰 成为消费端与企业端数字员工初级形态[10] 走向实训的具身智能 - 本体从实验室走向真实赛场与训练场 推进行业场景试点验证[15] - 蔚来世界模型NWM在Banyan榕车型全量推送 强化追尾预防与障碍物识别[15] - 智元机器人GO-1端到端VLA模型实现擦桌子/倒水任务 Figure AI Helix支持物流分拣等技能[16] - 面临三大挑战:高质量数据缺口需百万小时机器人数据、模型泛化难、软硬协同控制不稳定[18] 萌芽中的世界模型 - 被视为通向AGI的核心路径 需具备四大核心能力:数据生成/动作解释/环境交互/场景重建[21] - 技术路线百花齐放:大模型增强/大模型+物理引擎融合/物理世界表征探索[22] - 面临定义争议/技术路线不清晰/应用范围局限三大挑战 目前仅自动驾驶领域有规模应用[22] - 参考技术包括Sora/Marble/JEPA/Genie3/Cosmos/HunyuanWorld等[22] AI正在重塑软件 - AI深度渗透软件开发全生命周期 开发测试环节保持高比例应用[25] - AI研发工具从Copilot向Pilot演进 2025年密集发布AI IDE与智能体工具[25] - 软件交互方式变革 对话/多模态/具身智能交互成为主流[25] - 商业模式重构 从订阅模式转向按Token消耗量计费的定量模式[28] 开放智算生态 - 2025年形成多层次开源开放生态 涵盖开源框架/通信库/算子库/计算平台/互联协议[30] - 国产硬件性能显著提升 DeepSeek R1模型部署精度与规模基本持平英伟达系统[30] - 软硬件协同优化案例:DeepSeek对英伟达硬件提改进建议 智谱GLM4.5基于昇腾环境微调[32] 面向行业的高质量数据集 - 行业数据集质量问题成为垂类模型落地核心瓶颈 内容密集性问题占比82.50%[35] - 需建立新型数据供应链 包括三大训练数据集:交互轨迹/偏好对齐/基准评测[38] - 三大原生基础数据集:基础支撑/过程埋点/外部交互[38] 开源成为标配 - 全球性能前25大模型中我国开源模型占9席 Huggingface累计下载量突破3亿次[40] - 基于国产开源模型的微调模型占比从2024年初10%大幅上升至2025年7月45%[40] - 国内AI开源社区托管模型38万个/数据集5.3万个 活跃开发者2.2万人占全球18.7%[42] - 商业模式采用"开源免费+高阶服务收费"策略 推动云服务与芯片需求增长[42] 缓解模型幻觉 - OpenAI理论研究确认幻觉是LLM统计学习必然产物 方升测试显示推理模型幻觉率维持在10%以上[44] - 大参数模型幻觉问题明显 72b参数模型幻觉率超过14%[44] - 供给侧采取四维措施:数据过滤筛查/双向自回归训练/不确定性评估/对比增强解码[46] - 用户侧四层应对:测试选型/领域数据微调/推理约束提示/输出双重核验[46] 人工智能国际公共产品 - 人工智能被纳入12个全球多边机制核心议题 中国/沙特/印尼/美国/俄罗斯国际合作活跃[49] - 产业界通过生态基建/工具赋能/服务模式创新推动全球化发展[51] - 面临跨境合规认证复杂/ESG评估体系模糊/数据跨境流动受限等挑战[51]
把“会跑的代码世界”装进AI,Meta重磅开源首个代码世界模型:让AI像程序员一样思考
36氪· 2025-09-25 13:02
模型发布与核心特点 - Meta发布Code World Model(CWM),参数量为32B,支持最长131k token上下文,采用开放权重策略[1] - 模型核心目标是将"世界模型"思想引入代码生成与推理领域,使模型不仅能生成代码,还能模拟执行过程、推理程序状态并自我修复Bug[1][2] - 训练数据规模庞大:预训练阶段使用约8T tokens(代码占比30%),中期训练引入5T tokens世界建模数据,后训练阶段SFT使用100B tokens、RL使用172B tokens[3][4] 技术实现与数据构建 - 采用局部+全局交替机制和长序列稳定化技术处理超长上下文[3] - 世界模型能力依赖两类数据:Python执行轨迹(序列化中间栈帧与变量状态)和Agent环境交互轨迹(从10.2万张镜像和3.15万个仓库收集300万条轨迹)[6][8][9] - 后训练阶段引入工程优化:SFT阶段使用"推理token"区分直答与推理,RL阶段改用<think>标签并采用自举策略回流高质量数据[9] 性能表现与基准测试 - 在SWE-bench Verified测试中达到65.8% pass@1(启用多候选投票)和53.9%(未启用),接近GPT-4水平[10][12] - 在LiveCodeBench、Math-500和AIME 2024基准分别取得68.6%、96.6%和76.0%的亮眼成绩[10] - 模型专精于代码修复与数学推理,但在多语言和编辑格式场景存在局限,且Agent训练可能引入格式化噪声[12] 行业反响与开源意义 - Meta开源中期训练、SFT和RL阶段的权重检查点,为学术与工程复现提供重要支持[2][15] - 业界普遍认可其研究价值,但强调需与实际开发环境集成测试,并关注32B参数模型的计算资源需求[15] - 模型被视为推动代码生成从静态学习转向动态执行模拟的关键突破,可能重塑软件开发范式[2][13]
代码生成要变天了?被质疑架空后,Yann LeCun携320亿参数开源世界模型“杀回来了”
AI前线· 2025-09-25 08:04
整理|冬梅 在新一代代码生成模型不断涌现的当下,开发者们总会提出两个关键问题: 第一,它的代码编写能 力究竟有多强?第二,它是否真正理解代码在运行时会发生什么? Yann LeCun 团队 开源全球首个代码世界模型 美国当地时间 9 月 24 日,由 Yann LeCun 领导的 Meta FAIR CodeGen 研究团队正式发布了 代码世 界模型(Code World Model,CWM) ——一款拥有 320 亿参数的密集解码器自回归开放权重大语 言模型,旨在推动基于世界模型的代码生成研究。 值得一提的是,这是 Meta 将其 AI 业务重组后发布的首款模型。 长期以来,大多数大型语言模型在生成代码的能力上表现不俗,往往能输出结构清晰、语法正确的代 码片段。然而,真正的挑战在于"理解执行"。许多模型虽然能写出看似完美的代码,但在实际运行过 程中却频频出错,甚至无法完成需要多步骤推理的复杂软件工程任务。这种"纸面正确、执行失败"的 现象,也暴露出代码生成模型与真正的程序员之间仍存在明显差距。 如今,这个难题即将有新的解法。 与传统依赖静态代码训练的模型不同,CWM 在中期训练阶段引入了全新的方式:研究人员 ...
汽车业AI“狂飙”,“轮式智能生命体”即将到来
华夏时报· 2025-09-25 07:58
也许在不远的将来,汽车不再仅仅只是响应用户的指令,而可以主动与用户交谈,为用户分忧解难,甚 至在用户手握方向盘时,已经规划好最合适的路线、调节好最适宜的车内温度。这并非遥不可及的科幻 场景,而是一幅正由人工智能精心绘制的现实图景。 海尔集团董事、汽车之家董事会主席兼首席执行官刘斥表示:"当前汽车行业面临着技术路线快速演进 与产业格局深刻重塑的双重变革,机遇空前,挑战亦不容小觑。" 在这场以"Hi·Future"为主题的科技盛宴中,记者感受最强烈的就是,关于汽车行业的讨论焦点已经彻底 转变。 中国国际贸易促进委员会汽车行业分会会长王侠认为,汽车行业应跳出硬件参数与价格战的"内卷"漩 涡,而去关注一个更宏大的命题:如何让汽车从一台冰冷的机器,进化成为一个能思考、会学习、懂合 作的"轮式智能生命体"。 王侠认为,未来的汽车将不再是信息孤岛,而是智慧城市交通网络中的一个活跃节点,它能与道路、云 端、其他车辆实时"对话",共同编织一张安全、高效、绿色的出行网络。王侠举例表示:你的车可以提 本报(chinatimes.net.cn)记者刘凯 于建平 北京报道 前接收到前方路口红绿灯的配时信息,自动平滑车速,实现"绿波通行 ...
周鸿祎:语言是最重要的,语言掌握了就一通百通
新浪科技· 2025-09-24 05:09
责任编辑:江钰涵 新浪科技讯 9月24日下午消息,今日,罗永浩与周鸿祎深度对谈,周鸿祎表示,Meta的杨乐坤说要做什 么世界模型,李飞飞为什么要做世界模型?我觉得他们弄错了一个问题,就是语言是最重要的。因为人 类拿语言来干这么几件事,一个是来交流,一个是来做知识的传承,第三是做逻辑的推理,还有来描述 这个世界。其实通过语言,基本上你这个世界模型就能了解了。原来人工智能之所以不能取得进展,就 是因为没有了解语言这个金钥匙。一旦把语言了解了,就意味着对人类的知识了解了,对人类的世界能 有了解了,对人类的这个推理能力有了解了,就一通百通。 最近你看Google新出了一个叫nano banana的产品。他为什么很惊艳,就是说他对图形的理解超越了视 觉,他还是加了很多知识的这种融会贯通。所以为什么语言一旦突破,你看什么音乐模型、视频模型、 这种图形模型、视觉模型都获得很大的进展。(罗宁) ...
打算招聘几位大佬共创平台(4D标注/世界模型/VLA等方向)
自动驾驶之心· 2025-09-23 23:32
QS200以内高校,硕士及以上学历,手握顶会的大佬优先。 待遇说明 自动驾驶资源共享(求职、读博、出国留学推荐等); 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 业务合伙人 自动驾驶之心业务合伙人招募来啦!我们团队今年计划向国内外招募10名优秀的合伙人,负责自动驾驶相 关课程研发、论文辅导业务开发、硬件研发; 主要方向 如果您是大模型/多模态大模型、扩散模型、VLA、端到端、具身交互、联合预测、SLAM、3D目标检测、 世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向,欢迎加入我们; 岗位要求 丰厚的现金激励; 创业项目合作与推荐; 联系我们 更多欢迎添加微信咨询,备注" 机构/公司 + 自动驾驶合作咨询 "。 ...
3DGS重建!gsplat 库源码解析
自动驾驶之心· 2025-09-23 23:32
作者 | 微卷的大白 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1952449084788029155 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 前两天看到李飞飞 Worldlabs 新工作Mrable的时候,提到后面想多看一看 3DGS / 重建相关的工作。 不过如果真的有小白要踩坑 ,gsplat 的文档和维护其实比gaussian-splatting 要稍微好一些,个人更推荐这个库。 相比3DGS 论文对应的 gaussian-splatting 库,nerfstudio-projectgsplat 是对官方库做了一些优化,可参考https://docs.gsplat.studio/main/migration/migration_inria.html 的 说明。 但是知乎搜了一下发现,讲 3DGS 论文原理、改进的不少,我自己上半年也回顾过cuda kernel 源码:重温经典之 3DGS CUDA 源码解析 ,但是另一个常用的gsplat ...
AI技术未来发展趋势预测
搜狐财经· 2025-09-21 13:31
以下是基于2025年最新研究成果的AI技术未来发展趋势预测,综合技术演进、产业变革与社会影响三 大维度:一、技术突破方向;原生多模态大模型:端到端统一架构将取代拼接式多模态系统,实现文 本、图像、音频、3D数据的深度融合处理,推理效率提升300%。世界模型(World Models)加速落 地,2025年将成为具身智能的核心技术底座。 AI智能体(Agentic AI)爆发;从"知识增强"转向"执行增强",OpenAI的o1/o3模型已实现复杂任务自 主决策(如商业订单处理)。预计到2028年,AI智能体将自动化15%企业日常决策,重塑SaaS行业生 态。模型训练范式革新;后训练阶段Scaling Law成为重点,强化学习(RL)优化推理效率,降低50% 算力消耗。小数据与优质数据驱动训练,减少对海量低质数据的依赖,提升模型可靠性。 二、产业重构趋势,高度个性化服务普及:AI代理深度分析用户行为,提供超个性化产品定制,客户 满意度提升40%。实时决策系统渗透物流、营销领域,企业应对市场波动速度加快3倍。AI与物理世界 深度融合:工业场景人形机器人量产化,端到端模型控制精度达毫米级。智能工厂覆盖率超80%,推动 ...
打算招聘几位大佬共创平台(世界模型/VLA等方向)
自动驾驶之心· 2025-09-21 06:59
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 业务合伙人 创业项目合作与推荐; 联系我们 岗位要求 QS200以内高校,硕士及以上学历,手握顶会的大佬优先。 待遇说明 自动驾驶资源共享(求职、读博、出国留学推荐等); 丰厚的现金激励; 自动驾驶之心业务合伙人招募来啦!我们团队今年计划向国内外招募10名优秀的合伙人,负责自动驾驶相 关课程研发、论文辅导业务开发、硬件研发; 主要方向 如果您是大模型/多模态大模型、扩散模型、VLA、端到端、具身交互、联合预测、SLAM、3D目标检测、 世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向,欢迎加入我们; 更多欢迎添加微信咨询,备注" 机构/公司 + 自动驾驶合作咨询 "。 ...
无需训练的世界模型?西湖大学WorldForge开启空间智能新路径,让AI读懂3D世界
量子位· 2025-09-21 06:36
文章核心观点 - 西湖大学AGI实验室提出的WorldForge框架通过推理时引导策略实现视频生成的高精度时空控制 绕开传统微调或重训模型的高成本路径 为可控世界模型提供新研究方向 [1][8][14] 技术原理与架构 - 采用步内递归修正(IRR)模块 通过预测-校正微循环在去噪过程中逐步消除轨迹偏离 确保生成内容遵循预设运动轨迹 [4][5] - 流门控潜在融合(FLF)模块通过光流得分分离运动与外观特征 将轨迹信号精准注入高运动相关度通道 避免破坏画面质感 [6] - 双路径自校正引导(DSG)模块利用引导路径与非引导路径的输出差异生成校正项 同时保证轨迹精确性与画面质量稳定 [7] 应用场景与性能 - 支持单视图生成3D静态场景 仅需一张照片即可重建三维场景并生成360°环绕视频 [9] - 实现视频电影级重运镜 允许用户自由设计镜头轨迹智能补全新视角场景 效果领先需大量训练的SOTA模型 [11] - 具备视频内容二次创作能力 包括主体替换、物体擦除/添加及虚拟试穿等编辑功能 [12] 行业意义与创新 - 为视频生成领域提供不修改模型权重、即插即用的引导策略 降低技术与资源门槛 [1][14] - 通过推理时引导结构化模型内部世界知识 为可控世界模型构建开辟低训练成本新路径 [8][14]