世界模型 - 财报，业绩电话会，研报，新闻 - Reportify

世界模型

搜索文档

北大卢宗青：现阶段世界模型和 VLA 都不触及本质｜具身先锋十人谈

雷峰网· 2025-06-20 11:54

核心观点 - 互联网视频数据是唯一可以规模化(scalable)的具身智能发展路径，通过标注人类动作数据训练模型是通向通用人工智能(AGI)的关键[1][6][25] - 当前多模态模型缺乏与世界物理交互的能力，需通过海量人类运动视频数据建立动作与世界的关联[2][19][29] - 公司技术路线与主流VLA/世界模型方案存在本质差异，坚持从人类行为数据预训练构建统一解决方案[5][55][56] 技术路线 - **数据采集**：已标注1500万条互联网视频中人类关节动作数据，聚焦全身运动控制与第一人称手部操作[6][28][34] - **模型架构**：基于语言模型backbone加入多模态信息，未来可能探索纯视频预训练模型[42][55] - **训练方法**：通过人类动作先验知识缩小状态-动作空间搜索范围，避免强化学习的无效遍历[29][30] - **硬件适配**：专注人形机器人/灵巧手形态，可向下兼容夹爪/轮式机器人[31][33] 行业竞争分析 - **主流方案缺陷**： - 遥操作/真机数据采集成本高且难以复用[33] - 自动驾驶系世界模型仅适用于建图导航，无法预测物理交互结果[45][48] - VLA方案在gripper形态有效但未触及人形机器人本质问题[53][57] - **差异化优势**： - 数据规模领先（1500万vs竞品数百条）[28] - 动作级标注精度（20+关节自由度vs物体轨迹分析）[25] - 预训练范式创新（action数据前置学习vs VLM+action head）[55] 公司发展 - **融资情况**：获联想之星/星连资本数千万人民币天使轮[9] - **团队规模**：5名全职+20名实习生，核心成员具备多年模型研究经验[76][78] - **产品规划**： - 第一代模型Being-M0定位验证性产品[73] - 运动控制模型将率先scale up至1.0版本[74] - 第二代模型Beyond系列代表全球领先水平[70] - **商业化节奏**： - 2-3年实现技术规模化[81] - 短期无商业化压力，保持非营利研究属性[64][65] - 长期目标2C通用机器人[83] 行业趋势判断 - 具身智能发展受限于视频数据贫乏，需突破语言模型依赖文字富矿的路径依赖[9][35] - 当前投资环境存在"非共识投资"与"确定性偏好"的矛盾，但机器人硬件进步带来信心[66] - 全球竞争格局下，技术路线终局思维比短期商业化更重要[67]

通用人工智能

通用人工智能

Midjourney发布视频模型：不卷分辨率，但网友直呼画面惊艳

虎嗅APP· 2025-06-20 09:47

以下文章来源于APPSO ，作者发现明日产品的 APPSO . AI 第一新媒体，「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative AI 本文来自微信公众号： APPSO （ID：appsolution），作者：appso，原文标题：《这个AI生图神器首次发布视频模型：不卷分辨率，但网友直呼画面惊艳超预期|附提示词》，题图来自：AI生成面对迪士尼和环球影业的版权诉讼，老牌文生图"独角兽"Midjourney没有放慢节奏，反而于今天凌晨顶着压力推出了首个视频模型V1。调色精准、构图考究、情绪饱满，风格依旧在线。不卷分辨率、不卷长镜头、Midjourney卷的，是一股独有的氛围感和审美辨识度。Midjourney是有野心的，目标剑指"世界模型"，但目前略显"粗糙"的功能设计，能否让其走得更远，恐怕还是一个未知数。你卷你的分辨率，我走我的超现实。 Midjourney一直以奇幻、超现实的视觉风格见长，而从目前用户实测的效果来看，其视频模型也延续了这一美学方向，风格稳定，辨识度高。省流版如下：上传或生成图像后点击"Animate"即可，单次任务默认输出4段5秒视频 ...

Artificial Intelligence

Midjourney视频模型V1

Artificial Intelligence

Midjourney视频模型V1

本周精华总结：Meta发布世界模型，下一个ChatGPT时刻何时来临？

老徐抓AI趋势· 2025-06-19 16:47

Meta世界模型技术突破 - Meta发布"世界模型"标志着AI技术从文本图像理解向物理世界规律认知的跃迁核心在于让AI掌握重力流体力学等物理常识例如理解"拧开盖子才能倒水"的因果关系[1] - 当前AI物理常识准确率不足人类50% 但预示巨大进步空间传统大语言模型在现实操作推理存在明显短板[1] - 世界模型将推动自动驾驶质变需实现类似人类司机的场景预判能力如识别被遮挡行人潜在位置[1] 量子计算与科技革命 - 量子计算发展临近拐点英伟达CEO黄仁勋欧洲演讲指出该技术将加速AI与科研突破未来几年可能涌现蒸汽机级别的颠覆性创新[2] - 科技革命节奏持续加快全球经济和社会结构面临深刻重构世界模型自动驾驶量子计算构成关键创新三角[2] 生产力变革与投资机会 - 成熟世界模型将重塑运输物流公共交通行业生产力技术领先企业有望获得超额市场收益[2] - 建议重点关注世界模型自动驾驶量子计算三大领域的产业布局动态把握技术商业化窗口期[2] 会员服务推广 - 提供特斯拉 AI领域投资信息差分析服务年度会员限时优惠价1199元附赠线下活动门票或凯文凯利未来学著作[4]

学习端到端大模型，还不太明白VLM和VLA的区别。。。

自动驾驶之心· 2025-06-19 11:54

视觉语言模型在自动驾驶领域的应用 - 大模型技术正在智能驾驶领域快速落地，VLM（视觉语言模型）和VLA（视觉语言动作模型）成为关键技术方向 [2] - VLM侧重基础能力如检测、问答、空间理解和思维链推理，VLA更关注动作生成如轨迹预测 [4] - 学习路径建议先掌握VLM再扩展到VLA，VLM结合扩散模型可实现多模态轨迹预测 [4] 技术社区与资源 - 知识星球提供自动驾驶全栈学习路线图、硬件/代码资料及行业招聘信息，已吸引华为天才少年等专家加入 [4] - 社区覆盖四大板块：技术分类汇总、顶级学者直播、求职资源、问题解答，形成"课程+硬件+问答"闭环 [5] - 目标3年内建成万人规模的智能驾驶与具身智能社区，已与多家企业建立学术-产品-招聘全链路合作 [4] 前沿技术方向与数据集视觉大语言模型 - 汇总10个Awesome资源库，涵盖智能交通LLM、AIGC、CLIP提示学习、模型安全等领域 [6] - 基础理论包括预训练、迁移学习、知识蒸馏三大方向 [7][10][11] 数据集规模 - VLM预训练数据集从SBU Caption（2011年1M图文）发展到LAION5B（2022年5B图文） [13] - 自动驾驶专用数据集包括NuScenes（2020年多模态）、Waymo Open Dataset（2020年）等19个主流数据集 [19] 关键技术应用智能交通系统 - 2022-2023年出现多模态车辆检索系统，支持自然语言查询跟踪车辆 [21] - Tem-adapter等模型将图文预训练迁移到视频问答任务 [21] 自动驾驶感知 - VLPD（2023）通过视觉语言自监督提升行人检测 [22] - OpenScene（2023）实现开放词汇的3D语义分割 [22] 轨迹预测与规划 - GPT-Driver（2023）、DRIVEVLM（2024）等模型将LLM融入运动规划 [23] - 扩散模型应用显著，如DiffusionDrive（端到端驾驶）、MagicDriveDiT（高分辨率视频生成） [37] 世界模型研究进展 - 2024年涌现DriveWorld、Vista等模型，实现4D场景理解与高保真可控生成 [30] - 核心突破包括：InfinityDrive突破时间泛化限制、DriveDreamer4D增强4D重建 [30] - 17篇顶会论文覆盖物理仿真、多模态LLM融合等方向 [28][29][30] 端到端自动驾驶 - 两大资源库汇总200+篇论文，跟踪E2E驾驶最新进展 [39][43] - 关键挑战包括长尾分布处理、多任务学习、安全验证等 [43][53] - SparseAD（稀疏query范式）、GenAD（新范式）等2024年新方法提升性能25% [46]

视觉语言模型（VLM）

视觉语言动作模型（VLA）

视觉语言模型（VLM）

视觉语言动作模型（VLA）

Midjourney发布视频模型：不卷分辨率，但网友直呼画面惊艳

虎嗅· 2025-06-19 06:56

产品发布 - Midjourney推出首个视频模型V1，具备调色精准、构图考究、情绪饱满的特点，延续了其独特的超现实视觉风格[1][2][8] - 视频模型支持上传或生成图像后点击"Animate"按钮转换，单次任务默认输出4段5秒视频，最长可扩展至21秒[5][29][30] - 提供手动和自动两种模式，用户可通过提示词设定画面效果，并选择低运动或高运动选项以适应不同场景需求[5][33][37] 技术表现 - 视频生成保持高辨识度的美学风格，如博主@EccentrismArt展示的坠落少年动态流畅，城市街区空间扭曲效果稳定[9][10] - 成功处理复杂场景如极光雪地车灯的多重光源干扰，雪地粒子、运动模糊等要素一致性较强[19][22] - 静物表现力方面，奶油动态自然，杯体旋转时标签未扭曲，但写实风格中孩童左手存在不协调问题[21][24] 商业模式 - 视频功能纳入现有订阅体系（10美元/月），GPU消耗为图像任务的8倍，但生成长视频时每秒成本与图像生成接近[11][36] - 相比竞品如OpenAI Sora（20美元/月起）、Google Veo（249.99美元/月），性价比处于第一梯队[38] - 面向Pro用户测试"Relax Mode"以降低算力消耗，其他用户仍按GPU时间和会员等级计费[38] 功能局限 - 仅支持480p分辨率，长宽比自动适配图像原尺寸（如1:1输出624×624像素，16:9输出832×464像素）[11][43][44] - 缺乏音效、时间轴编辑、片段过渡及API接入能力，片段间为跳切衔接难以控制剧情节奏[40][41][42] - 官方承认当前版本属早期探索阶段，重在易用性和可扩展性[45] 战略规划 - 视频模型是构建"世界模型"的第二步，后续将推出3D模型与实时系统，最终整合图像生成、动画控制、3D导航与实时渲染[46][47][48] - 产品路线图分为四阶段：图像模型→视频模型→3D模型→实时模型，最终实现交互式内容生产体系[48][49]

Midjourney视频模型V1

Midjourney视频模型V1

Midjourney 推出其首个图生视频模型 V1：延续美学风格，目标是构建「世界模型」

Founder Park· 2025-06-19 05:52

Midjourney视频生成模型V1发布 - 推出高性价比、易于上手的视频生成功能，定位为有趣、易用、美观且价格亲民 [1] - 采用"图像转视频"(Image-to-Video)工作方式，用户可生成满意图片后点击"Animate"按钮动画化 [5] - 支持上传外部图片并通过输入运动提示词生成视频 [6] 产品功能特点 - 提供自动和手动两种动画模式：自动模式由AI生成运动提示，手动模式可精确描述运动方式 [7] - 支持两种运动幅度设置：低运动适合静态场景，高运动适合动态场景但更容易出错 [11] - 视频可被"扩展"，每次延长约4秒，最多延长四次，目前分辨率480p [8] 定价与商业模式 - 入门价格每月10美元，初期仅限网页版使用 [9] - 一个视频任务成本约等于8个图像任务，生成四个5秒视频，官方称价格比市场同类产品便宜超过25倍 [12] - Pro用户可测试"放松模式"无限量生成视频，未来一个月将根据使用情况调整价格 [13] 公司战略愿景 - 视频模型是实现"实时模拟世界"愿景的第一步 [1] - 最终目标是构建能够实时交互的开放世界模拟系统，未来将继续开发3D模型、实时渲染模型等模块并整合 [13] 市场推广 - 通过7000人规模的"AI产品市集"社群进行推广，提供最新AI新品资讯和产品曝光渠道 [4]

实时模拟世界

Artificial Intelligence

Midjourney视频生成模型V1

实时模拟世界

Artificial Intelligence

Midjourney视频生成模型V1

第四范式（06682）：2025Q1业绩超预期，Agent业务高歌猛进带动公司进入高速增长轨道

海通国际证券· 2025-06-17 11:33

报告公司投资评级 - 维持“优于大市”评级，给予公司2025年6倍PS估值，对应目标价为90.84港元 [4] 报告的核心观点 - 宏观承压下公司25Q1营收增速逆势高速增长，Agent加持下业务凸显，全年转盈趋势确定，2B+2C双轮驱动下长期增长可期 [1] - 预测公司2025 - 2027年营收为68.84/88.63/112.76亿元；EPS为0.11/0.56/1.19元 [4] 根据相关目录分别进行总结财务摘要 |项目|2022A|2023A|2024A|2025E|2026E|2027E| |----|----|----|----|----|----|----| |营业收入（百万元）|3,087.63|4,206.95|5,260.65|6,883.82|8,862.78|11,275.54| |(+/-)%|52.73%|36.38%|25.13%|30.85%|28.75%|27.22%| |毛利润（百万元）|1,486.65|1,979.55|2,244.83|2,925.62|3,811.00|4,904.86| |净利润（百万元）|-1,644.90|-908.72|-268.79|51.96|277.74|589.43| |(+/-)%|7.88%|44.76%|70.42%|119.33%|434.56%|112.22%| |PE|-|-17.93|-87.84|435.26|81.43|38.37| |PB|-|4.37|4.69|4.42|4.18|3.77|[3] 业绩表现 - 2025Q1营收10.77亿元，同比+30.1%；毛利润4.44亿元，同比+30.1%；毛利率41.2%；标杆用户数达59个，标杆用户平均营收1167万元，同比+31.3% [4] - 2025Q1先知AI平台营收8.05亿元，同比+60.5%；SHIFT智能解决方案业务营收2.12亿元，同比 - 14.9%；式说AIGS服务业务营收为0.6亿元，同比 - 22.0% [4] 业务发展 - 2025Q1先知AI平台推出AI Agent全流程开发平台，企业级Agent已在超14个行业落地 [4] - 公司升级为范式集团，成立消费电子板块Phancy，实现2B+2C双轮驱动 [4] 可比公司估值 |股票代码|股票简称|收盘价（元）|市值（亿元）|营业收入（亿元）|PS（倍）| |----|----|----|----|----|----| | | | | |2024A|2025E|2026E|2025E|2026E| |688207|格灵深瞳|13.61|35|1.17|-|-|-|-| |688088|虹软科技|43.70|175|8.15|10.02|12.51|17|14| |0268.HK|金蝶国际|12.46|406|62.56|71.88|82.81|6|5| |CRM.N|Salesforce|283.42|2725|378.95|413.20|453.26|7|6| | | |平均值| | | | |10|8|[6]

第四范式(HK:06682)

SHIFT智能解决方案

式说AIGS服务

SHIFT智能解决方案

式说AIGS服务

首个转型AI公司的新势力，在全球AI顶会展示下一代自动驾驶模型

机器之心· 2025-06-17 04:50

核心观点 - L3级别智能驾驶的关键在于大算力、大模型、大数据[1] - 端到端智能驾驶正沿着大模型Scaling Laws的路径快速发展[2] - 小鹏G7作为全球首款L3级算力AI汽车，搭载2200TOPS算力芯片和VLA+VLM模型，实现行业突破[3][4][5] - 自动驾驶基座模型通过云端训练+车端蒸馏的技术路线，显著提升复杂场景处理能力[20][27][28] - 公司验证了自动驾驶领域的Scaling Laws，并建成万卡智算集群支持模型迭代[49][50] 技术突破 - 小鹏G7首发智驾大脑+小脑VLA-OL模型，首次加入运动型决策能力[4] - VLM视觉大模型作为车辆理解世界的AI中枢，支持多语言交互和主动服务[5] - 自动驾驶基座模型参数达720亿，训练数据超2000万条30秒视频片段[20] - 模型具备链式推理(CoT)能力，可处理训练中未见的复杂场景[21][24] - 车端token处理量压缩70%，流式多处理器利用率达85%[60][63] 行业地位 - 小鹏在CVPR 2025与Waymo、英伟达等顶流同台，展示技术领先性[6][13] - 公司是国内首个验证自动驾驶Scaling Laws的团队[49] - 建成汽车行业首个万卡智算集群，算力达10 EFLOPS，迭代周期快至5天[50][51] - 云端模型工厂采用FP8混合精度训练，计算效率达行业顶尖水平[55][58] 未来方向 - 世界模型将作为实时反馈系统，持续提升基座模型能力[36][41] - 技术将扩展至AI机器人、飞行汽车等新领域[43] - 从"软件开发汽车"转向"AI开发汽车"，建立全链路自研体系[61][62] - 年内G7将推出重大新功能，持续进化AI能力[65]

小鹏汽车(US:XPEV)

端到端智能驾驶

小鹏自动驾驶基座模型

端到端智能驾驶

小鹏自动驾驶基座模型

本周精华总结：谷歌AI的进阶之路：从技术积累到发现新知的未来探索

老徐抓AI趋势· 2025-06-15 03:41

谷歌AI技术发展历程 - 谷歌母公司Alphabet采用创新组织架构将Google、DeepMind、Isomorphic Labs等子公司独立运营避免传统业务束缚创新业务 [1] - DeepMind创始人戴密斯·哈萨比斯具有国际象棋背景和剑桥计算机专业学历团队开发出AlphaGo击败围棋大师李世石 AlphaFold预测蛋白质结构获诺贝尔化学奖 [1] 谷歌AI技术优势 - 谷歌在大语言模型(Transformer架构)领域技术积累深厚已开始向超越OpenAI方向发展 [2] - 谷歌AI具备"发现新知识"的创新能力如AlphaGo第37手新招 AlphaFold解开数亿蛋白质结构 AlphaProof证明数学定理 AlphaEvolve优化50多年数学运算问题 [2] - 谷歌与特斯拉是最接近实现"世界模型"的公司分别依托YouTube视频数据和车辆摄像头现实数据多维数据训练远超单一文本数据 [3] 谷歌AI战略方向 - 谷歌早期因担心AI错误率影响用户体验未快速推向市场 OpenAI的ChatGPT爆红验证市场需求后迅速跟进 [2] - 谷歌未来目标是实现通用人工智能(AGI) DeepMind团队定义AGI为机器具备人脑般的通用智能能力正在逐步弥补"认知漏洞"向真正通用智能靠近 [2] - 谷歌AI在智能发现、模型完善和通用智能方向具备突破潜力有望保持行业领先地位 [3]

通用人工智能（AGI）

大语言模型

Software & Internet

通用人工智能（AGI）

大语言模型

Software & Internet

“多模态方法无法实现AGI”

AI前线· 2025-06-14 04:06

生成式人工智能与AGI路径 - 当前生成式AI模型的成功被误认为通向AGI的路径但实际是硬件规模扩展的结果而非智能问题的解决方案 [1] - 多模态方法通过组合模块化网络模拟通用智能但本质是拼凑式策略难以实现人类水平AGI [1] - 真正的AGI需优先考虑具身性和环境互动而非以模态为中心的拼合方式 [1] AGI的核心定义 - 完整AGI定义必须包含解决物理现实问题的能力如修理汽车、准备食物等具体任务 [2] - AGI需要基于物理世界模型的智能形式而非仅符号操作能力 [2][4] 大型语言模型的局限性 - LLMs通过预测token的启发式集合模拟理解而非真实世界模型 [4] - 语言描述无法推断物理世界完整状态奥赛罗游戏等符号领域任务与物理任务存在本质差异 [6] - LLMs将语义问题简化为语法规则缺乏对物理世界的常识性理解 [8][10] 规模至上主义的争议 - 规模最大化方法在LLMs/LVMs中有效但缺乏具身数据难以直接应用于AGI [17] - 多模态建模人为切断模态间自然联系联合嵌入空间简化了真实概念关系 [17][18] - 当前模态划分可能阻碍基础认知结构的发现人类认知由重叠结构引导多模态处理 [19] AGI的未来发展方向 - 需设计自然涌现多模态处理的架构而非预设模态结构 [21] - 应通过具身互动过程融合模态使用统一感知/行动系统处理文本、图像、动作等 [23] - 关键挑战在于概念整合而非数学能力通用函数逼近器已具备但需系统性架构设计 [23] 认知科学对AI的启示 - 人类语言理解依赖独立认知系统融合语法正确性不等于语义合理性 [10][12] - 语义学本质是理解世界本质而LLMs仅通过语法规则模拟表面关联 [11][12] - 人类概念形成具有灵活性能从少数样本创造新概念当前模型仅复制已有概念结构 [20]

人工通用智能（AGI）

大型语言模型（LLM）

多模态方法

人工通用智能（AGI）

大型语言模型（LLM）

多模态方法