Workflow
世界模型
icon
搜索文档
北大卢宗青:现阶段世界模型和 VLA 都不触及本质|具身先锋十人谈
雷峰网· 2025-06-20 11:54
核心观点 - 互联网视频数据是唯一可以规模化(scalable)的具身智能发展路径,通过标注人类动作数据训练模型是通向通用人工智能(AGI)的关键[1][6][25] - 当前多模态模型缺乏与世界物理交互的能力,需通过海量人类运动视频数据建立动作与世界的关联[2][19][29] - 公司技术路线与主流VLA/世界模型方案存在本质差异,坚持从人类行为数据预训练构建统一解决方案[5][55][56] 技术路线 - **数据采集**:已标注1500万条互联网视频中人类关节动作数据,聚焦全身运动控制与第一人称手部操作[6][28][34] - **模型架构**:基于语言模型backbone加入多模态信息,未来可能探索纯视频预训练模型[42][55] - **训练方法**:通过人类动作先验知识缩小状态-动作空间搜索范围,避免强化学习的无效遍历[29][30] - **硬件适配**:专注人形机器人/灵巧手形态,可向下兼容夹爪/轮式机器人[31][33] 行业竞争分析 - **主流方案缺陷**: - 遥操作/真机数据采集成本高且难以复用[33] - 自动驾驶系世界模型仅适用于建图导航,无法预测物理交互结果[45][48] - VLA方案在gripper形态有效但未触及人形机器人本质问题[53][57] - **差异化优势**: - 数据规模领先(1500万vs竞品数百条)[28] - 动作级标注精度(20+关节自由度vs物体轨迹分析)[25] - 预训练范式创新(action数据前置学习vs VLM+action head)[55] 公司发展 - **融资情况**:获联想之星/星连资本数千万人民币天使轮[9] - **团队规模**:5名全职+20名实习生,核心成员具备多年模型研究经验[76][78] - **产品规划**: - 第一代模型Being-M0定位验证性产品[73] - 运动控制模型将率先scale up至1.0版本[74] - 第二代模型Beyond系列代表全球领先水平[70] - **商业化节奏**: - 2-3年实现技术规模化[81] - 短期无商业化压力,保持非营利研究属性[64][65] - 长期目标2C通用机器人[83] 行业趋势判断 - 具身智能发展受限于视频数据贫乏,需突破语言模型依赖文字富矿的路径依赖[9][35] - 当前投资环境存在"非共识投资"与"确定性偏好"的矛盾,但机器人硬件进步带来信心[66] - 全球竞争格局下,技术路线终局思维比短期商业化更重要[67]
Midjourney发布视频模型:不卷分辨率,但网友直呼画面惊艳
虎嗅APP· 2025-06-20 09:47
以下文章来源于APPSO ,作者发现明日产品的 APPSO . AI 第一新媒体,「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative AI 本文来自微信公众号: APPSO (ID:appsolution) ,作者:appso,原文标题:《这个AI生图神器首次发布视频模型:不卷分辨率,但网友直呼画面 惊艳超预期|附提示词》,题图来自:AI生成 面对迪士尼和环球影业的版权诉讼,老牌文生图"独角兽"Midjourney没有放慢节奏,反而于今天凌晨顶着压力推出了首个视频模型V1。 调色精准、构图考究、情绪饱满,风格依旧在线。 不卷分辨率、不卷长镜头、Midjourney卷的,是一股独有的氛围感和审美辨识度。Midjourney是有野心的,目标剑指"世界模型",但目前略显"粗糙"的 功能设计,能否让其走得更远,恐怕还是一个未知数。 你卷你的分辨率,我走我的超现实。 Midjourney一直以奇幻、超现实的视觉风格见长,而从目前用户实测的效果来看,其视频模型也延续了这一美学方向,风格稳定,辨识度高。 省流版如下: 上传或生成图像后点击"Animate"即可,单次任务默认输出4段5秒视频 ...
本周精华总结:Meta发布世界模型,下一个ChatGPT时刻何时来临?
老徐抓AI趋势· 2025-06-19 16:47
Meta世界模型技术突破 - Meta发布"世界模型"标志着AI技术从文本图像理解向物理世界规律认知的跃迁 核心在于让AI掌握重力 流体力学等物理常识 例如理解"拧开盖子才能倒水"的因果关系[1] - 当前AI物理常识准确率不足人类50% 但预示巨大进步空间 传统大语言模型在现实操作推理存在明显短板[1] - 世界模型将推动自动驾驶质变 需实现类似人类司机的场景预判能力 如识别被遮挡行人潜在位置[1] 量子计算与科技革命 - 量子计算发展临近拐点 英伟达CEO黄仁勋欧洲演讲指出该技术将加速AI与科研突破 未来几年可能涌现蒸汽机级别的颠覆性创新[2] - 科技革命节奏持续加快 全球经济和社会结构面临深刻重构 世界模型 自动驾驶 量子计算构成关键创新三角[2] 生产力变革与投资机会 - 成熟世界模型将重塑运输 物流 公共交通行业生产力 技术领先企业有望获得超额市场收益[2] - 建议重点关注世界模型 自动驾驶 量子计算三大领域的产业布局动态 把握技术商业化窗口期[2] 会员服务推广 - 提供特斯拉 AI领域投资信息差分析服务 年度会员限时优惠价1199元 附赠线下活动门票或凯文凯利未来学著作[4]
学习端到端大模型,还不太明白VLM和VLA的区别。。。
自动驾驶之心· 2025-06-19 11:54
视觉语言模型在自动驾驶领域的应用 - 大模型技术正在智能驾驶领域快速落地,VLM(视觉语言模型)和VLA(视觉语言动作模型)成为关键技术方向 [2] - VLM侧重基础能力如检测、问答、空间理解和思维链推理,VLA更关注动作生成如轨迹预测 [4] - 学习路径建议先掌握VLM再扩展到VLA,VLM结合扩散模型可实现多模态轨迹预测 [4] 技术社区与资源 - 知识星球提供自动驾驶全栈学习路线图、硬件/代码资料及行业招聘信息,已吸引华为天才少年等专家加入 [4] - 社区覆盖四大板块:技术分类汇总、顶级学者直播、求职资源、问题解答,形成"课程+硬件+问答"闭环 [5] - 目标3年内建成万人规模的智能驾驶与具身智能社区,已与多家企业建立学术-产品-招聘全链路合作 [4] 前沿技术方向与数据集 视觉大语言模型 - 汇总10个Awesome资源库,涵盖智能交通LLM、AIGC、CLIP提示学习、模型安全等领域 [6] - 基础理论包括预训练、迁移学习、知识蒸馏三大方向 [7][10][11] 数据集规模 - VLM预训练数据集从SBU Caption(2011年1M图文)发展到LAION5B(2022年5B图文) [13] - 自动驾驶专用数据集包括NuScenes(2020年多模态)、Waymo Open Dataset(2020年)等19个主流数据集 [19] 关键技术应用 智能交通系统 - 2022-2023年出现多模态车辆检索系统,支持自然语言查询跟踪车辆 [21] - Tem-adapter等模型将图文预训练迁移到视频问答任务 [21] 自动驾驶感知 - VLPD(2023)通过视觉语言自监督提升行人检测 [22] - OpenScene(2023)实现开放词汇的3D语义分割 [22] 轨迹预测与规划 - GPT-Driver(2023)、DRIVEVLM(2024)等模型将LLM融入运动规划 [23] - 扩散模型应用显著,如DiffusionDrive(端到端驾驶)、MagicDriveDiT(高分辨率视频生成) [37] 世界模型研究进展 - 2024年涌现DriveWorld、Vista等模型,实现4D场景理解与高保真可控生成 [30] - 核心突破包括:InfinityDrive突破时间泛化限制、DriveDreamer4D增强4D重建 [30] - 17篇顶会论文覆盖物理仿真、多模态LLM融合等方向 [28][29][30] 端到端自动驾驶 - 两大资源库汇总200+篇论文,跟踪E2E驾驶最新进展 [39][43] - 关键挑战包括长尾分布处理、多任务学习、安全验证等 [43][53] - SparseAD(稀疏query范式)、GenAD(新范式)等2024年新方法提升性能25% [46]
Midjourney发布视频模型:不卷分辨率,但网友直呼画面惊艳
虎嗅· 2025-06-19 06:56
产品发布 - Midjourney推出首个视频模型V1,具备调色精准、构图考究、情绪饱满的特点,延续了其独特的超现实视觉风格[1][2][8] - 视频模型支持上传或生成图像后点击"Animate"按钮转换,单次任务默认输出4段5秒视频,最长可扩展至21秒[5][29][30] - 提供手动和自动两种模式,用户可通过提示词设定画面效果,并选择低运动或高运动选项以适应不同场景需求[5][33][37] 技术表现 - 视频生成保持高辨识度的美学风格,如博主@EccentrismArt展示的坠落少年动态流畅,城市街区空间扭曲效果稳定[9][10] - 成功处理复杂场景如极光雪地车灯的多重光源干扰,雪地粒子、运动模糊等要素一致性较强[19][22] - 静物表现力方面,奶油动态自然,杯体旋转时标签未扭曲,但写实风格中孩童左手存在不协调问题[21][24] 商业模式 - 视频功能纳入现有订阅体系(10美元/月),GPU消耗为图像任务的8倍,但生成长视频时每秒成本与图像生成接近[11][36] - 相比竞品如OpenAI Sora(20美元/月起)、Google Veo(249.99美元/月),性价比处于第一梯队[38] - 面向Pro用户测试"Relax Mode"以降低算力消耗,其他用户仍按GPU时间和会员等级计费[38] 功能局限 - 仅支持480p分辨率,长宽比自动适配图像原尺寸(如1:1输出624×624像素,16:9输出832×464像素)[11][43][44] - 缺乏音效、时间轴编辑、片段过渡及API接入能力,片段间为跳切衔接难以控制剧情节奏[40][41][42] - 官方承认当前版本属早期探索阶段,重在易用性和可扩展性[45] 战略规划 - 视频模型是构建"世界模型"的第二步,后续将推出3D模型与实时系统,最终整合图像生成、动画控制、3D导航与实时渲染[46][47][48] - 产品路线图分为四阶段:图像模型→视频模型→3D模型→实时模型,最终实现交互式内容生产体系[48][49]
Midjourney 推出其首个图生视频模型 V1:延续美学风格,目标是构建「世界模型」
Founder Park· 2025-06-19 05:52
Midjourney视频生成模型V1发布 - 推出高性价比、易于上手的视频生成功能,定位为有趣、易用、美观且价格亲民 [1] - 采用"图像转视频"(Image-to-Video)工作方式,用户可生成满意图片后点击"Animate"按钮动画化 [5] - 支持上传外部图片并通过输入运动提示词生成视频 [6] 产品功能特点 - 提供自动和手动两种动画模式:自动模式由AI生成运动提示,手动模式可精确描述运动方式 [7] - 支持两种运动幅度设置:低运动适合静态场景,高运动适合动态场景但更容易出错 [11] - 视频可被"扩展",每次延长约4秒,最多延长四次,目前分辨率480p [8] 定价与商业模式 - 入门价格每月10美元,初期仅限网页版使用 [9] - 一个视频任务成本约等于8个图像任务,生成四个5秒视频,官方称价格比市场同类产品便宜超过25倍 [12] - Pro用户可测试"放松模式"无限量生成视频,未来一个月将根据使用情况调整价格 [13] 公司战略愿景 - 视频模型是实现"实时模拟世界"愿景的第一步 [1] - 最终目标是构建能够实时交互的开放世界模拟系统,未来将继续开发3D模型、实时渲染模型等模块并整合 [13] 市场推广 - 通过7000人规模的"AI产品市集"社群进行推广,提供最新AI新品资讯和产品曝光渠道 [4]
第四范式(06682):2025Q1业绩超预期,Agent业务高歌猛进带动公司进入高速增长轨道
海通国际证券· 2025-06-17 11:33
报告公司投资评级 - 维持“优于大市”评级,给予公司2025年6倍PS估值,对应目标价为90.84港元 [4] 报告的核心观点 - 宏观承压下公司25Q1营收增速逆势高速增长,Agent加持下业务凸显,全年转盈趋势确定,2B+2C双轮驱动下长期增长可期 [1] - 预测公司2025 - 2027年营收为68.84/88.63/112.76亿元;EPS为0.11/0.56/1.19元 [4] 根据相关目录分别进行总结 财务摘要 |项目|2022A|2023A|2024A|2025E|2026E|2027E| |----|----|----|----|----|----|----| |营业收入(百万元)|3,087.63|4,206.95|5,260.65|6,883.82|8,862.78|11,275.54| |(+/-)%|52.73%|36.38%|25.13%|30.85%|28.75%|27.22%| |毛利润(百万元)|1,486.65|1,979.55|2,244.83|2,925.62|3,811.00|4,904.86| |净利润(百万元)|-1,644.90|-908.72|-268.79|51.96|277.74|589.43| |(+/-)%|7.88%|44.76%|70.42%|119.33%|434.56%|112.22%| |PE|-|-17.93|-87.84|435.26|81.43|38.37| |PB|-|4.37|4.69|4.42|4.18|3.77|[3] 业绩表现 - 2025Q1营收10.77亿元,同比+30.1%;毛利润4.44亿元,同比+30.1%;毛利率41.2%;标杆用户数达59个,标杆用户平均营收1167万元,同比+31.3% [4] - 2025Q1先知AI平台营收8.05亿元,同比+60.5%;SHIFT智能解决方案业务营收2.12亿元,同比 - 14.9%;式说AIGS服务业务营收为0.6亿元,同比 - 22.0% [4] 业务发展 - 2025Q1先知AI平台推出AI Agent全流程开发平台,企业级Agent已在超14个行业落地 [4] - 公司升级为范式集团,成立消费电子板块Phancy,实现2B+2C双轮驱动 [4] 可比公司估值 |股票代码|股票简称|收盘价(元)|市值(亿元)|营业收入(亿元)|PS(倍)| |----|----|----|----|----|----| | | | | |2024A|2025E|2026E|2025E|2026E| |688207|格灵深瞳|13.61|35|1.17|-|-|-|-| |688088|虹软科技|43.70|175|8.15|10.02|12.51|17|14| |0268.HK|金蝶国际|12.46|406|62.56|71.88|82.81|6|5| |CRM.N|Salesforce|283.42|2725|378.95|413.20|453.26|7|6| | | |平均值| | | | |10|8|[6]
首个转型AI公司的新势力,在全球AI顶会展示下一代自动驾驶模型
机器之心· 2025-06-17 04:50
核心观点 - L3级别智能驾驶的关键在于大算力、大模型、大数据[1] - 端到端智能驾驶正沿着大模型Scaling Laws的路径快速发展[2] - 小鹏G7作为全球首款L3级算力AI汽车,搭载2200TOPS算力芯片和VLA+VLM模型,实现行业突破[3][4][5] - 自动驾驶基座模型通过云端训练+车端蒸馏的技术路线,显著提升复杂场景处理能力[20][27][28] - 公司验证了自动驾驶领域的Scaling Laws,并建成万卡智算集群支持模型迭代[49][50] 技术突破 - 小鹏G7首发智驾大脑+小脑VLA-OL模型,首次加入运动型决策能力[4] - VLM视觉大模型作为车辆理解世界的AI中枢,支持多语言交互和主动服务[5] - 自动驾驶基座模型参数达720亿,训练数据超2000万条30秒视频片段[20] - 模型具备链式推理(CoT)能力,可处理训练中未见的复杂场景[21][24] - 车端token处理量压缩70%,流式多处理器利用率达85%[60][63] 行业地位 - 小鹏在CVPR 2025与Waymo、英伟达等顶流同台,展示技术领先性[6][13] - 公司是国内首个验证自动驾驶Scaling Laws的团队[49] - 建成汽车行业首个万卡智算集群,算力达10 EFLOPS,迭代周期快至5天[50][51] - 云端模型工厂采用FP8混合精度训练,计算效率达行业顶尖水平[55][58] 未来方向 - 世界模型将作为实时反馈系统,持续提升基座模型能力[36][41] - 技术将扩展至AI机器人、飞行汽车等新领域[43] - 从"软件开发汽车"转向"AI开发汽车",建立全链路自研体系[61][62] - 年内G7将推出重大新功能,持续进化AI能力[65]
本周精华总结:谷歌AI的进阶之路:从技术积累到发现新知的未来探索
老徐抓AI趋势· 2025-06-15 03:41
谷歌AI技术发展历程 - 谷歌母公司Alphabet采用创新组织架构 将Google、DeepMind、Isomorphic Labs等子公司独立运营 避免传统业务束缚创新业务 [1] - DeepMind创始人戴密斯·哈萨比斯具有国际象棋背景和剑桥计算机专业学历 团队开发出AlphaGo击败围棋大师李世石 AlphaFold预测蛋白质结构获诺贝尔化学奖 [1] 谷歌AI技术优势 - 谷歌在大语言模型(Transformer架构)领域技术积累深厚 已开始向超越OpenAI方向发展 [2] - 谷歌AI具备"发现新知识"的创新能力 如AlphaGo第37手新招 AlphaFold解开数亿蛋白质结构 AlphaProof证明数学定理 AlphaEvolve优化50多年数学运算问题 [2] - 谷歌与特斯拉是最接近实现"世界模型"的公司 分别依托YouTube视频数据和车辆摄像头现实数据 多维数据训练远超单一文本数据 [3] 谷歌AI战略方向 - 谷歌早期因担心AI错误率影响用户体验未快速推向市场 OpenAI的ChatGPT爆红验证市场需求后迅速跟进 [2] - 谷歌未来目标是实现通用人工智能(AGI) DeepMind团队定义AGI为机器具备人脑般的通用智能能力 正在逐步弥补"认知漏洞"向真正通用智能靠近 [2] - 谷歌AI在智能发现、模型完善和通用智能方向具备突破潜力 有望保持行业领先地位 [3]
“多模态方法无法实现AGI”
AI前线· 2025-06-14 04:06
生成式人工智能与AGI路径 - 当前生成式AI模型的成功被误认为通向AGI的路径 但实际是硬件规模扩展的结果而非智能问题的解决方案 [1] - 多模态方法通过组合模块化网络模拟通用智能 但本质是拼凑式策略难以实现人类水平AGI [1] - 真正的AGI需优先考虑具身性和环境互动 而非以模态为中心的拼合方式 [1] AGI的核心定义 - 完整AGI定义必须包含解决物理现实问题的能力 如修理汽车、准备食物等具体任务 [2] - AGI需要基于物理世界模型的智能形式 而非仅符号操作能力 [2][4] 大型语言模型的局限性 - LLMs通过预测token的启发式集合模拟理解 而非真实世界模型 [4] - 语言描述无法推断物理世界完整状态 奥赛罗游戏等符号领域任务与物理任务存在本质差异 [6] - LLMs将语义问题简化为语法规则 缺乏对物理世界的常识性理解 [8][10] 规模至上主义的争议 - 规模最大化方法在LLMs/LVMs中有效 但缺乏具身数据难以直接应用于AGI [17] - 多模态建模人为切断模态间自然联系 联合嵌入空间简化了真实概念关系 [17][18] - 当前模态划分可能阻碍基础认知结构的发现 人类认知由重叠结构引导多模态处理 [19] AGI的未来发展方向 - 需设计自然涌现多模态处理的架构 而非预设模态结构 [21] - 应通过具身互动过程融合模态 使用统一感知/行动系统处理文本、图像、动作等 [23] - 关键挑战在于概念整合而非数学能力 通用函数逼近器已具备但需系统性架构设计 [23] 认知科学对AI的启示 - 人类语言理解依赖独立认知系统融合 语法正确性不等于语义合理性 [10][12] - 语义学本质是理解世界本质 而LLMs仅通过语法规则模拟表面关联 [11][12] - 人类概念形成具有灵活性 能从少数样本创造新概念 当前模型仅复制已有概念结构 [20]