Workflow
世界模型
icon
搜索文档
美团LongCat-Video正式发布并开源 视频推理速度提升至10.1倍
证券日报网· 2025-10-27 08:06
模型发布与战略意义 - 公司发布并开源LongCat-Video视频生成模型,在文生视频和图生视频基础任务上达到开源最先进水平 [1] - 模型通过原生视频续写任务预训练,实现分钟级长视频连贯生成,保障跨帧时序一致性与物理运动合理性 [1] - 视频生成模型被视为构建“世界模型”的关键路径,是探索“世界模型”的第一步,未来将融入公司自动驾驶、具身智能等深度交互业务场景 [1] 核心技术特点 - 模型基于Diffusion Transformer架构,通过“条件帧数量”实现任务区分,原生支持文生视频、图生视频和视频续写三大核心任务,形成完整任务闭环 [2] - 依托视频续写预训练,模型可稳定输出5分钟级别长视频且无质量损失,从根源规避色彩漂移、画质降解、动作断裂等行业痛点 [2] - 结合块稀疏注意力与条件token缓存机制,大幅降低长视频推理冗余,即便处理93帧及以上长序列也能兼顾效率与生成质量稳定 [2] - 通过二阶段粗到精生成、块稀疏注意力和模型蒸馏三重优化,视频推理速度提升至10.1倍,实现效率与质量的最优平衡 [2] 模型性能评估 - 136亿参数的视频生成基座模型在文生视频和图生视频两大核心任务中,综合性能均达到当前开源领域最先进水平 [3] - 在文本对齐度、运动连贯性等关键指标上展现显著优势,性能通过文本-视频对齐、视觉质量、运动质量、整体质量四大维度评估 [3] - 在VBench等公开基准测试中,LongCat-Video在参评模型中整体表现优异 [3]
马斯克「世界模拟器」首曝,1天蒸馏人类500年驾驶经验,擎天柱同脑进化
36氪· 2025-10-27 07:34
核心技术:世界模拟器 - 公司发布由神经网络驱动的“世界模拟器”,能够生成逼真的虚拟驾驶环境用于测试和训练[1] - 该模拟器可基于初始视频片段,合成多视角、连续长达6分钟的驾驶画面,帧率为24帧/秒[2] - 模拟器能处理长尾场景,如行人横穿马路和车辆加塞,并在虚拟世界中以对抗性方式进行反复试炼[2] 技术架构:端到端神经网络 - 公司采用“端到端”神经网络方案,直接处理来自多个摄像头、车辆运动学信号、音频、地图等原始数据,并输出方向盘和油门/刹车的控制指令[4][5][7] - 该方案相比传统的模块化(感知-预测-规划)方法具有根本优势,包括能隐式学习人类驾驶价值观、消除模块间信息损失、具备更好的可扩展性以及符合Scaling Law规律[9][13][16][18][19] - 神经网络需处理高达20亿个输入信息单元(token),并将其压缩为2个输出指令,公司通过日均相当于人类500年驾驶经验的海量数据来训练模型,以学习正确的因果关系而非偶然相关性[22][23][25] 系统能力与可解释性 - 系统具备可解释性,能输出被称为“中间token”的思考过程,并利用“生成式高斯泼溅”技术基于摄像头输入生成新视角的3D场景,全程运行时间约220毫秒[33][34][38][40] - 人工智能还能用自然语言解释其决策,例如在复杂路况下(如雨天路滑)能对“二阶效应”进行预判,提前减速[29][30][40] 应用扩展与战略布局 - 公司将其为自动驾驶汽车开发的同一套AI大脑和世界模拟器技术,无缝迁移至人形机器人“擎天柱”项目,用于模拟其在物理世界中的导航与交互[2][3][47] - 公司的战略野心超越了造车,旨在打造一套可解决通用物理世界交互问题的底层AI引擎,汽车被视为收集数据和验证技术的首个应用载体[47]
美团LongCat-Video视频生成模型发布:可输出5分钟长视频
凤凰网· 2025-10-27 07:32
公司技术发布 - 美团LongCat团队正式发布LongCat-Video视频生成模型 [1] - 模型基于Diffusion Transformer架构,支持文生视频、图生视频及视频续写三类核心任务 [1] - 模型宣称在开源模型中达到先进水平 [1] 模型技术规格 - 模型可生成720p分辨率、30帧率的高清视频 [1] - 模型能够原生生成长达5分钟的连贯视频内容 [1] - 模型通过视频续写预训练、块稀疏注意力等机制解决长视频生成中的画面断裂、质量下降问题 [1] - 模型参数量为136亿 [1] 模型性能与效率 - 模型采用二阶段生成、块稀疏注意力及模型蒸馏等技术,推理速度提升超过10倍 [1] - 模型在VBench等公开测试中表现出较强的文本对齐与运动连贯性 [1] 技术应用与战略意义 - 模型作为构建"世界模型"的技术尝试,未来或可应用于自动驾驶模拟、具身智能等长时序建模场景 [1] - 该模型的发布标志着美团在视频生成与物理世界模拟领域迈出重要一步 [1]
美团视频生成模型来了!一出手就是开源SOTA
量子位· 2025-10-27 05:37
核心观点 - 美团开源其最新视频生成模型LongCat-Video,参数规模为13.6B,支持文生视频、图生视频及视频延长,生成视频时长可达数分钟,整体质量在开源模型中达到SOTA水平 [1][8] - 该模型在物理世界建模和理解能力上表现突出,部分核心维度可与谷歌闭源模型Veo3媲美,并采用允许商用的MIT协议 [8][9][64] - 此次发布是美团在AI领域系列布局的最新动作,标志着“跨界”AI成为公司新常态 [65][68][70] 模型功能与性能 - **文生视频**:可生成720p、30fps高清视频,语义理解与视觉呈现能力达开源SOTA级别,尤其在足球、体操等复杂动态场景中表现出对真实世界的高度理解能力 [15][16][18] - **图生视频**:能够保留参考图像的主体属性、背景关系与整体风格,在一致性挑战中表现稳定,例如生成机器人工作vlog时桌面环境未发生异变 [18][22][23][24] - **视频延长**:为核心差异化能力,可基于多帧条件帧续接视频内容,稳定输出长达5分钟的视频而不会出现颜色漂移或质量下降,支持像制作连续剧一样生成完整情节 [32][33][38][48] - **性能基准**:在内部测试中,文生视频整体质量超越PixVerse-V5和Wan2.2-T2V-A14B;在VBench 2.0公开测试总得分位列第三(62.11%),在常识性维度(运动合理性、物理定律遵循)上处于领先优势 [62][63][64] 技术创新与架构 - **统一架构设计**:以Diffusion Transformer(DiT)为框架,集成文生视频、图生视频和视频续生三大任务于单一13.6B参数模型中,通过条件帧数量区分任务 [41][42][44][47] - **长视频生成能力**:通过直接在视频续生任务上预训练,从源头解决累积误差问题,并支持交互式生成,允许用户为不同片段设置独立指令 [45][46][48][49] - **效率优化**:采用从粗到精的生成范式,结合块稀疏注意力将计算量降至原生10%以下,并通过CFG蒸馏和一致性模型蒸馏将采样步数从50步缩减至16步,效率提升超10倍 [51][52][53] - **训练优化**:使用组相对策略优化(GRPO)算法,并采用视觉质量(VQ)、运动质量(MQ)和文本-视频对齐度(TA)三类专用奖励模型进行多奖励加权融合训练 [54][56][57][58][59] 公司AI战略布局 - LongCat-Video是美团龙猫大模型系列的最新成员,此前公司已陆续开源了总参数560B的基础模型LongCat-Flash-Chat、具备深度思考能力的LongCat-Flash-Thinking以及语音模型LongCat-Audio-Codec [65][66][68][70] - 公司还专为外卖送餐、餐厅点餐等复杂现实生活场景打造了Agent评测基准VitaBench,系统性衡量Agent能力 [70] - 一系列动作表明,AI正成为公司核心战略的重要组成部分,跨界布局已成常态 [65][70]
特斯拉世界模拟器亮相ICCV!VP亲自解密端到端自动驾驶技术路线
量子位· 2025-10-27 05:37
世界模拟器技术 - 特斯拉在ICCV顶会上推出世界模拟器 可生成看似真实的驾驶场景用于自动驾驶测试 [1][4] - 模拟器功能包括生成新的挑战场景 如右侧车辆突然连并两条线闯入预设路径 以及让AI在已有场景中执行避障任务 [5][7] - 生成的场景视频不仅用于自动驾驶模型训练 还可作为电子游戏供人类体验 [9] 端到端自动驾驶技术路线 - 特斯拉自动驾驶副总裁明确表示端到端AI是自动驾驶的未来 该方法利用多摄像头图像、运动信号、音频、地图等数据直接生成控制指令 [12][13][17] - 与模块化方法相比 端到端优势包括更易从数据中学习人类价值观、通过梯度整体优化网络、可扩展性更强以及具有确定性延迟 [17][18] - 端到端架构面临评估难题 特斯拉世界模拟器通过合成未来状态来连接策略模型 以闭环方式评估性能并支持强化学习 [22][23][24] 技术挑战与解决方案 - 端到端系统面临维数灾难 输入信息可达20亿Token 需精简为2个控制动作 [26][27][28] - 公司通过庞大车队每日收集相当于500年驾驶总和的数据 并利用数据引擎筛选高质量样本以提升模型泛化能力 [29][30] - 针对可解释性问题 模型可生成中间Token用作推理Token 生成式高斯泼溅技术可建模动态物体并与端到端模型联合训练 [32][35] 行业技术路线分歧 - 业界存在VLA和世界模型两条端到端自动驾驶技术路线分歧 华为、蔚来代表世界模型路线 元戎启行、理想选择VLA路线 [38][39] - VLA路线支持者认为该范式可利用互联网海量数据积累常识 并通过语言能力进行长时序推理 有观点认为不用VLA是因算力不足 [39][40] - 世界模型支持者如华为车BU CEO认为VLA路径看似取巧不能真正实现自动驾驶 特斯拉方案因历史选择正确而受关注 [41][43][44]
美团LongCat团队发布并开源LongCat-Video视频生成模型
新浪财经· 2025-10-27 05:24
公司技术发布 - 美团LongCat团队于10月27日发布并开源视频生成模型LongCat-Video [1] - 该模型在文生视频和图生视频基础任务上达到开源SOTA水平 [1] - 模型通过原生视频续写任务预训练,实现分钟级长视频的连贯生成 [1] - 模型优势在于保障跨帧时序一致性与物理运动合理性,在长视频生成领域具备显著优势 [1] 公司战略方向 - 发布视频生成模型是公司探索“世界模型”的第一步 [1] - 未来LongCat模型将凭借精准重构真实世界运行状态的能力,融入自动驾驶、具身智能等深度交互业务场景 [1] - 该技术旨在成为公司更好连接“比特世界”和“原子世界”的技术基础 [1]
美团开源LongCat-Video支持高效长视频生成,迈出“世界模型”探索第一步
经济观察网· 2025-10-27 04:01
公司技术发布 - 美团LongCat团队于10月27日发布并开源LongCat-Video视频生成模型 [2] - 该模型是一个基于Diffusion Transformer架构的多功能统一视频生成基座,原生支持文生视频、图生视频和视频续写三大核心任务 [5] - 模型依托视频续写任务预训练,可稳定输出5分钟级别的长视频且无质量损失,保障跨帧时序一致性与物理运动合理性 [2][5] 技术性能与优势 - 模型在文生视频、图生视频基础任务上的综合性能达到开源领域最先进水平 [2][9] - 通过结合块稀疏注意力与条件token缓存机制,模型在处理93帧及以上长序列时能兼顾效率与生成质量稳定 [5] - 针对高分辨率、高帧率视频生成,模型通过三重优化将视频推理速度提升至10.1倍 [6] - 该136亿参数的模型在文本对齐度、运动连贯性等关键指标上展现显著优势 [9] 战略定位与未来应用 - 此次发布的视频生成模型被视为公司探索“世界模型”的第一步 [2] - “世界模型”被业界视作通往下一代智能的核心引擎,旨在让AI理解、预测和重构真实世界 [2] - 未来,该模型计划融入公司持续投入的自动驾驶、具身智能等深度交互业务场景,以更好地连接数字世界与物理世界 [2]
视频推理速度提升至10.1倍!美团 LongCat-Video正式发布并开源
新浪科技· 2025-10-27 02:36
技术发布与成就 - 美团LongCat团队发布并开源了LongCat-Video视频生成模型 [1] - 该模型在文生视频和图生视频基础任务上达到开源SOTA(最先进水平) [1] - 通过原生视频续写任务预训练,实现分钟级长视频连贯生成,保障跨帧时序一致性与物理运动合理性 [1] 技术战略与行业意义 - 视频生成模型被视为构建“世界模型”的关键路径,通过压缩几何、语义、物理等多种形式知识,使人工智能能在数字空间模拟真实世界运行 [1] - 此次发布的模型是公司探索“世界模型”的第一步 [1] - “世界模型”因让人工智能理解、预测和重构真实世界,被业界视作通往下一代智能的核心引擎 [1] 未来应用与业务整合 - LongCat模型未来将融入公司持续投入的自动驾驶、具身智能等深度交互业务场景 [1] - 该技术旨在成为公司更好连接“比特世界”和“原子世界”的技术基础 [1]
精读DeepSeek OCR论文,我远远看到了「世界模型」的轮廓
钛媒体APP· 2025-10-27 02:34
技术性能对比 - DeepSeek OCR模型参数为30亿,在数学公式展开案例中未能识别出“极坐标”,且表格结构识别错误[2] - 参数规模仅9亿的PaddleOCR-VL模型在相同案例中表现优于DeepSeek OCR[2] - 在OCR模型综合性能排名中,DeepSeek-OCR-Gundam-M模型总体得分86.46,低于PaddleOCR-VL的92.56分[2] 技术创新与核心价值 - DeepSeek OCR的核心是DeepEncoder编码器,使用视觉Token对输入上下文信息进行编码,实现了9-10倍文本压缩下96%以上的OCR解码精度,10-12倍压缩下约90%的精度,20倍压缩下仍保持约60%的精度[10] - 该技术实现了连续可调的压缩率,可在压缩率和识别精度之间进行平滑权衡[11] - 模型提出类生物遗忘机制的压缩策略,近期上下文保持高分辨率,远期上下文逐步降低分辨率,模拟人类记忆的自然衰减[12] - 研究探索了解码N个文本Token需要多少个视觉Token的核心问题,证明了AI可以仅用100个视觉Token高精度解压缩出包含1000个文本Token的原文内容,且无需文本分词过程[17] 战略意义与行业影响 - DeepSeek OCR的深层价值在于探索“连续视觉表征压缩”,其研究方向隐隐指向终极追求——“世界模型”[6] - 该技术将大模型的前沿焦点从离散的语言Token重新转向连续视觉表征的视觉Token[6] - 论文证明了AI的主要信息入口可以从语言转向视觉,这种转变效率更高且更符合生物特性[20] - Vision→Text的任务空间完全包含了Text→Text的任务空间,任何文本都可以无损渲染成图像,这种不对称性暗示了将所有输入统一为视觉模态的激进方向[21] - 这一范式为解决长上下文建模中的效率瓶颈、记忆机制设计与多模态融合等核心问题提供了全新思路[22] 实际应用价值 - DeepSeek-OCR具备大规模预训练数据生产能力,可作为大语言模型训练过程中不可或缺的助手,每天可生成数千万页级别的训练数据,显著提升了多模态数据构建效率[15]
LeCun怒揭机器人最大骗局,坦白Llama与我无瓜
36氪· 2025-10-26 09:22
人形机器人行业现状与挑战 - 行业面临从特定任务训练到通用智能的鸿沟,家用机器人实现叠衣服、倒水等任务仍需AI领域取得一系列突破[1] - 行业秘密在于公司尚不知晓如何让机器人变得足够聪明以达到实用级别[21] - 人形机器人拥有40个自由度,可能产生的位姿组合数量超过宇宙原子总数,该问题无法通过编程解决,唯一途径是神经网络[25] 技术路径分歧:世界模型与LLM - Meta首席AI科学家Yann LeCun认为突破核心在于打造可规划的世界模型架构,以学习理解和预测物理世界系统[1] - LeCun指出大语言模型是一条死胡同,仅靠文本训练无法实现人类水平智能,智能源于视觉、听觉、触觉等多模态经验[15] - 四岁儿童通过视觉接收的数据量已相当于所有公开文本训练的最大规模LLM的数据量[15] - LeCun预测未来3-5年内,世界模型会成为AI架构的主流模型,届时头脑清醒的人都不会再用生成式LLM的路子[20] 主要公司动态与战略 - **特斯拉**:公司内部对于如何快速实现通用人形机器人已有非常明确的思路[1];正建设年产百万台Optimus机器人的生产线,目标2026年初推出具备量产意向的V3原型机[26];其神经世界模拟器能够基于当前状态与后续动作直接合成未来状态,该架构将无缝迁移至Optimus机器人[28][31] - **Figure AI**:公司CEO宣称明年就能实现通过语音指令让人形机器人在陌生环境完成各类通用工作[23];强调其机器人所有操作都由神经网络驱动,否认某些公开演示仅为戏剧表演或预设程序[25] - **1X Technologies**:公司发布自研世界模型,该模型允许从相同初始条件出发并行部署不同策略进行直接对比[35][37];公司CEO坦言让机器人进入家庭存在理想与现实的落差,现实环境复杂得离谱[37] 世界模型技术架构 - 世界模型定义为给到时刻t的世界状态及智能体可能动作,以预测动作执行后的环境[16] - 系统配备世界模型后可进行规划,设想连续动作并预测结果,结合代价函数评估任务完成情况,运用优化方法搜索最优动作序列[18] - 环境动力学模型完全通过自监督学习,机器人无需针对特定任务反复训练,能从模拟数据或真实操作中学习动作-结果关系,零样本完成新任务[18][19] - 1X世界模型包含视觉编码器、动作编码器、核心网络及视频与状态价值解码器,通过对成功标签进行监督学习生成的状态价值预测可量化评估输入动作质量[35]