Workflow
世界模型
icon
搜索文档
写了两万字综述 - 视频未来帧合成:从确定性到生成性方法
自动驾驶之心· 2025-07-08 12:45
未来帧合成(FFS)综述核心观点 - FFS任务目标是从历史帧或单帧生成未来帧序列,强调合成能力并扩展视频预测范围[1] - 领域经历了从确定性方法向生成性方法的演变,生成模型在产生逼真多样化预测中的作用日益重要[1] - 关键挑战包括平衡像素保真度与场景理解、评估指标设计、长期合成困难等[5] - 未来方向在于预测技术与生成技术的协同整合,实现更稳健连贯的合成[4] 研究方法分类 确定性范式 - 采用CNN、RNN、LSTM等架构进行像素级拟合,但易产生模糊输出[9] - Transformer架构逐渐挑战传统方法主导地位,如ViT、Swin Transformer等[9] - 优化PSNR/SSIM等指标会导致模型对多个未来取平均[10] 随机性范式 - 通过随机变量或概率模型建模视频动态不确定性[10] - 包括VAE、GAN等方法,能产生多样化预测但可能偏离真实值[10] - 面临多样性、视觉保真度和计算效率的平衡挑战[46] 生成性范式 - 优先考虑连贯合理的视频序列而非像素级保真度[10] - 利用扩散模型、LLM等先进生成技术[10] - 在对象出现/消失等复杂场景表现更优[59] 关键技术进展 架构创新 - 循环网络(PredNet、PredRNN)在时空建模中表现突出但计算复杂[26] - 卷积网络(SimVP)简化架构实现相当性能[29] - Transformer架构(TimeSformer、ViViT)处理时空信息能力显著[9] 运动建模 - 光流方法(DMVFN)在短期预测有效,长期生成仍存挑战[31][33] - 3D高斯表示(GaussianPrediction)等新方法探索运动表示[34] - 内容-运动解耦(LEO、D-VDM)提升逼真度[48] 生成模型 - 扩散模型(Video LDM、SEINE)实现高质量视频生成[60][61] - 基于令牌方法(MAGVIT、VideoPoet)探索LLM在视觉生成的应用[67][69] - 大型模型(HunyuanVideo 13B)展现强大生成能力[63] 应用领域 自动驾驶 - GAIA-1整合多模态LLM和扩散模型提升决策能力[74] - 视觉语义信息利用显著改善行为预测[74] 机器人技术 - GR-1/2显示视频生成预训练大幅提升操作能力[75] - 在动态环境中实现高效路径规划和避障[75] 电影制作 - 生成逼真场景增强叙事连贯性和艺术表达[77] - 可控合成技术(CineMaster)支持精确场景控制[58] 数据集发展 - 数据集复杂性和分辨率持续提升(如HD-VILA-100M)[21] - 高质量高分辨率数据集仍稀缺,限制模型泛化能力[18] - 多模态标注(文本、深度、语义等)成为趋势[21]
独家对话「杭州六小龙」云深处CEO:人形机器人进家干活还要10年
36氪· 2025-07-08 09:18
公司发展历程与融资 - 云深处科技成立于2017年,初期专注于四足机器人硬件和运动控制算法研发,解决稳定性问题[11][14] - 2024年AI大模型技术革新推动机器人稳定性实质跃升,新款轮足机器人山猫M20具备复杂地形适应能力[5][7] - 公司完成近5亿元人民币新一轮融资,由达晨财智、国新基金等联合领投,多家机构跟投[4] 技术突破与算法演进 - 机器人稳定性问题本质是算法问题,传统控制方案依赖简化模型和实时计算,存在延迟问题[14][19] - 技术发展经历三阶段:VMC力控方法→MPC模型预测控制→RL强化学习,强化学习是最大突破[17][18] - 当前采用"世界模型"方向,减少对海量数据依赖,使机器人具备自主判断能力[22][23] 产品应用与商业化 - 四足机器人已应用于电力巡检、应急消防、安防巡逻等场景[5][35][36] - 提出"最后一公里"新概念,与快递平台合作测试配送场景,目标将单日配送量从200单提升至300单[7][40][41] - 2025年下半年计划推出人形机器人,聚焦全身协调和手部操作能力研发[24][25] 行业前景与形态发展 - 人形机器人进入家庭承担家务的终极目标预计还需10年时间[26][28][30] - 四足机器人与人形机器人将长期共存,各自适配不同场景需求[31][32][33] - 未来5年机器人智能化水平将显著提升,具身智能是关键突破方向[44][45] 研发团队与人才策略 - 团队规模扩大,招聘侧重行业经验丰富的市场人才和具备理论+实践能力的研发人才[42][43] - 创始人朱秋国保持高校教授身份,亲自参与技术研发和团队管理[9][27]
感觉捕手
36氪· 2025-07-08 09:04
人工智能与感知智能 - 当前AI系统擅长语言处理但缺乏对物理世界的理解 语言大模型通过词序列共现概率捕捉语义 但无法理解三维空间[21][22] - 世界模型是AI突破方向 通过多视角感知重建三维场景 预测遮挡与运动轨迹 实现物理推理和交互[23][24][27] - 语言大模型与世界模型互补 前者解析意图 后者执行物理操作 二者结合实现"说得明白+做得到"的完整智能[32][34] 智能的本质与进化 - 生物智能通过演化形成高效解决方案 如狗本能选择最优路径 棒球手使用凝视启发法接球 体现"具身认知"原理[41][44][45] - 预测性大脑理论认为智能是大脑-身体-环境统一体 通过最小化预测误差实现优化 不依赖显式计算[47][48][49] - 感知智能具有整体性、预测性、具身性和进化性特征 是超越符号操作的高级认知形式[52][53] 教育理念与认知发展 - 具身学习强调通过身体活动与环境互动培养理解力 挑战传统抽象知识灌输模式[78][79][80] - Taste是高维认知能力 表现为对事物本质的直觉判断 如杨振宁对物理学的鉴赏力 乔布斯的跨领域洞察[54][56][62] - 人类智能的独特性可能被AI超越 但具身体验形成的Taste仍是当前核心优势[71][74][81] 技术前沿与行业趋势 - 神经辐射场(NeRF)等3D视觉技术使AI具备场景重建能力 推动世界模型发展[27] - 多模态Transformer整合文本与3D潜变量 实现语义与空间控制的统一[32] - 莫拉维克悖论揭示感知运动智能的复杂性 是世界模型需攻克的核心难关[75][76]
AI大模型行业专题解读
2025-07-07 00:51
纪要涉及的行业和公司 - **行业**:AI大模型行业、手机应用开发行业、工业视觉质检行业、教育行业、医疗行业 - **公司**:OpenAI、谷歌、英伟达、Meta、阿里、字节跳动、快手、腾讯、小米、昆仑外围、阿里巴巴、弗列耶、波士顿动力、小工机器人、“AI PPT”公司 纪要提到的核心观点和论据 GPT - 5相关 - **技术升级和新功能**:优化推理链条,减少回答问题的不足;以agent编排形式合并多个相关模型;提升多模态理解能力;参数规模提升至3 - 4万亿,推理性价比提高[1][2][5] - **发布时间**:预计2025年下半年发布,也可能延迟到2026年春节前,今年下半年发布概率约60%[1][2][6] - **相比之前版本变化**:推理链条更个性化;多模型合并提供全能体验;多模态理解能力提升;参数规模增大且推理性价比提高;强调通用推理能力[5] OpenAI相关 - **应对C端竞争及定价策略**:C端与其他公司拉开差距,压力小,积极拓展B端业务;定价稳步提升但流量持续增长,计划免费开放基础版功能拉大与国内模型差距[3][4] - **终端定价及趋势**:和其他厂商都会动态调整定价,随着性能提升价格逐步降低;新产品刚推出价格高后续可能下降;通过推出全家桶产品吸引用户[7][8] - **底座模型发布时间**:预计今年下半年发布,11月底至12月初发布概率最大[9] 其他模型相关 - **Grok 4模型**:得分高但需进一步训练迭代;推理速度显著提升;输出能力出色;未来预计升级多模态功能和提高推理速度[10] - **谷歌Vivo视觉模型**:5月发布受海外科技圈关注,实用性和影响力强;整合多项功能简化视频制作流程,数据处理精度高;训练算力庞大,迭代大版本需约2 - 3万张A100显卡;定价高限制广泛应用,月会员费接近1500元,后期可能涨至2000元以上[11][12] - **国内厂商追赶情况**:阿里和字节跳动有望3 - 6个月内开发出类似VIVO3效果90%的产品;国内数据源充足,但算力面临挑战,可优化架构设计实现接近性能效果[13][14] 英伟达相关 - **Cosmos世界模型**:一季度发布,是未来发展重要方向,具有高度复杂性,能提供更全面精确的数据处理能力[15] - **全栈式发展**:从芯片到系统,再到仿真引擎和底层模型全面布局;平台提供数据训练引擎,与Omniverse及相关硬件结合;不断更新定制化数据集,形成生态系统[16][17][19] - **具体进展**:针对机器人端工业控制场景增强适应性;数据仿真版本迭代至5.0;提升边缘算力平台;开源高质量人形机器人数据集[18] 行业发展相关 - **技术进展原因**:2025年AI大模型技术进展显著,国内外技术差距缩小,底层技术升级是主要原因[3] - **发展趋势**:国内外发展趋势不同,国外堆积技术,国内分化为底层技术研发和应用商业化两种路径;未来国内六小龙部分公司可能退出市场,只剩三到四家主要玩家;都在努力提升底层模型能力至90 - 95分水平[23] - **世界模型发展**:发展呈快速迭代和多样化趋势,英伟达、Meta、Google等公司取得显著进展;发展联通物理AI与相关硬件,英伟达走得最全[16][17] AI应用相关 - **端侧场景应用**:应用前景广阔,包括智能机器人、家居设备等;2025年新方法解决端侧硬件相关AI模型问题,推动落地应用[24][25] - **手机应用开发**:进展显著,开发时间大幅缩短;2025年各公司以模型家族形式发布多个小参数模型针对端侧设备;端侧AI提升设备舒适度和能力,相关解决方案企业形成[26] - **垂类模型医疗领域**:2025年3月以来医疗领域对AI需求旺盛;年底到2026年上半年预计公布大量诊断相关大型垂类模型成果[29] - **教育领域**:AI产品在京东等平台销售情况较好,但实际效果和用户买单程度有差距,发展潜力大[30] - **工业视觉质检领域**:应用广泛,企业通过展示数据能理解其功能从而愿意购买;优质工业企业每年AI预算可达数亿元[31] - **生产力提升方面**:应用包括搜索引擎优化、文本处理等,代码生成面向C端和B端;“AI PPT”公司产品体验进展迅速[32] - **ToB场景**:在软件开发、电商客服、财务管理、人力招聘等方面表现较好[33] 幻觉率相关 - **幻觉率水平**:前两类幻觉问题较易解决,好的模型能将其降至5%以下,国内普遍在5% - 15%之间;关系性幻觉问题较难解决,阿里巴巴和Google主流模型准确率40% - 50%[27][28] - **降低方法**:包括训练阶段干预和生成过程中的围栏机制,需大量图文描述数据处理关系性幻觉[28] 其他重要但是可能被忽略的内容 - 机器人可借助人类观察世界的视频数据,通过Brooklyn框架转换为运动轨迹数据进行学习和操作[21] - 世界模型发展中,物理AI与相关硬件领域数据训练量与大语言模型能力差距至少五六倍以上,需要类似Cosmos结构生成数据训练[17]
“反击”马斯克,奥特曼说OpenAI有“好得多”的自动驾驶技术
36氪· 2025-07-07 00:32
OpenAI与特斯拉的竞争动态 - OpenAI CEO山姆·奥特曼与特斯拉CEO马斯克因OpenAI商业化运营产生矛盾,马斯克起诉奥特曼违背创始协议并成立xAI直接竞争[1] - 奥特曼反击称马斯克曾试图掌控OpenAI未果,并可能研发自动驾驶技术挑战特斯拉FSD[1][3] - 奥特曼透露OpenAI拥有"比当前技术好得多"的自动驾驶技术,但未公布具体细节和时间表[3][5] OpenAI自动驾驶技术潜力 - 新技术可能基于Sora视频软件和机器人团队,利用世界模型理解物理世界[6][8][11] - Sora作为世界模型可生成高保真视频,但存在物理原理不完善的问题,可能用于自动驾驶模拟训练[10][11] - 业界认为世界模型是自动驾驶突破关键,需结合物理因果关系理解和预测能力[17][21] 行业技术发展趋势 - 自动驾驶行业正转向"世界模型"开发,如蔚来、小鹏等公司尝试让AI系统模拟人类对世界的理解[11] - 英伟达推出Cosmos世界基础模型,专为物理交互和驾驶环境设计,可能优于Sora的仿真能力[22][24] - AI大牛普遍认为仅靠语言模型不足实现自动驾驶,需结合多模态和世界模型[16][18][19] OpenAI在汽车智能化领域的布局 - 通过投资布局自动驾驶领域,如向Ghost Autonomy投资500万美元(已倒闭),与Applied Intuition合作开发智能座舱[12][14][15] - 2024年重组机器人团队,与Figure公司合作开发人形机器人AI模型,技术可能与自动驾驶相通[24] - 自动驾驶被视为AI应用最具前景场景之一,市场规模达万亿美元级别[7][24]
自动驾驶黄埔军校,一个死磕技术的地方~
自动驾驶之心· 2025-07-06 12:30
自动驾驶技术发展现状 - 自动驾驶技术正处于从辅助驾驶(L2/L3)向高阶无人驾驶(L4/L5)跨越的关键阶段 [2] - 特斯拉的纯视觉方案凭借成本优势和算法革新正在撼动多传感器融合的主流地位 [2] - 激光雷达成本已降至200美元,比亚迪自研体系内价格再降70%,技术红利背后是从业者持续升级的压力 [2] 自动驾驶人才市场变化 - 传统激光雷达感知算法工程师面临技术路线冲击,规划控制领域从PID到强化学习的转型带来技能升级紧迫感 [2] - 学生新手面临选择困难:感知算法赛道内卷加剧,数据闭环工程师需掌握分布式计算与AI模型调优能力,车路协同方向要求跨界知识融合 [2] 自动驾驶技术社区 - 自动驾驶之心知识星球是国内最大的自动驾驶学习社区,聚集近4000名成员和100+行业专家 [7] - 社区覆盖30+技术学习路线,包括端到端自动驾驶、BEV感知、Occupancy、3D目标检测等几乎所有子方向 [7] - 提供学术界与工业界前沿直播、求职内推渠道,每周活跃度位居国内前20 [7] 前沿技术方向 - 视觉大语言模型(VLM)在自动驾驶中的应用包括场景理解、轨迹生成和决策控制 [26][27] - 世界模型技术如GAIA-1、DriveDreamer通过生成式AI模拟驾驶场景演化,提升系统预测能力 [32][33] - 扩散模型在自动驾驶中用于场景合成、数据增强和轨迹预测,相关研究数量快速增长 [35][40] 数据集与评估 - 主流自动驾驶数据集包括nuScenes(12亿帧)、Waymo Open Dataset(12亿帧)和BDD100K(10万视频) [23][24] - VLM预训练数据集规模从1M(SBU Caption)到12B(WebLI),评估指标涵盖mAP(目标检测)、mIoU(语义分割)等 [17][18] 端到端自动驾驶进展 - 端到端方法逐步替代模块化架构,DriveGPT4、DriveMLM等模型实现感知-规划一体化 [29][53] - 技术挑战包括长尾场景处理、系统可解释性以及与传统规控方法的协同 [54][55] - 行业研究报告显示,特斯拉FSD的端到端方案推动量产落地进程加速 [47] 工业界应用案例 - 智能交通领域采用VLM实现语言引导车辆检索和视觉问答,提升交互效率 [25] - 自动驾驶决策控制中,DiLu、LanguageMPC等模型利用大语言模型增强决策可解释性 [28] - 仿真测试依赖扩散模型生成高保真场景,如DriveDreamer-2支持定制化视频生成 [30] 技术社区资源 - 知识星球提供四大板块:技术领域分类、学术直播、求职资料和问题解答 [10][11] - 汇总Awesome资源列表,包括视觉大语言模型、扩散模型和端到端自动驾驶的论文与代码库 [12][35] - 学习路线覆盖BEV感知、Occupancy、CUDA加速等30+方向,配套工程解决方案与优化思路 [66][67]
最新综述:从物理仿真和世界模型中学习具身智能
自动驾驶之心· 2025-07-05 13:41
具身智能与机器人研究前沿 - 实现强大具身智能的关键在于整合物理模拟器与世界模型 物理模拟器提供高保真训练环境 世界模型赋予机器人环境内部表征能力以支持预测规划与决策[3] - 物理模拟器与世界模型互补增强机器人自主性、适应性和泛化能力 外部模拟与内部建模相互作用弥合模拟训练与现实部署的差距[3] - 维护包含最新文献和开源项目的资源库 为具身AI系统发展提供全面视角并明确未来挑战[3] 智能机器人能力分级系统 - 提出智能机器人能力分级模型 涵盖从基本机械执行到高级完全自主社交智能的五个渐进级别(IR-L0到IR-L4)[6] - 分级标准基于自主性、任务处理能力、环境适应性、社会认知能力等核心维度[7][10][11] - IR-L0为完全非智能程序驱动 IR-L1具备有限规则反应能力 IR-L2引入初步环境意识 IR-L3实现类人认知与协作 IR-L4为终极目标[14][15][16][17][19] 机器人移动性与操作技术 - 腿部运动技术从位置控制发展到力控关节结合强化学习 实现非结构化环境适应与高动态运动如奔跑跳跃[22] - 单手操作从预编程发展到基于学习的方法 灵巧手操作通过两阶段与端到端方法结合提升泛化能力[26] - 双手操作与全身协调通过大规模演示数据与基础模型实现 如ALOHA系列双手机器人精细操作[28] 主流物理模拟器对比 - Webots、Gazebo、MuJoCo等传统模拟器在复杂物理交互上存在局限 高端模拟器如Isaac系列支持GPU加速与多物理场[31][36] - 物理特性对比涵盖吸力建模、可变形物体仿真、流体动力学等维度 可微物理能力主要在科研导向模拟器中体现[32][36] - 渲染能力对比显示NVIDIA系模拟器在光线追踪和PBR上表现突出 轻量级模拟器主要用于功能验证[34][35][41] 世界模型技术演进 - 世界模型从早期基于循环网络的潜态建模发展到结合Transformer和扩散模型的高保真生成式模拟[45] - 代表性架构包括循环状态空间模型、联合嵌入预测架构、Transformer-based模型、自回归生成模型和扩散生成模型[46][47][49][50][51] - 核心应用包括神经模拟器生成仿真数据、动态模型支持预测规划、奖励模型替代手工设计[52][56][64] 自动驾驶与铰接式机器人应用 - 自动驾驶世界模型通过神经模拟器生成高保真场景 动态模型学习环境动态 奖励模型评估安全性[60][64] - 铰接式机器人世界模型通过神经模拟器支持模拟到现实迁移 动态模型实现动作规划 奖励模型减少手工设计[65][68] - 技术趋势包括3D结构化建模、多模态融合、端到端集成等方向[67][71] 未来挑战与方向 - 共性挑战包括高维感知、因果推理缺失、实时性与计算成本等问题[69][71] - 前沿方向聚焦3D结构化世界模型、多模态基础模型、轻量化高效推理等技术[71][75] - 工业应用涵盖自动驾驶、服务机器人、科学发现等领域 推动技术落地与商业化[75]
本来决定去具身,现在有点犹豫了。。。
自动驾驶之心· 2025-07-05 09:12
具身智能与自动驾驶行业趋势 - 具身智能经历从沉寂到疯狂再到冷静的发展周期,目前尚未达到生产力阶段[2] - 行业技术栈向端到端、大模型、VLA、强化学习、3DGS等前沿方向迁移[3] - Tier 1供应商和主机厂正跟进无图向端到端技术转型,技术迭代滞后前沿1-2代[3] - 机器人初创公司融资活跃,未来几年发展资金充足[3] 人才需求与职业发展 - 算法岗对学历要求较高,双非背景建议转向SLAM、ROS等机器人集成优化类岗位[3] - 深圳、杭州成为机器人公司聚集地,传统机器人技术仍是产品主线[4] - 大公司招聘聚焦端到端技术,LV融合、无图、BEV感知等领域人才已趋饱和[3] 技术资源与社区 - 知识星球提供自动驾驶15个技术方向学习路线及硬件/代码资料[1] - 社区汇聚华为天才少年等专家,形成课程+硬件+问答的教研闭环[5] - 四大技术板块覆盖视觉大语言模型、世界模型、扩散模型和端到端自动驾驶[8] 视觉语言模型(VLM)研究 - 预训练数据集规模从1M(COCO)到12B(WebLI)不等,LAION5B支持100+语言[16] - CVPR 2024重点论文涉及RLHF-V行为对齐、ViTamin可扩展架构设计等方向[12] - 评估体系涵盖图像分类(ImageNet-1k)、目标检测(COCO mAP)、语义分割(ADE20k mIoU)等17项任务[17][20][21] 自动驾驶数据集应用 - 经典数据集包括KITTI(2012)、Cityscapes(2016)、nuScenes(2020)等7类场景数据[22] - 语言增强数据集如Talk2Car(2020)支持单目标引用,NuScenes-QA(2023)专注视觉问答[23] - 智能交通领域出现多粒度检索系统等3种语言引导车辆检索方法[24] 世界模型前沿进展 - 2024年涌现DriveWorld(4D场景理解)、InfinityDrive(突破时间限制)等16项突破[31][33] - HERMES实现3D场景理解与生成的统一,DrivingGPT整合世界建模与规划[31] - 扩散模型在DriveDreamer-2中实现定制化驾驶视频生成[33] 端到端自动驾驶技术 - 2023年里程碑包括VADv2概率规划模型、GenAD新范式等9大进展[49] - 行业报告指出大模型时代下需重新思考开环端到端技术路径[46] - 特斯拉FSD验证端到端模型价值,ThinkTwice框架提升决策可靠性[46] 多模态技术融合 - DriveGPT4通过大语言模型实现可解释端到端驾驶,DRIVEVLM融合视觉语言模型[26] - 多任务学习框架如TransFuser采用Transformer传感器融合[53] - 安全验证依赖KING生成动力学梯度场景、AdvSim生成对抗性测试用例[57]
想清楚再动手:具身智能也要学会脑补未来和择优执行 | RSS 2025
机器之心· 2025-07-05 05:53
研究团队与背景 - 第一作者吴怡琳为卡内基梅隆大学机器人学院博士生,研究方向为开放世界物体操控与机器人终身学习,曾获ICRA最佳论文等荣誉[1] - 第二作者田然是UC Berkeley博士生兼NVIDIA研究科学家,专注于机器人基础模型的安全与偏好对齐研究,获多项国际奖项[2] - 该研究获2025 ICLR World Model Workshop最佳论文奖,并被2025 Robotics: Science and Systems会议接收[3] 研究核心问题 - 当前具身智能模型在真实部署中面临"学得像但用不好"的困境,面对环境扰动时成功率常低于30%[3][21] - 核心难题在于如何让机器人在部署阶段具备"推理能力"(Test-Time Intelligence),无需额外数据即可预判风险并调整策略[5] FOREWARN框架设计 - 采用"预见(Foresight)"与"深思(Forethought)"双模块架构,分解为"模拟未来"和"评估未来"两大任务[11] - 世界模型在低维隐空间预测候选动作的环境状态变化,通过离线学习实现高效未来推演[11] - 多模态语言模型将隐空间预测解码为自然语言,结合任务目标与用户意图进行语义评估[12] 系统工作流程 1 候选动作采样与聚类:保留K个代表性动作[16] 2 隐空间未来预测:世界模型预测动作的未来演化[16] 3 语义转译:多模态语言模型将预测转为自然语言描述[16] 4 最优方案筛选:基于语义评估选择最契合意图的动作[16] 创新亮点 - 首次实现世界模型隐空间与多模态语言模型语义空间的对齐[18] - 实现端到端自动化决策,无需人工示范即可实时筛选最优方案[19] - 在基础操作和复杂任务中均展现卓越泛化能力[20] 实验结果 - 引入FOREWARN后成功率从30%提升至70%-80%[21] - 在任务指令变化或感知干扰时仍能维持60%-80%成功率[21] - 有效弥合离线训练与在线部署的能力鸿沟[21] 未来挑战 - 需提升底层生成策略的多样性与泛化能力[23] - 世界模型对大规模数据依赖较强,数据稀缺时性能可能下降[23] - 需优化大模型设定下的推理效率与算力成本[23]
750城市+5000小时第一人称视频,上海AI Lab开源面向世界探索高质量视频数据集
量子位· 2025-07-05 04:03
世界模型数据集Sekai - 上海人工智能实验室、北京理工大学、上海创智学院、东京大学等机构联合推出持续迭代的高质量视频数据集项目Sekai,旨在构建动态且真实的世界供交互探索 [2] - 数据集汇聚来自全球101个国家和地区、750多座城市的超过5000小时第一人称行走与无人机视角视频,配有精细化的多维度标签 [2] - 包含两个互补子集:面向真实世界的Sekai-Real(YouTube视频)和面向虚拟场景的Sekai-Game(游戏视频) [3] 数据集特点 - Sekai-Real从8623小时YouTube视频中筛选出6620小时,确保分辨率不低于1080P、帧率高于30FPS,并保留原生立体声 [3][5][6] - 通过多维度采样模块提取300小时高质量子集Sekai-Real-HQ,综合考虑画质、内容多样性、地点、天气等因素 [3][9] - Sekai-Game来源于虚幻引擎5游戏《Lushfoil Photography Sim》,录制60小时实况视频并获取精确标注信息,最终处理得到36小时数据 [3][5][9] 数据处理流程 - 预处理阶段包括镜头边界检测、剪辑提取与转码(统一为H.265 MP4格式,720p分辨率,30fps帧率),以及视频过滤去除低质量片段 [8] - 标注阶段利用GPT-4o解析位置信息,Qwen 2.5-VL生成平均176字的时序描述,改进的MegaSaM提取相机轨迹 [8] - 采样阶段开发综合质量与多样性的策略,优化训练数据成本 [9] 应用与成果 - 基于Sekai数据训练交互式视频世界探索模型Yume,支持通过键鼠操作控制生成视频 [2] - 最终数据具备精准的三级位置信息、四大内容分类维度、详细视频描述及相机轨迹标注 [10] - 目标推动世界建模与多模态智能发展,应用于视频生成、自主导航等领域 [10]