Workflow
36氪
icon
搜索文档
2026年1月1日起,社保五险变六险,到手工资有变
36氪· 2025-12-24 09:01
国家长期护理保险制度政策动态与地区执行进展 - 国家医保局于2024年9月印发《长期护理保险护理服务机构定点管理办法(试行)》,明确了长护服务机构定点管理的具体要求,标志着“社保第六险”长期护理险的规范化发展进入新阶段 [1] 已确定执行长期护理险的地区与时间 - **海南省**:计划自2026年1月1日起正式实施长期护理保险制度 [1] - **青海省**:新修订的《青海省老年人权益保障条例》将于2025年12月1日起施行,其中明确提出建立长期护理保险制度 [8][9] 处于征求意见或拟执行阶段的地区 - **云南省**:省医疗保障局于2024年10月26日发布《关于建立长期护理保险制度的实施方案(征求意见稿)》公开征求意见 [11] - **江西省**:省医疗保障局于2024年10月21日发布《江西省建立长期护理保险制度实施方案(征求意见修改稿)》公开征求意见 [14] - **吉林省**:省医疗保障局于2024年10月24日发布《吉林省关于完善长期护理保险制度的实施方案(征求意见稿)》公开征求意见 [18] 长期护理保险的参保对象范围 - 参保对象统一覆盖用人单位及其职工、退休人员、参加职工医保的灵活就业人员,以及参加城乡居民医保的灵活就业人员和非就业城乡居民 [3] - 云南、江西等省的征求意见稿也明确了类似的广泛参保范围,要求与基本医疗保险同步参加 [13][15] 长期护理保险的筹资标准与分担机制 - **职工缴费**:普遍采用单位和个人同比例分担的模式 - 海南、云南、江西方案中,单位职工总费率均为0.3%,单位和个人各承担0.15% [4][13][16] - 海南省通过将用人单位基本医保缴费费率降低0.15%来平移用作单位长护险缴费,不额外增加单位负担 [4] - **退休人员缴费**:通常由个人承担,费率多为0.15%,缴费基数为本人基本养老金 [4][13][16] - **城乡居民缴费**:通常由财政和个人按比例分担 - 海南省建制初期(1-2年)居民缴费费率为0.15%,财政和个人按1:1左右分担,计划5年左右过渡到国家统一费率0.3% [4] - 江西省方案中,未就业城乡居民费率也为0.3%,由个人和政府按1:1分担,并允许建制初期从0.15%起步逐步过渡 [17] - **灵活就业人员缴费**:参加职工医保的灵活就业人员费率多为0.3%,缴费基数有具体规定,并通过调整基本医保费率来平移,降低个人负担 [4][16] 长期护理保险的待遇享受条件与保障范围 - **享受条件**:规定参保缴费且失能状态长期持续6个月以上,经评估认定的重度失能参保人员可享受待遇,未来将逐步扩大保障对象范围 [5] - **保障范围**:待遇不设起付线,符合规定的护理服务费用,职工和居民的基金支付比例分别在70%左右和50%左右,基金年度个人最高支付限额不超过全省上年度城乡居民人均可支配收入的50% [6] - **待遇标准(以海南为例)**:建立居家、社区、机构三种护理模式,长护险基金每人每月最高支付限额分别为:居家护理职工1449元、居民1190元;社区护理职工1209元、居民893元;机构护理职工1302元、居民977元 [7] 已试点城市的长期护理保险执行情况 - **全国试点概况**:截至2024年末,全国49个试点城市参加长护险人数近1.88亿人,享受待遇人数146.25万人 [20] - **重庆市**:自2022年1月1日起在全市范围内试点 - 2024年缴费标准:在职职工按医保缴费基数的0.1%*12缴纳;退休职工为63元/年·人 [24] - 待遇支付标准:根据护理方式和失能等级,支付额度从8元/日·人到60元/日·人不等 [25] - **浙江省宁波市**:自2023年1月1日起实现全市长期护理险全覆盖 - 缴费标准为每人每年90元定额筹资,在职职工由个人和单位各承担45元,退休人员由个人和医保统筹基金各承担45元 [28] - 城乡居民个人承担30元,财政承担60元 [28] - **四川省成都市**:自2022年7月1日起实现全覆盖 - **城镇职工缴费**:个人按年龄分段缴费,费率从0.1%到0.3%不等,从医保个人账户划拨;单位按0.2%的费率从统筹基金划拨;财政对退休人员按0.01%比例给予年度补助 [31][32] - **城乡居民缴费**:成人个人缴费25元/年,财政补助30元/年;学生儿童个人缴费10元/年,财政补助10元/年 [33]
Netflix与派拉蒙竞购华纳兄弟探索,好莱坞的洗牌时刻?
36氪· 2025-12-24 08:56
美国时间12月22日,为打消华纳兄弟探索董事会对收购资金稳定性的疑虑,甲骨文创始人Larry Ellison已同意为其子David Ellison领导的派拉蒙—Skydance 财团提供约404亿美元的股权融资个人担保,为竞购华纳兄弟探索提供关键资金背书。此举被视为派拉蒙阵营在与Netflix的潜在竞争中增强筹码的重要一 步,也标志着好莱坞新一轮整合博弈进一步升级。 这场围绕华纳兄弟探索未来走向的资本角力,被外界视为2025年好莱坞可能出现的又一次重大行业震荡。 回顾此前的行业变动,今年8月,David Ellison牵头,以约80亿美元完成对派拉蒙的收购,派拉蒙正式由Skydance财团接管。随后实施的一系列成本削减和 业务重组举措,在好莱坞内部引发了第一轮强烈震动。进入9月,完成整合后的派拉蒙—Skydance管理层开始将目光投向正在推进资产重组、并探索拆分 选项的华纳兄弟探索,并多次表达收购意向,由此拉开了围绕华纳兄弟探索控制权的竞争序幕。 在10月,华纳兄弟探索正式对外确认正在评估包括整体出售在内的多种战略选项后,围绕其未来走向的猜测迅速升温。12月5日,Netflix率先通过对外披 露的方式确认,已 ...
千亿母基金正式亮相
36氪· 2025-12-24 08:52
国家创业投资引导基金正式落地 - 国家创业投资引导基金旗下三支区域子基金于北京、上海、深圳同日完成工商登记,标志着千亿级“航母”引导基金正式亮相 [1] - 该引导基金旨在聚焦人工智能、量子科技、氢能储能等前沿领域,预计将吸引带动地方、社会资本近1万亿元,基金存续期长达20年 [1][7] 京津冀创业投资引导基金详情 - 基金全称为京津冀创业投资引导基金合伙企业(有限合伙),注册于北京市大兴区,总注册规模为296.46亿元 [2] - 基金执行事务合伙人为中金资本运营有限公司 [2] - 主要出资方及比例如下:国家创业投资引导基金有限公司出资200亿元,占比67.4627%;中金浦成投资有限公司出资27.45亿元,占比9.2593%;北京市政府投资引导基金出资24.75亿元,占比8.3485%;北京亦庄国际投资发展有限公司出资24.75亿元,占比8.3485%;河北与天津相关国资基金分别出资12.5亿元和7亿元 [3] 长三角创业投资引导基金详情 - 基金全称为长三角创业投资引导基金合伙企业(有限合伙),注册于上海浦东新区,总注册规模为471亿元 [3] - 基金执行事务合伙人为国投创合长三角(上海)创业投资管理有限公司 [3] - 出资方包括国家创业投资引导基金、国家开发投资集团有限公司、上海国投公司、浦东创投集团,以及安徽、浙江、江苏等多级国资国企 [3] 粤港澳大湾区创业投资引导基金详情 - 基金全称为粤港澳大湾区创业投资引导基金合伙企业(有限合伙),注册于深圳市南山区,总注册规模为450.5亿元 [4] - 基金执行事务合伙人为深润国创(深圳)投资有限公司,该公司由深创投系持股90%,华润系持股10% [4] - 主要出资方及比例如下:国家创业投资引导基金认缴出资200亿元,占比44.3951%;深圳市国创引科创基金认缴出资189亿元,占比41.9534%;广东省战新基金认缴出资40亿元,占比8.8790%;深创投与华润相关主体各认缴出资5.5亿元和5亿元 [5][6] 基金战略定位与设计特点 - 基金旨在引导金融资本投早、投小、投长期、投硬科技,通过市场化方式投资种子期、初创期企业,适当兼顾早中期中小微企业,以支撑原创性、颠覆性技术创新和关键核心技术攻关 [7] - 基金存续期设定为20年,远超一般股权投资基金,旨在匹配科技创新项目长转化周期的特点,长期陪伴企业成长 [7] 当前创投市场环境 - 2025年前三季度,中国募资市场延续回暖趋势,共有3501只基金完成新一轮募集,同比上升18.3%;募集总金额约1.2万亿元人民币,同比上升8.0% [8] - 投资端同样活跃,前三季度全市场共完成8295起投资案例,同比上升19.8%;披露投资金额约为5407.30亿元,同比上升9.0% [8] - 国资力量已成为市场主力,截至2025年中,国资背景管理人数量占比35.3%,但其管理的基金规模占比高达64.5% [8] 行业退出环境与政策背景 - 近期科创板在半个月内诞生摩尔线程、沐曦两个千亿IPO,港股IPO市场活跃,已重回全球融资榜第一,赚钱效应显著提升了一级市场情绪 [9] - 从年初的国办一号文件到年末国家级引导基金的设立,创投行业在2025年被提到了前所未有的重要位置 [9]
网安专家复盘快手风控被「击穿」的两小时
36氪· 2025-12-24 08:51
作为网络安全与风控机制的资深从业者,卢圣龙比绝大多数人更早地得知了快手直播事故。 12月22日,刚过晚上10点,他所在的网络安全行业的内部群聊开始陆续弹出截图——快手直播界面中出 现了一些明显违规的内容。随后,在快手自己的应急响应中心群里也出现了同样的消息。卢圣龙和业内 技术专家们猜测着是否是某个审核模块"临时挂掉"。但随着截图、录屏越来越多,传播范围迅速扩大, 他才意识到:这不是一次简单的技术故障。 当晚,快手大量直播间同时出现涉黄、低俗和血腥暴力内容,部分直播间观看人数近10万。截图与视频 如病毒般在各社交平台和群组扩散。在经历限流、封禁后,快手最终以直接下架直播入口的形式,才控 制住态势。直播功能在零点45分左右基本恢复。 整个过程持续了约两小时。快手随即发布公告,称"遭到黑灰产攻击"。 卢圣龙在网络安全领域从业13年,目前是一家网络安全公司安全攻防实验室的负责人,工作之一是作为 授权黑客,测试一些单位或公司的网络安全。 他说,事故发生之后,业内讨论焦点并不在于攻击本身,而在于快手的风控系统为何被击穿,以及在约 两小时的异常窗口期里,平台为何没能迅速切换至应急状态。"这个bug的产生有可能是因为算法故障 ...
折磨全球上亿人的“电子酷刑”:验证码,榨干最后一丝耐心
36氪· 2025-12-24 08:51
更倒霉的是,有时候验证码还会被手机管家当成垃圾短信拦截,翻半天才能找到。 没想到,人类快被小小验证码折腾得怀疑人生了。 你有没有过这样的经历:着急登录APP,却迟迟收不到验证码;好不容易收到了,刚输完就提示"验证码已过期"; 换成人脸识别,对着屏幕调整了N次角度,张嘴、眨眼、摇头、点头...像智障一样一顿操作之后,却等来了一句: "刷脸失败次数过多,请明日再试。" 这不是你一个人的噩梦。 每天,全球几亿人都在重复类似的操作:登录社交账号要验证,打开软件验证,就连出停车场都得输入验证码,证明"自己不是机器人"。 有数据统计,全体人类每天约耗费50万小时在输验证码上,而一个人80岁的人生总时长也不过约70万小时。 无数人把时间和脑细胞都耗在了这场"人机考试"里。 这个原本为了保护网络安全而生的小工具,如今早已变成了折磨人的"数字酷刑"。 最近巨头谷歌更是被曝出,从验证码收集到的数据中获得的价值更是近8980亿美元。 最糟心的是,当初为了区分人类和机器设计的验证码,现在却把人类逼得抓耳挠腮,而真正的机器反而能轻松破解。 这场持续了25年的人机攻防战,到底是怎么走到今天这步田地的? 被逼疯的验证码,到底是怎么诞生的? ...
信息论如何成为复杂系统科学的核心工具
36氪· 2025-12-24 08:51
信息论作为复杂系统研究的基石 - 信息论起源于通信领域,因其能跨领域量化组件之间、系统与环境、整体与部分的互动,正逐渐成为复杂系统研究领域不可或缺的工具 [1] - 信息论提供了一套强大而普适的数学语言,用于描述、量化和理解由大量组件动态互动构成的复杂系统,这些系统的集体行为因非线性、涌现、自适应等特征而难以预测 [1] - 该综述系统阐述了信息理论为何以及如何成为复杂系统科学的基石,并详解其核心概念、进阶工具与实际应用 [1] 信息论核心度量指标 - **熵**:香农熵H(X) = -Σp(x)logp(x),衡量随机变量的不确定性或“惊讶”程度的期望值,在神经科学、生态学、金融学中分别用于衡量神经元响应可变性、物种分布不确定性、股票价格波动性 [3][5] - **联合熵与条件熵**:联合熵H(X,Y)衡量两个变量的联合不确定性,条件熵H(Y|X)表示已知X后Y剩余的不确定性,关系为H(X,Y) = H(X) + H(Y|X) [6] - **互信息**:I(X;Y) = H(X) + H(Y) - H(X,Y),量化两个变量之间的统计依赖性,范围从0到min(H(X), H(Y)),能捕捉任何形式的统计依赖,包括非线性关系 [7][8] - **相对熵**:Kullback-Leibler散度D_KL(p || q)衡量两个概率分布p和q之间的“距离”,互信息可表示为I(X;Y) = D_KL( p(x,y) || p(x)p(y) ) [10] 信息动力学与动态特征刻画 - **传递熵**:是互信息在时间序列上的推广,衡量在已知Y自身过去历史的情况下,X的过去历史能为预测Y的当前状态提供多少额外信息,即定向信息流,可用于推断因果关系方向 [13][14] - **主动信息存储**:衡量系统组成部分的过去历史与其当前状态相关的信息量,量化系统内部记忆或信息存储的能力,在金融市场中,低AIS值支持有效市场假说,高AIS值则暗示存在可预测模式 [17] - **整合信息论**:核心度量Φ试图衡量系统各部分整合信息的程度,即整个系统产生的信息大于其各部分信息之和的程度,并与意识程度相联系,但Φ的计算在实践中极其困难 [19][20] - **统计复杂性与因果态**:通过将能预测相同未来状态的所有历史归入同一个“因果态”,对系统动态过程进行最优压缩表示,统计复杂性是这些因果态分布的熵,衡量系统为准确预测未来必须记住的过去信息量 [22][23] 信息分解:协同、冗余与特有信息 - **部分信息分解**:旨在将总信息I(S; X,Y)分解为四个部分:冗余信息、X的特有信息、Y的特有信息、协同信息,公式为I(X1,X2;Y)=Red(X1,X2→Y)+Unq(X1→Y∣X2)+Unq(X2→Y∣X1)+Syn(X1,X2→Y) [26][27][28] - **应用与推广**:在神经科学中,PID可用于研究神经元群体如何冗余地或协同地编码刺激,PED是PID的自然推广,直接分解联合熵H(X1,…,XN),无需区分输入与输出 [30][31] - **网络构建**:基于成对相互关系的二元网络无法描述协同/冗余,需引入包含三元协同超边的超图或单纯流形 [35] 复杂系统的整合、分离与网络刻画 - **整合与分离的平衡**:复杂系统的核心特征在于其“整合”或“分离”的动力学,例如大脑各功能区分离但整合为统一意识,公司各部门分离但由中央办公室整合,这种平衡是一种多尺度现象 [36] - **复杂性度量**:TSE-复杂性通过遍历所有可能的子系统划分,检测“部分”与“剩余”之间的互信息分布,具有中等特征的系统TSE达峰值,表明系统处于信息处理能力最强的混沌边缘 [37] - **O-信息与S-信息**:O-信息Ω > 0表示系统以冗余主导,稳健性高;Ω < 0表示以协同主导,灵活性高但脆弱性高;S信息Σ反映总依赖密度,高Σ表示节点深度嵌入网络 [38] - **集成信息度量**:ΦR衡量系统“因果不可还原性”,是系统作为一个统一体进行信息处理程度的量化指标,可作为人工系统是否具备“统一认知架构”的可操作检验 [39][40] 实际应用、困难与未来方向 - **估计困难与偏差**:从有限数据中估计概率分布与信息量存在偏差,离散情况下的插件估计会导致熵被低估、互信息被高估,需使用校正方法;连续数据估计更复杂,主流方法包括粗粒化、点过程、序数嵌入及非参数密度法 [41][42] - **神经信息估计器**:在大数据时代,神经信息估计器使用神经网络来估计信息论指标,如MINE,代表了一种在复杂性科学中尚未得到充分探索的新方法 [43] - **未来研究方向**:用Φᵣ、O-信息等引导进化算法,通过信息量作为目标函数来引导机器学习或机器人行为涌现,是复杂系统与信息论结合的未来方向 [43]
“商汤系”跑出一堆独角兽,可闫俊杰无法复制
36氪· 2025-12-24 08:16
文章核心观点 - 以MiniMax和Vivix AI为代表的“商汤系”AI创业公司正成为资本市场的焦点 其创始团队多拥有深厚的商汤科技技术背景与产品落地经验 这种复合型人才的“稀缺性”以及MiniMax等公司的成功快跑 为整个“商汤系”创业者群体带来了显著的品牌光环和融资优势 [1][4][7][8][14] “商汤系”创业公司概况与融资表现 - MiniMax已通过港交所聆讯 预计最早2026年1月上市 2025年前9个月收入达5343.7万美元 超过2024年全年总收入3052.3万美元 其C端产品已接近盈亏平衡 [2] - Vivix AI成立10个月估值即飙升至13.2亿美元 [4] - VAST成立两年完成三轮数亿元人民币融资 截至2025年8月年度经常性收入达1200万美元 估值稳居全球AI 3D模型创业公司之首 [5][15] - 无间芯穹于2025年11月完成近5亿元人民币A+轮融资 [5] - 灵宇宙于2025年11月完成2亿元人民币Pre-A轮融资 [5] - 右脑科技于2023年6月完成数千万元人民币天使轮融资 [5] - “商汤系”创业者广泛分布于大模型、3D生成、AI基础设施、图像/视频生成、定制化AI Agent、AI陪伴机器人及具身智能等主流AI赛道 [4][5] MiniMax的业务与财务分析 - 公司采用模型与ToC产品并行的商业化布局 是少数迈入“亿元年营收俱乐部”的中国AI公司 [2] - 2025年前九个月收入5343.7万美元 毛利率为23.3% 销售成本占收入比例为76.7% [3] - 公司研发开支高昂 2025年前九个月研发开支为1.803亿美元 占收入比例高达337.4% [3] - 2025年前九个月公司期内亏损为5.120亿美元 [3] - 公司产品布局具有前瞻性 在2023年行业聚焦模型参数时已推出海外AI应用Talkie 2024年1月推出国内首款MoE大模型abab 6 2024年第二季度重点布局多模态 其语音模型Speech系列和视频生成模型“海螺AI”在国内外口碑和用户数位于第一梯队 [12] - 丰富的产品矩阵及多款具有造血能力的单品 使公司在行业洗牌中受影响较小 [13] “商汤系”人才的核心竞争力 - 创业者兼具出色的技术成绩与完整的产品搭建履历 这种复合背景在市场中具有“稀缺性” [8][9] - 技术积累深厚 部分源于商汤在NLP、CV领域的技术沉淀及成熟的工程体系 可被快速复用于大模型领域 [9] - 多数创业者拥有产品商业化经验或实绩 例如刘宇在商汤内部负责的AIGC产品“秒画”上线9天后用户数突破300万 日活跃用户数超过53万 [10] - 具体案例显示 刘宇因同时具备算法和项目经验 在视觉领域此类人才被评估不超过5个 [9] 闫俊杰带领过700余人团队并将面部识别算法做到行业第一 [9] 罗予晨曾参与中国首批警用动态人脸识别系统设计 [9] “商汤系”光环效应与市场认知 - MiniMax的快速成功让其创始人闫俊杰的背景成为受追捧的标的 带动了资本对“商汤系”创业者的集体青睐 [14] - 投资机构有意识地将“商汤系”作为创业储备军进行支持 例如IDG资本因已投资大模型赛道的MiniMax 转而支持出身商汤、主打海外多模态的刘宇 [15] - 创始人的商汤及MiniMax履历能为初创公司带来高起点 例如VAST在成立不久即获得约2亿美元估值 [15] - 部分市场观点开始警惕由创始人标签带来的估值泡沫 认为在没有产品和数据支撑下估值飙升至与大模型厂商同档存在风险 [16] - 企业的成功无法简单归因于创始人背景 MiniMax的成功还包括早期战略取舍、认识到规模法则的重要性以及独特的组织管理模式等因素 [17]
硅谷青睐的中国模型更新了,一觉醒来,直接套壳
36氪· 2025-12-24 08:02
【导读】智谱作为「大模型第一股」赴港上市前夕,直接掏出了旗舰模型GLM-4.7并开源! 2025年底智谱压轴了,还是一炮双响! 一份招股书冲刺「大模型第一股」,紧跟着发布了最新一代开源大模型GLM-4.7! 经过一年的狂飙突进后,智谱用一场资本和科技完美共振的盛宴收官了。 GLM-4.7这次以「Coding」能力提升为核心定位,直接对标全球顶尖编程模型Claude Sonnet 4.5,在多个权威榜单上不仅拿下了开源第一,更实现了国产 模型对硅谷顶尖闭源模型的贴身肉搏。 这一战绩在Vals Index上体现得淋漓尽致。 作为一个不仅考量代码能力,还加权了金融、法律等高价值复杂任务的权威榜单,Vals Index向来被视为大模型「经济价值」的风向标。 GLM-4.7在这里出道即巅峰,直接空降开源模型第一名! 这意味着,在一个不论出身、只论实力的竞技场里,它把一众知名的欧美开源模型甩在了身后,证明了开源模型在处理高难度、高价值任务上,已经具备 了替代闭源巨头的实力。 而在更能反映开发者真实体感的Design Arena中,GLM-4.7的表现则更具戏剧性。 由开发者盲测投票得出的胜率(Win Rate)和Elo评 ...
求购昆仑芯老股份额;求购新凯来公司老股份额|资情留言板第176期
36氪· 2025-12-24 07:58
资产交易市场,信息瞬息万变,消息真假难辨,即使买卖双方花费大量的时间、精力,推动成交往往困 难重重。为了能够帮助买卖双方更快速链接市场信息和潜在交易对手,避免不必要的投入与浪费,我们 特地打造了这样一档栏目。 本文是这个栏目的第176期。如果你对本文提到的相关的交易线索感兴趣,希望接触这些潜在的交易对 手,或者如果你手中直接握有希望交易的资金或者资产,欢迎与我们联系。(邮箱:zcjy@36kr.com) 一、本月新增 1、转让持有DJI股份的基金LP份额(预期估值1500亿人民币) 卖家性质:直接卖家 交易价格:预期估值1500人民币 资产规模:约1亿人民币份额 交易方式:两层LP份额,有管理费和carry 2、求购昆仑芯公司老股份额(预期估值700亿) 交易价格:预期估值700亿 卖家性质:直接卖家 交易价格:预期估值110亿 资产规模:约3000-5000万人民币 交易方式:可以接受进结构,价格具体看是否承担管理费和carry 联系方式:zcjy@36kr.com 3、转让持有沃飞股份的基金LP份额(预期估值110亿) 资产规模:约5000万人民币份额 交易方式:LP份额,有管理费和carry 4、求购新 ...
生成不遗忘,「超长时序」世界模型,北大EgoLCD长短时记忆加持
36氪· 2025-12-24 07:58
行业技术突破 - 视频生成行业面临长视频“内容漂移”的核心挑战,即模型在生成过程中难以保持物体和背景的一致性,尤其是在第一人称视角等复杂场景下[1] - 北京大学、中山大学、浙江大学、中科院和清华大学的研究团队联合发布全新长上下文扩散模型EgoLCD,旨在解决长视频生成中的内容漂移问题[2] - EgoLCD在EgoVid-5M基准测试中,在时间一致性和生成质量上全面超越OpenSora、SVD等主流模型[3] 核心技术架构 - EgoLCD首创了模仿人类大脑的“长短时记忆”系统,长期记忆负责全局稳定性,短期记忆负责快速适应局部变化[5] - 长期记忆采用稀疏KV缓存机制,只存储和检索关键的“语义锚点”,显著降低显存占用并锁定全局一致性[11] - 短期记忆结合注意力机制与LoRA作为隐式记忆单元,以快速捕捉当前视角的剧烈变化[11] - 模型引入了结构化叙事提示方案,在训练时使用GPT-4o生成详尽的帧级描述,在推理时通过检索前序提示来引导生成,确保连贯性[7][8] 模型性能表现 - 在感知质量指标上,EgoLCD在图像质量上得分为0.6852,运动平滑度得分为0.9956,美学质量得分为0.6047,背景一致性得分为0.9588,主体一致性得分为0.9597,清晰度得分为0.7551[9] - 在NRDP指标上,EgoLCD在运动、美学、背景和主体的一致性上表现优异,得分分别为0.0119、0.9618、0.2945和0.0844[9] - 在与其他模型的对比中,EgoLCD的CD-FVD指标为187.94,语义一致性为0.291,动作一致性为0.510,清晰度得分为0.530,运动平滑度为0.992,运动强度为20.732,各项指标均优于SVD、DynamiCrafter和OpenSora等模型[12] - 实验显示,EgoLCD在NRDP-Subject和NRDP-Background指标上取得压倒性优势,漂移率极低[13] - 模型能够生成长达60秒的连贯视频,人物衣着和背景细节始终保持一致[15] 行业应用与前景 - EgoLCD被视为一个“第一人称世界模拟器”,其生成长时程、高一致性视频的能力,可为具身智能提供海量训练数据,模拟复杂的物理交互和长序列任务[15] - 该技术被认为是向构建具身智能世界模型迈出的关键一步,让通过视频教会机器人理解世界的梦想变得更清晰[3][15]