Workflow
腾讯混元
icon
搜索文档
AI牵线搭桥解锁大众与古老文明“对话”新方式 中华文化创新发展活力无限
央视网· 2025-12-21 02:36
核心观点 - 前沿人工智能技术正深度应用于文化遗产保护领域,特别是在甲骨文等古文字研究方面,通过数字化、智能化手段解决传统研究难题,并拓展至文化传承与大众科普,为中华文化的发展注入新活力 [1][14][19][20] 技术应用与突破 - 全球首个甲骨文智能体“殷契行止”发布,整合了DeepSeek、腾讯混元两大主模型及多项算法,能对用户上传的甲骨图片进行快速文字识别、释义查询和文献溯源 [9] - 新技术采集的甲骨图像相比传统拓片更为清晰,能有效解决字形笔画上的学术争议 [3] - 人工智能在甲骨文比对中展现出极高效率,完成1万片甲骨对比仅需2至3小时,而人工则需要2至3天 [5] - 人工智能的多模态检索与生成功能可应用于非物质文化遗产保护,例如通过学习舞蹈片段生成符合该非遗风格的新动作,助力传播与创新 [19][20] 数据基础与设施 - 支撑甲骨文智能体的全球最大甲骨文多模态数据集已建成,包含143万个甲骨文字形数据、1.5万片甲骨多模态数据及3000篇研究文献 [7] - “数字甲骨共创计划”已完成1525片甲骨的数字化采集,其中包含950片海外采集的高清数据 [18] 行业影响与趋势 - “十五五”规划建议明确提出推进文化和科技融合,加强人工智能与文化建设相结合,为行业发展提供政策指引 [1][20] - 人工智能与数字化技术成为古文字及中国文字传播的重要手段,通过数字化阐释拉近公众与博物馆的距离,增强传统文化魅力 [18] - 中国人工智能领域的良好开源文化(如DeepSeek、通义千问等大模型开源)降低了各领域研究人员使用前沿技术的成本,有利于在文化遗产保护等领域开拓创新并与世界分享成果 [20][21] - 专家指出,人工智能技术在文化遗产的探源、守护、传承等方面将有更多应用场景,未来可能从单纯识别甲骨文字升级到分析上下文,为研究提供更深层次帮助 [11][19]
2025大厂领衔,AI应用创新开打“巅峰赛”
钛媒体APP· 2025-12-19 11:29
文 | 明晰野望 2025,AI应用正以燎原之势飞入百姓家。从年初DeepSeek发起的技术普惠浪潮,到贯穿全年的应用生 态竞速,再到年末因AI手机激起的入口争夺战,环环相扣的变革拉近了每个人与AI的距离。 但技术平权的背后,是市场参与者们残酷的应用创新之争。从基础大模型、App到硬件终端,战火已经 四处蔓延。不夸张的说,在一些领域的较量已经到了"即决高下,也分生死"的烈度。新十年的大赢家, 或许就在其中。 但人们更乐见的是:技术不再是高不可攀的圣杯,而是人人皆可取用的薪火。 被DeepSeek点燃的新十年 2025年1月DeepSeek-R1模型横空出世,它带来的不仅是比肩世界顶尖的性能,更是一次对行业成本认 知的颠覆性重塑。其团队披露训练R1模型的核心成本仅约29.4万美元,这一数字完全颠覆了业界普遍认 为顶级模型需要"数千万美元"的逻辑。 DeepSeek以近乎降维打击的方式向业界证明,通往顶尖AI的道路并非只有"烧钱出奇迹"一条,其随后的 慷慨开源策略更是将这种技术红利迅速扩散,使得成千上万的中小企业和开发者能够以极低的成本,触 及并使用到曾经遥不可及的先进AI技术。 DeepSeek火爆全网,但架不 ...
当年带你上网冲浪的头号老玩家,这回是真AI上头了
量子位· 2025-12-19 07:20
文章核心观点 - QQ浏览器已全面升级为AI浏览器,依托腾讯自研大模型底层能力,实现了从工具到智能助手的转型,其AI相关数据表现已进入行业前列[1][2][3] - 浏览器的演进逻辑是将复杂能力简化,将掌控权还给用户,当前AI转型的核心是结合AI的“聪明”与浏览器的“全面”,以更简单智能的方式满足用户需求[7][8][11] - 浏览器行业正经历从“阅读网页”到“完成任务”的方向性变化,QQ浏览器的转型恰好契合了用户希望结果更快、步骤更少的关键习惯转变[56][57] 产品战略与市场表现 - QQ浏览器按下转型键,将产品路线彻底切向AI,全面升级为AI浏览器[2] - 公司在“AI Agent”和“AI 搜索”赛道的数据表现已率先跑进行业前排,整体表现相当亮眼[3][6] - 转型背后是腾讯长期布局的主线,公司作为在C端深耕十几年、同时在模型和云底座上有完整体系的玩家,清楚用户真实场景中的痛点[57] - 外部数据机构XSignal的行业侧数据验证了用户对浏览器的核心需求是“好用”,即易上手、不打扰、聪明能干且能接住不同场景的需求[57] AI能力与产品功能升级 - **界面与入口设计**:传统首页信息流布局让位于集传统搜索与AI对话于一体的极简入口[12];腾讯元宝常驻搜索框,也可从侧边栏一键唤起,同时支持在AI搜索、搜狗、百度、谷歌、Bing多种引擎间切换[14][15] - **AI+小窗**:在右上角集成10多种AI能力和部分Agent能力的轻量入口,能根据当前浏览场景自动递送最可能用到的功能(如阅读场景自动弹出“网页总结”)[17][18][20][21] - **核心AI功能**: - 网页总结:通过悬浮窗快速总结网页内容,原文与重点分屏显示[23] - 思维导图:将全文拆解为层级清晰的知识树框架,能自动拆解到三级,提升阅读效率[25][27] - 网页翻译:可将网页英文一键全文翻译为中文[29] - AI翻译:支持对单词或句子进行逐词逐句翻译[31] - 其他功能:包括阅读模式、AI资源嗅探、标签智能分组等[33] QBot Agent中心与场景化应用 - QQ浏览器推出了QBot Agent中心,集成了八个擅长不同场景的Agent,以解决传统浏览器“只能看不能干”的痛点[34] - **AI视频助理**:支持16种语言的多语种字幕生成、内容总结、沉浸式播放、字幕视频合成导出;提供实时滚动字幕,支持中英文对照排版,并可细调语种、字号、复制字幕等;视频总结功能可将长视频拆解为带图示的章节重点[35][36][37][38];该功能也可在AI+小窗中直接调起[39] - **AI订阅助理**:专门解决信息筛选、聚合、追踪问题,能在极短时间内(如不到1分钟)扫描全网相关信息,过滤去重后打包成图文并茂的订阅报告(包含核心概览、信息汇总、表格、来源链接),并支持按设置的关键词、时间和有效期主动推送最新资讯[41][42][43] - **AI下载助理**:可全网搜索并下载免费靠谱的网络资源(如1分钟左右完成搜索并下载大学英语四级考试真题PDF),同时提供在线阅读版本[45][46] - **AI更新助理**:可监控指定网页的动态更新,框选关注位置并设置提醒频率后,AI会将最新动态及改动位置同步到消息通知[47][48] - **其他垂类Agent**:还包括AI财经助理、AI学术助理、AI高考通、较真AI查真假等[50];未来将继续融合更多腾讯内部原生Agent[50] 移动端AI能力拓展 - QQ浏览器的AI能力已拓展至移动端[51] - 文档能力覆盖更完整,支持八种格式互转,以及编辑、扫描、翻译等功能[52] - 针对学生场景,推出了行业首个高考Agent“高考通”,已为超过5000万用户提供高考服务;移动端上线的“学习阵地”以AI学习助手为核心,支持拍照解题、生成错题本、定制学习计划[53] - 移动端搜索联合元宝推出AI Overview,支持智能问答,并内置一套有趣的AI小工具(如星座运势、BMI计算器)[54] - 生态上,与腾讯自选股、腾讯新闻、腾讯地图、腾讯医典完成内容打通[55]
姚顺雨加盟腾讯:27岁科学家背后的三重使命
36氪· 2025-12-18 09:54
文章核心观点 - 腾讯通过任命前OpenAI研究员姚顺雨为首席AI科学家并重组AI部门,标志着其AI战略从“谨慎追随”转向“全面提档”,旨在加码以智能体(Agent)为核心的下一代AI范式,并打通从研究到应用的壁垒 [1][3][9] 行业动态与竞争格局 - 2025年末AI领域在产品、芯片和人才方面持续引爆新闻,竞争加剧 [1] - 行业面临来自字节跳动和阿里巴巴的激烈竞争,腾讯此前承压不小 [3] - AI的竞争已进入下半场,核心从比拼模型参数转变为定义任务、评估价值并将研究转化为有用产品 [7] - AI的任务正从执行指令的工具进化为在复杂环境中自主理解、决策的协作者 [8] - 近期豆包手机引发的AI隐私边界争议给全行业带来剧烈冲击 [14] 腾讯的AI战略调整 - 公司任命27岁的前OpenAI研究员姚顺雨为“CEO/总裁办公室”首席AI科学家,直接向总裁刘炽平汇报,并兼任AI Infra部、大语言模型部负责人 [1] - 此次人事与组织架构调整显示AI在腾讯已上升为全公司重要的战略中枢,目标打通研究与应用之间的壁垒 [5] - 调整标志着腾讯正在加码以智能体为核心的下一代AI范式 [9] - 公司此前在AI领域姿态“谨慎”或“稳健”,源于其庞大体量、对微信用户体验的极致苛求以及隐私合规等因素 [4] - 2025年2月,腾讯在多个产品中接入DeepSeek;4月,混元团队重组,收拢各事业群技术力量并在3D模型上取得显著突破 [4] 关键人物:姚顺雨 - 姚顺雨为清华“姚班”出身,普林斯顿博士,前OpenAI研究员,参与开发Deep Research及OpenAI首个智能体产品Operator,入选《麻省理工科技评论》“35岁以下科技创新35人” [5] - 公司看重其“科学家+产品架构师”的复合基因,既能深耕底层模型创新,又能打通后端应用场景 [8] - 他被赋予极大的战略自主权与资源调度能力,其团队整合了AI Infra部、AI Data部、数据计算平台部 [5] 腾讯的机遇与挑战 - **技术追赶**:在通用大语言模型的综合能力上,腾讯混元尚处在跟随序列,需持续提升基础模型能力 [10] - **发挥长板**:需充分发挥腾讯混元在3D生成、物理仿真与世界模型等领域的天然优势 [10] - **核心机遇——微信生态**:微信拥有14亿用户、复杂的社交关系链、丰富的小程序生态、海量的公号与视频号内容池及支付交易,构成了AI时代操作系统的雏形,是全球最适合成为智能体“培养皿”的平台 [10] - 公司总裁刘炽平在财报会上多次表示,微信最终会推出一个AI智能体 [12] - **商业与伦理挑战**:未来AI智能体深入人类生活将面临商业冲突与伦理挑战,公司需要向外界证明其能兼容隐私保护、商业协同和监管信任 [14] - AI必须被用户、合作伙伴和政府充分信任,其商业化的天花板才能被真正打开 [15]
氪星晚报|朱啸虎:十年后中国AI肯定领先美国;夸克AI眼镜“一机难求”,核心供应商曝已新增产线;钉钉8.1.10版本上线,AI可以自动回复同事的聊天
36氪· 2025-12-11 10:43
夸克AI眼镜需求与产能 - 夸克AI眼镜市场需求远超预期,线上线下“一机难求”[1] - 核心供应商立讯已新增一条组装产线,产能将从下周起陆续释放[1] - 团队最大目标是明年1月充分释放产能,以赶上春节消费热潮[1] 腾讯混元模型更新 - 腾讯混元英文名称从Tencent Hunyuan简化为Tencent HY,以提升识别度和发音便利性[2] - 从混元2.0开始使用新名称,最新推出的模型为Tencent HY 2.0 Think和Tencent HY 2.0 Instruct[2] 金达威辅酶Q10产能扩张 - 公司辅酶Q10改扩建项目进展顺利,基建主体已基本完成[3] - 项目完全达产后,辅酶Q10年产能将达到920吨[3] - 公司采用先进的生物发酵法核心制备工艺,形成高效发酵和提炼集成技术,技术水平及规模行业领先[3] 高测股份机器人业务布局 - 公司在人形机器人领域布局行星滚柱丝杠磨削设备、灵巧手复合金属腱绳及减速器业务[4] - 减速器业务目前主要配合北美客户进行定制研发,进展顺利[4] B站与钉钉产品动态 - B站否认将实施“全站会员制”,称相关截图为不实消息,并将追究造谣者法律责任[5] - 钉钉8.1.10版本上线,新增AI灵动回复功能,可自动回复同事聊天,同时听记AI问答和录音卡功能升级[5] 快手漫剧激励政策 - 快手发布漫剧新激励政策,针对全网同期首发的优质剧集,机构制作方可获最高4%额外投流返点及2万元人民币现金激励[6] - 个人创作者在平台原生账号上传新剧集,单部剧最高可获得1万元人民币现金激励[6] - 截至12月,快手漫剧单日消耗已达700万元人民币,平台收入的99%将由合作方获得[6] 永辉超市股价异动 - 永辉超市股票近期连续3个交易日涨停[7] - 公司公告称目前生产经营活动正常,门店调改有序进行,内外部经营环境未发生重大变化[7] - 公司指出近期股价涨幅较大,存在市场情绪过热及较高炒作风险,提醒投资者注意交易风险[7] 投融资事件 - 具身智能公司“优联智能”完成500万美元天使轮融资,由商汤国香资本领投、招银国际跟投,资金将用于域控系统、运动控制系统与800V AI数据中心电源系统的研发与量产[8] - 液态金属电池储能企业“吉兆储能”完成数千万元人民币天使+轮融资,由光合创投领投、顺为资本跟投,资金将用于产品研发及全球首个MW级储能系统交付[9] 新产品与平台发布 - 全球健康药物研发中心发布由中国自主研发的AI制药平台“AI孔明”,实现药物研发全流程智能设计[10] - 北京人形机器人创新中心推出全国首个全自主无人化人形机器人导览解决方案,以“慧思开物”通用具身智能平台为核心,覆盖导览、导购等多场景[12] 行业观点与宏观政策 - 投资人朱啸虎认为,拉长到五到十年,中国的开源AI生态将遥遥领先,十年后中国AI将领先美国,原因包括美国数据中心和电力供应可能跟不上[11] - 中央经济工作会议指出,要增强居民和企业的获得感,推动经济运行和市场预期持续向好,并围绕发展新质生产力,推动科技创新和产业创新深度融合[11] 航空与监管科技进展 - 我国自主创新的大型通用无人机“九天”成功首飞,机长16.35米,翼展25米,最大起飞重量16吨,载荷能力达6000公斤,航时12小时,转场航程7000公里[13][14] - 国家药监局局长李利表示将推进“人工智能+药品监管”,探索实施人工智能辅助审评,以加快创新药械上市[14]
推动人工智能在金融业的应用
腾讯研究院· 2025-11-20 09:03
金融业AI大模型应用现状 - 金融业AI应用已从概念探索进入大模型引领的规模化落地阶段,呈现头部机构引领与中小机构探索并行的格局[2][4] - 金融机构遵循风险可控优先、内部提效优先、辅助决策优先三项原则,聚焦幻觉风险可控、中后台流程、员工赋能等场景[4] - 银行业在应用深度与广度上领先,短期代码助手等成熟场景快速释放效率红利,部分机构超30%代码由AI生成,长期向智能投顾、营销等核心创收领域拓展[5] - 技术普惠降低资金技术门槛,DeepSeek、腾讯混元等高性能模型开源使中小机构可聚焦特定业务场景与私域数据挖掘,依托决策链短优势深耕供应链金融等垂直领域[5] AI技术演进对金融业的影响 - 具备感知、规划、决策与执行能力的智能体成为AI演进前沿形态,可调用API等工具实现从理解到行动的闭环,突破大模型“只建议、不行动”局限[7] - 在投资研究领域,多智能体研究团队可自动构建因果推理框架并迭代假设,从另类数据中挖掘投资机会,同时通过自我修正机制降低模型幻觉风险[7] - 在风险管理领域,多智能体协同网络可打破数据壁垒、实现风险要素实时联动,推动体系升级为实时全覆盖的数字化决策系统,实现毫秒级风险识别与决策同步[8] - 智能体通信协议等标准逐步形成,为专业能力向金融智能体安全开放提供基础,加速智能体在金融场景中的规模化渗透[8] 深化AI大模型在金融业应用的路径 - 需应对算法黑箱、监管时滞、羊群效应、投入产出不匹配等多重挑战,建立系统化方法论分阶段推进[10] - 坚持价值牵引,构建覆盖运营增效、业务创收、风险控制、客户体验的多维度价值评估体系,作为项目立项与资源投入标准[10] - 组建业务、产品、技术的跨部门作战单元,实现价值目标共同负责,流程上做到前端精准识别痛点场景与后端匹配技术能力的双向对接[10] - 构建分层协同模型架构:通用大模型提供基础认知、领域轻量模型面向具体场景精调、传统机器学习模型保障关键决策透明可解释[11] - 治理模型幻觉需在训练源头与知识库调用两端发力,训练阶段可嵌入带惩罚机制的置信度校准算法,知识库调用阶段加强数据治理并确保回答可追溯至原始资料[12] - 打造技术与管理协同的全流程风险防控闭环,确保人类专家在所有关键决策点拥有最终否决权[12]
东方财富证券:AI产业加速迭代 科技赋能传媒价值提升
智通财经网· 2025-11-18 08:29
行业整体表现 - 截至2025年11月12日,申万传媒指数涨幅为27.45%,跑赢同期沪深300指数18.07%的涨跌幅水平 [1] - 恒生科技指数年初至今上涨32.8%,主要受南下资金流入增加和国内AI互联网产业快速发展驱动 [1] - 行业高景气度由AI、游戏行业景气度高以及影视等行业政策边际向好驱动 [1] 传媒分板块观点 - 游戏板块建议关注后续产品储备丰富的公司 [1] - 影视板块建议关注直接受益于政策驱动和AI的相关公司 [1] - 广告营销板块建议关注互动新场景以及程序化广告布局的公司 [1] 游戏行业 - 行业维持高景气度,长青IP游戏的流水和用户持续上行 [2] - 多端互通成新趋势,带动整体端游市场复苏 [2] 影视院线行业 - 头部影片带动票房增长,2026年国内外影片储备丰富 [2] - 影视行业政策边际向好明显,引导行业积极回暖 [2] - AI漫剧等新内容爆发式增长,商业模式快速跑通 [2] 广告与电商行业 - 广告投放大盘温和增长,程序化广告创造增长新动能 [2] - 电梯广告探索消费新场景,打造营销闭环链路 [2] - 电商大盘整体增速疲软,即时零售和海外跨境市场成为重要战略布局方向 [2] 云计算与AI技术 - 云计算行业快速增长,AI agent兴起推动弹性算力需求 [3] - 2024年中国云计算市场未来五年仍将保持每年20%以上增长,至2030年可达3万亿+规模 [3] - 国内外AI模型能力差距缩小,国内头部平台在推理能力、模型架构等多方面实现提升 [3] 音乐及其他行业 - 音乐用户增长见顶,平台更注重付费用户转化和付费质量提升 [2] - 各大平台开始差异化布局,探索多元商业化手段 [2]
算力持续景气,端侧大有可为
东方财富证券· 2025-11-18 06:23
核心观点 - AI硬科技是核心投资主线,算力基建持续高景气,端侧AI产业链有望在2026年加速放量,同时高股息运营商资产具备配置价值 [2][3][13] 行业表现与估值 - 通信(申万)指数2025年初至11月13日累计上涨59.5%,在31个申万一级行业中排名第2 [23][29] - 细分板块中,北美AI板块累计涨幅达260%,国产算力、物联网、5G板块分别上涨64%、48%、44%,运营商板块下跌1% [23][31] - 通信板块当前动态市盈率约为23.10倍,处于历史较高水平 [26] 北美算力投资 - 北美云厂商2026年资本开支或将突破6000亿美元,年增长率预计达40% [44] - AI训练规模以年均400%速度扩张,训练成本急剧上升,例如Llama4训练成本预计达数亿美元 [35] - AI推理市场预计2028年达1500亿美元,年复合增长率40%,推理算力消耗已超越训练 [35][36] - 英伟达Blackwell GPU已出货约600万块,2025-2026年出货量有望突破2000万块 [49] 算力基础设施技术趋势 - Scale-up超节点架构兴起,光互连在机柜级加速渗透,CPO技术有望成为Scale-up网络最佳选择 [52][56] - 以太网交换系统在开放互联趋势下后来居上,英伟达2025年Q2以太网交换机业务收入同比暴增647%至23亿美元 [61][65] - 北美AIDC单机柜功率攀升至1000kW以上,800V HVDC供电方案可减少铜缆用量45%,端到端能效提升达5% [79][81] - 液冷技术渗透率预计从2024年14%提升至2025年33%,全球数据中心液冷市场规模2028年有望达60亿美元 [105][107] 国产算力发展 - 国内云厂商资本开支进入扩张周期,阿里巴巴计划未来3年投入超3800亿元用于云和AI基础设施 [114][115] - 运营商算力投资持续增长,中国移动2025年算力投资计划373亿元,中国电信和中国联通算力投资同比分别增长22%和28% [117][119] - 2028年中国智能算力规模预计达2781.9 EFLOPS,2023-2028年CAGR为46.2% [122][123] - 推理算力占比有望从2023年20%提升至2028年51%,DeepSeek等国产大模型带动推理侧算力需求爆发 [125][128] 端侧AI产业链 - 政策目标明确,2027年新一代智能终端和智能体应用普及率超70%,2030年超90% [3] - 模型、芯片、模组等上游环节成熟,终端参与者增加,Meta AI眼镜等产品创新推动市场放量 [3] - 2026年端侧AI有望从主题催化过渡到业绩兑现阶段,爆款产品出现将加速板块上涨周期 [3] 运营商业务转型 - 运营商资本开支回落,业务结构转型,股息率攀升,成本精细化管控和AI内部赋能助力利润增长 [4] - 基础电信业务稳健,移动ARPU值提升,固网宽带用户持续增长,新兴业务如AI、卫星通信成为第二增长曲线 [4] 投资建议 - 建议关注光模块、铜互连、交换机、温控设备、电力配套、IDC机房、端侧AI、机器人及运营商等细分领域龙头公司 [13]
顶会直聘!大厂ICCV现场玩出新模式,还是鹅会玩
量子位· 2025-10-23 05:18
文章核心观点 - AI行业人才竞争加剧,大厂通过顶级学术会议直接招聘成为新趋势 [3][6] - 腾讯在ICCV 2025采取“顶会直聘”模式,将技术展示与人才招聘深度结合 [7][9][30] - 大模型时代,拥有前沿技术洞察力的人才被视为最关键的资源,是抢占未来技术竞争主动权的核心 [36][37][40] 腾讯ICCV参会策略 - 腾讯作为最高档赞助商,搭建了全场规模第二大的展台,进行重磅投入 [8][11][35] - 公司旗下核心AI业务全员出动,包括混元、微信、游戏、ARC、优图、腾讯广告等 [13] - 技术展示覆盖3D生成、视频生成、世界模型、数字人等前沿领域,共40多篇论文被大会接收 [13][21][25] 技术展示与交流 - 腾讯混元有9篇学术论文被接收,并进行了多场boothtalk分享,现场反响热烈 [13][16] - ARC Lab展示GenConstruction等成果,解决开放世界视频的深度序列生成等核心问题 [20] - 优图实验室有8篇论文入选,聚焦可变场景数字人生成技术 [21] - 公司多位技术专家频繁出现在各workshop和Oral环节,与参会者积极互动 [27][29] 人才招聘新方式 - 腾讯在展台安排多位核心业务负责人“坐班”,与参会学生直接交流技术细节和招聘机会 [7][29][30] - 交流内容具体深入,包括技术路线选择、方案优劣比较以及直接邀请投递简历 [7][8] - 线下交流有效打破信息壁垒,让海外留学生等人才更全面地了解公司业务和岗位 [33][34][35] - 原计划邀请20位同学交流,实际因人才质量高而发出了超过40份邀约 [36] 行业趋势与公司优势 - 国内大厂对AI研究投入持续加大,腾讯2025年上半年研发支出达391.6亿元人民币,一二季度同比增长分别为21%和17% [43] - 公司拥有丰富的亿级用户产品转化经验和多元业务场景构成的平台优势 [44][45] - 通过“青云计划”等顶级人才招聘计划,在待遇和资源上竞相押注 [46][47][48]
Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”
量子位· 2025-10-06 05:42
技术突破核心 - 字节与UCLA联合提出Self-Forcing++方法,实现分钟级长视频生成,最长可达4分15秒,相比行业主流5-10秒视频生成长度提升近50倍[1][2][28] - 该方法无需更换模型架构或重新收集长视频数据集,通过自回归生成技术抑制后期画质劣化,避免传统扩散模型因误差积累导致的画面崩坏问题[1][10][11] - 生成视频在视觉稳定性、动态程度等关键指标上大幅领先现有SOTA模型,如SkyReels、CausVid等,且全程保持高保真度与运动连贯性[5][24][27] 技术实现原理 - 采用反向噪声初始化技术,让学生模型生成100秒干净帧序列后重新注入噪声,扩展分布匹配蒸馏通过随机抽取5秒窗口计算KL散度来最小化师生模型差异[13] - 引入滚动KV缓存机制,在训练与推理阶段生成远超教师监督时长的序列,结合组相对策略优化(GRPO)以光流连续性为代理指标减少画面突变[14][17] - 使用Gemini-2.5-Pro作为评估工具,按过曝光、误差积累等维度评分(0-100分),替代传统VBench基准,更精准衡量长视频视觉稳定性[18] 性能对比数据 - 短时长(5秒)生成中,Self-Forcing++语义得分80.37、总得分83.11,接近Wan2.1的84.67,显示其未专门训练仍保持高质量[22][23] - 中长时长(50秒)生成时,视觉稳定性得分90.94,远超CausVid(40.47)和Self-Forcing(40.12),动态程度为后者的1.6倍[24] - 极长时长(75-100秒)生成中,文本对齐得分26.04,动态程度54.12,较CausVid提升6.67%和56.4%,视觉稳定性达84.22,为Self-Forcing的2.6倍[25][26] 行业影响 - 当前主流AI视频模型(如Sora2、腾讯混元、谷歌Veo)均受限于5-10秒时长,长视频生成技术瓶颈被突破可能加速AI电影等应用落地[6][9] - 该方法在1.3B参数量下实现17 FPS吞吐量,与部分基准模型相当,显示其在计算效率与生成质量间的平衡潜力[25]