Workflow
文生视频
icon
搜索文档
全球应用格局生变,Sora2开启的赛道藏着下一个巨头|AI产品榜·应用榜9月榜
36氪· 2025-10-09 13:35
AI行业发展趋势 - Sora2标志着AI从生产力工具正式迈入娱乐消费新阶段,其极低的文字生成视频门槛将带来用户规模的十倍增长[6][9] - 与抖音等传统内容平台不同,Sora2创造了一个纯粹的虚拟内容环境,所有内容均由AI生成,不能上传外部视频[11] - 从生产力工具转向娱乐消费产品是AI应用的重要演变,类似微信朋友圈默认发图片而非文字的低门槛用户体验逻辑[8][10] 头部AI应用市场格局 - ChatGPT以7.58亿月活用户位居全球总榜第一,已进入全球十大应用(含非AI应用)排名第九,比X(Twitter)月活多两个多亿[14] - 全球总榜前五名中,国产AI应用占据四席(夸克、豆包、百度网盘、Deepseek),数量占比80%,流量占比40%[18] - 即梦AI在2025年9月国内增速榜排名第一,增速达31.98%,月活用户4289万,较2025年1月的361万增长11.88倍[14] 细分赛道增长动态 - 文生视频赛道潜力巨大,即梦AI、纳米AI、可灵、PixVerse等产品被认为最有可能参考Sora的成功路径[14] - 全球增速榜显示,AI Picasso以245.31%的增速位居第一,其次是Chat AI(191.88%)和Gemini(149.08%)[31] - 出海总榜前五名为Deepseek、Cici、Talkie、PixVerse、PictureThis,其中PixVerse为视频生成类创意工具[27] 市场表现与用户获取 - 全球下载榜中,ChatGPT新增下载1.036亿次位居第一,Gemini新增9062万次排名第二[35] - 国内下载榜前五名为豆包(2900万次)、腾讯元宝(1428万次)、夸克(1420万次)、即梦AI(1416万次)、Deepseek(1215万次)[38] - 订阅收入榜显示,ChatGPT年化订阅收入达18.33亿美元位居第一,FaceApp(1.56亿美元)和PictureThis(1.34亿美元)分列二三位[40] 产品形态演变 - Sora2定义了文生视频的产品形态,预计将进入全球十大AI应用,未来用户规模可能超过ChatGPT[15] - 目前大多数AI产品仍延续ChatGPT的Chatbot形态,缺乏根本性变化,Sora2代表了产品形态的重要创新[14][12] - 字节跳动旗下即梦AI是目前唯一具备内容消费属性的社区,结合字节的推荐算法优势,有望在文生视频赛道取得突破[14]
晚报 | 10月9日主题前瞻
选股宝· 2025-10-08 14:28
黄金 - 纽约商品交易所黄金期货价格历史上首次突破每盎司4000美元大关,现货黄金价格也突破此关口 [1] - 中国人民银行截至9月末黄金储备为7406万盎司,环比增加4万盎司,为连续第11个月增持 [1][5] - 金价上涨核心驱动因素包括美国政府债务问题及去美元化交易的中长期逻辑 [1] 核聚变 - 紧凑型聚变能实验装置BEST项目主机关键部件杜瓦底座研制成功并完成吊装,标志主体工程建设步入新阶段 [1] - BEST装置总投资85亿元,总装工作于2025年5月初启动,比原计划提前2个月,预计2027年完成建设并首次演示聚变发电 [1] - 核聚变行业累计融资金额超71亿美元,行业有望在“十五五”期间迎来资本开支加速周期 [2] 算力 - OpenAI将部署6吉瓦的AMD GPU算力,利用AMD Instinct系列GPU为其下一代AI基础设施提供动力 [2][6] - 与OpenAI的合作预计为AMD带来数百亿美元收入,并加速OpenAI的AI基础设施建设 [2] - 随着类Sora模型广泛部署,推理计算消耗将多于训练计算消耗,视频将占据更大存储空间,进一步打开存力、算力市场空间 [2] 柔性电池 - 中国科学院金属研究所研发出新型材料,基于该材料构建的一体化柔性电池可承受20000次反复弯折 [3] - 柔性电池被世界经济论坛列为《2023年十大新兴技术报告》之首,预计到2032年中国市场规模达369.78亿元,年复合增长率超20% [3] - 可穿戴设备、柔性显示屏等柔性电子产品快速发展对柔性电源产生迫切需求,为商业化应用奠定基础 [3] AI视频 - OpenAI发布新版AI视频模型Sora2及短视频平台Sora,上线3天登顶美国App Store免费榜 [4] - Sora2在物理运动上更精准,人物表演以假乱真,可控性有质的飞跃,将潜力转化为可落地、高实用的创作能力 [4] - 此次发布被定义为“视频领域的GPT-3.5时刻”,构建“AI创作+社交互动”全新生态,打破传统短视频平台内容生产逻辑 [4] 宏观与行业政策 - 国家发展改革委下达今年第四批690亿元超长期特别国债支持消费品以旧换新资金 [5] - 财政部、商务部开展国际化消费环境建设工作,对超大特大城市每个城市合计补助4亿元 [5] - 国务院办公厅通知,政府采购中自2026年1月1日起给予本国产品20%的价格评审优惠 [5] 公司动态与技术进展 - 特斯拉宣布第三代人形机器人明年量产,马斯克预计2030年前年产100万台 [6] - 腾讯混元图像3.0全球“盲测”登顶第一,智谱发布GLM-4.6适配寒武纪、摩尔线程芯片,推理成本大降 [6] - 全国首个大容量钠离子储能电站扩容工程投运,Robotaxi服务已进入北京三环复杂路况行驶 [5][6] 题材复盘相关板块 - 闪存板块受隔夜美股存储公司集体大涨影响,涉及公司包括德明利、中电鑫龙、深科技、江波龙 [9] - 有色金属板块因全球最大锡出口国印尼下令关闭1000个非法锡矿而受关注,涉及公司包括精艺股份、锡业股份、江西铜业等 [9] - 固态电池、人工智能大模型、机器人、光伏、锂电池等板块均有相关上市公司被提及 [10][11]
OpenAI 2025 开发者大会及 Sora2 点评:OpenAI 推出 Sora2,Apps SDK 重塑 AI 生态入口,对 AI 应用叙事有何影响?
光大证券· 2025-10-08 12:51
行业投资评级 - 互联网传媒行业评级为买入(维持)[6] 报告核心观点 - OpenAI通过推出Apps SDK和吸引第三方应用入驻,将应用入口迁移至“AI门户”,其掌握C端AI流量入口的战略愈发清晰[4] - Sora2展示了文生视频模型性能提升远未达到上限,AI视频有望从业余娱乐创作向商业化创作拓展[4] - OpenAI展现的流量入口战略显示AI对传统SaaS是赋能而非替代,有望缓和市场对大模型替代论和SaaS商业模式动摇的悲观情绪,助力AI应用公司估值修复[4] - 谷歌、Meta、微软等科技巨头激烈争夺AI入口,有望继续坚定AI研发和基础设施投入,建议关注AI算力、AI数据中心基建产业链[4] OpenAI开发者大会关键更新 - ChatGPT每周活跃用户达8亿,较上月增长10%以上[1] - OpenAI拥有400万开发者,API每分钟处理80亿个token[1] - 推出新一代视频生成模型Sora2[1] 新产品与开发生态 - **Apps SDK**:可无缝接入开发者自有数据源,可渲染完整UI并在对话流中嵌入复杂界面,用户无需离开ChatGPT即可调用第三方应用(如Spotify, Zillow)[2] - **AgentKit**:包含Agent Builder可视化画布、Connector Registry管理工具连接、ChatKit定制化聊天界面,HubSpot利用其改进了Breeze AI工具[3] - **Codex**:专注于软件工程领域的智能体,可实现无代码复杂编程[3] - **新增API**:包括高阶模型GPT-5 Pro、轻量级语音模型GPT-realtime-mini、音视频生成模型Sora 2[3] 投资建议与关注标的 - **美股关注**:广告与精准营销(AppLovin、Salesforce、Hubspot)、AI+电商(Shopify)、AI+多媒体(Figma、Reddit)[5] - **港股推荐**:快手-W、美图公司、金蝶国际、迈富时,关注第四范式[5]
实测可灵AI的新视频模型,它生成的动作戏酷到封神。
数字生命卡兹克· 2025-09-22 01:33
产品能力提升 - 可灵2.5在动作和表演方面实现显著进化 包括运动的超进化和表演的超进化 [1] - 运动能力实现超进化 能够丝滑衔接多个动作 如下落、奔跑、骑摩托等 并注重真实感细节 如玻璃渣散落和落地缓冲 [2] - 表演能力实现超进化 能够准确表达多层次情绪 如从愤怒到克制的转变 以及淡淡的阴恻恻的笑 [29][35] - 文生视频能力大幅提升 仅靠提示词即可生成至少一半的案例 无需首尾帧 [10][55] - 理解能力有巨幅提升 解决以往因果关系和细节不到位的问题 [56] 技术对比 - 可灵2.5相比2.1在运动能力上有巨大进步 2.1会出现绳子消失、摩托车凭空出现、动作错误等问题 [3] - 可灵2.5在人物动作和运镜方面更稳 而2.1只能保持人物基本不崩坏 环境交互细节全部糊掉 [5][6] - 可灵2.5的机器人跑酷动作和交互相当真实 而2.1会不受重力控制逐渐飞天 [10][12] - 可灵2.5能够自然完成情绪转变 而2.1表演没层次 表情做得太过或太粗糙 [32][33][37][42] 应用场景 - 可灵2.5能够生成各种运动镜头 如滑雪空翻、摸雪、呲雪墙、滑板速降、篮球赛等 [16][18][20] - 可灵2.5能够满足各种奇幻脑洞 如和小鹿一起闯进魔法森林、在废土世界开装甲车、在陌生星球开飞行器等 [22][24][26][27] - 可灵2.5能够处理多种专业场景 如好莱坞老电影风格的斗嘴、爆炸映亮脸部、重伤喘息、古灵精怪的表情变化等 [45][47][49][50] - 可灵2.5能够生成第一视角跟随镜头 并做出急迫感 如猛然加速追逐 [14]
9款图生视频模型横评:谁能拍广告,谁还只是玩票?
锦秋集· 2025-09-01 04:32
文章核心观点 - 图生视频模型在语义理解、动作逻辑和物理规律方面仍存在显著瓶颈 但已能有效解决创作流程中的"微任务" 未来需向段落生成和工作流嵌入方向演进 [50][51][52][53][54][55] 测评产品与范围 - 测试覆盖9款主流图生视频产品 包括Google Veo3 快手Kling 2.1 字节Seedance 1.0 MiniMax Hailuo 02 生数Vidu Q1 Runway Gen-4 Midjourney V1 Pixverse V5和百度蒸汽机2.0 [7] - 测试时间为2025年8月 所有模型在统一条件下生成5秒视频 不调整除提示词外的附加参数 [9][13] 测试场景设计 - 测试包含三大类场景:职场与商业场景(品牌开场视频/企业节日物料) 轻创作与社交表达(宠物拟人/风格混合) 概念演示及创意实验(奇幻场景/ASMR音画同步) [11][16] - 评估维度包括语义遵循度(核心要素还原) 物理规律(动作自然性) 画面表现力(分辨率/光影/流畅度) [16] 关键测试结果 - **文字生成能力薄弱**:除Hailuo外所有模型均未能准确生成"JinQiu Capital Annual Summit 2025"字样 出现乱码或忽略指令 Veo3存在跨语言处理缺陷 [17][18][19] - **音画同步能力分化**:仅Veo3和百度蒸汽机默认输出音效 Veo3音画契合度最高 在ASMR测试中其玻璃质感音效表现最佳 [20][49] - **复杂动作链断裂**:宠物递礼盒任务中无一模型实现"从身后取出-递出"完整动作 变身企鹅任务中仅Pixverse基本实现变身牵手跳舞 [30][35][39] - **物理规律普遍违规**:潮汐墙形态异常 物体受力不合理(如飞船受力错误) 礼盒凭空出现或形态变化等问题广泛存在 [25][36][44][45] - **文化语义理解差异**:春节机器人拜年任务中仅Hailuo和百度蒸汽机准确生成中国传统"拱手"动作 其他模型呈现为双手合十 [26] 模型性能对比 - **综合表现领先模型**:Veo3在品牌场景结构完整性和音画同步方面突出 Hailuo在文字生成和文化动作准确性上优势明显 [21][26] - **可直接使用场景**:Veo3的节日物料视频具备直接使用价值 Midjourney在宠物任务中真实感强 Pixverse在变身任务动作连贯 [25][31][36] - **功能覆盖差异**:Veo3仅支持英文输入 百度蒸汽机与Kling具备中文音视频一体化能力 各模型定价策略差异显著(月费10-80美元不等) [12][19] 行业技术瓶颈 - 当前模型仍处于"点状生成"阶段 无法实现段落级叙事构建 在风格迁移测试中全部失败(如辛普森真人化转换) [51][55] - 核心限制包括动作链条断裂 物理规律脆弱 文字生成与跨语言处理薄弱三大短板 [39][45][51] 应用价值定位 - 核心价值在于解决"微任务":快速生成会议开场动画 社交媒体轻量化内容 创意视觉草图和ASMR片段 [52][56] - 无法替代拍摄剪辑 但可作为生产流程的辅助工具用于前期预演和过渡片段生成 [54] 技术演进方向 - 需从"能动"升级至"能演" 重点突破动作连贯性 镜头语言和情绪节奏控制 [53] - 从趣味生成工具转向工作流嵌入式组件 实现人机协同编导的多轮交互模式 [54][55]
让AI作画自己纠错!随机丢模块就能提升生成质量,告别塑料感废片
量子位· 2025-08-23 05:06
技术突破 - 清华大学、阿里巴巴AMAP(高德地图)、中国科学院自动化研究所联合推出S²-Guidance方法 通过随机丢弃网络模块动态构建弱子网络实现生成过程自我修正 避免繁琐参数调整并实现即插即用效果 [1][3] - 该方法在文生图和文生视频任务中显著提升生成质量与连贯性 具体表现为动态感增强、细节更精致、伪影减少、艺术表达丰富及物体协调性改善 [4][6][19] 技术原理 - S²-Guidance通过随机模块丢弃策略在前向传播时临时跳过部分网络模块 动态构建轻量化内生子网络 利用模型冗余特性暴露完整模型在高不确定性区域的错误倾向 [10] - 采用负向引导修正机制 通过引导公式"最终引导方向=标准CFG引导方向-子网络预测的高不确定性方向"实现自我纠错 精准规避低质量生成区域 [11][12] 性能优势 - 在SD3模型T2I-CompBench基准测试中 S²-Guidance在颜色(59.63%)、形状(58.71%)、纹理(56.77%)维度得分均超越CFG-Zero(52.70%/52.84%/53.37%)和CFG(53.61%/51.20%/52.45%) [27] - 在VBench视频评测中 Wan1.3B模型总分80.93分超越CFG-Zero(80.71) Wan14B模型总分82.84分超越CFG(82.65) 且在语义一致性(74.65)和对象类别(89.08)指标表现突出 [28] 应用效果 - 视频生成解决CFG两大痛点:物理真实性方面消除卡车横向漂移等失真现象 复杂指令遵循方面完整还原"金线环绕人脸+发光粒子"等复杂描述细节 [24][25] - 计算效率几乎无损耗 实验证明单次随机丢弃(N=1)效果与多次平均相当 通过多步迭代自然平均随机抖动实现高质量输出 [36][37]
“盗梦空间”成为现实 文生视频迎来重大进展
21世纪经济报道· 2025-08-08 01:08
技术突破 - 谷歌DeepMind发布首个实时交互通用世界模型Genie 3 支持通过单句话生成动态3D虚拟环境并实现长达数分钟的沉浸式探索 [1] - 该模型实现24fps实时交互与720p分辨率输出 在一致性和真实感方面较前代模型及视频生成模型有显著提升 [1] - 模型具备持续数分钟的一致性表现 为当前同类技术中实时交互能力的首创 [1]
A股早评:沪指低开0.14% 统一大市场概念盘初拉升
格隆汇· 2025-08-01 01:40
市场开盘表现 - 沪指开盘下跌0.14% [1] - 深证成指开盘下跌0.08% [1] - 创业板指开盘下跌0.19% [1] 统一大市场概念板块 - 国家发改委强调纵深推进全国统一大市场建设并破除"内卷式"竞争 [1] - 申通快递股价上涨超8% [1] - 韵达股份股价上涨超6% [1] 文生视频概念板块 - 阿里开源电影级AI视频模型推动概念活跃 [1] - 易点天下股价上涨超7% [1] CPO概念板块 - 东田微股价下跌近5% [1] - 生益电子股价下跌近5% [1] 军工装备板块 - 北方长龙股价下跌超7% [1] - 国瑞科技股价下跌超5% [1]
“文生视频”爆火 商业前景几何
中国青年报· 2025-07-29 23:02
AI视频生成技术发展 - 可灵AI是快手推出的新一代AI创意生产力平台 基于自研大模型提供高质量视频及图像生成和编辑能力 满足创作者对创意素材生产与管理的需求 [1] - 过去6个月 视频生成大模型已在全球生成超过3亿个视频 通过AI模型让每个人的创意得以充分发挥 [1] - 华策影视自2023年起启动AI垂类模型研发 推出"有风"(文生文)与"国色"(文生视频)等自研模型 [2] 行业应用与商业化进展 - 可灵AI商业化变现加速 2024年4月和5月月度付费金额均超1亿元 营收增速和水平居全球视频生成大模型产品和独立AI产品前列 [3] - 可灵AI自2024年6月6日发布以来累计完成超30次迭代 全球用户规模突破4500万 累计生成超两亿个视频及4亿张图片 [3] - 可灵AI为两万多家企业客户提供API服务 涵盖专业创作平台 广告营销 影视动画 游戏制作和智能终端等领域 [3] 企业战略与市场表现 - 华策影视2024年尝试用AI生成场景辅助短剧制作 2025年下半年重点短剧项目将由AI视频生成技术全流程辅助创作 [2] - 短剧赛道显现AI驱动的"从点到链到面"全产业渗透趋势 [2] - 可灵AI的P端付费订阅会员贡献近70%营业收入 主要来自自媒体视频创作者和广告营销从业者等专业用户 [3] - 快手P端付费订阅会员数量和年化收入运行率均呈现较高增速 双轮驱动可灵P端付费订阅收入增长 [3]
2025年中国多模态大模型行业模型现状 图像、视频、音频、3D模型等终将打通和融合【组图】
前瞻网· 2025-06-01 05:09
多模态大模型技术发展 - 行业聚焦视觉等重点模态领域突破,探索"Any-to-Any"大模型技术路径,如Google Gemini和Codi-2处于早期阶段,需实现跨模态知识学习与信息对齐 [1] - 当前主要工作集中在Transformer架构向图像、视频、3D等模态扩展,完善单模态感知/生成模型后再推进跨模态融合 [1] 图像模型进展 - 2023年前已建立CLIP、Stable Diffusion、GAN等基础模型,衍生Midjourney、DALL·E等成熟文生图应用 [2] - 近年重点探索ViT、DiT等视觉Transformer架构,推动GLIP、SAM、GPT-V等LLM与视觉模型融合成果 [2] 视频模型技术 - 基于图像生成模型(如扩散模型)叠加时间维度对齐,形成VideoLDM、W.A.L.T.等文生视频方案 [5] - Sora采用Diffusion Transformer架构实现突破性视频生成,首次展现"智能涌现"特征 [5] - 主流技术路径为文生图模型+时序对齐,辅以插帧超分、噪声对齐、LLM增强描述等方法提升质量 [5] 3D模型开发现状 - 技术路线延伸自2D图像生成(GAN/Diffusion/VAE等),产生3D GAN、MeshDiffusion、Instant3D等早期成果 [8][9] - 数据表征以NeRF(神经辐射场)为核心技术,支持网格、点云、体素等多种形式 [9] - 数据集稀缺,ShapeNet含5.1万3D CAD模型,Objaverse-xl达1000万对象规模 [9] 音频模型创新 - Transformer架构推动Whisper large-v3、VALL-E等项目突破,增强多语种/自然声/零样本学习能力 [11] - Omni模型通过neural audio codec编码,结合扩散模型实现音频合成技术迭代 [11]