Workflow
Wan
icon
搜索文档
A16Z最新洞察:视频模型从狂飙到分化,产品化是下一个机会
36氪· 2025-10-28 00:18
行业阶段转变 - 视频生成模型的发展节奏发生变化,从过去每周都有新模型刷新基准成绩的狂飙阶段,进入进步放缓的“产品时代”[1] - 模型性能的进步不再主要体现在参数或基准分数上,而是体现在多样性和专业化上,没有哪一个模型能“通吃全场”[2] - 更大的机会从模型本身转向“围绕模型”的产品构建,能简化创作流程、抽象出复杂操作的工具正变得比模型本体更有价值[2] 模型技术现状 - 大多数主流模型已能生成10–15秒带同步音轨的视频,效果相当惊人但不再令人惊讶,在“真实感”上的突飞猛进已使生成视频几乎和现实看不出差别[1][6] - 所谓“最强模型”的概念在视频领域可能根本不存在,上个月发布的Sora 2在LMarena等测试中甚至不如Veo 3,表现不升反降[4] - 行业可能看到更多风格化、专业化的模型出现,每个模型不再追求通用而是各有特长,视频生成进入“百花齐放”的新阶段[7] 主要模型专业化分工 - Veo 3最擅长物理细节、复杂动作,音画同步也做得最好,缺乏幽默感但动作、镜头、音画同步更精确,适合内容创作者、影视工作者[11] - Sora 2可以根据一句话生成有趣的多镜头视频,更像是一位“故事导演”,适合普通用户和meme创作者,但在物理表现、音视频同步方面不太稳定[11] - 其他专业化模型包括:Wan作为开源模型支持很多风格化插件适合定制风格,Grok速度快成本低特别适合动画内容,Seedance Pro可以一次生成多镜头结构,Hedra在长时间对话类视频的表现最稳[11] 产品化与工作流工具 - 当前模型能力已经很强,但对应的产品进度依然有很多“追赶空间”,需要更好的一体化产品来简化整个创作过程[13] - 许多创作者正在手动拼接多个模型的功能来完成本可自动做到的事情,如保持角色一致、延续镜头画面、控制运动轨迹等,显示产品体验和创作效率之间存在巨大断层[14] - 行业开始出现解决这些问题的工具,例如Runway发布了一套工具让用户修改镜头角度、生成下一个镜头等,OpenAI的Sora Storyboard支持更细致控制每一帧动作,谷歌Veo 3.1围绕音频和视觉控制做了功能增强[15] 未来发展方向 - 未来会看到越来越多“小而美”的模型,专门为某个行业或某种场景优化,如室内设计、营销、动画制作等[16] - 需要更强大的“创意工具包”来打通各种模态,让视频、配音、音乐等元素的生成与编辑更顺畅,形成一整套真正闭环的AI视频工作流[16] - 这类似于大语言模型的发展路径,即便模型性能不再突飞猛进,围绕它构建实用产品的空间依然非常大[15]
被高估的易中天
搜狐财经· 2025-10-15 01:18
AI视频大模型竞争格局 - Sora2发布即可用,但并未与国产视频大模型(如字节即梦、快手可灵、阿里Wan)形成代差式领先,部分细节甚至不如国产模型[2] - 预测国产视频大模型将在很短时间内对齐Sora2的能力,其中阿里Wan走开源路线,生态建设迅速[2] - Google在Sora2发布后一天推出Veo3.1,在电影级画质视频制作方面优势更大,凭借其强大的基础设施整合能力,未来可能超越OpenAI[2] - AI硬件发展路线不确定性大,OpenAI与英伟达一统天下的模式面临挑战,阿里、谷歌等公司使用自研AI芯片[3] 新易盛2025年上半年财务表现 - 公司实现营业收入104.37亿元,同比增长282.64%[5] - 归属于上市公司股东的净利润为39.42亿元,同比增长355.68%[5] - 基本每股收益为3.97元,同比增长356.32%[5] - 第二季度单季营收63.85亿元,环比增长57.5%,净利润23.7亿元,环比增长50.7%[7] - 业绩爆发式增长主要得益于全球AI算力投资热潮对高速光模块的旺盛需求[5] 新易盛业务转型与市场地位 - 公司从传统光模块供应商转型为AI算力基础设施核心供应商,业务结构发生根本性转变[7] - 4.25G以上高速光模块产品收入占比高达98.91%,传统低速率产品仅占0.87%[9] - 境外收入达985.26亿元,占主营业务收入94.64%,体现全球化战略成功[10] - 公司成功推出基于单波200G光器件的800G/1.6T光模块产品,涵盖VCSEL/EML、硅光、薄膜铌酸锂等多种技术解决方案[8] 行业需求与市场前景 - 亚马逊、微软、谷歌、Meta等北美四大云厂商2025年资本开支预计突破3200亿美元,同比增长30%,主要用于AI数据中心建设[7] - LightCounting预测2025年以太网光模块市场将增长50%,800G市场规模将超过400G,渗透率从25%提升至50%[7] - 800G已成为AI集群标配,预计2025年全球800G需求达1990万只,1.6T需求从200万只调整至100万只[8] 客户结构分析 - 应收账款前五大客户占比72.74%,主要为亚马逊(31.74%)、微软(31.7%)、Meta(18.2%)等国际云巨头[11] - 字节跳动成为国内最大客户,阿里云2025年800G光模块招标量预计达500万只,新易盛获得25%份额[11] - 腾讯份额提升至30%以上,通过拓展国内AI算力客户降低对单一市场的依赖[11][13] - 客户结构优化为公司提供更稳定的增长动力,并与英伟达等AI芯片厂商合作强化竞争力[13] 存货与应收账款风险 - 存货余额59.44亿元,较上年末增长43.86%[14] - 存货跌价损失1.63亿元,同比大幅增长838.72%,存货跌价准备高达5.04亿元[14] - 应收账款50.17亿元,较上年末增长97.59%,99.97%的应收账款账龄在一年以内[15] - 应收账款周转天数为65天,存在一定的坏账风险[15] 技术迭代与行业竞争风险 - CPO(共封装光学)技术可能在2027年后主导Scale-up网络,对传统可插拔光模块构成替代威胁[14][16] - LightCounting预测2025年光模块价格将以每年18%的幅度下滑,800G光模块价格已从2024年的1.2万美元/只降至2025年Q1的8500美元/只[14][18] - 中际旭创已实现硅光模块量产,1.6T产品市占率超35%,而新易盛CPO布局尚处样品阶段[17] - 新易盛研发投入为3.34亿元,低于中际旭创的5.2亿元,在CPO等前沿技术领域的布局相对滞后[18]
CVPR 2025 | SketchVideo让手绘动起来,视频生成进入线稿时代
机器之心· 2025-05-17 06:00
生成式AI视频技术发展 - 生成式AI在文本和图像领域已成熟,视频生成成为AIGC重要研究方向,应用于影视制作、短视频合成等领域[1] - 现有商用/开源模型(如Sora、可灵、CogVideo)依赖文本/图像输入,但存在几何细节控制不足、运动信息难以精确调节等局限性[7][9] - 视频局部二次编辑需解决空间与时序一致性难题,当前方法多聚焦整体风格变化而非局部几何编辑[9][11] SketchVideo技术创新 - 提出基于线稿的可控视频生成/编辑方法,仅需1-2帧关键帧线稿即可生成时序一致的动态视频,支持局部区域修改[1][12] - 采用跳跃式残差控制结构:将条件模块以固定间隔嵌入预训练模型(CogVideo-2B),参数开销减少50%以上[11][12] - 引入帧间注意力机制,通过稀疏传播关键帧控制特征实现全视频一致性[12] - 视频编辑新增视频嵌入模块,结合局部融合策略保留非编辑区域内容[12] 应用效果展示 - 单帧线稿+文本输入可生成高质量视频,指定时间点与线稿匹配度达90%以上[15][17] - 双帧线稿输入可控制物体运动轨迹,实现定制化生成[17][19] - 真实视频编辑支持局部区域修改(如树枝移动、头部旋转),新内容与原始视频运动同步[19][21] 行业影响 - 突破专业视频制作门槛,用户通过简单线稿即可创作动态内容,效率提升约70%[23] - 技术已被CVPR 2025收录,相关代码及Demo在GitHub和YouTube开源[8][23] - 相比传统文本驱动方法,几何控制精度提升40%,填补了视频生成领域可控性空白[9][12]