视频生成模型
搜索文档
百度自研的视频生成模型还是来了
新浪财经· 2025-07-04 01:39
百度发布视频生成模型MuseSteamer - 公司正式发布自研视频生成模型MuseSteamer及视频产品平台"绘想",采用DIT架构,参数与业界最大视频生成模型同量级,支持生成10s动态视频,最高分辨率1080P [1] - 模型由移动生态商业研发团队开发,非技术中台部门TPG主导,定位为商业驱动型产品,旨在解决广告主生成科幻场景视频的需求 [1][4] 模型研发背景与策略 - 公司CEO李彦宏曾于2023年10月表示不做通用视频生成模型,但支持基于多模态的特定场景开发,如罗永浩数字人和MuseSteamer均针对特定需求 [2] - 项目2024年春节后立项,研发团队数十人,3个月内完成开发,技术积累来自擎舵平台的多模态生成能力和商业体系的模型训练框架 [4] 商业化进展与产品定位 - "绘想"平台定位B端营销产品,Turbo版已开启限时免费公测,其余版本计划8月开放,目前平台已生成超100个AIGC广告并投放 [4] - 公司未明确是否服务C端用户,但已将模型接入百度搜索,未来可能扩展至更多C端产品 [5] 行业差异化特点 - 区别于市场主流技术驱动型视频生成模型,公司采用商业驱动模式,先明确广告营销场景需求再反向研发模型 [4]
豆包视频生成模型Seedance 1.0 pro正式发布 实时语音模型同步全量上线
快讯· 2025-06-11 05:29
豆包视频生成模型Seedance1 0pro发布 - 火山引擎在"2025火山引擎春季FORCE原动力大会"上正式发布豆包视频生成模型Seedance1 0pro [1] - Seedance1 0pro具备无缝多镜头叙事、多动作及随心运镜功能 并能稳定运动保持真实美感 [1] - 该模型定价为0 015元/千tokens(tokens是语言生成模型的最小工作单元) [1] 豆包实时语音模型相关发布 - 火山引擎总裁谭待宣布豆包实时语音模型全量上线 [1] - 会上同时正式发布了语音博客模型 [1]
字节跳动推出视频模型Seedance 1.0 pro
快讯· 2025-06-11 03:41
公司动态 - 字节跳动旗下火山引擎在FORCE原动力大会上发布视频生成模型Seedance 1 0 pro [1] 产品发布 - 视频生成模型Seedance 1 0 pro由火山引擎推出 [1]
VDC+VBench双榜第一!强化学习打磨的国产视频大模型,超越Sora、Pika
机器之心· 2025-05-06 04:11
视频细粒度文本描述技术 - 复旦大学等机构提出的Cockatiel方法在VDC榜单上获得第一名,超越通义千问2-VL、VILA1.5、LLaVA-OneVision、Gemini-1.5等主流视频理解多模态大模型 [3] - Cockatiel采用三阶段微调训练流程:构造人类偏好数据、基于打分器的多模型集成训练、蒸馏轻量化模型,最终训练出13B多模态大语言模型并蒸馏为8B模型 [8] - 实验显示Cockatiel-13B能准确复现基线模型细节,捕捉遗漏信息,且大幅减少幻觉性内容,展现更高可靠性和准确性 [7] 强化学习优化视频生成技术 - 研究团队提出迭代式强化学习偏好优化方法IPOC,在VBench榜单以86.57%总分登顶,领先通义万相、Sora、HunyuanVideo等知名视频生成模型 [14] - IPOC采用三阶段优化:人工偏好数据标注、奖励模型训练、迭代强化学习优化,仅需少量训练数据和算力即可实现效果优化 [19][20] - 优化后视频生成模型在时序一致性、结构合理性、动态程度和美学度均有显著提升,如狮子行走动作更自然连贯,人物与猛犸象结构更合理 [21][23][25] 技术方案细节 - Cockatiel基于人类偏好对齐的高质量合成数据,集成多个模型优势,以单机训练成本实现细粒度表达和人类偏好一致性 [5] - IPOC框架兼容主流偏好优化算法,包括Diffusion-DPO和Diffusion-KTO方法,用户可灵活选择训练目标 [21] - 两项技术均提供完整开源资源,包括论文、项目主页和GitHub代码库 [5][20]
阿里开源版Sora上线即屠榜,4070就能跑,免费商用
量子位· 2025-02-26 03:51
开源视频生成模型Wan 2.1的技术突破 - 阿里开源14B参数视频生成模型Wan 2.1,在VBench榜单表现超越Sora、Gen-3等竞品 [2] - 模型支持复杂运动细节(如5人同步hip-hop)和静态图像文字生成难题 [3][4] - 采用14B(720P)和1.3B(480P)双版本设计,后者可在消费级显卡(如4090显存8GB+)本地部署 [5][6] 计算效率与硬件适配性 - 4090显卡运行1.3B模型耗时261秒/峰值显存8.19GB,多GPU并行显著加速(如8卡降至112秒) [7] - 14B模型在H800显卡上实现最优效率(T2V任务单卡1838秒,8卡288秒) [7] - 12GB显存的4070显卡可支持1.3B版本运行 [6] 商业化与生态整合 - 全部模型采用Apache 2.0协议,允许免费商用 [8] - 计划集成ComfyUI工具链,降低AI创作者使用门槛 [9] - 提供通义万相平台在线体验(消耗"灵感值")及HuggingFace/魔搭社区本地部署方案 [10][11] 核心技术架构创新 - 主体采用DiT架构,结合T5文本编码器与交叉注意力机制实现多语言支持 [21][22] - 创新3D变分自动编码器设计,通过特征缓存和分块处理使VAE重建速度提升2.5倍 [23][28] - 图像转视频(I2V)技术通过CLIP编码器提取首帧特征,新增投影层优化输入通道 [32][34] 实际应用效果展示 - 突破性支持视频内动态文字生成,文字随材质和载体自然变化 [12][13] - 物理模拟精准(如弓弦抖动、水面过渡)且角色动作连贯(华尔兹转身一致性) [15][16][17] - 用户生成案例显示无需提示词即可实现日漫风格动画(如小狗切菜无畸变) [19]
晚点独家丨蚂蚁投资视频生成模型公司爱诗科技;奈雪投资人加入茶颜悦色
晚点LatePost· 2024-04-23 11:12
蚂蚁集团投资爱诗科技 - 蚂蚁集团近期独家投资爱诗科技A2轮,金额超1亿元人民币,布局视频生成大模型领域[3] - 爱诗科技成立于2023年4月,团队约30人,创始人王长虎曾任字节跳动视觉技术负责人[3] - 公司采用DiT架构(与Sora相同技术路线),2023年6月开始尝试该技术[4] - 已推出视频生成产品PixVerse,支持文字/图片生成4秒视频[4] 视频生成行业竞争格局 - PixVerse上线3个月月访问量达115万,同期Pika为226万,Runway达668万(网页端)[5] - PixVerse跳出率33.02%,显著低于Pika(44.26%)和Runway(44.82%)[6] - 用户平均停留时间10分51秒,远超Pika(5分43秒)和Runway(4分8秒)[6] - 行业主流产品视频时长集中在4-7秒,Sora可达60秒[9] 技术发展路径 - 15秒视频被视为关键节点,需突破物理规律模拟和画面一致性技术[9] - 大语言模型能力被视为视频模型基础,GPT-4V支撑了Sora表现[10] - Sora未开放或因成本高(生成60秒视频需20-30分钟)和质量稳定性问题[10] 茶颜悦色战略调整 - 原天图资本合伙人潘攀加入任战略负责人,曾主导投资百果园(回报1.29倍)、奈雪(回报9倍)[10] - 公司目前拥有600+直营门店,2022年起加速扩张并推出4个子品牌[10] - 对比竞品霸王茶姬采用加盟模式已开4150家国内门店及100+海外门店[10] - 全公司员工超6500人,过去一年部分部门扩招30%[11] - 正筹备香港IPO,已选定中金和大摩为保荐人,拟募资数亿美元[11]