AI视频模型 - 财报，业绩电话会，研报，新闻

AI视频模型

搜索文档

歸藏的AI工具箱· 2025-10-10 10:03

模型核心能力 - 专注于人物对话表演，在人物细微表演对话方面表现最强，表演能力甚至超过Sora2 [1] - 模型具备泛化智能，能自主推导并生成未在提示词中明确指定的细微表情和动作，如叹气、点头、挑眉等 [2][5] - 支持声音和画面同步生成，即使侧面视角下唇形同步也非常到位，语音音效俱全 [4] - 在复杂情绪表现上极为出色，能精准演绎羞耻、自责、绝望、恳求等细微情绪变化及语音配合 [9][10] 技术规格与性能 - 支持图生视频，单次生成最长10秒，分辨率为720P但细节丰富 [4] - 支持双人场景演绎，能很好理解提示词中不同人物的语音和互动，但超过双人表现会下降 [4][11][16] - 支持多语言输出，包括英语、日语、西班牙语，并可实现多语言混合输出，各语言表现标准如母语者 [6][7][8] - 目前仅支持16:9横屏比例，后续将支持9:16竖屏比例 [16] 应用场景与提示词使用 - 提示词编写可先描述情绪变化，再说明语气和内容，停顿可用波折号或省略号表达 [16] - 在复杂场景（如雨天、车内隔窗对话）中能自动添加环境音（雨声）和应景背景音乐（钢琴BGM），增强氛围渲染 [10] - 需避免复杂精细的手部运动提示词，手部动作可能存在瑕疵；图生时也应避免过多肢体或全身露出 [6][16] - 对于短对话（如十字以内）可选择5秒生成时长，长对话可选择10秒 [16] 行业发展趋势 - AI视频模型发展进入新阶段，重点从复杂动态、物理表现转向情绪表达、表演以及音效语音的端到端多模态一体化输出 [16] - 模型开始内化世界知识和智能，具备视觉推理、分镜脚本编排和剪辑能力，这部分能力原被认为需由Agent完成 [16][17]

Sora2之后，又来了个全新的影视级AI视频模型，它的名字，叫GAGA。

数字生命卡兹克· 2025-10-10 01:33

文章核心观点 - 公司推出的AI视频模型GAGA-1在人物表演领域表现出色，尤其在台词同步和情感表达上达到较高水准，为短剧、互动影游等内容创作提供了新的低成本工具 [3][19][20][59][60] - 该模型目前处于免费使用阶段，其定价策略预计将远低于Sora2和Veo3等竞争对手，具备市场普及潜力 [12][55][57] - 作为国产模型，GAGA-1的上线标志着AI视频领域的技术进步，尽管在复杂动作、多语言支持及工作流集成方面仍有优化空间 [52][53][61] 产品功能与性能 - 模型核心功能为“Gaga Actor”，专注于生成带台词的人物表演视频，支持5秒和10秒两种固定时长，建议台词字数不超过20个 [16][17][18][21] - 生成视频需结合输入图片和文本提示词，一次生成耗时约3至4分钟，支持最多5条并发生成 [22][28] - 在人物神情、头发细节、牙齿等细微之处表现优异，表演真实度被评价为接近影视级别，尤其在短剧和影游级应用上效果良好 [20][21][30] 技术优势与特点 - 模型能够准确识别并表现复杂的表演动作和情绪，如叹气、咬嘴唇、哭泣、歇斯底里等，并能展现不同的表演层次 [32][34][35][39] - 支持图片中多人物互动，能分别处理不同角色的神态和语音表现 [46] - 具备一定的唱歌功能，尽管音调表现尚不完善 [48][50] - 能够识别角色国籍并调整语言表现，例如识别外国角色并使用蹩脚普通话 [44] 当前局限性 - 对大幅度、复杂运动支持不佳，例如手部动作容易出现变形 [52] - 台词生成能力相较于表演层次稍弱，念白较为平淡，且长提示词可能导致吞字现象 [35][36][42] - 多语言支持不均衡，日文表现诡异，其他语言支持程度不明 [53] - 缺乏音色ID固定和自定义音频上传功能，导致每次生成的音色不一致，影响工作流集成 [53] 市场定位与定价策略 - 产品目前完全免费开放使用，无需邀请码或排队，旨在吸引用户体验和积累用户 [12][55] - 公司明确表示未来定价将远低于Sora2和Veo3，但具体收费时间和方案尚未确定 [56][57] - 模型定位为降低视频创作门槛，目标应用场景包括短剧、互动影游NPC对话、小说角色可视化等 [59]

AI视频模型

Artificial Intelligence

Artificial Intelligence

告别抽卡！全能&高度可控｜藏师傅教你用即梦数字人 1.5

歸藏的AI工具箱· 2025-09-29 10:10

产品核心升级 - 数字人Omnihuman 1.5版本在Web端上线，相较于1.0版本，其控制能力大幅提升，用户可定义视频中人物的表演和运动方式，解决了以往AI视频在人物表现方面的难点 [1] - 新增动作描述提示词输入功能，极大拓展数字人的使用场景，可控制画面内容、人物、情绪、音色以及运动和运镜方式，使其成为自定义程度极高的工具 [2] - 模型升级使数字人不再死板，可通过动作控制让镜头和人物动起来，包括主角和背景人物，实现如先抬头调整角度再开始说话，同时镜头旋转、背景人物行走等复杂动作，这是纯唇形同步模型无法做到的 [4] 技术能力突破 - 模型在多风格化及非人形生物的唇形同步上效果自然，平面插画的眼睛、嘴部和面部运动生动，并可搭配抬手、走动等动作，镜头平移时新画面风格与原有部分保持一致 [5] - 对表情和表演的响应显著提升，能够精准遵循复杂提示词，如从平静到讽刺再到温和的16秒长视频中，稳定保持人像ID不变并实现精准的提示词遵循，这在市场上较为罕见 [6] - 新增控制同一场景多人对话和表现的功能，可指定发声角色，实现两人对唱、多人对话剧情，搭配图像编辑能力调整镜头重点，超越固定镜头的表现限制 [7] - 解决了以往模型夸张嘴型问题，模型会根据声音内容和提示词调整嘴部动作，表现自然度大幅提升 [8] 操作流程与教程 - 制作视频需准备三部分内容：首帧图片、音频、对应的动作和情绪提示词，建议使用表格规划每个分镜的这三个部分，通过切分镜头和音频使画面更生动，避免超长镜头的生成时间和ID保持问题 [9][29] - 音频处理支持选择推荐音色或克隆自定义音色（仅需5秒音频），上传音频后角色说话内容将基于音频，多角色画面中可选择单个或全部角色发声 [12][14] - 动作描述提示词模板建议包含镜头运动、说话角色情绪、说话状态、具体动作及可选背景事件或其他角色动作，强调清晰、不矛盾、少否定、多具体内容 [16] - 利用图像模型生成和编辑分镜图片，如生成黑色背景的乔布斯图片、苹果风格PPT的拖鞋产品图，并通过图像编辑能力修改背景和添加元素，实现多镜头连贯视频 [19][21][23][25][27] 行业影响与定位 - Omnihuman 1.5将创作从“玄学”变为“工程学”，首帧画面相当于场景设定、音频内容相当于台词剧本、动作提示相当于分镜脚本、多角色控制相当于群戏调度，为具备导演思维的用户提供更精准的工具 [30] - 新模型将于9月30日同步上线手机端，用户更新即梦app即可体验，标志着AI视频工具在移动端的进一步普及 [30]

AI视频模型

Artificial Intelligence

Artificial Intelligence

Omnihuman 1.5

即梦图片 4.0

iFlip One

可灵2.5Turbo实测｜顶尖AI视频模型，真能打平CG吗？

歸藏的AI工具箱· 2025-09-23 10:37

可灵2.5 Turbo模型性能提升 - 模型提示词理解能力显著增强，尤其擅长处理包含复杂因果和时间关系的指令 [1] - 在超高速战斗和复杂运镜场景下，视频生成稳定性更高 [1] - 图生视频功能风格保持相当稳定，生成视频的风格一致性更强 [1] - 高品质模式5秒视频生成价格从35积分降至25积分，降价幅度约29% [1] 复杂动作与时序理解能力 - 模型能够准确执行复杂提示词序列，如规定运镜方式后连续完成伸手攻击、怪物扑咬等动作 [2][3] - 在执行复杂动作如人物转身时，主体角色完全避免变形或溶解等问题 [3] - 能够根据首帧图片不清晰的怪物形象，脑补并生成后续画面中清晰完整的怪物形象 [3] - 处理服装平滑变换等复杂时序提示词时过渡顺滑，服装变化采用生长动画和蒙版等自然方式 [6][7] 与世界顶级CG渲染作品对比 - 在还原世界渲染大赛Top 5作品时，模型能把握照明弹触发场景变亮的核心亮点，并丰富水晶生长等细节 [10][11] - 对于固定机位的复杂战斗场景，模型能准确分析画面视觉元素，使所有应该运动的物体都在运动，并模仿原始CG运镜 [11][12] - 在人物奔跑、躲避攻击等动作表现上相当自然流畅，甚至能主动添加提示词未要求的"踉跄"步伐以符合物理逻辑 [13][17] - 变狼形生物的动作处理几乎与CG同步，人物和狼的运动及动作切换无误，背景元素运动自然 [14][17] - 在处理龙骑士航拍镜头时，尽管首帧龙身不全导致龙形态变化，但在镜头调度和运动表现上甚至优于原CG [15][17] - 追车场景还原度最高，汽车落地后模型自动添加甩尾漂移动作，镜头跟随表现突出 [16][17] AI视频模型的技术突破意义 - 模型开始理解动作背后的"为什么"，表现出对真实物理世界的底层理解，如对"失衡-恢复"逻辑的自发补全 [17] - 内化了"材质-运动"的关联规则，如公主长裙的变化遵循布料重力下垂的渐进式展开而非粗暴形变 [17] - 在形变瞬间的镜头模糊和肌肉膨胀帧率完全同步，显示对"形变需要信息补偿"的隐性认知 [18] - AI模型的思考和创作方式更接近人类，在CG解微分方程时，AI已学会"凭感觉"进行创作 [18]

实测可灵AI的新视频模型，它生成的动作戏酷到封神。

数字生命卡兹克· 2025-09-22 01:33

产品能力提升 - 可灵2.5在动作和表演方面实现显著进化包括运动的超进化和表演的超进化 [1] - 运动能力实现超进化能够丝滑衔接多个动作如下落、奔跑、骑摩托等并注重真实感细节如玻璃渣散落和落地缓冲 [2] - 表演能力实现超进化能够准确表达多层次情绪如从愤怒到克制的转变以及淡淡的阴恻恻的笑 [29][35] - 文生视频能力大幅提升仅靠提示词即可生成至少一半的案例无需首尾帧 [10][55] - 理解能力有巨幅提升解决以往因果关系和细节不到位的问题 [56] 技术对比 - 可灵2.5相比2.1在运动能力上有巨大进步 2.1会出现绳子消失、摩托车凭空出现、动作错误等问题 [3] - 可灵2.5在人物动作和运镜方面更稳而2.1只能保持人物基本不崩坏环境交互细节全部糊掉 [5][6] - 可灵2.5的机器人跑酷动作和交互相当真实而2.1会不受重力控制逐渐飞天 [10][12] - 可灵2.5能够自然完成情绪转变而2.1表演没层次表情做得太过或太粗糙 [32][33][37][42] 应用场景 - 可灵2.5能够生成各种运动镜头如滑雪空翻、摸雪、呲雪墙、滑板速降、篮球赛等 [16][18][20] - 可灵2.5能够满足各种奇幻脑洞如和小鹿一起闯进魔法森林、在废土世界开装甲车、在陌生星球开飞行器等 [22][24][26][27] - 可灵2.5能够处理多种专业场景如好莱坞老电影风格的斗嘴、爆炸映亮脸部、重伤喘息、古灵精怪的表情变化等 [45][47][49][50] - 可灵2.5能够生成第一视角跟随镜头并做出急迫感如猛然加速追逐 [14]

数字生命卡兹克· 2025-06-18 19:08

视频模型技术突破 - MiniMax发布Hailuo 02视频模型，首次实现杂技动作生成能力，肢体表演和动作幅度远超Veo3等竞品[1][4] - 该模型攻克了AI视频领域的"体操难题"，能生成包含两次空中旋转的高杠体操动作，且形体保持完整[6][7][21] - 在杂技类动作表现上显著领先，如小丑抛球倒立、双杠倒立等复杂动作完成度远超Runway Gen4等模型[23][24][26] 技术性能对比 - 对比一年前Luma AI生成的体操视频（四肢扭曲变形），Hailuo 02展现出质的飞跃[6] - 与主流视频模型对比测试显示：Veo3生成的运动员触垫后形体碎裂，Runway Gen4出现"面条人"变形，即梦模型产生双头怪等异常[9][11][13][15] - 在跳马测试中，Hailuo 02实现助跑、起跳、谢幕全流程动作，镜头运动自然流畅[19][21] 产品特性与商业化 - 支持原生1080P视频生成，新人赠送500免费积分，768p/6秒视频仅需25积分，1080p视频80积分[45] - 具备多动作连续生成能力，可配合镜头运动指令，如"摄影机快速摇摄并倾斜捕捉轨迹"[7][45] - 在物理效果模拟上实现突破，能准确表现玻璃破碎、物体坠落等动态场景[37][38] 行业影响 - 该模型标志着AI视频技术进入新阶段，解决了运动捕捉和物理规律模拟等核心难题[23][46] - 在表演领域延续优势，情绪表达和复杂动作结合产生"登峰造极"效果，如机甲降落、消防员破窗等场景[34][35][38] - 价格策略具有竞争力，以"便宜又大碗"形成市场差异化优势[45]

从案例分析到提示词写作，手把手教你制作最火爆的AI视频

歸藏的AI工具箱· 2025-06-18 06:57

AI视频制作趋势 - AI生成视频在社交媒体平台获得高互动量包括国内外市场即使内容看似简单但具有强吸引力 [1][2][3] - AI视频已渗透广告营销领域案例显示某牙医诊所广告改用"大脚男孩"主题后播放量从数千跃升至56万次 [4] Veo3技术突破 - Veo3显著降低AI视频制作成本仅需两次生成与简单合并即可完成作品大幅简化流程 [6] - 模型支持从创意构思到提示词生成的全程自动化人类仅需筛选点子与复制提示词 [6] - 技术突破跳过传统视频制作的图片生成语音合成唇形同步等复杂环节减少90%工作量 [35] 爆款视频核心要素 - 反差感引擎：通过现代形式呈现古老/虚构内容或让严肃角色展现生活化特质制造喜剧效果 [11][14] - 伪纪实手法：模拟真实拍摄增强沉浸感如采访/Vlog形式强化荒诞性 [12][14] - 共同认知基石：利用历史事件流行文化IP或文化迷因降低观众理解成本 [13][14] - 情感共鸣点：将宏大叙事转化为普通人吐槽如暴风兵抱怨"混蛋老板"引发打工人共情 [23] 创意生产方法论 - 使用NotebookLM交叉分析多个爆款视频提取分镜结构台词内容及爆火原因 [8][9][10] - 通过Gemini生成新创意需包含8秒分镜的详细环境角色台词描述优先选择现实题材 [17][18][21] - 提供两类标准化提示词模板：第一人称Vlog强调主观镜头虚构采访侧重权威角色与金融黑话反差 [29][30][32][33] 视频生成流程优化 - 推荐使用Gemini Pro会员或FLOW工具后者需切换至Veo3 Fast模型控制成本 [37][40] - 后期仅需基础剪辑拼接可添加台标滚动文字等元素增强伪纪实感 [44] - 支持1080P超分输出提升画质未来视频类Agent有望进一步简化字幕等包装工作 [45][46] 行业影响 - Veo3推动AI视频制作门槛降低每日新增爆款视频覆盖多品类验证技术应用潜力 [44][46] - 每减少一个制作环节可拓展10倍创作者基数技术普及将释放潜在内容生产力 [44][46]