Workflow
多模态输入
icon
搜索文档
视频进入可编辑时代:藏师傅教你视频版 Banana 可灵 O1
歸藏的AI工具箱· 2025-12-02 05:18
可灵O1模型的核心能力与产品定位 - 公司发布“可灵O1”,这是一个大一统的视频、图像生成和编辑工具,支持在一个界面和流程中完成全部视频图片编辑和生成工作 [2] - 该模型是一个统一的多模态视频大模型,融合了参考生视频、文生视频、首尾帧、内容增删与风格重绘等任务,实现从生成到修改的一站式完成 [2] - 模型支持生成约3至10秒的自由叙事镜头,并能灵活控制节奏与镜头长度 [2] 多模态输入与自然语言编辑 - 模型支持图片、视频、主体与文字的多模态输入,用户可直接用自然语言进行精细编辑,无需依赖遮罩或关键帧 [2] - 在视频编辑中,用户只需上传视频并在提示词输入框中通过“@”指代素材,即可通过文本指令修改视频内容,例如改变人物服饰 [4][6] - 对于图片参考编辑,用户可上传单图或多图作为参考,并需在提示词中详细描述背景的运动方式或前景,以增强画面真实感 [7] 主体功能与一致性保持 - 模型新增“主体”功能,允许用户创建并保存常用角色、道具或场景,该功能通过上传多张不同角度的图片来创建主体,大幅提高了在视频生成中角色、道具、场景的特征稳定性与镜头间一致性 [10][13] - 用户可以将多个主体叠加使用,例如将人物主体与道具主体结合,即使在复杂环境下,模型也能保持高度的融合度与真实感 [15] - 该功能对电商展示尤其利好,通过创建商品主体,可在任意运镜下保持产品展示的稳定,甚至能保留细微的划痕和使用痕迹 [17] 视频生成与编辑的具体应用 - 模型支持自由选择10秒内的单条视频生成时长,并按时长扣除灵感值,这为视频Agent产品及轻度展示场景提供了成本优势 [18] - 模型能直接转变视频风格,如转换为毛毡风格、动漫风格或8-bit像素风格,用户仅需一句提示词即可完成以前成本很高的复杂风格转换 [19] - 模型支持首尾帧生成视频,结合视频编辑功能可创造出大场景转换等炫酷特效,过渡效果自然 [20][21] 图像生成与编辑能力 - 在图片模式下,模型支持上传多张图片并加入对应主体进行编辑,例如实现与动画角色的合影,并能保持场景与人物的一致性 [22] - 图片编辑同样支持与主体混合修改,以增强一致性,例如将人物换上特定服饰主体并更换场景主体 [25] 行业发展趋势与模型意义 - 视频领域正在复刻图片领域的发展路径,模型展现出更好的推理能力、世界知识和更强大的编辑能力 [29] - 回顾今年三四月的图像编辑模型质量,再看最近短短半年的发展成果,表明该领域一旦起步,进展将非常迅速 [29]
智谱GLM-4.1V-Thinking登顶HuggingFace Trending全球第一:同尺寸效果最好
IPO早知道· 2025-07-09 10:01
模型性能与突破 - GLM-4.1V-9B-Thinking凭借9B模型尺寸登顶HuggingFace Trending第一 [2] - 该模型在28项权威评测中23项达成10B级模型最佳成绩,其中18项持平或超越72B的Qwen-2.5-VL [4] - 采用"思维链推理机制"和"课程采样强化学习策略",系统性提升跨模态因果推理能力与稳定性 [3] 多模态能力 - 支持视频理解,可解析最长两小时内容并分析时间、人物、事件和逻辑关系 [4] - 具备图像问答能力,能深入分析图像内容并解答,逻辑能力和世界知识较强 [4] - 支持学科解题,包括数学、物理、生物、化学等学科的看图解题并给出详细思考过程 [4] 应用场景 - 文字识别:准确抽取图片和视频中的文字及图表内容并结构化输出 [5] - 文档解读:对金融、政务、教育等领域文档进行原生理解、抽取、提炼和问答 [5] - GUI Agent:识别网页、电脑和手机屏幕的交互界面元素,支持点击、滑动等指令执行 [5] 技术特点 - 轻量版模型参数控制在10B级别,兼顾部署效率与性能突破 [4] - 融合丰富多模态能力,包括代码生成(基于图片文字内容自动编写前端代码) [5] - 支持Grounding功能,识别图片特定区域并抽取坐标位置 [5]