Workflow
可灵数字人2.0
icon
搜索文档
5天连更5次,可灵AI年末“狂飙式”升级
量子位· 2025-12-10 04:26
公司近期产品发布概览 - 12月初,公司在5天内密集发布了5次产品更新,包括全球首个统一的多模态视频及图片创作工具“可灵O1”、具备“音画同出”能力的可灵2.6模型以及可灵数字人2.0等功能 [1][2] - 这一系列更新显著提升了生成式AI领域的竞争激烈程度 [2] 可灵O1模型的核心创新 - 可灵O1基于创新的多模态视觉语言交互理念,将所有生成和编辑任务融合于一个全能引擎,为用户提供从灵感到成品的一站式闭环创作流程 [3] - 视频O1模型打破了传统单一视频生成任务的边界,将参考生视频、文生视频、首尾帧生视频、视频内容增删、视频修改变换、风格重绘、镜头延展等多种任务融合于同一引擎,解决了主体一致性和视频画面可控性等难题 [6] - 图像O1模型实现了从基础图像生成到高阶细节编辑的全链路无缝衔接,用户可通过纯文本生成图像,也可上传最多10张参考图进行融合再创作 [7] - 有行业人士将可灵O1评价为“视频界的Nano Banana” [4] 可灵2.6模型的“音画同出”能力 - 可灵2.6模型上线了里程碑式的“音画同出”能力,改变了传统AI视频生成“先无声画面、后人工配音”的工作流程 [10] - 该模型能在单次生成中,输出包含自然语言、动作音效以及环境氛围音的完整视频,极大提升了创作效率 [11] - 目前支持生成最长10秒的视频,语音部分支持中文和英文,更多语言及固定声线功能正在研发中 [12] - 该模型在音画协同、音频质量和语义理解上表现亮眼,能够支持说话、对话、旁白、唱歌、Rap、环境音效、混合音效等多种声音的单独或混合生成 [12][27] 技术性能与市场应用 - 根据公司内部测评,在“图片参考”任务上,可灵AI对Google Veo 3.1的整体效果胜负比为247%;在“指令变换”任务上,与Runway Aleph对比的整体效果胜负比达到230% [18] - 公司目前覆盖的企业用户数超过2万家,涵盖影视制作、广告、创意设计、自媒体、游戏、电商等诸多领域 [26] - 数字人2.0功能允许用户上传角色图,添加配音并描述角色表现,即可生成表现力生动的自定义数字人视频,视频内容最长可达5分钟 [27] 行业影响与发展愿景 - 自2024年6月正式推出以来,公司的每一次迭代都引发了业界的广泛关注和讨论,从早期案例到获得特斯拉创始人马斯克点赞,公司已成为视觉生成技术走向成熟过程中的关键角色 [20] - 公司高级管理层表示,其初心是让每个人都能用AI讲出好的故事,并希望这一天更快到来 [28] - 通过年末的系列更新,公司正朝着这一愿景加速迈进 [29]
腾讯研究院AI速递 20251205
腾讯研究院· 2025-12-04 16:16
OpenAI模型与产品动态 - OpenAI在DesignArena测试四个代号为“企鹅家族”的新模型,推理预算分别为Emperor(512)、Rockhopper(64)、Macaroni(16)和Mumble(0)[1] - 内部代码流出显示OpenAI正开发“记忆搜索”功能,用户可通过提问快速检索存储的记忆信息[1] - 有付费用户称对话中收到ChatGPT广告推送,引发取消订阅潮,外界猜测OpenAI可能提前发布GPT-5.2以应对谷歌Gemini竞争[1] - OpenAI公开在GPT-5-Thinking上进行的“忏悔训练”研究,让模型在回答后生成“忏悔报告”汇报是否偷工减料或违反指令[5] - 在11/12个测试场景中,模型至少有一半概率会在忏悔中承认错误,平均“假阴性”概率仅4.36%,专门训练后忏悔准确性从45%提升至89%[6] - 奖励信号完全隔离,模型在忏悔中承认作弊不影响主任务得分,该技术被定位为监控诊断工具,计划与思维链监控等安全技术配合使用[6] 国内AI产品与模型发布 - 可灵数字人2.0正式全量上线,带来表现力、手部及口型精准控制、支持最长5分钟视频三大突破性改变[2] - 模型精通体态动作、手势、表情、镜头语言,口型效果真实自然,手部细节大幅提升,在多维度客观评测中效果胜负比综合得分远超同类产品[2] - 单次生成视频时长支持5分钟,覆盖深度科普、歌曲演绎等长内容场景[2] - 火山引擎正式发布豆包图像创作模型Doubao-Seedream-4.5并开启公测,在主体一致性、指令遵循精准度、空间逻辑理解及美学表现力等方面实现迭代[3] - 模型重点强化多图组合生成能力,优化海报排版与Logo设计功能,支持高精度图文混排,确保多源素材融合时的自然感与一致性[3] - 模型全面支持广告营销、电商运营、影视制作、数字娱乐及教育等核心场景应用,已上线火山方舟并面向企业开放API使用[3] - 杭州瞳行科技公司发布国内首款AI助盲眼镜,基于Qwen-VL、OCR等系列模型打造,具有出行避障、找物读物、语音助手和一键求助亲友等功能[7] - 在出行场景可实现300ms超低延时,配备121度超广角双摄像头,眼镜由主体、手机、遥控指环、盲杖四部分组成[7] - 大模型出现使算力成本降至过去十分之一,通过基模复用加微调优化快速实现所需功能[7] 行业竞争与人才流动 - Meta官宣苹果人机交互设计副总裁艾伦·戴伊加入并成立全新设计工作室,戴伊将担任Meta首席设计官,直接向现实实验室CTO汇报[4] - 戴伊在苹果工作19年,曾负责Apple Watch、Vision Pro头显和iOS 26液态玻璃视觉系统设计,其副手比利·索伦蒂诺也同时加入Meta[4] - 今年Meta已从苹果挖走基础模型团队经理庞若鸣等多位人才,苹果设计团队自2019年乔尼·艾维离职后持续出现人才流失[4] AI应用产品表现与洞察 - a16z合伙人Olivia Moore分享数据显示Sora APP用户留存率从day1的10%降至day7的2%、day30的1%、day60的0%[9] - Sora APP虽5天下载破百万且出道即拿下App Store免费榜第一,但目前排名已降至第22,无法留存用户主要因推荐算法糟糕、功能设计不佳、缺乏原生分享链接等[9] - OpenAI首席研究官Mark Chen表示OpenAI本质仍是纯AI研究公司,短视频产品运营对其是不小挑战,Sora更多被当作创意工具而非社交产品使用[9] - AI语音输入产品Wispr Flow在5个月内ARR翻10倍,估值超7亿美元,用户一年后留存率高达70%,收入自6月以来环比增长近40%[10] - 创始人强调核心区别在于解决“听写”而非“转录”问题,“零编辑率”已达89%,用户从看到生成信息到按发送平均仅半秒[10] - 语音消除思考时认知负荷,让用户专注创作,统计显示平均72%文本输入通过Wispr Flow完成,键盘使用率降至5%以下[11] 前沿硬件产品发布 - 影石旗下品牌影翎正式发售首款无人机产品A1,限时补贴后起售价6799元,仅249g重量全球绝大部分地区无需培训即可畅飞[8] - 标准版套装包含支持8K全景画质拍摄的无人机、内置双1英寸Micro-OLED显示屏的飞行眼镜、“指哪飞哪”的体感遥控器[8] - 采用全景技术实现观看视角与飞行方向完全分离,用户拥有360度无限自由空中视角,“先拍摄后取景”大幅降低飞行和拍摄门槛[8]