Vidu Q2 - 财报，业绩电话会，研报，新闻

Vidu Q2

搜索文档

腾讯研究院AI速递 20251202

腾讯研究院· 2025-12-01 16:03

DeepSeek模型升级 - DeepSeek发布V3.2和V3.2-Speciale两个版本，V3.2推理能力达到GPT-5水平且输出长度大幅降低，适合日常使用和通用Agent任务[1] - V3.2-Speciale是长思考增强版，结合DeepSeek-Math-V2定理证明能力，成功斩获IMO 2025、CMO 2025、ICPC和IOI 2025金牌[1] - 首次实现思考融入工具调用，通过大规模Agent训练数据合成方法构造1800+环境、85000+复杂指令，大幅提升泛化能力[1] 生数科技Vidu产品更新 - 生数科技发布Vidu Q2生图全家桶，新增文生图、图像编辑功能，最快5秒直出，在Artificial Analysis全球图像编辑榜单跻身前四[2] - Q2参考生图可实现位置参考、动作复刻、指示遵循和分镜切换等功能，保持极高一致性，支持4K直出和任意比例生成[2] - 即日起至12月31日会员可免费解锁全部生图功能，标准版/专业版会员每月300张额度，旗舰版会员尊享无限生成特权[2] 字节跳动豆包助手布局 - 字节发布豆包手机助手预览版，这是面向手机厂商的系统级服务，可跨应用执行复杂操作如比价点外卖、自动回微信等[3] - 设备配备专属物理按键和语音唤起功能，具备屏幕感知能力，可自动读取当前聊天记录上下文生成回复并发送[3] - 字节正和多家手机厂商谈合作，与中兴合作的搭载豆包手机助手的手机已上架，售价3499元[3] OpenAI商业化进展 - 开发者在ChatGPT安卓应用测试版代码中发现多个广告相关引用，包括"ads feature"、"search ad"和"search ads carousel"等[4] - 奥特曼对广告态度一年内三次转变，从2024年5月称"最后手段"到10月"有点反感但并非完全不可取"[4] - 汇丰银行估算OpenAI运营成本中维持算力基础设施每年需数千亿美元，预计2029年前持续亏损，累计亏损可能超1000亿美元[4] AI数学研究突破 - HarmonicMath开发的AI数学家"亚里士多德"6小时内100%独立完成埃尔德什问题124简版，在Lean证明系统验证仅需1分钟[5] - 该AI结合强化学习、蒙特卡洛树搜索和Lean形式化语言，搜索上亿种证明策略输出100%可验证定理，ChatGPT和Gemini均未能解决[6] - 陶哲轩表示AI正在收割数学"低垂果实"，自动化工具先清理最容易问题，让人类数学家把精力花在真正值得的地方[6] 麦肯锡AI影响报告 - 麦肯锡报告显示现有技术理论上已能自动化美国57%的工作时长，智能体可拿下44%工作时间，机器人分担13%[7] - 报告将工作岗位划分为七种原型，未来最抢手的100种技能中四分之一到三分之一将被自动化[7] - 到2030年如重新设计工作流程，美国每年将释放约2.9万亿美元经济价值[7] AI公司定价策略分析 - Stripe分析显示营收增速前10%的AI公司中约80%采用分层定价，使用基于用量定价的可能性是其他公司的近两倍[8] - 高增长公司64%至少提供10个SKU产品单元，积极拓展全球市场并支持本地货币结算以提升转化率[8] - 这些公司能快速响应市场需求变化，推出情境式折扣，根据不同市场用户偏好灵活调整变现模式和定价策略[8] ChatGPT三周年发展 - ChatGPT于2022年12月1日发布，三年来从蜜月期演进到多模态与应用爆发期，彻底改写人类生产关系[9] - 谷歌Gemini 3发布扭转OpenAI领先局面，Gemini移动应用月活用户从5月4亿激增到6.5亿，用户使用时长已超过ChatGPT[9] - OpenAI的合作伙伴为其背负近1000亿美元债务，包括软银、甲骨文、CoreWeave等，而OpenAI自身账上几乎没有欠款[9]

生成式AI

智能体

Artificial Intelligence

DeepSeek V3.2

DeepSeek V3.2-Speciale

Vidu Q2

生成式AI

智能体

Artificial Intelligence

DeepSeek V3.2

DeepSeek V3.2-Speciale

Vidu Q2

免费国产Banana真香！我想把PS给卸载了

量子位· 2025-12-01 05:45

生数科技Vidu Q2产品功能升级 - 参考生图功能在空间想象力和一致性上大幅进化，可参考元素包括人物、物体、动作、位置、布局、纹理、光线、色调等，实现1:1还原 [12] - 全新上线文生图和图像编辑功能，通过自然语言指令即可实现复杂编辑，如改变图片比例、调整时间从白天到夜晚、修改人物衣服颜色等 [9][37][46][48] - 构建一站式多参工作流，用户可在同一界面完成生图、生视频、保存主体等操作，无需频繁切换平台，实现从图到视频的一站式生成 [52][54][56] Vidu Q2技术性能与市场表现 - 在最新的AA榜单中，Vidu图像编辑功能首次参与即位列第四，超越OpenAI，与Google、Bytedance等大厂比肩，其模型Vidu Q2的ELO评分为1,146 [9][11] - 参考生图功能在处理多主体融合时展现出业界领先的一致性，测试中能精准保持五个主体的原貌并符合物理规律地调整细节 [8][24][26] - 生成速度为4K高清画质，公司宣称其产品为国产Banana平替，具备性价比高、生成速度更快的特点 [10][11] 商业化策略与用户价值 - 提供限时免费优惠，Q2文生图、参考生图、图像编辑功能限时1个月会员免费，旗舰版会员生图无限量，标准版和专业版每月享300张免费生图 [11] - 大幅降低AI内容生成的试错成本和门槛，使AI生图、生视频能够应用于商用领域，例如可在5分钟内完成变装视频制作 [56][57] - API已同步上线，为创作者提供从参考生图到参考生视频的完整工作流，提升实用性和便捷性 [11][57]

腾讯研究院· 2025-10-25 04:34

算力与芯片 - 甲骨文建设最大AI超算 [3] - 英伟达推进美国本土晶圆生产 [3] 模型进展 - 清华与智谱联合发布Glyph框架 [3] - 谷歌推出Gemini 3 0模型 [3] - DeepSeek发布DeepSeek-OCR模型 [3] - 百度推出PaddleOCR-VL模型 [3] AI应用与产品 - 谷歌发布Google Skills和Vibe Coding [3] - Sora模型升级至2 0版本 [3] - 快手推出AI编程产品矩阵 [3] - 港科大发布DreamOmni2 [3] - 字节跳动推出Seed3D 1 0 [3] - OpenAI推出ChatGPT Atlas [3] - Claude发布桌面版 [3] - 腾讯发布混元世界模型1 1 [3] - 百川发布Baichuan-M2 Plus模型 [3] - 华为发布HarmonyOS 6 [3] - Anthropic发布网页版Claude Code [3] - X平台将Grok接入其服务 [4] - Adobe推出AI Foundry [4] - 混元推出AI分身功能 [4] - 元宝推出AI录音笔 [4] - Vidu发布Q2版本 [4] - 谷歌将Gemini接入Maps应用 [4] - Anthropic推出Agent Skills [4] - 李飞飞团队发布RTFM [4] - World Labs参与相关应用开发 [4] - Manus发布1 5版本 [4] - 微软推出Win11大更新 [4] - 科勒推出Dekoda智能马桶 [4] 前沿科技 - 谷歌研究量子回声算法 [4] - Dexmal开发Dexbotic技术 [4] - 原力灵机进行科技探索 [4] - 松延动力推出Bumi小布米 [4] - 三星推出Galaxy XR [4] - Anthropic开发生科专用Claude [4] - 宇树开发仿生人形机器人 [4] - DeepMind与CFS合作开发人造太阳 [4] 行业观点 - Vercel提出Kimi K2替代观点 [4] - a16z提出视频模型专业化观点 [4] - Manus探讨Agent认知流程 [4] - Jason Wei提出AI进展关键思路 [4] - 哈佛大学研究AI入侵职场现象 [4] - Reddit讨论死亡互联网理论 [4] - Karpathy提出AGI预期管理观点 [4] 行业事件 - Meta对AI部门进行裁员 [4] - 麦肯锡分析Tokens消耗情况 [4] - nof1 ai进行Alpha Arena实验 [4]

Artificial Intelligence

AGI

Artificial Intelligence

Gemini 3.0

Glyph框架

DeepSeek-OCR

Artificial Intelligence

AGI

Artificial Intelligence

Gemini 3.0

Glyph框架

DeepSeek-OCR

复刻国内版Sora App，Vidu Q2能抢成吗？

虎嗅· 2025-10-24 05:05

公司产品发布 - 生数科技最新升级了AI视频模型Vidu Q2 [1] - Vidu Q2被描述为在Sora2发布后首个可与之竞争的国产AI视频模型 [1] - Vidu Q2能够生成如“喝可乐的曹丕”、“发快递的成吉思汗”、“开部门会的刘备”等具有抽象玩法的视频内容 [1] 产品性能与市场定位 - Vidu Q2的抽象玩法被认为与Sora2不相上下 [1] - 该产品的发布引发了其是否能真正媲美Sora 2的市场讨论 [1]

Vidu Q2的参考生视频，是AI视频多参党的胜利。

数字生命卡兹克· 2025-10-22 01:33

核心观点 - Vidu Q2多图参考生视频功能代表了AI视频生成工作流的新范式，在多主体一致性、情绪表演能力和多风格表现力方面实现显著进化[1][2][9][10][11][84] - 该技术相比传统的文生视频-图生视频工作流更具效率优势，操作更便捷，有望成为行业未来发展方向[2][4][9][84] 技术能力与性能提升 - 一致性方面实现大幅进化，能够稳定处理超多主体同框的复杂场景，例如成功生成六位画家同框的视频，而Q1版本在该场景下会出现人物缺失或异常出现的问题[12][14][15] - 操作便捷性提升，通过@键可简单调用任何人物、物品或场景，比Sora2仅能@人物的功能更丝滑[17] - 支持创新玩法，如通过多主体实现主人公变身，或保持人物不变而场景变化，镜内外变化同步性表现完美[26][28][29] 情绪表演能力 - 真人表演细腻度显著提升，能够通过眼神等细节展现复杂情绪如脆弱感，而Q1版本仅能完成基础眼部转动且情绪表达不明确[37][38] - 在二次元领域表现尤为突出，能够生成富有故事感的片段，精准捕捉悲伤、无奈、克制、恨意等复杂情绪[44][45] - 擅长处理动漫特有情绪表现手法，如通过眉眼线条抽动、瞳孔缩小、眼白红血丝等细节展现极致恐惧，且能在简单提示词框架内自主完善细节[53][54] - 小表情生成自然逼真，如情侣吵架场景的表情和动作具有活人感[49][51] 多风格表现力 - 在动漫风格生成方面表现卓越，无愧于AI视频动漫之王的称号，能够生成泡面番、热血战斗番等多种动画风格[58][60][64] - 运镜和特效能力突出，特别适合生成中二动漫场面，如舞剑场景的镜头拉近拉远和狂风特效，打斗场景的刀光剑影和飞檐走壁[70][71][72][74][75] - 所有风格化视频均通过多参考生视频生成，同时保证了角色一致性和风格一致性[70] 产品定价与可及性 - 定价具有竞争力，标准版月度会员59元获得800积分，20积分可生成一条8秒视频，折合每条视频成本1.475元，每秒约0.184元，是当前最便宜的AI视频模型之一[79][80] - 已推出手机APP，提供类似Sora2的交互体验和合拍功能，基于多参技术实现[82]

腾讯研究院· 2025-10-20 16:01

AI基础设施与算力 - 甲骨文推出全球最大云端AI超级计算机OCI Zettascale10，由80万块NVIDIA GPU组成，峰值算力达16 ZettaFLOPS，计划于2026年下半年向客户提供服务[1] - 该超算采用独创Acceleron RoCE网络架构，通过每块GPU的NIC充当小型交换机连接多个隔离网络平面，以降低通信延迟并确保故障时自动切换路径[1] 大语言模型进展 - 谷歌Gemini 3.0疑似以lithiumflow（Pro版）和orionmist（Flash版）马甲上线评测，Gemini 3 Pro成为首个能精确识别钟表时间的AI模型，在SVG绘制和音乐作曲方面表现出色[2] - 谷歌向所有开发者开放Gemini API调用谷歌地图工具功能，可整合2.5亿个地点的位置感知，按每1000条有事实依据的提示收费25美元，支持路线规划等场景[7] - DeepSeek开源3B参数OCR模型DeepSeek-OCR，通过光学二维映射技术实现长文本上下文压缩，压缩率小于10倍时OCR精度达97%[3] AI应用与产品创新 - 元宝AI录音笔推出新功能，基于腾讯天籁降噪技术实现录音转写，并具备“内心OS”功能解读发言人弦外之音，支持多人发言智能拆分[4] - Vidu Q2参考生功能正式上线，推理速度比Q1版本快3倍，支持多主体一致性生成，免费用户可生成最长30秒视频，付费用户最长可延长至5分钟[5][6] - 宇树发布180cm仿生人形机器人H2，体重70kg，关节总数31个比前代增加约19%，可跳芭蕾舞和表演武术，应用场景扩展至娱乐演示和陪伴服务[9] AI性能评测与市场表现 - 实盘交易实验显示DeepSeek V3.1在1万美元本金下盈利超3500美元排名第一，仅进行5次交易，而Gemini 2.5 Pro进行45次交易成为赔钱最多的模型[8] - DeepSeek-OCR模型在OmniDocBench测试中仅用100个视觉token超越GOT-OCR2.0，单张A100-40G GPU每天可生成超20万页训练数据[3] 行业专家观点 - Karpathy预测AGI仍需十年时间，认为强化学习效率极低像“通过吸管吸取监督信号”，需要新的学习机制[10] - 提出“认知核心”概念，建议通过精简LLMs和提高泛化能力，预测未来模型将先变大再变小，最终收敛向更小更专注的认知内核[11]

Vidu Q2携「王炸」登场！杀手锏「参考生」功能全球上线，APP体验全面革新

量子位· 2025-10-20 10:29

Vidu Q2参考生功能升级 - 参考生功能于10月21日正式上线，具备高一致性、更快速度和更优惠价格的特点，且无需邀请码即可使用[13] - 生成速度对比上一代Vidu Q1参考生快了3倍，大幅提升创作效率[40] - 支持多主体一致性控制，例如同时处理人物、九尾狐和鱼三个主体且保持原图一致[30][33] 视频延长功能突破 - 视频延长功能首次在网页端单独上线，免费用户最长可生成30秒视频，付费用户最高可延长至5分钟[3][20] - 延长功能支持文生视频、图生视频和参考生视频等多种生成方式[20] - 用户可节选任意视频帧或上传图片进行延长，每次延长时长可在1-7秒间任意选择[21][23] AI视频生成技术进展 - 视频生成画质保证1080p高清晰度，且有效避免主体畸变[17][35] - 具备强大的语义理解能力，能精准实现Prompt要求的复杂场景转换，如人物眼睛自然过渡到星河效果[27][29] - 支持多角度运镜控制，例如从正面拉近、左右移动、上下切换等，满足商品展示等专业需求[36][38] Vidu APP平台化转型 - APP从AI创作平台升级为一站式AI内容社交平台，集成创作、互动和分发功能[4][12] - 新增“二次创作”功能，用户通过@主体+一句话即可生成合拍视频，无需复杂提示词，大幅降低创作门槛[7] - 平台内置海量主体库，包括人物、动物和特效等素材，用户可直接调用生成视频[8] 商业化应用前景 - 技术升级推动AI视频生成进入复杂叙事阶段，满足内容创作和公司对高一致性、长时间及高清的需求[24][42] - 电商行业可快速生成商品展示短片，例如用静态产品图片结合简单Prompt生成动态营销视频，降低制作门槛和成本[43][45][47] - 移动端升级使个人用户可随时随地实现创意，通过简单操作将想法转化为视频内容[47][48]

当Sora2遇上国产 Vidu Q2，国产参考生真的更香了！一手亲测

量子位· 2025-10-10 11:24

文章核心观点 - AI视频生成领域的竞争已从单纯技术效果转向满足实际应用需求，关键在于技术能否成为可靠的生产力工具[39][40][41] - Vidu Q2参考生视频与Sora 2在多个维度上表现接近，但各自优势不同，Vidu在操作灵活性和一致性方面表现突出，Sora 2在音视频同步输出方面有优势[37][38][9] - 行业未来的竞争焦点是构建包含创意、生成、编辑、分发与商业化的完整生态，而不仅是视频生成效果[42][43] Vidu Q2参考生视频功能特点 - 功能支持上传多达7张参考图，并让图片联动生成视频，提供专业模式及多种参数自定义选项，如时长（2-8秒）、清晰度（1080p）、宽高比和生成数量（1-4个）[7][8][9] - 该功能于去年9月全球首次提出，Vidu Q2是其参考生视频的第5个迭代版本，预计本月底将有重大更新[4][6][46] 技术能力对比：一致性 - 在一致性测试中，Vidu Q2生成的人物和道具（如包包）全程无异常变化，道具颜色与原图高度相符[12][13][14] - 同样的提示词下，Sora 2生成的内容在基本一致性上存在不足，道具（包包）颜色和形态（如包带数量）发生变化[16] 技术能力对比：遵循物理规律 - 在遵循物理规律的复杂场景测试（如镜面反射舞蹈动作）中，Vidu Q2整体表现良好，仅存在少量细节错误[21][22][23] - Sora 2在处理包含写实人物的图像时存在限制，替换为动漫人物后仍无法生成，改用文字提示生成的结果在人物数量和音乐搭配上完成度较高，但出现无关人员（摄影师）[25][26] 技术能力对比：运镜技巧 - 在运镜测试中，Vidu Q2的镜头语言更符合日常动漫风格，能够实现从近景到远景再到特写的流畅切换和跟随[31][32][33] - Sora 2通过不停切镜来渲染紧张氛围，与Vidu Q2的运镜方式各有优势[34][35] 行业发展趋势与竞争壁垒 - AI视频技术正朝着工业化生产方向发展，一致性等功能是实现AI短剧、数字人广告等商业应用的基础，具有战略价值[41][42] - 行业竞争壁垒在于构建完整生态，Vidu已基于产品矩阵构建了主体库共享生态、商业化生态和创作者生态[43] - 技术的快速迭代正推动技术成熟和成本降低，这场竞赛被视为AI视频生产力革命的开始[44][45]

谈「AI抖音」尚早，Sora 2们会先改变影视行业

钛媒体APP· 2025-10-04 01:12

Sora 2模型能力提升 - Sora 2视频模型带来对现实世界更精准的呈现、更强的可控性、能创造复杂音频并轻松将现实世界的人和物插入AI生成视频中[1] - Sora 2生成的内容更有真实感且能连续生成复杂镜头其样片展示了维京战士乘战舰登陆冰面等复杂场景[8][15] - 模型能力提升推动整个视频大模型行业技术更新使AI更好地服务于有创作冲动的人[2] 视频大模型商业化进展 - 商业化落地更多集中在B端和P端快手可灵AI月度付费流水持续突破1亿元人民币[9] - 视频大模型厂商获得资本押注 Vidu完成由博华资本领投的数亿人民币A轮融资爱诗科技拿到阿里巴巴领投的6000万美元B轮融资[10] - AI短剧商业化变现加速《巨蛇怪谈》累计超500万次播放珀乐互动联合Vidu创作的AI漫剧《明日周一》收获超1亿观看[2][11] AI视频创作效率提升 - AI“炼丹”效率显著提升《明日周一》制作过程中炼丹效率达到1:1.3～1:1.5 团队期待提升至1:1.1或1:1.2[12] - 视频大模型基础能力进步使生成效果更自然从难以生成自然吃面条画面到可生成汁水四溅的切橙子视频[15] - 参考生视频等功能上线优化创作流程 Vidu Q1支持用户上传七个主题直接一键根据参考图直出视频无需经过生图再生成视频环节[16] 影视行业工作流变革 - AI应用改变传统影视创作团队结构《巨蛇怪谈》创作团队仅需导演、编剧和AI技术人员三人传统剧组需要制片、摄影、灯光、美术等多分工[2][5] - AI技术减少中间环节和原画工作量《明日周一》后半部分比原计划少画三分之一原画分镜上色后直接生成视频跳过具体画面绘制环节[21] - 影视创作界面出现创新可灵发布灵动画布功能支持一站式AI视频全链路创作和团队协作 Luma AI的Ray3被应用在Adobe的Firefly中[19][20] 行业竞争格局与产品演进 - 2024年国内出现20多款视频大模型产品阿里、腾讯、字节及海外Google、Meta、Runway等巨头和创业公司加入战局[7] - 产品从工具属性向平台演进 Sora App被看作“AI抖音”雏形但本质仍是工具与Higgsfield同类利用AI提供高级滤镜激发跟风模仿[1] - Agent能力应用降低创作门槛爱诗科技推出模版化Agent帮助用户撰写提示词 AIpai和FilmAction等产品支持从脚本到视频的一站式生成[23][24] 技术迭代与未来展望 - 2025年成为AI视频技术重要节点可灵2.1、Google的Veo 3、字节的Seedance 1.0 pro等模型在生成效果上各有优势[8] - 技术需继续走向成熟使AI生成人物有丰富表情并做出特定调度同时需解决视频大模型版权问题[27][28] - 未来工具将同时适用于C端、P端和B端用户带来工具层面普惠但不会实现创作冲动大众化[29]

谈“AI抖音”尚早，Sora 2们会先改变影视行业

虎嗅· 2025-10-04 01:01

Sora 2模型技术突破 - 新视频模型实现更精准的现实世界呈现和更强的可控性，能创造复杂音频并轻松将现实世界元素插入AI生成视频[1] - Sora 2生成内容更具真实感，可连续生成复杂镜头，展示AI理解真实世界并进行模拟的可能性[17] - 模型在人物一致性和细节效果上取得明显进步，从尝鲜向具备实际效果的生产工具过渡[16] AI视频行业竞争格局 - 2024年Sora和可灵开启AI视频赛道竞争，国内出现20多款视频大模型产品，阿里、腾讯、字节参与其中[12] - 海外市场Google、Meta等巨头及Runway、Luma AI、Midjourney等创业公司加入战局[12] - 2025年可灵2.1、Google Veo 3、字节Seedance 1.0 pro等模型在生成效果上各有优势，生数科技Vidu Q2模型强调复杂表情生成能力[16] 商业化落地进展 - 快手可灵AI月度付费流水持续突破1亿元人民币，新上线可灵2.5 Turbo价格降低30%以吸引创作者[19] - 视频大模型商业化更多集中在B端和P端，Sora App面向C端用户目前免费但限制生成10秒360P视频[20] - 2024年9月Vidu完成数亿人民币A轮融资，爱诗科技获阿里巴巴领投6000万美元B轮融资[21] 创作效率提升 - AI"炼丹"效率提升，降低试错成本，从去年Sora发布后40分钟生成结果到如今生成更自然画面[24][26][27] - 参考生视频功能上线满足创作者对一致性和可控性需求，Vidu Q1支持上传七个主题一键直出视频[31][32] - 生成5秒视频从原来只有0.5秒可用到现在可直接生成复杂镜头构成的桥段[29] 影视行业工作流变革 - AI应用减少原画师工作量，空镜画面基本由AI生成，部分短剧比原计划少画三分之一原画[40] - AI跳过传统制作环节，分镜上色后直接生成视频，优化传统拍摄模式中耗时十天的造型设计方案[41][42] - 可灵灵动画布功能支持一站式AI视频全链路创作，Luma AI Ray3被应用在Adobe Firefly中服务好莱坞制片厂[37][38] 低门槛创作工具发展 - Agent能力推动创作思路变化，爱诗科技推出模板化Agent帮助用户撰写提示词，FilmAction用户月活增长相当于过去一年[45][51] - AIpai和FilmAction等产品支持选用不同大模型完成脚本、分镜到视频、配乐全流程，降低普通人创作门槛[47][49] - 专业团队在保证质量前提下人均一天能制作一到两集短剧，但真正AI创作流程比传统影视创作有时更慢[52] 行业未来发展趋势 - AI工具将同时适用于C端、P端和B端用户，带来工具层面普惠，但因需求不同产生不同结果[56] - 技术平权后决胜关键将是内容质量，拥有IP和合规化数字形象变得重要[56] - 一键成片如实现将带来新内容生产体系和行业权力架构，而非人人都有摄像机的作品大爆炸[57]