Vidu Q2
搜索文档
腾讯研究院AI速递 20251202
腾讯研究院· 2025-12-01 16:03
DeepSeek模型升级 - DeepSeek发布V3.2和V3.2-Speciale两个版本,V3.2推理能力达到GPT-5水平且输出长度大幅降低,适合日常使用和通用Agent任务[1] - V3.2-Speciale是长思考增强版,结合DeepSeek-Math-V2定理证明能力,成功斩获IMO 2025、CMO 2025、ICPC和IOI 2025金牌[1] - 首次实现思考融入工具调用,通过大规模Agent训练数据合成方法构造1800+环境、85000+复杂指令,大幅提升泛化能力[1] 生数科技Vidu产品更新 - 生数科技发布Vidu Q2生图全家桶,新增文生图、图像编辑功能,最快5秒直出,在Artificial Analysis全球图像编辑榜单跻身前四[2] - Q2参考生图可实现位置参考、动作复刻、指示遵循和分镜切换等功能,保持极高一致性,支持4K直出和任意比例生成[2] - 即日起至12月31日会员可免费解锁全部生图功能,标准版/专业版会员每月300张额度,旗舰版会员尊享无限生成特权[2] 字节跳动豆包助手布局 - 字节发布豆包手机助手预览版,这是面向手机厂商的系统级服务,可跨应用执行复杂操作如比价点外卖、自动回微信等[3] - 设备配备专属物理按键和语音唤起功能,具备屏幕感知能力,可自动读取当前聊天记录上下文生成回复并发送[3] - 字节正和多家手机厂商谈合作,与中兴合作的搭载豆包手机助手的手机已上架,售价3499元[3] OpenAI商业化进展 - 开发者在ChatGPT安卓应用测试版代码中发现多个广告相关引用,包括"ads feature"、"search ad"和"search ads carousel"等[4] - 奥特曼对广告态度一年内三次转变,从2024年5月称"最后手段"到10月"有点反感但并非完全不可取"[4] - 汇丰银行估算OpenAI运营成本中维持算力基础设施每年需数千亿美元,预计2029年前持续亏损,累计亏损可能超1000亿美元[4] AI数学研究突破 - HarmonicMath开发的AI数学家"亚里士多德"6小时内100%独立完成埃尔德什问题124简版,在Lean证明系统验证仅需1分钟[5] - 该AI结合强化学习、蒙特卡洛树搜索和Lean形式化语言,搜索上亿种证明策略输出100%可验证定理,ChatGPT和Gemini均未能解决[6] - 陶哲轩表示AI正在收割数学"低垂果实",自动化工具先清理最容易问题,让人类数学家把精力花在真正值得的地方[6] 麦肯锡AI影响报告 - 麦肯锡报告显示现有技术理论上已能自动化美国57%的工作时长,智能体可拿下44%工作时间,机器人分担13%[7] - 报告将工作岗位划分为七种原型,未来最抢手的100种技能中四分之一到三分之一将被自动化[7] - 到2030年如重新设计工作流程,美国每年将释放约2.9万亿美元经济价值[7] AI公司定价策略分析 - Stripe分析显示营收增速前10%的AI公司中约80%采用分层定价,使用基于用量定价的可能性是其他公司的近两倍[8] - 高增长公司64%至少提供10个SKU产品单元,积极拓展全球市场并支持本地货币结算以提升转化率[8] - 这些公司能快速响应市场需求变化,推出情境式折扣,根据不同市场用户偏好灵活调整变现模式和定价策略[8] ChatGPT三周年发展 - ChatGPT于2022年12月1日发布,三年来从蜜月期演进到多模态与应用爆发期,彻底改写人类生产关系[9] - 谷歌Gemini 3发布扭转OpenAI领先局面,Gemini移动应用月活用户从5月4亿激增到6.5亿,用户使用时长已超过ChatGPT[9] - OpenAI的合作伙伴为其背负近1000亿美元债务,包括软银、甲骨文、CoreWeave等,而OpenAI自身账上几乎没有欠款[9]
免费国产Banana真香!我想把PS给卸载了
量子位· 2025-12-01 05:45
生数科技Vidu Q2产品功能升级 - 参考生图功能在空间想象力和一致性上大幅进化,可参考元素包括人物、物体、动作、位置、布局、纹理、光线、色调等,实现1:1还原 [12] - 全新上线文生图和图像编辑功能,通过自然语言指令即可实现复杂编辑,如改变图片比例、调整时间从白天到夜晚、修改人物衣服颜色等 [9][37][46][48] - 构建一站式多参工作流,用户可在同一界面完成生图、生视频、保存主体等操作,无需频繁切换平台,实现从图到视频的一站式生成 [52][54][56] Vidu Q2技术性能与市场表现 - 在最新的AA榜单中,Vidu图像编辑功能首次参与即位列第四,超越OpenAI,与Google、Bytedance等大厂比肩,其模型Vidu Q2的ELO评分为1,146 [9][11] - 参考生图功能在处理多主体融合时展现出业界领先的一致性,测试中能精准保持五个主体的原貌并符合物理规律地调整细节 [8][24][26] - 生成速度为4K高清画质,公司宣称其产品为国产Banana平替,具备性价比高、生成速度更快的特点 [10][11] 商业化策略与用户价值 - 提供限时免费优惠,Q2文生图、参考生图、图像编辑功能限时1个月会员免费,旗舰版会员生图无限量,标准版和专业版每月享300张免费生图 [11] - 大幅降低AI内容生成的试错成本和门槛,使AI生图、生视频能够应用于商用领域,例如可在5分钟内完成变装视频制作 [56][57] - API已同步上线,为创作者提供从参考生图到参考生视频的完整工作流,提升实用性和便捷性 [11][57]
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-10-25 04:34
算力与芯片 - 甲骨文建设最大AI超算 [3] - 英伟达推进美国本土晶圆生产 [3] 模型进展 - 清华与智谱联合发布Glyph框架 [3] - 谷歌推出Gemini 3 0模型 [3] - DeepSeek发布DeepSeek-OCR模型 [3] - 百度推出PaddleOCR-VL模型 [3] AI应用与产品 - 谷歌发布Google Skills和Vibe Coding [3] - Sora模型升级至2 0版本 [3] - 快手推出AI编程产品矩阵 [3] - 港科大发布DreamOmni2 [3] - 字节跳动推出Seed3D 1 0 [3] - OpenAI推出ChatGPT Atlas [3] - Claude发布桌面版 [3] - 腾讯发布混元世界模型1 1 [3] - 百川发布Baichuan-M2 Plus模型 [3] - 华为发布HarmonyOS 6 [3] - Anthropic发布网页版Claude Code [3] - X平台将Grok接入其服务 [4] - Adobe推出AI Foundry [4] - 混元推出AI分身功能 [4] - 元宝推出AI录音笔 [4] - Vidu发布Q2版本 [4] - 谷歌将Gemini接入Maps应用 [4] - Anthropic推出Agent Skills [4] - 李飞飞团队发布RTFM [4] - World Labs参与相关应用开发 [4] - Manus发布1 5版本 [4] - 微软推出Win11大更新 [4] - 科勒推出Dekoda智能马桶 [4] 前沿科技 - 谷歌研究量子回声算法 [4] - Dexmal开发Dexbotic技术 [4] - 原力灵机进行科技探索 [4] - 松延动力推出Bumi小布米 [4] - 三星推出Galaxy XR [4] - Anthropic开发生科专用Claude [4] - 宇树开发仿生人形机器人 [4] - DeepMind与CFS合作开发人造太阳 [4] 行业观点 - Vercel提出Kimi K2替代观点 [4] - a16z提出视频模型专业化观点 [4] - Manus探讨Agent认知流程 [4] - Jason Wei提出AI进展关键思路 [4] - 哈佛大学研究AI入侵职场现象 [4] - Reddit讨论死亡互联网理论 [4] - Karpathy提出AGI预期管理观点 [4] 行业事件 - Meta对AI部门进行裁员 [4] - 麦肯锡分析Tokens消耗情况 [4] - nof1 ai进行Alpha Arena实验 [4]
复刻国内版Sora App,Vidu Q2能抢成吗?
虎嗅· 2025-10-24 05:05
公司产品发布 - 生数科技最新升级了AI视频模型Vidu Q2 [1] - Vidu Q2被描述为在Sora2发布后首个可与之竞争的国产AI视频模型 [1] - Vidu Q2能够生成如“喝可乐的曹丕”、“发快递的成吉思汗”、“开部门会的刘备”等具有抽象玩法的视频内容 [1] 产品性能与市场定位 - Vidu Q2的抽象玩法被认为与Sora2不相上下 [1] - 该产品的发布引发了其是否能真正媲美Sora 2的市场讨论 [1]
Vidu Q2的参考生视频,是AI视频多参党的胜利。
数字生命卡兹克· 2025-10-22 01:33
核心观点 - Vidu Q2多图参考生视频功能代表了AI视频生成工作流的新范式,在多主体一致性、情绪表演能力和多风格表现力方面实现显著进化[1][2][9][10][11][84] - 该技术相比传统的文生视频-图生视频工作流更具效率优势,操作更便捷,有望成为行业未来发展方向[2][4][9][84] 技术能力与性能提升 - 一致性方面实现大幅进化,能够稳定处理超多主体同框的复杂场景,例如成功生成六位画家同框的视频,而Q1版本在该场景下会出现人物缺失或异常出现的问题[12][14][15] - 操作便捷性提升,通过@键可简单调用任何人物、物品或场景,比Sora2仅能@人物的功能更丝滑[17] - 支持创新玩法,如通过多主体实现主人公变身,或保持人物不变而场景变化,镜内外变化同步性表现完美[26][28][29] 情绪表演能力 - 真人表演细腻度显著提升,能够通过眼神等细节展现复杂情绪如脆弱感,而Q1版本仅能完成基础眼部转动且情绪表达不明确[37][38] - 在二次元领域表现尤为突出,能够生成富有故事感的片段,精准捕捉悲伤、无奈、克制、恨意等复杂情绪[44][45] - 擅长处理动漫特有情绪表现手法,如通过眉眼线条抽动、瞳孔缩小、眼白红血丝等细节展现极致恐惧,且能在简单提示词框架内自主完善细节[53][54] - 小表情生成自然逼真,如情侣吵架场景的表情和动作具有活人感[49][51] 多风格表现力 - 在动漫风格生成方面表现卓越,无愧于AI视频动漫之王的称号,能够生成泡面番、热血战斗番等多种动画风格[58][60][64] - 运镜和特效能力突出,特别适合生成中二动漫场面,如舞剑场景的镜头拉近拉远和狂风特效,打斗场景的刀光剑影和飞檐走壁[70][71][72][74][75] - 所有风格化视频均通过多参考生视频生成,同时保证了角色一致性和风格一致性[70] 产品定价与可及性 - 定价具有竞争力,标准版月度会员59元获得800积分,20积分可生成一条8秒视频,折合每条视频成本1.475元,每秒约0.184元,是当前最便宜的AI视频模型之一[79][80] - 已推出手机APP,提供类似Sora2的交互体验和合拍功能,基于多参技术实现[82]
腾讯研究院AI速递 20251021
腾讯研究院· 2025-10-20 16:01
AI基础设施与算力 - 甲骨文推出全球最大云端AI超级计算机OCI Zettascale10,由80万块NVIDIA GPU组成,峰值算力达16 ZettaFLOPS,计划于2026年下半年向客户提供服务[1] - 该超算采用独创Acceleron RoCE网络架构,通过每块GPU的NIC充当小型交换机连接多个隔离网络平面,以降低通信延迟并确保故障时自动切换路径[1] 大语言模型进展 - 谷歌Gemini 3.0疑似以lithiumflow(Pro版)和orionmist(Flash版)马甲上线评测,Gemini 3 Pro成为首个能精确识别钟表时间的AI模型,在SVG绘制和音乐作曲方面表现出色[2] - 谷歌向所有开发者开放Gemini API调用谷歌地图工具功能,可整合2.5亿个地点的位置感知,按每1000条有事实依据的提示收费25美元,支持路线规划等场景[7] - DeepSeek开源3B参数OCR模型DeepSeek-OCR,通过光学二维映射技术实现长文本上下文压缩,压缩率小于10倍时OCR精度达97%[3] AI应用与产品创新 - 元宝AI录音笔推出新功能,基于腾讯天籁降噪技术实现录音转写,并具备“内心OS”功能解读发言人弦外之音,支持多人发言智能拆分[4] - Vidu Q2参考生功能正式上线,推理速度比Q1版本快3倍,支持多主体一致性生成,免费用户可生成最长30秒视频,付费用户最长可延长至5分钟[5][6] - 宇树发布180cm仿生人形机器人H2,体重70kg,关节总数31个比前代增加约19%,可跳芭蕾舞和表演武术,应用场景扩展至娱乐演示和陪伴服务[9] AI性能评测与市场表现 - 实盘交易实验显示DeepSeek V3.1在1万美元本金下盈利超3500美元排名第一,仅进行5次交易,而Gemini 2.5 Pro进行45次交易成为赔钱最多的模型[8] - DeepSeek-OCR模型在OmniDocBench测试中仅用100个视觉token超越GOT-OCR2.0,单张A100-40G GPU每天可生成超20万页训练数据[3] 行业专家观点 - Karpathy预测AGI仍需十年时间,认为强化学习效率极低像“通过吸管吸取监督信号”,需要新的学习机制[10] - 提出“认知核心”概念,建议通过精简LLMs和提高泛化能力,预测未来模型将先变大再变小,最终收敛向更小更专注的认知内核[11]
Vidu Q2携「王炸」登场!杀手锏「参考生」功能全球上线,APP体验全面革新
量子位· 2025-10-20 10:29
Vidu Q2参考生功能升级 - 参考生功能于10月21日正式上线,具备高一致性、更快速度和更优惠价格的特点,且无需邀请码即可使用[13] - 生成速度对比上一代Vidu Q1参考生快了3倍,大幅提升创作效率[40] - 支持多主体一致性控制,例如同时处理人物、九尾狐和鱼三个主体且保持原图一致[30][33] 视频延长功能突破 - 视频延长功能首次在网页端单独上线,免费用户最长可生成30秒视频,付费用户最高可延长至5分钟[3][20] - 延长功能支持文生视频、图生视频和参考生视频等多种生成方式[20] - 用户可节选任意视频帧或上传图片进行延长,每次延长时长可在1-7秒间任意选择[21][23] AI视频生成技术进展 - 视频生成画质保证1080p高清晰度,且有效避免主体畸变[17][35] - 具备强大的语义理解能力,能精准实现Prompt要求的复杂场景转换,如人物眼睛自然过渡到星河效果[27][29] - 支持多角度运镜控制,例如从正面拉近、左右移动、上下切换等,满足商品展示等专业需求[36][38] Vidu APP平台化转型 - APP从AI创作平台升级为一站式AI内容社交平台,集成创作、互动和分发功能[4][12] - 新增“二次创作”功能,用户通过@主体+一句话即可生成合拍视频,无需复杂提示词,大幅降低创作门槛[7] - 平台内置海量主体库,包括人物、动物和特效等素材,用户可直接调用生成视频[8] 商业化应用前景 - 技术升级推动AI视频生成进入复杂叙事阶段,满足内容创作和公司对高一致性、长时间及高清的需求[24][42] - 电商行业可快速生成商品展示短片,例如用静态产品图片结合简单Prompt生成动态营销视频,降低制作门槛和成本[43][45][47] - 移动端升级使个人用户可随时随地实现创意,通过简单操作将想法转化为视频内容[47][48]
当Sora2遇上国产 Vidu Q2,国产参考生真的更香了!一手亲测
量子位· 2025-10-10 11:24
文章核心观点 - AI视频生成领域的竞争已从单纯技术效果转向满足实际应用需求,关键在于技术能否成为可靠的生产力工具[39][40][41] - Vidu Q2参考生视频与Sora 2在多个维度上表现接近,但各自优势不同,Vidu在操作灵活性和一致性方面表现突出,Sora 2在音视频同步输出方面有优势[37][38][9] - 行业未来的竞争焦点是构建包含创意、生成、编辑、分发与商业化的完整生态,而不仅是视频生成效果[42][43] Vidu Q2参考生视频功能特点 - 功能支持上传多达7张参考图,并让图片联动生成视频,提供专业模式及多种参数自定义选项,如时长(2-8秒)、清晰度(1080p)、宽高比和生成数量(1-4个)[7][8][9] - 该功能于去年9月全球首次提出,Vidu Q2是其参考生视频的第5个迭代版本,预计本月底将有重大更新[4][6][46] 技术能力对比:一致性 - 在一致性测试中,Vidu Q2生成的人物和道具(如包包)全程无异常变化,道具颜色与原图高度相符[12][13][14] - 同样的提示词下,Sora 2生成的内容在基本一致性上存在不足,道具(包包)颜色和形态(如包带数量)发生变化[16] 技术能力对比:遵循物理规律 - 在遵循物理规律的复杂场景测试(如镜面反射舞蹈动作)中,Vidu Q2整体表现良好,仅存在少量细节错误[21][22][23] - Sora 2在处理包含写实人物的图像时存在限制,替换为动漫人物后仍无法生成,改用文字提示生成的结果在人物数量和音乐搭配上完成度较高,但出现无关人员(摄影师)[25][26] 技术能力对比:运镜技巧 - 在运镜测试中,Vidu Q2的镜头语言更符合日常动漫风格,能够实现从近景到远景再到特写的流畅切换和跟随[31][32][33] - Sora 2通过不停切镜来渲染紧张氛围,与Vidu Q2的运镜方式各有优势[34][35] 行业发展趋势与竞争壁垒 - AI视频技术正朝着工业化生产方向发展,一致性等功能是实现AI短剧、数字人广告等商业应用的基础,具有战略价值[41][42] - 行业竞争壁垒在于构建完整生态,Vidu已基于产品矩阵构建了主体库共享生态、商业化生态和创作者生态[43] - 技术的快速迭代正推动技术成熟和成本降低,这场竞赛被视为AI视频生产力革命的开始[44][45]
谈「AI抖音」尚早,Sora 2们会先改变影视行业
钛媒体APP· 2025-10-04 01:12
Sora 2模型能力提升 - Sora 2视频模型带来对现实世界更精准的呈现、更强的可控性、能创造复杂音频并轻松将现实世界的人和物插入AI生成视频中[1] - Sora 2生成的内容更有真实感且能连续生成复杂镜头 其样片展示了维京战士乘战舰登陆冰面等复杂场景[8][15] - 模型能力提升推动整个视频大模型行业技术更新 使AI更好地服务于有创作冲动的人[2] 视频大模型商业化进展 - 商业化落地更多集中在B端和P端 快手可灵AI月度付费流水持续突破1亿元人民币[9] - 视频大模型厂商获得资本押注 Vidu完成由博华资本领投的数亿人民币A轮融资 爱诗科技拿到阿里巴巴领投的6000万美元B轮融资[10] - AI短剧商业化变现加速 《巨蛇怪谈》累计超500万次播放 珀乐互动联合Vidu创作的AI漫剧《明日周一》收获超1亿观看[2][11] AI视频创作效率提升 - AI“炼丹”效率显著提升 《明日周一》制作过程中炼丹效率达到1:1.3~1:1.5 团队期待提升至1:1.1或1:1.2[12] - 视频大模型基础能力进步使生成效果更自然 从难以生成自然吃面条画面到可生成汁水四溅的切橙子视频[15] - 参考生视频等功能上线优化创作流程 Vidu Q1支持用户上传七个主题 直接一键根据参考图直出视频 无需经过生图再生成视频环节[16] 影视行业工作流变革 - AI应用改变传统影视创作团队结构 《巨蛇怪谈》创作团队仅需导演、编剧和AI技术人员三人 传统剧组需要制片、摄影、灯光、美术等多分工[2][5] - AI技术减少中间环节和原画工作量 《明日周一》后半部分比原计划少画三分之一原画 分镜上色后直接生成视频跳过具体画面绘制环节[21] - 影视创作界面出现创新 可灵发布灵动画布功能支持一站式AI视频全链路创作和团队协作 Luma AI的Ray3被应用在Adobe的Firefly中[19][20] 行业竞争格局与产品演进 - 2024年国内出现20多款视频大模型产品 阿里、腾讯、字节及海外Google、Meta、Runway等巨头和创业公司加入战局[7] - 产品从工具属性向平台演进 Sora App被看作“AI抖音”雏形但本质仍是工具 与Higgsfield同类 利用AI提供高级滤镜激发跟风模仿[1] - Agent能力应用降低创作门槛 爱诗科技推出模版化Agent帮助用户撰写提示词 AIpai和FilmAction等产品支持从脚本到视频的一站式生成[23][24] 技术迭代与未来展望 - 2025年成为AI视频技术重要节点 可灵2.1、Google的Veo 3、字节的Seedance 1.0 pro等模型在生成效果上各有优势[8] - 技术需继续走向成熟 使AI生成人物有丰富表情并做出特定调度 同时需解决视频大模型版权问题[27][28] - 未来工具将同时适用于C端、P端和B端用户 带来工具层面普惠 但不会实现创作冲动大众化[29]
谈“AI抖音”尚早,Sora 2们会先改变影视行业
虎嗅· 2025-10-04 01:01
Sora 2模型技术突破 - 新视频模型实现更精准的现实世界呈现和更强的可控性,能创造复杂音频并轻松将现实世界元素插入AI生成视频[1] - Sora 2生成内容更具真实感,可连续生成复杂镜头,展示AI理解真实世界并进行模拟的可能性[17] - 模型在人物一致性和细节效果上取得明显进步,从尝鲜向具备实际效果的生产工具过渡[16] AI视频行业竞争格局 - 2024年Sora和可灵开启AI视频赛道竞争,国内出现20多款视频大模型产品,阿里、腾讯、字节参与其中[12] - 海外市场Google、Meta等巨头及Runway、Luma AI、Midjourney等创业公司加入战局[12] - 2025年可灵2.1、Google Veo 3、字节Seedance 1.0 pro等模型在生成效果上各有优势,生数科技Vidu Q2模型强调复杂表情生成能力[16] 商业化落地进展 - 快手可灵AI月度付费流水持续突破1亿元人民币,新上线可灵2.5 Turbo价格降低30%以吸引创作者[19] - 视频大模型商业化更多集中在B端和P端,Sora App面向C端用户目前免费但限制生成10秒360P视频[20] - 2024年9月Vidu完成数亿人民币A轮融资,爱诗科技获阿里巴巴领投6000万美元B轮融资[21] 创作效率提升 - AI"炼丹"效率提升,降低试错成本,从去年Sora发布后40分钟生成结果到如今生成更自然画面[24][26][27] - 参考生视频功能上线满足创作者对一致性和可控性需求,Vidu Q1支持上传七个主题一键直出视频[31][32] - 生成5秒视频从原来只有0.5秒可用到现在可直接生成复杂镜头构成的桥段[29] 影视行业工作流变革 - AI应用减少原画师工作量,空镜画面基本由AI生成,部分短剧比原计划少画三分之一原画[40] - AI跳过传统制作环节,分镜上色后直接生成视频,优化传统拍摄模式中耗时十天的造型设计方案[41][42] - 可灵灵动画布功能支持一站式AI视频全链路创作,Luma AI Ray3被应用在Adobe Firefly中服务好莱坞制片厂[37][38] 低门槛创作工具发展 - Agent能力推动创作思路变化,爱诗科技推出模板化Agent帮助用户撰写提示词,FilmAction用户月活增长相当于过去一年[45][51] - AIpai和FilmAction等产品支持选用不同大模型完成脚本、分镜到视频、配乐全流程,降低普通人创作门槛[47][49] - 专业团队在保证质量前提下人均一天能制作一到两集短剧,但真正AI创作流程比传统影视创作有时更慢[52] 行业未来发展趋势 - AI工具将同时适用于C端、P端和B端用户,带来工具层面普惠,但因需求不同产生不同结果[56] - 技术平权后决胜关键将是内容质量,拥有IP和合规化数字形象变得重要[56] - 一键成片如实现将带来新内容生产体系和行业权力架构,而非人人都有摄像机的作品大爆炸[57]