拍我AI V5.5
搜索文档
腾讯研究院AI速递 20251203
腾讯研究院· 2025-12-02 16:03
OpenAI战略调整与竞争压力 - 公司宣布进入“红色警报”状态,暂停广告、AI Agent和Pulse项目,集中资源修复和升级ChatGPT,并计划下周发布全新推理模型以对抗竞争对手Gemini 3 [1] - 战略优先级调整为产品体验优先于商业变现,重点改进个性化、响应速度、减少拒答和模型行为,目标是在LMArena等榜单上赢回用户 [1] - 公司面临巨大市场压力,需从100亿美元营收增长至200亿美元,并在2027年达到350亿美元,以支撑约1000亿美元的融资需求 [1] 视频生成模型技术突破 - Runway Gen-4.5在Artificial Analysis文本转视频基准测试中以1247 Elo评分取得SOTA,超越所有现有模型,其物理还原度与视觉精准度获“视频生成AGI时刻”评价 [2] - 模型擅长理解并执行复杂序列式指令,可在单个提示词中精准指定镜头运镜、场景构图、时间节点和氛围变化,物体移动具备真实重量感与动量特征 [2] - 官方正在逐步开放使用权限,未来几天内所有用户都能体验,将以当前订阅套餐相近的价格全面开放 [2] - 快手发布“全球首个统一多模态视频模型”可灵AI视频O1,将视频修改、镜头延展、多主体参考等功能整合到一个统一模型,支持3-10秒自由生成时长 [3] - O1模型具备多图参考生成、局部编辑、镜头延展和动作捕捉能力,多主体元素镜头切换能稳住一致性,局部编辑自然流畅 [3] - 快手宣布一周连续上新,Day 2也已发布图片O1模型,在高度一致性、细节处理、风格复刻和创意融合方面表现突出 [3] - 拍我AI V5.5成为国内首个能一键生成“分镜+音频”的AI视频大模型,实现了从素材生成到完整叙事的跨越,具备多角色音画同步和多镜头切换能力 [4] - 该模型展现出对视听语言的深度理解,能根据场景自主匹配音效、精准拿捏口型与情绪、智能编排景别镜头,已达到广告提案和影视预演的可用水准 [4] - AI视频正从“素材生成”迈入“内容生成”时代,普通人无需专业设备和剪辑技能,即可通过AI完成专业级视频创作 [4] 游戏NPC与自动驾驶AI进展 - 蔡浩宇美国AI公司Anuttacon推出聊天产品AnuNeko,不提供生产力功能,专注模拟真实人类对话反应,通过“不知道”和反问保持真人感 [5][6] - AnuNeko提供Orange Cat和Exotic Shorthair两种人格模型,拒绝执行功能性任务,刻意限制AI的“全知全能”以确立独立个体身份 [6] - Anuttacon拥有约50人团队,正在打造通用AI NPC生成平台,未来开发者只需输入设定即可生成具备真实交互的NPC角色 [6] - 英伟达推出Alpamayo-R1推理版视觉-语言-行动模型,基于Cosmos Reason,通过Chain of Causation因果链数据集让车辆能“推理出因果关系” [7] - AR1采用扩散式轨迹解码器和多阶段训练策略,规划精度提升12%,越界率降低35%,近碰率降低25%,推理-行动一致性提升37%,端到端延迟仅99ms [7] - 模型引入多维度奖励机制包括专家推理反馈、推理-行动一致性奖励和底层安全奖励,能解释每个驾驶决策的原因 [7] 大模型与机器人技术前沿 - 华为开源openPangu-R-7B-Diffusion扩散语言模型,基于openPangu-Embedded-7B用800B tokens续训练,成功将上下文长度扩展至32K [8] - 模型在MMLU-Pro超越16B参数的LLaDA 2.0-mini-preview 22%,数学推理MATH得分84.26,代码生成MBPP得分84.05,创7B参数量级新SOTA [8] - 采用前文因果注意力掩码设计,支持自回归+扩散双模式解码,并行解码速度最高可达自回归解码的2.5倍,训练推理全流程在昇腾NPU完成 [8] - 众擎机器人发布T800全尺寸高动态通用机器人,身高173cm体重75kg,全身43个自由度关节,最大关节力矩高达450 N·m,移动速度3m/s [9] - T800采用72V行星/直线混合驱动,能完美执行巴西战舞、回旋踢、五连踢、组合拳和飞踢等高难度动作,实现对170cm同等身高男性80%以上性能超越 [9] - 公司计划2026年实现数十台级别小批量交付验证场景,2027年争取T800销量达到1-2万台,12月24日将举办“机甲拳王”机器人自由格斗比赛 [9] 风险投资与创业观点 - 红杉美国首位华裔女性合伙人Jess Lee强调所有问题都是“人的问题”,提出EQ、PQ、IQ、JQ四维人才评估框架,重视组建互补型尖锐人才团队 [10] - 她认为早期与用户沟通核心是理解真实问题而非产品功能反馈,信念与愿景要走在用户认知之前,早期PM应主动承担更多非职责内工作 [11] - 最大的创业教训是选错市场和商业模式,不同业务有自身“物理定律”,订阅制现金流优势远超社交电商,商业模式是投资首要考虑因素之一 [11]
拍我AI上线V5.5AI视频大模型,支持“导演级”音画同步一键生成
新浪财经· 2025-12-02 10:33
爱诗科技发布PixVerse V5.5 AI视频大模型 - 公司爱诗科技于12月2日发布了PixVerse V5.5 AI视频大模型,其国内版本为“拍我AI V5.5” [2][6] - 此次更新是在Sora2发布后,公司率先实现了“分镜+音频”的一键直出升级 [2][6] - 该模型能让创作者在几秒钟内生成完整的视频故事,无需再从素材中拼接 [2][6] 模型核心功能与技术升级 - V5.5模型的核心进步源于底层模型的全面升级,首次支持音频与多镜头同步生成 [2][6] - 模型强化了多角色音画同步能力,能根据用户提示词自动理解并生成完整的故事段落,而非单一镜头素材 [2][6] - 用户只需输入简短提示,AI即可完成镜头推进、景别切换、人物对白、环境声和背景音乐的生成,直接输出可用的叙事片段 [2][6] 用户控制与创作体验 - 在拍我AI中,用户可在开启多镜头和音画同步状态下,生成5秒、8秒、10秒的视频 [3][7] - 用户现可在提示词中直接控制“音效、台词、音色、音乐、镜头”,AI能自动理解叙事意图并设计推拉、摇移、切换等镜头语言 [3][7] - AI的运镜节奏更自然,紧贴真实制作逻辑,旨在带给用户“成为导演”般的创作体验 [3][7] 产品性能与市场影响 - 与以往只能产出单镜头或零散画面的模型不同,V5.5可以生成具备叙事结构的短片,视频质量接近“成片” [2][6] - 从体验角度看,V5.5进一步缩短了创作工作流的时间差,生成速度大幅提升,镜头语言更加丰富 [3][7] - 控制方式更加直观,使得C端用户和创作者都能以更低门槛,迅速将抽象灵感转化为可观看的成品视频 [3][7]