拍我AI V5.5 - 财报，业绩电话会，研报，新闻

拍我AI V5.5

搜索文档

腾讯研究院AI速递 20251203

腾讯研究院· 2025-12-02 16:03

OpenAI战略调整与竞争压力 - 公司宣布进入“红色警报”状态，暂停广告、AI Agent和Pulse项目，集中资源修复和升级ChatGPT，并计划下周发布全新推理模型以对抗竞争对手Gemini 3 [1] - 战略优先级调整为产品体验优先于商业变现，重点改进个性化、响应速度、减少拒答和模型行为，目标是在LMArena等榜单上赢回用户 [1] - 公司面临巨大市场压力，需从100亿美元营收增长至200亿美元，并在2027年达到350亿美元，以支撑约1000亿美元的融资需求 [1] 视频生成模型技术突破 - Runway Gen-4.5在Artificial Analysis文本转视频基准测试中以1247 Elo评分取得SOTA，超越所有现有模型，其物理还原度与视觉精准度获“视频生成AGI时刻”评价 [2] - 模型擅长理解并执行复杂序列式指令，可在单个提示词中精准指定镜头运镜、场景构图、时间节点和氛围变化，物体移动具备真实重量感与动量特征 [2] - 官方正在逐步开放使用权限，未来几天内所有用户都能体验，将以当前订阅套餐相近的价格全面开放 [2] - 快手发布“全球首个统一多模态视频模型”可灵AI视频O1，将视频修改、镜头延展、多主体参考等功能整合到一个统一模型，支持3-10秒自由生成时长 [3] - O1模型具备多图参考生成、局部编辑、镜头延展和动作捕捉能力，多主体元素镜头切换能稳住一致性，局部编辑自然流畅 [3] - 快手宣布一周连续上新，Day 2也已发布图片O1模型，在高度一致性、细节处理、风格复刻和创意融合方面表现突出 [3] - 拍我AI V5.5成为国内首个能一键生成“分镜+音频”的AI视频大模型，实现了从素材生成到完整叙事的跨越，具备多角色音画同步和多镜头切换能力 [4] - 该模型展现出对视听语言的深度理解，能根据场景自主匹配音效、精准拿捏口型与情绪、智能编排景别镜头，已达到广告提案和影视预演的可用水准 [4] - AI视频正从“素材生成”迈入“内容生成”时代，普通人无需专业设备和剪辑技能，即可通过AI完成专业级视频创作 [4] 游戏NPC与自动驾驶AI进展 - 蔡浩宇美国AI公司Anuttacon推出聊天产品AnuNeko，不提供生产力功能，专注模拟真实人类对话反应，通过“不知道”和反问保持真人感 [5][6] - AnuNeko提供Orange Cat和Exotic Shorthair两种人格模型，拒绝执行功能性任务，刻意限制AI的“全知全能”以确立独立个体身份 [6] - Anuttacon拥有约50人团队，正在打造通用AI NPC生成平台，未来开发者只需输入设定即可生成具备真实交互的NPC角色 [6] - 英伟达推出Alpamayo-R1推理版视觉-语言-行动模型，基于Cosmos Reason，通过Chain of Causation因果链数据集让车辆能“推理出因果关系” [7] - AR1采用扩散式轨迹解码器和多阶段训练策略，规划精度提升12%，越界率降低35%，近碰率降低25%，推理-行动一致性提升37%，端到端延迟仅99ms [7] - 模型引入多维度奖励机制包括专家推理反馈、推理-行动一致性奖励和底层安全奖励，能解释每个驾驶决策的原因 [7] 大模型与机器人技术前沿 - 华为开源openPangu-R-7B-Diffusion扩散语言模型，基于openPangu-Embedded-7B用800B tokens续训练，成功将上下文长度扩展至32K [8] - 模型在MMLU-Pro超越16B参数的LLaDA 2.0-mini-preview 22%，数学推理MATH得分84.26，代码生成MBPP得分84.05，创7B参数量级新SOTA [8] - 采用前文因果注意力掩码设计，支持自回归+扩散双模式解码，并行解码速度最高可达自回归解码的2.5倍，训练推理全流程在昇腾NPU完成 [8] - 众擎机器人发布T800全尺寸高动态通用机器人，身高173cm体重75kg，全身43个自由度关节，最大关节力矩高达450 N·m，移动速度3m/s [9] - T800采用72V行星/直线混合驱动，能完美执行巴西战舞、回旋踢、五连踢、组合拳和飞踢等高难度动作，实现对170cm同等身高男性80%以上性能超越 [9] - 公司计划2026年实现数十台级别小批量交付验证场景，2027年争取T800销量达到1-2万台，12月24日将举办“机甲拳王”机器人自由格斗比赛 [9] 风险投资与创业观点 - 红杉美国首位华裔女性合伙人Jess Lee强调所有问题都是“人的问题”，提出EQ、PQ、IQ、JQ四维人才评估框架，重视组建互补型尖锐人才团队 [10] - 她认为早期与用户沟通核心是理解真实问题而非产品功能反馈，信念与愿景要走在用户认知之前，早期PM应主动承担更多非职责内工作 [11] - 最大的创业教训是选错市场和商业模式，不同业务有自身“物理定律”，订阅制现金流优势远超社交电商，商业模式是投资首要考虑因素之一 [11]

Artificial Intelligence

Artificial Intelligence

拍我AI上线V5.5AI视频大模型，支持“导演级”音画同步一键生成

新浪财经· 2025-12-02 10:33

爱诗科技发布PixVerse V5.5 AI视频大模型 - 公司爱诗科技于12月2日发布了PixVerse V5.5 AI视频大模型，其国内版本为“拍我AI V5.5” [2][6] - 此次更新是在Sora2发布后，公司率先实现了“分镜+音频”的一键直出升级 [2][6] - 该模型能让创作者在几秒钟内生成完整的视频故事，无需再从素材中拼接 [2][6] 模型核心功能与技术升级 - V5.5模型的核心进步源于底层模型的全面升级，首次支持音频与多镜头同步生成 [2][6] - 模型强化了多角色音画同步能力，能根据用户提示词自动理解并生成完整的故事段落，而非单一镜头素材 [2][6] - 用户只需输入简短提示，AI即可完成镜头推进、景别切换、人物对白、环境声和背景音乐的生成，直接输出可用的叙事片段 [2][6] 用户控制与创作体验 - 在拍我AI中，用户可在开启多镜头和音画同步状态下，生成5秒、8秒、10秒的视频 [3][7] - 用户现可在提示词中直接控制“音效、台词、音色、音乐、镜头”，AI能自动理解叙事意图并设计推拉、摇移、切换等镜头语言 [3][7] - AI的运镜节奏更自然，紧贴真实制作逻辑，旨在带给用户“成为导演”般的创作体验 [3][7] 产品性能与市场影响 - 与以往只能产出单镜头或零散画面的模型不同，V5.5可以生成具备叙事结构的短片，视频质量接近“成片” [2][6] - 从体验角度看，V5.5进一步缩短了创作工作流的时间差，生成速度大幅提升，镜头语言更加丰富 [3][7] - 控制方式更加直观，使得C端用户和创作者都能以更低门槛，迅速将抽象灵感转化为可观看的成品视频 [3][7]