Workflow
Sora 2 Pro
icon
搜索文档
AI初创公司Runway推出影片生成模型Gen 4.5;字节Seed发布GR-RL,首次实现真机强化学习穿鞋带丨AIGC日报
创业邦· 2025-12-03 00:08
可灵AI产品发布 - 公司正式发布全新产品可灵O1,该产品基于全新的视频和图像模型,整合文字、视频、图片、主体等多模态输入 [2] - 可灵O1将所有生成和编辑任务融合于一个全能引擎,解决了AI视频生成中角色、场景等一致性难题 [2] - 产品为影视、自媒体、广告电商等应用场景提供深度适配的一站式解决方案 [2] OpenAI商业模式探索 - ChatGPT应用的最新安卓测试版中存在被标记为"特色广告"的代码,包含引用商业广告的字符串,例如"搜索广告"和"集市内容" [2] - 公司正考虑根据ChatGPT对用户交互的记忆投放个性化广告 [2] - 公司正从Google和Meta等竞争对手处挖走顶尖广告人才,并在LinkedIn发布与广告相关的招聘信息 [2] 字节跳动机器人技术突破 - 公司Seed团队发布研究成果GR-RL,着力于拓展VLA模型在长时程精细灵巧操作方面的能力边界 [2] - GR-RL提出从离线数据筛选到在线真机微调的强化学习框架,首次实现让机器人给整只鞋连续穿鞋带 [2] - 相较前作监督学习模型GR-3,GR-RL在穿鞋带任务上将成功率从45.7%提升至83.3%,失败情况减少近70% [2] Runway模型性能领先 - AI初创公司Runway推出最新影片生成模型Gen 4.5,能依照文字指令生成高画质影片 [3] - 新模型在第三方评测平台Video Arena排名第一,超越谷歌Veo 3(排名第二)和OpenAI的Sora 2 Pro(排名第七) [3] - Gen 4.5擅长理解物理效果、人类动作、镜头运动与因果关系,能更精准模拟真实世界情境,并于本周向所有用户全面开放 [3]
刚刚,霸榜神秘视频模型身份揭晓,原来它就是「David」
机器之心· 2025-12-02 00:17
产品发布与市场地位 - Runway公司最新发布Gen-4.5视频生成模型,该模型即此前在Artificial Analysis榜单上排名第一的神秘模型Whisper Thunder (aka) David [1] - Gen-4.5在视频生成的运动质量、提示词遵循度以及视觉逼真度方面树立了全新的行业标准 [1] - 该模型是目前全球评价最高的视频生成模型,其ELO Score分数为1,247,超越了Google的Veo 3/3.1(1,226/1,223分)、Kling 2.5(1,225分)以及OpenAI的Sora 2 Pro(1,206分)等主要竞争对手 [3][6] 技术特性与性能突破 - 模型在动态可控的动作生成、时间一致性以及多种生成模式下的精确可控性方面树立了新行业标准 [8] - 具备精确的提示词遵循能力,物体的运动呈现真实的重量、动量与力感,液体流动符合正确的动力学特性,表面细节以高保真度呈现 [11] - 能够生成复杂场景,以高精度呈现结构精巧、元素丰富的多层次场景 [11] - 具备精细的构图能力,能对物体与角色进行精确定位并呈现流畅自然运动效果 [13] - 模型呈现富有表现力的角色,能够展示细腻的情感、自然流畅的肢体动作以及栩栩如生的面部细节 [14] - 覆盖广泛的美学风格,从照片级真实感、电影质感到风格化动画,同时保持统一连贯的视觉语言 [16] 技术架构与部署 - Gen-4.5基于NVIDIA架构构建,在整个流程(包括早期研发、预训练、后训练及推理阶段)均完全运行于NVIDIA GPU之上 [20] - 公司与NVIDIA深度合作,从训练效率到推理速度全方位推动视频扩散模型优化的技术边界 [20] - 推理运行在NVIDIA Hopper和Blackwell系列GPU上,在保证质量的同时实现性能最优化 [20] 行业发展与公司历程 - Runway于2023年2月发布Gen-1,这是首个面向公众的视频生成模型,开创了全新的创意表达方式并催生了新产品类别 [7] - 2023年7月发布的Gen-2率先支持文生视频和图生视频功能,比PIKA和Sora都要早 [7] - 公司不断引领行业,让视频模型变得更强大、更可控,从基础模型的大幅提升到全新的控制方式以及更广泛的上下文能力 [7]
Runway rolls out new AI video model that beats Google, OpenAI in key benchmark
CNBC· 2025-12-01 14:05
新产品发布 - 人工智能初创公司Runway发布新一代视频生成模型Gen 4 5 [1] - 新模型允许用户根据描述动作和行为的文字提示生成高清视频 [1] - 该模型在理解物理原理、人体运动、摄像机移动及因果关系方面表现出色 [1] 行业竞争地位 - Gen 4 5在独立基准测试平台Video Arena排行榜上位列第一 [2] - 该排行榜由独立AI基准测试与分析公司Artificial Analysis维护 [2] - 排名通过匿名比较不同模型输出并由用户投票决定 [2] - Google的Veo 3模型排名第二 OpenAISora 2 Pro模型排名第七 [2] 公司运营亮点 - Runway以约100人的团队在竞争中超越了市值万亿美元的公司 [3] - 公司认为通过极度专注和勤勉即可达到技术前沿 [3]
刚刚,神秘模型登顶视频生成榜,又是个中国模型?
机器之心· 2025-11-28 08:05
神秘模型Whisper Thunder登顶AI视频榜 - 一个名为Whisper Thunder (aka) David的神秘模型登上了Artificial Analysis视频榜榜首,超越了包括Veo 3、Veo 3.1、Kling 2.5以及Sora 2 Pro在内的所有公开AI视频模型 [1] Artificial Analysis榜单排名详情 - 在Artificial Analysis全球公开权重模型排行榜上,Whisper Thunder (aka) David以1,247的ELO评分位列第一 [2] - 排名第二的是谷歌的Veo 3 (无音频版),ELO评分为1,226 [2] - 快手KlingAl的Kling 2.5 Turbo 1080p以1,225的ELO评分位列第三 [2] - 谷歌的Veo 3.1 Preview (无音频版)和Veo 3.1 Fast Preview (无音频版)分别以1,223和1,219的ELO评分位列第四和第五 [2] - Luma Labs的Ray 3排名第六,ELO评分为1,210 [2] - OpenAI的Sora 2 Pro (无音频版)以1,205的ELO评分位列第七 [2] - MiniMax的海螺02 Standard O和海螺2.3 O分别以1,198和1,188的ELO评分位列第八和第九 [2] - Lightricks的LTX-2 Pro (无音频版)以1,187的ELO评分位列第十 [2] Whisper Thunder模型特性与市场反应 - 该模型生成的视频时长固定为8秒,且运动幅度肉眼可见更强 [3] - 目前其在平台上的出现频率有所降低,用户可能需要反复刷新尝试才能遇到 [3] - 由于测试平台无音频测试机制,该模型是否具备原生音频能力仍是未知 [3] - 不少网友从其生成效果和审美倾向推测,这个神秘模型很可能来自中国 [4] - 尽管在高动作场景下会出现一些抖动,但其生成效果仍然非常令人印象深刻 [11] - 作为榜单头名,该模型在Artificial Analysis Arena的用户投票机制下,仍然存在不少的生成瑕疵 [13] - 行业关注度极高,在下一次刷新之前,所有人都在等待它闪亮登场 [14] Whisper Thunder模型生成示例 - 能够生成复杂的延时摄影场景,如起重机吊装钢梁、城市天际线快速变化的建筑工地 [5] - 可处理特殊镜头效果,如产生变形镜头光斑的沙漠高速公路经典汽车飞驰场景 [6] - 擅长动漫风格内容生成,如将钢琴键转化为彩色音符环绕角色的情感化音乐表演场景 [7] - 能够生成具有电影感的城市景观,如从圣保罗屋顶拍摄的洗衣绳、天线与城市网格 [8] - 可创建环保主题场景,如太阳能电池板追踪日光、风力发电机转动的宁静山谷 [9] - 能够生成超现实主义内容,如月光泻湖中鳞片闪烁的美人鱼 [10] - 可精确生成动物行为细节,如针鼹用长舌捕捉蚂蚁时刺的颤动 [12]
“杀死每家AI初创、造超级OS”?奥特曼的野望惊现缺口:资深人士曝出三大瓶颈
AI前线· 2025-10-07 04:56
AgentKit发布与能力 - 推出能够构建、部署和优化智能体工作流程的AgentKit,是一套面向开发者和企业的完整工具集[2] - 该工具集包含三大核心构建模块:用于可视化创建和版本化多智能体工作流的Agent Builder、管理数据与工具连接的Connector Registry、以及用于嵌入可定制聊天交互体验的ChatKit[5] - 实际应用案例显示,Ramp团队用几小时就从空白画布构建出采购智能体,将迭代周期缩短70%,上线时间从两个季度缩短至两个冲刺周期;LY Corporation在不到两小时内构建出工作助手智能体;为Canva开发者社区构建支持智能体节省超过两周时间且集成耗时不到一小时[7] AgentKit的局限性 - 有资深构建者指出AgentKit仅能覆盖20%的使用场景,剩余80%涉及私有API、认证层和合规工作流等复杂集成[10] - 在生产环境可靠性方面,AgentKit模板仅能应对10次请求,而真实生产环境需要支持10000+次请求且达到99.9%的正常运行时间,缺乏完善的重试、错误处理等机制[10] - 在医疗、金融等专业领域,模板无法承载监管细节或临床判断等专业知识,仍需人类专家介入[11] Codex的发展与应用 - Codex日使用量自8月初以来增长了10倍以上,GPT‑5-Codex是增长最快的模型之一,在三周内处理了超过40万亿个token[11] - 在OpenAI内部,几乎所有工程师都在使用Codex(7月时仅略超一半),工程师每周合并的拉取请求数量增加了70%,Codex会自动审查几乎每一个PR[3][11] - Codex正式全面开放,并推出Slack集成、Codex SDK和全新管理工具三项新功能,有评价称甚至7岁的孩子也可以借助Codex SDK将想象变为现实[11][12][16] Apps SDK与生态系统战略 - 以预览版形式开放Apps SDK,允许开发者在ChatGPT中构建、集成和调用原生应用,目前公开支持的应用包括Booking.com、Canva、Spotify等[12] - 行业观点认为此举措使ChatGPT成为新的操作系统和默认界面,目标是让用户在此与所有应用程序对话,让OpenAI变得无可匹敌[13] 新模型与API上线 - 上线三大重要API:针对高难度任务会投入更多“思考时间”的GPT-5 Pro、以及视频生成模型Sora 2与Sora 2 Pro,后者支持最长12秒视频和Remix调整功能[14][15][18] - 推出两个更经济的迷你版本模型:gpt-image-1-mini价格比完整版降低80%,gpt-realtime-mini价格降低70%[20]