Veo 3

搜索文档
Sora 2干翻Veo 3?超全对比实测:会中文脱口秀,但体操翻车,附有效邀请码
机器之心· 2025-10-01 07:26
机器之心编辑部 相比于旧版本,Sora 2 在物理准确性、真实感和可控性方面都更胜一筹,而且它还和谷歌 Veo3 一样具备音画同步能力。 机器之心报道 我们使用同样的提示词,让两个版本的 Sora 同台竞技。 提示词:A black tech reviewer talking about a smartphone, while sitting at a desk in front of 2 displays.(一位黑人技术评论员坐在办公桌前,面对 两台显示屏谈论一款智能手机。) 上个版本的 Sora 并未对视频中的物体产生「理解」,模型仍然容易出现「幻觉」。 黑人小哥右手拿的手机总是凭空出现或消失,左手会在不经意间多根手指或少根手指,显示屏中的图片也都出现了手指畸变的情况。 而 Sora 2 生成的视频足够以假乱真,没有物体相互穿透或者无故消失和重现,人物手指也始终没出现畸变的问题,还实现了音频、视频一锅出。 要知道,我们对黑人小哥的评论话术没有任何提示,但 Sora2 生成的小哥嘴皮子溜得很,全程没有打磕巴,评论话术也完全是模型自己编的。我们还可以随意调整 生成视频比例。 这也难怪 Sora2 一经推出,外 ...
OpenAI拟推Sora 2独立APP,功能和界面设计与TikTok高度相似
36氪· 2025-09-30 09:17
OpenAI首席执行官山姆·奥特曼 9月30日消息,据知情人士披露,OpenAI正筹备发布下一代视频生成模型Sora 2,并计划推出一款独立移动应用。该应用在功能与界面设 计上与TikTok高度相似,旨在推动AI视频生成技术走向大众市场。 与此同时,OpenAI正深陷多起版权侵权诉讼,其中《纽约时报》提起的诉讼备受关注。该案核心指控为OpenAI在模型训练过程中使用了 该报受版权保护的材料。据报道,即便是当前阶段,Sora 2应用在内容生成时,也常因版权保护及其他过滤机制而拒绝生成部分视频。 除版权问题外,OpenAI在儿童安全领域也面临着日益增多的批评声音。9月28日,该公司发布了全新的家长控制功能,包括父母与青少 年账户关联选项,并表示正开发一款年龄预测工具,可自动将未满18岁的用户引导至功能更受限的ChatGPT版本。目前尚不清楚Sora 2应 用将采取何种年龄限制措施。 根据《连线》杂志获取的文件,OpenAI即将推出的名为"Sora 2 App"的独立应用将采用垂直视频流形式,搭配类似TikTok的滑动导航交 互方式。用户通过该应用可创建最长10秒的视频片段,应用内设有由推荐算法驱动的"为你推荐"页 ...
曝OpenAI将推出“AI抖音”
虎嗅· 2025-09-30 05:19
本文来自微信公众号:APPSO (ID:appsolution),作者:APPSO,原文标题:《曝 OpenAI 将推出"AI 抖音":禁止上传实拍内容,Sora 2 加持》,头图 来自:AI生成 这两天的AI圈,更新速度快得让人喘不过气,哪是要让人放假的样子。 昨天DeepSeek更新了V3.2-Exp模型,Anthropic凌晨就紧跟着发布了性能更强的Claude 4.5。 正当大家都在预测牌桌上的其他巨头何时出手时,行业领头羊OpenAI的"王炸"似乎已经提前被剧透了,那就是Sora 2。 最近,OpenAI不仅在X平台连发多条神秘视频,引爆社区对Sora 2的猜想。 来自《连线》杂志的重磅爆料更是指出,OpenAI的下一步棋,并非简单升级一个模型,而是要亲自下场,推出一个独立的AI视频社交App。一个酷似抖 音,但内容100%由AI生成的全新平台。 奥特曼曾经发X说,未来几周,OpenAI将推出一些新的计算密集型产品,且最初只会向Pro用户开放。而需要大量算力的,不正是视频生成吗?刚好Sora 目前也仅面向Plus和Pro用户,传闻已久的Sora 2真的要发布了。 AI视频也要迎来它的"吉卜力"时刻了 ...
腾讯研究院AI速递 20250929
腾讯研究院· 2025-09-28 16:01
生成式AI行业动态 - OpenAI被曝在用户不知情情况下将GPT-4和GPT-5等模型路由至低算力敏感模型"gpt-5-chat-safety"和"gpt-5-a-t-mini" 当系统判定内容涉及敏感话题或情绪表达时自动触发切换 [1] - OpenAI回应称切换为临时性安全路由系统测试 但未经同意的模型更改行为引发用户权益质疑 [1] - 腾讯发布工业级原生多模态生图模型混元图像3.0 参数规模80B 是目前测评效果最好且参数量最大的开源生图模型 [2] - 混元图像3.0基于50亿级图文对和6T语料训练 具备千字级复杂语义解析能力 支持长文本生成和小文字处理 [2] - 快手推出KAT-Dev-32B开源和KAT-Coder闭源两款Agentic Coding大模型 在SWE-Bench Verified上分别达到62.4%和73.4%解决率 [3] - 快手开发基于熵的树剪枝技术和强化学习训练框架SeamlessFlow 模型经训练后涌现出对话轮次减少和多工具并行调用新能力 [3] AI教育应用进展 - 好未来提出AI教师L1-L5分级理论 学而思"小思AI一对一"对标L3级别 能实现实时观察学生解题步骤并提供针对性引导 [4][5] - L3级AI教师需配备多模态传感器和专用硬件 形成"批改-讲题-推荐"数据飞轮 数学解题正确率达98.1% [5] - 好未来自研"九章"大模型结合20多年教研内容 在线下培训、在家学习和进校学习三大场景实现统一学情画像 [5] 前沿科技战略布局 - Meta计划投入数十亿美元研发人形机器人"Metabot" 战略地位与AR项目同级 聚焦软件开发而非硬件制造 [6] - Meta拟采用软件平台授权模式 与机器人制造商合作建立行业通用标准 新成立超级智能人工智能实验室构建物理"世界模型" [6] - 谷歌DeepMind视频模型Veo 3涌现四层能力:感知经典视觉任务、建模物理定律、操纵图像编辑、推理视觉问题 [10] - Veo 3通过帧链(CoF)技术实现跨时空推理 在七个代表性任务上显著超越Veo 2 可能成为视觉领域的GPT-3时刻 [10] 技术理论与方法创新 - 图灵奖得主Richard Sutton认为大语言模型是错误起点 强调真正智能需通过经验学习实现 而非对人类行为的模仿 [7] - 陈丹琦团队提出RLMT方法 将显式思维链推理融入通用聊天模型 在WildBench等基准测试中表现优异 [8][9] - RLMT要求模型生成推理轨迹后再输出最终答案 通过奖励模型评分 使推理风格从线性规划转变为迭代式思考 [8][9] 行业战略与市场展望 - 英伟达从芯片公司转型为AI基础设施合作伙伴 通过极端协同设计构建AI工厂生态系统 竞争护城河基于总拥有成本优势 [11] - AI推理将迎来十亿倍增长 预训练、后训练和推理三大扩展定律驱动万亿级市场 年度AI基础设施资本支出预计达5万亿美元 [11] - 主权AI时代各国需建立独立AI基础设施 主张通过技术出口最大化影响力而非脱钩 保持美国梦品牌吸引全球人才 [11]
DeepMind率先提出CoF:视频模型有自己的思维链
量子位· 2025-09-28 03:39
核心观点 - DeepMind首次提出帧链(CoF)概念 类比语言模型中的思维链(CoT) 使视频模型具备跨时空视觉推理能力 [1][2][3] - Veo 3视频模型展现通用视觉理解潜力 零样本解决全链条视觉任务 被视为视觉推理领域的"GPT-3时刻" [4][5][6] - 视频模型正发展通用基础模型能力 未来可能取代专用模型 遵循"通用价值+成本下降"的发展路径 [25][26][27] 技术原理 - CoF框架使视频模型像语言模型用符号推理一样 实现时间和空间维度的视觉推理 [2][6] - 采用与LLM相同的提示词驱动方法 仅通过"初始图像+文字指令"生成8秒720p视频 无需特殊训练 [7][8] - 通过18384个视频测试验证 覆盖62项定性任务和7项定量任务 [23] 模型能力 - 感知能力:零样本处理基础任务(图像去模糊)和复杂任务(多目标中定位特定物体) [10][11] - 建模能力:理解物理规则(物体沉浮)和抽象关系(物体容纳关系) [13][14] - 操作能力:实现图像编辑(添加属性/背景)和3D模拟(姿态变换) [16] - 推理能力:在5×5迷宫任务中成功率78%(Veo 2仅14%)展现跨时空推理潜力 [19][21] 性能表现 - 相比前代Veo 2实现显著提升 迷宫任务成功率从14%升至78% [21][24] - 多尝试策略(pass@10)显著提升性能 且随尝试次数增加仍有上升空间 [25] - 特定任务仍落后专用模型(如边缘检测精度)但差距正快速缩小 [25] 发展前景 - 视频模型遵循LLM发展轨迹 类似GPT-3从专用模型转向通用基础模型的演进路径 [25] - 推理成本每年下降9-900倍(基于Epoch AI数据)成本问题将逐步解决 [25][26] - 结合推理时缩放和RLHF指令微调等技术 性能有望进一步提升 [25]
With Alphabet's Biggest Fear Relieved, Is Its Stock Due for a Big Rally?
The Motley Fool· 2025-09-27 08:14
Alphabet's stock looks relatively cheap compared to the rest of the "Magnificent Seven."Whenever a publicly traded business faces a big risk or unknown, that can weigh on its valuation. For Alphabet (GOOG 0.21%) (GOOGL 0.28%), the tech giant that owns Google and YouTube, the big concern recently was that antitrust lawsuits would result in it being forced to sell off key parts of its business.Although Judge Amit P. Mehta did rule earlier this month that the company has operated a monopoly in search, he did n ...
吴泳铭的演讲把阿里市值又拉升了2000多亿 但「全栈」的护城河可能没那么深
第一财经· 2025-09-25 06:25
Key Points 云栖大会上,吴泳铭提出ASI(超级人工智能)的技术发展的三个阶段,分别是涌现智能、自主行动和自主学习; 目前我们处于第二阶段,第三阶段需要模型能够自己为自己的升级迭代,不仅学习人类归纳的知识,还要自己学习归纳出新知识; 未来的AI时代中,家庭、工厂、公司,都会有众多Agent和机器人,甚至未来每个人可能「都需要使用100张GPU芯片为我们工作」; 在他的框架中,阿里云将成为AI时代的计算机,千问模型是跑在这台超级计算机上的操作系统; 为此,阿里在3年3800亿元AI基础设施预算外,还要追加投入; 「开源+全栈研发能力」目前仍是阿里云的护城河,但如果仅以token消耗为维度来计算,火山引擎已超过阿里云。 在资本市场,有想法往往比有结果值钱。 阿里巴巴已经两次证明了这一点。一次是8月29日,它发布了2025年第二季度财报(2026财年第一财季,截至2025年6月30日),阿里中国电商集团经调整 EBITA同比下降14%,经营利润同比下降3%,且新增饿了么、淘宝闪购、飞猪等业务,但公司股价不跌反涨——拐点是财报发布后的电话会上,阿里巴 巴集团CEO吴泳铭和阿里中国电商集团CEO蒋凡给出了阿里巴 ...
In just one year, Google turns AI setbacks into dominance
TechXplore· 2025-09-24 08:48
This article has been reviewed according to Science X's editorial process and policies . Editors have highlighted the following attributes while ensuring the content's credibility: Google CEO Sundar Pichai walks to lunch at the Allen & Company Sun Valley Conference on July 9, 2025. Caught off guard by ChatGPT and mocked for early blunders with its own generative artificial intelligence efforts, Google has pulled off a dramatic turnaround in just one year, becoming a major player in consumer-facing AI. "T ...
谷歌OCS(光交换机)的技术、发展、合作商与价值量拆解
傅里叶的猫· 2025-09-17 14:58
谷歌AI发展势头 - 谷歌推出Gemini 2.5 Flash Image 上线不到一个月新增2300万用户并生成超过5亿张图片 助力Gemini APP在多国应用商店登顶下载榜 [2] - 谷歌发布多项多模态大模型更新 包括Veo 3音视频同步生成 Genie 3实时交互世界 Imagen 4图片生成以及Pixel 10系列AI硬件整合 凸显AI研发领先优势 [2] - Gemini 3.0预计于2025年底推出 有望进一步提升模型能力 [2] 反垄断影响 - 美国地区法官公布谷歌搜索反垄断惩罚措施 强调恢复竞争而非惩罚 未采纳分拆等激进提议 好于市场此前悲观预期 [4] - 谷歌业务基本盘保持稳固 算法能力 生态优势和品牌口碑依然领先 流量获取成本TAC有望优化 整体影响可控 [4] OCS技术背景 - 传统Scale out网络中数据传输需要多次光电转换和电光转换 以H100千卡IB集群为例 数据从一台服务器传输到另一台通常需要经过8次转换 显著降低集群效率并增加延迟和能耗 [6] - 光信号在远距离高带宽传输场景下表现优于电信号 但现有技术无法直接对光信号进行灵活数据处理 必须先转化为电信号才能完成地址处理等操作 [8] - AI大模型数据流转具有高度可预测性 无需拆包查看地址 通过反射直接传输至目标服务器即可构建高效全光网络 相比传统互联网数据传输类似快递 AI数据中心全光网络更像地铁 [9] OCS主流技术方案 - MEMS方案是市场绝对主流占比超过70% 技术成熟参与企业多 性能指标均衡 端口扩展能力达320×320 成本较低切换速度快 [10] - MEMS通过微型反射镜角度调整实现光信号路径动态调整 每根输入光纤光信号经过MEMS反射镜引导到目标输出光纤 反射镜配备二维转轴通过调节角度改变反射方向 [10] - DRC方案采用全固态设计无运动部件 通过控制液晶分子结构变化实现光路折射 驱动电压极低可靠性和寿命明显提升 寿命达MEMS方案十倍 成本约4万美元低于MEMS方案5万美元 但切换速度仅毫秒级 [11][12] - 压电陶瓷方案目前没有详细信息阐述具体特点和优劣势 [13] OCS部署策略 - OCS技术核心优势场景是端口间映射关系稳定不需要频繁调整传输路径的网络环境 优先使用OCS可最大程度利用低功耗极低传输时延特性 [13] - 避免将OCS部署在需要高频率动态调整路径或有高度随机化流量模式的场景 这类场景会放大OCS切换时间长的问题导致网络整体效率下降 [13] - 通过合理规划网络拓扑结构提升OCS使用效率 如把高带宽需求且通信关系稳定节点集中到同一物理区域 通过OCS建立直接连接减少跨区域通信资源消耗 [13] 光交换机与传统电交换机差异 - 性能上光交换机通过直接提供稳定光通道传输数据时延极低接近光速 无需频繁进行光电转换 传统电交换机需多次光电转换并解包识别目标地址重新转发 大大增加数据传输时延 [14] - 功耗上光交换机不用进行信号转换能量损耗更少功耗优势明显 灵活性上传统电交换机更有优势 端口间全连接模式每个数据包能根据包头地址直接定位目标端口无需配置固定线路 仅需纳秒级数据处理时间 而光交换机重新配置内部固定线路适应流量变化目前切换时间毫秒级 [14] - 光交换技术更适合流量模式相对稳定端口间映射关系明确且不用频繁切换场景 传统电交换机更适合流量动态变化大需要频繁调整数据传输路径场景 [14] 成本与长期使用优势 - 长期使用下OCS交换机可实现约30%成本节约 因OCS寿命长如硅基液晶方案寿命约为MEMS方案十倍 MEMS方案寿命又长于传统电交换机 且无需频繁更换 同时单位端口能耗成本更低 [16] - OCS交换机初始成本较高当前设备单价通常在4-5万美元甚至更高 传统电交换机单价仅为几千至3万美元 对预算有限中小型数据中心初始投入压力较大 [16] - 时延方面OCS通过光通道直接传输数据时延可接近光速 相比传统电交换机时延提升约60%-70% 功耗上OCS相比传统电交换机可降低约40%功耗 [16] OCS端口数量问题 - 不同OCS技术方案端口数量存在限制 核心原因是技术实现难度和制造工艺水平差异 不同方案核心部件结构加工精度要求不同导致端口扩展天花板不一样 [17] - MEMS方案端口数量直接和光纤数量挂钩 每根光纤需对应一个微型反射镜 小镜子数量决定端口数量理论上限 [18] - 小镜子加工良率是关键限制因素 因MEMS芯片上小镜子需要极高加工精度 实际生产中难保证所有小镜子正常工作 例如谷歌某款MEMS芯片设计包含176个小镜子 但40个因加工不良被屏蔽 剩下136个中还有8个用于通道校准 最终实际有效端口数只有128个 [18] - 芯片尺寸与制造工艺矛盾也限制端口数量 增加芯片尺寸能容纳更多小镜子提升端口数 但随着芯片尺寸增大加工良率会明显下降 同时面临精度控制散热等技术挑战 [18] 光路系统关键部件 - 激光注入模块和摄像头模块核心目的是实现实时校准功能 不是直接参与数据传输 是保障光路长期稳定运行关键不是冗余设计 [19] - 校准系统用于调整MEMS小镜子偏转角度 确保光路始终处于预设精准状态 避免因设备老化导致光路偏移 [19] - MEMS小镜子偏转角度由焊盘上电压控制 随着设备使用时间增加机械转轴会出现老化磨损 导致偏转角度减小影响数据传输准确性 [19] - 激光注入模块发射专用波长光束对每个光路持续检测 摄像头模块捕捉光束实际传播路径判断是否存在偏移 一旦发现偏差系统自动调整控制电压使小镜子恢复到预设偏转角度 [19] - 校准过程依赖两套独立发射和接收单元 分别对应系统中两个MEMS芯片 实现对所有光路全面覆盖 [19] MEMS制造难点 - MEMS小镜子制造难点不是集中在镜面本身 而是体现在机械结构与电子控制集成环节 源于MEMS技术机电一体化核心属性 [20] - 每个MEMS芯片通常包含超过100个小镜子 每个小镜子不仅需要简单镀膜结构保证光反射效率 还必须集成复杂机械部件 最关键的是用于实现角度调整的小型转轴 尺寸极小在微米级别 对加工精度要求极高 [20] - 机械部件与电子控制芯片高度集成增加制造难度 小镜子角度调整依赖电子控制信号 需将机械转轴与电子控制电路在极小芯片空间内实现无缝衔接 既要保证机械结构灵活性又要确保电子信号稳定传输 [20] - 复杂集成结构导致加工良率较低 因涉及机械电子光学等多领域工艺要求 任何一个环节出现问题都会导致整个小镜子失效 例如谷歌某款MEMS芯片设计176个小镜子 最终因加工问题屏蔽40个 有效率不足80% [20] 发射和接收模组 - OCS中发射和接收模组是光路校准系统核心组成部分 主要涉及激光芯片探测器芯片无源光学器件等关键组件 用于保障校准激光信号稳定发射与精准接收 [22] - 有源组件包括激光芯片用于发射校准用激光束和探测器芯片用于接收校准激光束判断光路是否偏移 这两类芯片是模组核心功能部件 直接决定校准精度和稳定性 [22] - 无源光学器件包括滤光片过滤杂光确保校准激光纯度 准直透镜将激光束校准为平行光 棱镜改变激光传播方向 隔离器防止激光反射干扰保护激光芯片 这些器件用于优化激光束传输路径提升校准效率 [22] - 单套发射或接收模组总成本约1000美元 有源组件激光芯片加探测器芯片成本最高约占总成本60%-70% 无源光学器件成本约占15%-20%约150美元 其余成本为模组装配测试和封装费用约占10%-15% [23] 二色向分光片 - 二色向分光片是OCS光路校准系统中波长筛选关键部件 通过对特定波长光信号选择性透射或反射 实现校准光路与数据光路分离 确保校准功能精准运行 [24] - 核心功能是区分OCS系统中校准光信号和数据光信号 避免两者相互干扰 校准系统使用激光波长通常为850纳米 数据传输使用光信号波长通常为1310纳米 [24] - 二色向分光片通过特殊镀膜工艺实现对这两种波长选择性处理 对于850纳米校准光信号允许透射通过进入校准系统探测器芯片 对于1310纳米数据光信号则反射回数据传输路径阻止进入校准系统 [24] - 核心技术壁垒在于复杂镀膜工艺 需在镜片表面镀上多层不同材质不同厚度薄膜 每层薄膜对特定波长光信号产生干涉效应 实现850纳米透射1310纳米反射效果 镀膜工艺对薄膜材质纯度厚度均匀性层数控制要求极高 [25] - 二色向分光片还需具备高透光率对850纳米光信号透光率需达90%以上 高反射率对1310纳米光信号反射率需达95%以上 和长期稳定性镀膜层不易磨损氧化 [25] 微透镜阵列 - 微透镜阵列MLA是OCS设备刚需部件 核心功能是准直发散激光束 确保光信号在传输过程中稳定性 [26] - 光信号从光纤输出后会自然发散 若不进行准直会导致光信号衰减光路偏移影响传输效率和稳定性 MLA通过阵列化微型透镜将发散激光束校准为平行光 确保光信号在传输和反射过程中稳定性 [26] - 随着OCS设备出货量增长如谷歌每年部署1万台以上未来预计增长至10万台 MLA需求也将同步刚性增长 [27] - 国内厂商炬光科技是OCS领域MLA核心供应商之一 已进入部分头部OCS设备厂商供应链作为二级供应商二供提供MLA产品 部分OCS设备厂商如谷歌为保障供应链安全自行建立MLA生产线实现部分MLA自主供应 [27] - 单个MLA通道价格约1美元 一台OCS设备通常包含约270个通道 单台设备MLA成本约260美元占OCS设备总成本约6% 价格波动对OCS设备整体成本影响较小 [28] - 若按未来OCS设备出货量预测2030年可能达5-10万台长期有望达30万台 MLA市场规模将从当前数百万美元增长至数亿美元 随着OCS设备端口数量增加如从136×136扩展至300×300 每台设备所需MLA通道数量也将增加提升MLA单位设备价值量 [28] CPO与OCS区别 - CPO核心思路是把交换芯片和光模块封装在同一壳子里 光信号从芯片到光模块距离大大缩短时延和功耗降低 且能实时跟着数据流量变调整传输路径速度达纳秒级灵活性高 尤其适配英伟达GPU集群NVLink NVSwitch技术 [29] - OCS走全光路子靠MEMS反射镜或硅基液晶分子控制光信号路径 全程不用光电转换 时延接近光速功耗比电交换机低40% 但光路需提前配置调整路径速度仅毫秒级应对频繁变流量吃力灵活性差 [29] - CPO适合数据流向老变需要快速响应场景如AI大模型实时推理和云计算给不同租户分配资源 特别是英伟达GPU主导AI数据中心 [30] - OCS适合流量模式固定不用老调路径场景如大模型深度训练和数据中心上层网络冗余保护 像谷歌TPU集群特别适合用OCS既能满足低时延需求长期用还能省电 [30] 谷歌OCS模式 - 谷歌使用MEMS芯片采用自主设计加委托代工模式 芯片设计环节由谷歌自行完成 生产制造环节委托给瑞典专业代工厂Silex负责 [31] - 早期谷歌曾尝试从市场直接采购现成MEMS芯片 但因对端口数量切换速度可靠性等指标有定制化要求 市场通用产品无法满足其OCS系统适配需求 [31] - 谷歌决定组建团队自主设计MEMS芯片 从底层架构确保芯片与自身OCS设备TPU集群兼容性 同时优化芯片性能参数如提升小镜子角度控制精度降低驱动电压 [31]
Google Puts Its Popular AI Video Generator Into YouTube Shorts
WSJ· 2025-09-16 14:30
产品功能更新 - Veo 3推出免费简化版本 用户可通过文本提示快速制作竖版视频 [1]