Workflow
Veo 3.1
icon
搜索文档
刚刚, AI视频王者大更新!硬刚Sora,威尔史密斯吃面更香了
创业邦· 2025-10-16 03:23
以下文章来源于APPSO ,作者发现明日产品的 APPSO . AI 第一新媒体,「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative AI 来源丨APPSO(ID: appsolution ) 图源丨 X网友 @aisearchio OpenAI前不久刚推出了Sora 2视频生成模型,势头相当凶猛,紧随其后,今天Google的Veo 3.1也 迎来了一次重大升级。 具体来看,Google这次的升级包括两个层面。 一是功能层面的完善。视频编辑功能得到了强化,用户现在可以对片段进行更细致的调整,对最终画 面有了更精准的掌控。 更重要的是,Google首次给「素材转视频(Ingredients to Video)」「帧转视频(Frames to Video)」和「延展(Extend)」这些功能配上了音频,让音频成为创作流程的一部分。 二是模型层面的进步。 今天发布的Veo 3.1在提示词理解和视听质量两个关键指标上都有了明显提升,从图像到视频的转化 因此更加自然流畅。 众所周知,Veo 3原本就有不少编辑能力在身——通过参考图像指导角色生成、用首尾两帧填充中间 内容、基于视频末尾继 ...
应对Sora 2,谷歌发布新AI视频模型Veo 3.1:能精准可控视频生成
36氪· 2025-10-16 01:59
产品发布与定位 - 谷歌正式推出新一代AI视频生成模型Veo 3 1,显著提升了叙事控制能力、音频融合度与画面真实感[1] - 新模型为企业用户、开发团队和创意机构带来了可扩展、可定制的视频解决方案,同时保持了与前代一致的定价体系[1] - 与OpenAI的Sora 2相比,Veo 3 1的画面风格更偏向电影质感,视觉效果精致但稍显人工化,而Sora 2擅长自然抓拍风格[1] 核心技术升级 - Veo 3 1增强了对对话、环境音效等音频元素的处理能力,并实现了原生音频生成与视频的同步生成[2] - 音频生成功能已全面集成到Flow平台的三大核心功能:帧转视频、素材转视频和延伸视频[2] - 模型支持文本、图像、视频片段等多种输入形式,新引入的功能包括支持最多3张参考图像以精准控制视觉风格[3] - 新功能还包括插入对象和移除元素等编辑工具,但部分功能尚未完全开放给Gemini API用户[3] 平台部署与定价策略 - Veo 3 1通过Flow平台、Gemini API和即将支持企业级功能的Vertex AI等多个渠道提供服务[4][5] - 模型处于预览阶段,仅面向Gemini API付费用户开放,计费标准为:标准版每秒视频0 40美元,Fast版每秒视频0 15美元[5] - 采用按需计费模式,仅对成功生成的视频收费,无免费额度,便于企业进行预算管理[5] 技术规格与应用场景 - Veo 3 1支持720p与1080p分辨率输出,帧速率稳定在24帧/秒,基础生成长度为4秒、6秒或8秒,通过延伸功能最长可达148秒[6] - 企业用户上传产品图片或风格参考后,模型能够准确保持视觉元素的一致性,这对零售、广告等行业的内容标准化生产极具价值[6] - 平台提供的首尾帧插值技术可实现不同场景间的自然无缝过渡,场景延伸功能可智能延续原有视频的动作与运镜逻辑[4] 早期用户反馈与市场竞争 - 早期用户反馈呈现两极分化,有观点认为Veo 3 1效果明显逊于Sora 2且价格更高,但肯定了其在参考图像支持和工具链方面的优势[7] - 有用户指出模型存在局限,如缺乏自定义语音选项、基础生成时长卡在8秒上限,以及在多角度拍摄中保持角色一致性需精细提示词设计[8] - 谷歌Veo 3 1是首个实现原生AI同步音频生成的视频模型,但OpenAI Sora的崛起改变了竞争态势,行业标准正被不断抬高[11][14]
刚刚,谷歌Veo 3.1迎来重大更新,硬刚Sora 2
机器之心· 2025-10-16 00:51
正如前几天网上泄露与传闻所预料的那样,深夜,谷歌发布了最新的 AI 视频生成模型 Veo 3.1。 Veo 3.1 带来了更丰富的音频、叙事控制,以及更逼真的质感还原。在 Veo 3 的基础上,Veo 3.1 进一步提升 了提示词遵循度,并在以图生视频时提供更高的视听质量。 随着新模型的发布,由其驱动的 AI 电影创作工具 Flow 也迎来了更新,可以帮助你更精细地编辑视频片 段,对最终场景实现更颗粒化的控制。并且,谷歌首次将音频引入到现有能力中,例如「素材生成视频 (Ingredients to Video)」「连帧成片(Frames to Video)」以及「延展(Extend)」。 更强的叙事与音频控制 机器之心报道 机器之心编辑部 Veo 3.1 在其前代版本 Veo 3(于 2025 年 5 月发布) 的基础上进行了升级,增强了对对话、环境音效以及其 他音频效果的支持。 如今,在 Flow 的多个核心功能中,包括连帧成片、素材生成视频和延展,均已支持原生音频生成。这些功 能允许用户: 将静态图像转换为视频; 将多张图像中的人物、物体或元素整合进同一视频中; 生成比原始 8 秒更长的视频片段,可延展至 ...
人工智能周报(25年第40周):谷歌即将发布Veo3.1,ChatGPT应用生态正式上线-20251012
国信证券· 2025-10-12 11:52
行业投资评级 - 行业投资评级为“优于大市” [1][4] 核心观点 - AI对互联网巨头在广告业务、云计算和企业效率方面已产生明显作用 典型体现在腾讯广告Q2持续保持20%增长 阿里云增速环比提速至26% 同时腾讯、腾讯音乐、快手等公司利润端经营效率提升明显 [2] - 随着百度、阿里为代表的互联网公司推出自研芯片 完成芯片、模型、应用全链条布局的云厂商有望实现市场份额的持续提升 [2] - 建议继续聚焦AI主线 推荐腾讯控股、阿里巴巴、快手、百度集团、美图公司 以及与宏观经济关联度较低的腾讯音乐和网易云音乐 [2] 人工智能动态:公司动态 - 谷歌即将发布Veo 3 1 将带来角色一致性与多场景故事生成功能 视频时长增加 输出质量提升并新增“多镜头多提示”功能 [1][16] - ChatGPT周活用户破8亿 创AI普及历史新高 其主要竞争对手xAI Grok月活为6500万 Claude和PerplexityAI维持在3000万量级 [1][16] - ChatGPT应用生态正式上线 引入“应用(Apps)”体系 使用户能在聊天中直接使用第三方服务 从单一对话工具演变为功能丰富的应用平台 [1][19] - 微软力推NPU以提升Windows智能化 加速本地推理并降低功耗 但当前普通用户未感受到明显实际益处 带NPU的Copilot+ PC份额增长主要依赖营销和降价 [1][19] - Meta政策调整 自2025年12月16日起 用户与Meta AI聊天机器人的对话数据将用于Facebook、Instagram等平台的广告及内容推送 用户可通过“广告偏好设置”限制 [1][20] - xAI免费发布视频生成模型Imagine v0 9 在画质、动作流畅度、音频生成等核心维度实现质的飞跃 用户输入文本提示即可在数秒内生成电影级质感视频 [1][20] - vivo发布蓝心3B端侧大模型 集成语言、多模态、逻辑推理、128K长上下文、UI Agent五大核心能力 在OpenCompass多模态榜单上性能超越8B模型 [1][21] 人工智能动态:底层技术 - 谷歌推出Gemini Enterprise 这是一个基于Gemini系列机器学习模型的平台 旨在通过无代码工作台、预构建代理及连接企业数据源 以AI自动化商业工作流程 [1][22] - Anthropic等机构联合研究发现 仅需250份“中毒”文件即可在大型语言模型中植入后门 且攻击有效性与模型大小无关 打破了“大模型越大越安全”的假设 [1][22] 人工智能动态:行业政策 - 中央网信办、国家发展改革委联合印发《政务领域人工智能大模型部署应用指引》 旨在安全稳妥推进政务领域大模型部署应用 要求政务部门结合实际选择典型场景探索 统筹集约部署并建立全周期管理体系 [1][24] - 陕西省教育厅发布《陕西省推进“人工智能+教育”行动计划(2025—2027年)》 规划到2027年建立5个人工智能学院 在中小学培育20个全国人工智能教育基地 职业院校建设10个“AI+专业群” [1][24] AI相关网站流量数据 - 2025年10月1日至10月7日 AI相关网站周访问量数据显示 ChatGPT周平均访问量达1374 00百万 环比增长0 07% 平均访问停留时间6分26秒 [10] - Perplexity周访问量53 11百万 环比大幅增长28 53% Runway周访问量1 95百万 环比增长32 56% 令克周访问量21 51百万 环比增长18 84% [10] - 多个聊天机器人应用访问量出现环比下降 其中豆包周访问量13 56百万 环比下降30 28% 通义千问周访问量4 11百万 环比下降37 64% 元宝周访问量3 10百万 环比下降39 56% 文心一言周访问量0 63百万 环比下降39 70% [10] 重点公司盈利预测及投资评级 - 重点推荐公司均获“优于大市”评级 包括腾讯控股(总市值5,963,618百万港元 2025E PE 22 2倍) 阿里巴巴-SW(总市值3,157,202百万港元 2025E PE 23 4倍) 美团-W(总市值621,523百万港元) 百度集团-SW(总市值346,246百万港元 2025E PE 15 5倍) 快手-W(总市值362,616百万港元 2025E PE 16 9倍) 腾讯音乐(总市值35,886百万美元 2025E PE 28 2倍) 网易云音乐(总市值55,120百万港元 2025E PE 16 4倍) 美图公司(总市值41,552百万港元 2025E PE 53 5倍) [3]
人工智能周报(25年第40周):谷歌即将发布Veo 3.1,ChatGPT应用生态正式上线-20251012
国信证券· 2025-10-12 11:01
证券研究报告 | 2025年10月12日 人工智能动态:1)公司动态:谷歌即将发布 Veo 3.1,将带来角色一致性与 多场景故事生成功能;ChatGPT 周活用户破8 亿,AI 普及创历史新高;ChatGPT 应用生态正式上线,开启智能对话新纪元;微软力推 NPU,但消费者难觅购 买理由;Meta 政策重大调整:用户与 AI 助手的对话数据将用于全平台广告 与内容推送;xAI 免费发布 Imagine v0.9,视频生成技术革新;vivo 发布 蓝心 3B 端侧大模型,集成五大核心能力,性能超越所有 8B 模型。 2)底层技术:谷歌 Gemini Enterprise 发布:以无代码工作台,重塑 企业自动化流程;Anthropic 研究新发现:仅 250 份中毒文件即可攻破 大型 AI 模型。 3)行业政策:中央网信办、国家发展改革委印发《政务领域人工智能大模 型部署应用指引》;陕西省规划到 2027 年建立 5 个人工智能学院。 投资建议:AI 已呈现对互联网巨头广告业务场景、云计算场景和企业效率 方面的明显作用,典型体现在 Q2 腾讯广告持续保持在 20%增长、阿里云增 速环比提速至 26%,同时利润端 ...
AI周观察:英特尔18A正式量产
国金证券· 2025-10-12 08:43
摘要 风险提示 - 本周 AI 聊天应用市场活跃度分化,海外 Gemini 下降而 Perplexity 与 Claude 上升,国内应用则因国庆假期普遍 下滑。模型应用方面,OpenAI 正式上线迄今最强大的 GPT-5Pro API,凭借 40 万 Token 超大上下文窗口和多模态 能力,瞄准科研、法律等高端市场,定价为每百万 Token15 美元。谷歌预览了能像人一样操作网页的 AI 代理模 型 Gemini2.5 Computer Use,并升级视频模型 Veo 至 3.1 版本。此外,谷歌宣布其 AI 月处理代币数超 1300 万 亿,主要反映了新模型导致后端计算复杂度与成本激增,而非用户活跃度的直接体现。 - Semianalysis 发布 InferenceMAX 推理基准框架,以"TCO 每百万 token"和"每 MW 产出"衡量 AI 推理系统经 济性与能效,为 AMD 与 NVIDIA 竞争提供统一评估语境。结果显示,NVIDIA 在低至中交互性区间凭借 GB200/B200 与封闭软件栈保持优势,而 AMD 在中高交互性与 vLLM+MX4 组合下能效逼近、ROI 具竞争力。Infe ...
谷歌新一代文生视频模型样片流出:8秒720P视频自带配乐;Figure AI发布Figure 03,可端茶送水等丨AIGC日报
创业邦· 2025-10-12 01:08
1.【OpenAI与Sur Energy签署合作意向书,启动阿根廷"星际之门"项目】阿根廷总统哈维尔·米莱当 地时间10月10日会见OpenAI代表,双方宣布"星际之门"阿根廷项目启动。基于该项目,OpenAI与 Sur Energy签署合作意向书,计划合作建设一个大型数据中心,能够支持下一代人工智能计算并达到 最高500兆瓦的容量。该项目在阿根廷税收优惠计划下构建,预计将投入高达250亿美元的大规模投 资,使其成为阿根廷历史上最大的科技和能源基础设施项目之一。(格隆汇) 2. 【Figure AI发布第三代人形机器人Figure 03,可端茶送水、分拣包裹等】美国人形机器人初创企 业Figure AI于近日发布第三代人形机器人Figure 03。在演示视频中,它展示了跨越家庭与商业场景 的多任务处理能力,包括端茶送水、整理房间、洗碗、担任酒店前台、分拣包裹等。除了家庭场景, 其新驱动器速度提升至2倍,扭矩密度提高,使它在商业物品搬运中更高效。公司强调,Figure 03是 首款从零开始为高产量制造设计的机器人,通过简化装配、减少部件数量,旨在降低成本。(财联 社) 3.【谷歌新一代文生视频模型Veo 3.1 ...
Sora 2引爆文生视频赛道,市场年均增速20%,机构建议关注三大方向
36氪· 2025-10-11 11:09
近期,OpenAI(美国人工智能公司"开放人工智能研究中心")正式推出了其视频生成模型的重大升级 ——Sora 2,以及一款社交应用(Sora App)。与前一版本相比,Sora 2在物理上更准确、更逼真、更可 控,并实现了同步生成音频和对话的能力。 10月10日,相关概念股逆势上涨。其中,初灵信息(300250.SZ)涨12.94%,开普云(688228.SH)涨 4.52%,视觉中国(000681.SZ)涨3.11%。 目前,文生视频已经较为成熟,Veo3、Sora等视频模型都能较好地完成文字到视频的转变。各家公司积 极推动相关产品的迭代升级,一场围绕全能型AI视频生成器的竞争已经拉开序幕。 市场不断扩容,国内企业积极布局 分析人士指出,文生视频应用行业的发展逐渐形成"模型能力-用户场景-商业变现"的完整链路,既避 免了因单一工具属性导致的增长乏力,更以"数据飞轮+社交网络"的双重"护城河",巩固了其在AI生成 式内容领域的领先地位。 Sora 2引爆文生视频赛道 市场空间方面,根据Fortune business insights的测算,2024年AI视频生成全球市场规模为6.15亿美元,预 计2025 ...