Veo
搜索文档
深度|DeepMind CEO Demis: AGI还需5-10年,还需要1-2个关键性突破
搜狐财经· 2025-12-21 06:05
公司战略与核心优势 - 公司将其独特优势归结为将世界级的研究、工程能力和基础设施三者结合 在AI前沿领域 同时具备这三者的机构非常少 [8] - 公司采用科学方法作为核心思维方式 并将其应用于研究、工程乃至商业领域 这构成了其工作的严谨性与精确性的来源 [7][8] - 公司在发展路径上保持务实 会追随实证证据的指引 例如在看到scaling laws显现效果后 逐步将更多资源投入到该研究路径上 [27][28] 产品与技术路线图 - 公司的核心基础模型Gemini从一开始就是多模态的 能够同时处理图像、视频、文本和音频 并越来越多地生成这些类型的输出 [10] - 接下来12个月的重点方向包括:多模态能力融合取得显著进展、视频能力与语言模型融合产生有趣的能力组合、以及开发更可靠的基于Agent的系统 [10] - 公司的长期愿景是将Gemini打造成“通用助手” 使其出现在更多设备上 并成为用户日常生活结构的一部分 提升工作效率和改善个人生活 [11] - 最新发布的Gemini 3模型在推理深度、细腻度以及“性格”上表现出色 能够简洁直接地回答 并在观点不合理时温和提出异议 [24] - Gemini 3展现出对高层次指令的深度理解能力 以及生成高度细节化输出的能力 在前端开发、网站构建和一次性生成游戏方面表现突出 [25][26] - 公司有一个名为Genie 3的“世界模型”或交互式视频模型 用户可以在生成的视频中“行走” 并在一分钟内保持整体一致性 [10] 行业竞争格局 - 在AI领域 美国和西方整体在基准测试和最先进系统方面仍处于领先地位 但这种领先优势可能仅以“月”为单位 而非“年” [21] - 中国在AI领域并未落后太多 拥有出色的模型和有能力的团队 但在算法创新和原创性方面 西方目前仍然具有优势 [21] - AI行业正经历一场可能是科技史上最激烈的竞争 [8] - AI产业某些部分可能存在泡沫 例如一些规模极其夸张的早期融资 但从长期看 AI被认为是人类历史上最具变革性的技术之一 投入将被证明是值得的 [31] - 行业人才争夺战相当激烈 但最优秀的科学家和工程师希望参与最前沿的工作 持续的技术领先地位将形成吸引力正反馈 [31] 通用人工智能发展预测 - 通用人工智能可能还需要五到十年的时间才能实现 [6][29] - 对AGI的标准设定很高 要求系统能展现出人类所具备的全部认知能力 包括发明和创造能力 并在各个维度上具备一致性 而非当前“锯齿状”的智能形态 [29] - 实现AGI可能不仅需要将现有系统的scaling能力推到极限 还需要一到两个类似Transformer或AlphaGo的范式级关键突破 [29][30] - 当前系统缺乏一些关键能力 如持续学习、在线学习、长期规划和推理能力 这些能力最终会具备 但可能需要关键性突破 [6][29] 技术应用与市场潜力 - AI在网络安全领域的应用受到高度重视 旨在用AI强化防御体系以应对网络威胁 [17] - 在商业和企业领域 随着AI变得重要 企业客户会对Agent的行为保障提出明确要求 这可能会自然地奖励那些更负责任的供应商 [18] - AI在体育领域有巨大应用潜力 因为体育拥有丰富数据并追求极致精英表现 例如AI可以优化角球进攻中球员的精确站位以增加头球进球 [35][36] - 多模态理解能力 尤其是视频理解能力被严重低估 例如Gemini能够对视频内容进行概念层面的理解和哲学解读 [22] - 像Gemini Live这样的功能 允许用户用手机摄像头对准物体获得实时协助 其多模态能力的强大尚未被充分认识 [23] 技术发展现状与挑战 - 目前基于Agent的系统还不够可靠 无法独立完成完整任务 但预计一年后会开始看到接近这一能力水平的Agent出现 [10][12] - 创新和进步的速度非常快 以至于模型的创造者可能都来不及探索现有系统十分之一的潜力 用户常常将模型能力发挥到远超内部测试的程度 [27] - 随着AI系统变得更复杂和更具自主性 存在偏离最初设定指令或目标的空间 如何确保其始终保持在安全边界内是一个活跃的研究领域 [18] - 存在AI被恶意行为者滥用的风险 例如制造病原体或对关键基础设施发动网络攻击 这是必须严密防范的场景 [15][16][17]
深度|DeepMind CEO Demis: AGI还需5-10年,还需要1-2个关键性突破
Z Potentials· 2025-12-21 02:24
文章核心观点 - Google DeepMind联合创始人兼CEO Demis Hassabis认为,通用人工智能(AGI)可能在五到十年内实现,但仍需一到两个关键性突破,公司正致力于推进多模态AI、Agent系统和世界模型等前沿方向,以构建一个在日常生活中真正有用的通用助手 [6][30][31] - 公司认为AI是人类历史上最具变革性的技术之一,其最佳前景是带来“激进式丰裕”,解决能源、疾病等重大问题,但同时也需严肃应对AI安全、恶意滥用及系统失控等风险 [14][15][20] - 公司将其在激烈竞争中的优势归因于植根于科学方法的严谨性,以及将世界级研究、工程能力和基础设施相结合的能力 [9] 科学家与诺奖得主:从科学方法到公共责任 - Demis Hassabis获得诺贝尔奖后,其最大的变化在于该荣誉成为与领域外人士(包括政府高层)沟通时的“捷径”,能迅速确立其专家身份,这为其就AI安全等关键议题发声提供了重要平台 [5][7] - 公司强调科学方法是其面对一切问题的默认思维方式,认为这是人类历史上最重要的思想之一,并尝试将这种方法推向极致,这成为其作为研究组织和工程组织的优势来源 [9] - 除了长期AGI安全,公司关注的议题还包括当下AI的负责任使用,以及让整个社会为即将到来的变革做好准备,认为各国政府及其他关键领导者将发挥决定性作用 [6][8] 接下来的一年:多模态与Agent - 公司在接下来12个月将全力推进多模态能力的融合,其核心基础模型Gemini从一开始就是多模态的,能够同时处理并生成图像、视频、文本和音频,多模态本身正在带来有价值的交叉增益 [11] - 公司正在重点投入世界模型方向,例如其Genie 3系统是一种交互式视频模型,用户不仅可生成视频,还能在其中“行走”并保持长达一分钟的整体一致性 [11] - 公司希望Gemini最终成为一种“通用助手”,在接下来一年中会出现在更多设备上,可能通过眼镜等设备真正伴随用户生活,目标是打造一个每天都会被多次求助、成为生活结构一部分的系统 [12] - 目前Agent还不够可靠,无法独立完成完整任务,但预计一年后会开始看到接近这一能力水平的Agent出现 [11][13] 理想与担忧:AI带来的乌托邦与失控 - 公司设想的AI最佳前景是带来一种“激进式丰裕”状态,解决当今社会和人类面临的许多重大问题,如实现廉价可持续的清洁能源、治愈大量疾病,使人类进入后稀缺时代并真正繁荣 [14] - 公司担忧的风险主要来自两个方面:一是恶意行为者利用AI从事有害活动(如制造病原体、发动网络攻击);二是当AI接近AGI、变得更具自主性时,可能在某种情况下“失控”并对人类造成伤害 [15][18] - 公司认为AI突破安全边界的风险概率并非零,因此必须投入大量资源和注意力去应对,但精确量化这种灾难性风险(如P(doom))是没有意义的 [6][20] - 在AI安全研究上,随着具备持续学习能力的系统变得更具自主性,如何确保其始终保持在设定的安全边界内是一个活跃的研究领域,同时市场机制(如企业要求行为保障)也会自然奖励更负责任的参与者 [19] 行业竞争与现状 - 目前美国和西方在AI整体上仍然处于领先位置,但领先优势并不遥远,中国并没有落后太多,当前的领先可能只是以“月”为单位 [21] - 在算法创新和原创性方面,西方仍然具有优势,中国的模型或公司在快速跟进最先进技术方面做得非常出色,但在展示超越当前最前沿水平的原创突破方面目前仍略逊一筹 [22] - AI产业中的某些部分可能确实存在泡沫,例如一些规模极其夸张的早期融资看起来并不太可持续,但从长期来看,AI作为最具变革性的技术之一,其投入将被证明是完全值得的 [32] - AI领域的人才争夺战相当激烈,公司更看重那些被使命驱动的人才,并相信始终站在技术最前沿会形成对顶尖人才的吸引力正反馈 [33] Gemeni3: 实证引导下的强大模型 - 公司对近期发布的Gemini 3模型非常满意,认为其在智能水平和实用性上带来了明显跃迁,其回答风格简洁直接,并能在用户观点不合理时温和地提出不同意见 [25] - Gemini 3体现了对高层次指令的深度理解以及生成高度细节化输出的能力,其在前端开发和网站构建方面表现尤为突出,在美学、创造力和技术实现上都达到了很高水平 [26][27] - 公司认为创新速度过快,以至于在发布新版本时,内部甚至还没来得及探索现有系统十分之一的潜力,最终往往是用户将模型能力发挥到远超内部测试的程度 [28] - 公司决定全力押注LLM是基于科学方法和实证证据的指引,当看到scaling开始显现效果时,便逐步将更多资源投入到这条研究路径上 [28][29] AGI的十年之约:还需关键突破 - 公司认为目前尚未达到AGI,但已相当接近,预计还需要五到十年的时间 [6][30] - 公司对AGI的标准设得相当高,定义为一个系统能够展现出人类所具备的全部认知能力(包括发明和创造),且在各个维度上都具备一致性,而非当前“锯齿状”的智能形态 [30] - 当前系统缺乏一些关键能力,如持续学习、在线学习、长期规划和推理能力,这些能力可能还需要一到两个关键性突破才能实现 [6][31] - 实现AGI的路径上,必须把现有系统的scaling能力推到极限,但公司更倾向于认为除了scaling之外,还需要一到两个类似Transformer或AlphaGo那样的范式级重大突破 [31] 其他洞察与展望 - 公司认为当前AI最令人震撼却被严重低估的一点是模型所具备的多模态理解能力,尤其是多模态视频理解,能够在概念层面理解视频中发生的事情 [23][24] - 公司对人类大脑的适应能力充满信心,认为人类大脑已成功从狩猎采集社会适应到现代文明,理应具备持续适应AI变革的能力,未来或可通过脑机接口等新技术保持竞争力 [34] - 体育领域拥有极其丰富的数据且追求极致精英表现,天然适合引入AI进行优化,例如在角球进攻中,AI系统可通过分析球员的精确站位来帮助进更多的头球 [37][38]
Meta Joins the AI Video Race: Report. It Needs to Catch Google and OpenAI.
Barrons· 2025-12-19 15:42
Google's Veo and Nano Banana and OpenAI's Sora are tough competition. ...
AI视频生成,如何撕开创作边界?
36氪· 2025-12-18 09:30
01. 当新技术遇上老难题 如果给2025年下半年的AI行业选一个受关注的方向,视频生成几乎是绕不开的答案。在OpenAI发布Sora 2并上线App版本后,AI视频的热度几乎以"病毒 式"的速率在全球范围内迅速扩散开来。 但梳理产业发展的脉络,才会发现,这并非是偶然的产品爆红。背后,是过去两年里视频生成技术在画面质量、时序建模与可用性上的持续进步。Sora、 Veo、通义万相,无论是大公司还是创业公司,不断累加的技术贡献,让全球AI视频相关能力的迭代节奏显著加快。 当技术突破与国内的规模化需求在同一时间点汇合,内容行业逐渐形成一个清晰判断:AI视频生成已经成为下一代内容基础设施的重要组成部分,更稳定 的技术和更快的工具远远不够,创作者们需要的可能是一套更底层、可扩展的生产力方案。 更深层的影响,正在产业内部逐步显现。 当模型的进步不再局限于画面质量本身,而是逐步覆盖叙事能力、人物与风格一致性、音画同步、跨镜头逻辑延续等更接近工业化生产的关键要素。当生成 效果跨过"能看"的门槛,开始接近"可用""好用",AI视频才真正进入大众视野,也随之成为当前极具想象空间的赛道之一。 与此同时,视频行业本身也在面临着一种结 ...
AI视频生成,如何撕开创作边界?
36氪· 2025-12-18 09:26
人人都能创作视频的时代来了。 封面来源 | 通义万相生成 当新技术遇上老难题 如果给2025年下半年的AI行业选一个受关注的方向,视频生成几乎是绕不开的答案。在OpenAI发布Sora 2并上线App版本后,AI视频的热度几乎以"病毒 式"的速率在全球范围内迅速扩散开来。 但梳理产业发展的脉络,才会发现,这并非是偶然的产品爆红。背后,是过去两年里视频生成技术在画面质量、时序建模与可用性上的持续进步。Sora、 Veo、通义万相,无论是大公司还是创业公司,不断累加的技术贡献,让全球AI视频相关能力的迭代节奏显著加快。 更深层的影响,正在产业内部逐步显现。 当模型的进步不再局限于画面质量本身,而是逐步覆盖叙事能力、人物与风格一致性、音画同步、跨镜头逻辑延续等更接近工业化生产的关键要素。当生成 效果跨过"能看"的门槛,开始接近"可用""好用",AI视频才真正进入大众视野,也随之成为当前极具想象空间的赛道之一。 与此同时,视频行业本身也在面临着一种结构性难题。 过去十余年里,围绕视频展开的产业始终是全球范围内增长最快、资本最密集、创新最活跃的领域之一。从影视娱乐、广告营销,到电商内容、社交平台与 创作者经济,视频逐渐 ...
AI与人|“AI垃圾”泛滥,最后的防线在人类自身
科技日报· 2025-12-16 05:26
&sp "深度伪造"指利用AI伪造或篡改影音,目的在于欺骗,从虚假政治演讲到诈骗语音皆属此 类,其关键在于以假乱真。"AI幻觉"则属技术错误,聊天机器人可能引用不存在的研究,或编造法律案 例,本质是模型在预测词语时出现了偏差。而"AI垃圾"范围更广,也更随意:当人们用AI批量生产内容 却疏于核对准确性与逻辑时,便会产生此类垃圾。它们堵塞信息渠道,抬高广告收益,用重复无意义的 内容占据搜索结果。其错误源于敷衍,而非欺骗或技术局限。 技术滥用与贪婪心态成推手 科技日报记者 刘霞 如今的互联网上,看似信息海量,但也充斥着大量单调、重复且缺乏质量的内容。 美国《纽约时报》网站在12月8日的报道中指出,当前网络,尤其社交平台正泛滥一种被称为"AI垃 圾"(AI Slop)的内容。英国《新科学家》网站10日也发表文章称,今年,许多人感觉仿佛置身于一堆 华而不实的"AI垃圾"中。英国《经济学人》杂志更是将"Slop"一词选为2025年度词汇。这类错漏百出、 古怪甚至令人尴尬的内容遍布各平台,也在悄然侵蚀着人们的思想。 "假冒伪劣"信息充斥网络 "Slop"原指"猪食""泔水"等廉价、粗糙、缺乏营养之物。如今,借由AI技术的 ...
“AI垃圾”泛滥,最后的防线在人类自身
科技日报· 2025-12-16 02:20
◎科技日报记者 刘 霞 "Slop"原指"猪食""泔水"等廉价、粗糙、缺乏营养之物。如今,借由AI技术的浪潮,一些如同"Slop"的 垃圾内容正在互联网上肆意蔓延。 "AI垃圾"特指由AI工具生成的大量劣质、重复或无意义的文字、图像或视频,常见于社交媒体和自动化 内容农场。 美国科技网站CNET在10月28日的报道中提到,如今社交平台上"AI垃圾"五花八门:OpenAI的Sora可让 人几秒内生成滑稽荒诞的视频;LinkedIn上满是由AI包装的"专家箴言",例如"有时领导力就是保持沉 默的能力";谷歌搜索结果也宛如AI杂货铺,竟会出现"姜黄能治愈心碎"这类无稽之谈。 "AI垃圾"与"深度伪造"或"AI幻觉"虽有重叠,却并不相同,其区别在于意图与质量。 "深度伪造"指利用AI伪造或篡改影音,目的在于欺骗,从虚假政治演讲到诈骗语音皆属此类,其关键在 于以假乱真。"AI幻觉"则属技术错误,聊天机器人可能引用不存在的研究,或编造法律案例,本质是模 型在预测词语时出现了偏差。而"AI垃圾"范围更广,也更随意:当人们用AI批量生产内容却疏于核对准 确性与逻辑时,便会产生此类垃圾。它们堵塞信息渠道,抬高广告收益,用重复无 ...
“AI垃圾”泛滥 最后的防线在人类自身
科技日报· 2025-12-16 00:23
"假冒伪劣"信息充斥网络 如今的互联网上,看似信息海量,但也充斥着大量单调、重复且缺乏质量的内容。 美国《纽约时报》网站在12月8日的报道中指出,当前网络,尤其社交平台正泛滥一种被称为"AI垃 圾"(AI Slop)的内容。英国《新科学家》网站10日也发表文章称,今年,许多人感觉仿佛置身于一堆 华而不实的"AI垃圾"中。英国《经济学人》杂志更是将"Slop"一词选为2025年度词汇。这类错漏百出、 古怪甚至令人尴尬的内容遍布各平台,也在悄然侵蚀着人们的思想。 "Slop"原指"猪食""泔水"等廉价、粗糙、缺乏营养之物。如今,借由AI技术的浪潮,一些如同"Slop"的 垃圾内容正在互联网上肆意蔓延。 "AI垃圾"特指由AI工具生成的大量劣质、重复或无意义的文字、图像或视频,常见于社交媒体和自动化 内容农场。 美国科技网站CNET在10月28日的报道中提到,如今社交平台上"AI垃圾"五花八门:OpenAI的Sora可让 人几秒内生成滑稽荒诞的视频;LinkedIn上满是由AI包装的"专家箴言",例如"有时领导力就是保持沉 默的能力";谷歌搜索结果也宛如AI杂货铺,竟会出现"姜黄能治愈心碎"这类无稽之谈。 "AI垃 ...
Veo何止生成视频:DeepMind正在用它模拟整个机器人世界
机器之心· 2025-12-15 08:10
机器之心报道 机器之心编辑部 随着通用型(Generalist)机器人策略的发展,机器人能够通过自然语言指令在多种环境中完成各类任务,但这也带来了显著的挑战。 一方面,真实世界评估成本极高,需要系统性地覆盖常规场景、极端情况、分布外(OOD)环境以及各类安全风险,通常需要进行成百上千次真实硬件实验,不 仅耗时、昂贵,还可能存在操作风险。 1)在闭环、动作条件生成中容易产生伪影; 2)对接触动力学(如物体接触、碰撞)的仿真十分困难; 3)现代策略架构对多视角一致性提出了较高要求,而这在视频生成中并不容易满足。 论文地址:https://arxiv.org/pdf/2512.10675 另一方面,安全性评估尤为棘手,许多潜在的不安全行为(例如误夹人手、损坏设备或引发环境危险)本身就不适合在真实环境中反复测试,使得传统的硬件评 估方法在安全场景下往往难以实施。 传统的物理仿真器虽然有帮助,但在真实感、多样性、搭建成本和视觉一致性方面仍存在明显瓶颈。 另外,前沿视频模型为世界仿真提供了一种替代路径,有望解决前文提到的诸多挑战。然而,要真正发挥这一潜力面临很多困难,主要原因包括: 项目主页:https://veo-ro ...
Disney Stock Rises As $1 Billion OpenAI Deal Sparks Investor Debate
Forbes· 2025-12-12 16:50
文章核心观点 - 迪士尼宣布向OpenAI投资10亿美元并达成三年期许可协议 此举旨在利用AI技术进行IP货币化并控制其知识产权 但市场反应平淡 股价仅小幅上涨2.3% 远逊于标普500指数17%的涨幅 分析认为该交易对迪士尼股票的财务上行空间有限[2][3][12] 交易关键条款 - 迪士尼向OpenAI进行10亿美元的股权投资 按OpenAI 5000亿美元估值计算 持股比例约为0.2%[5][9] - 协议为期三年 授予OpenAI的Sora视频平台使用超过200个迪士尼、漫威、皮克斯和星球大战角色的权限[5] - 迪士尼成为OpenAI企业工具的“主要客户” 协议包含一年排他期 之后迪士尼可与其他AI公司达成类似安排[5][8][13] - 协议严格限制OpenAI使用迪士尼IP训练其模型 用户生成内容需在联合指导委员会的严格监督下进行[13] 交易战略动机 - 公司采取“胡萝卜加大棒”策略 一方面与OpenAI合作 另一方面因版权问题向谷歌发出停止侵权函[4][6] - 交易核心目标是控制并货币化知识产权 而非诉诸法律 旨在通过AI生成内容吸引更年轻受众至Disney+平台[5][7] - 公司希望借此将自身与有争议的艺人-AI辩论分隔开 协议明确排除使用艺人肖像或声音(如汤姆·汉克斯配音的伍迪)[14] 财务影响与市场反应 - 交易带来的直接财务收益有限 因持股比例微小 远低于微软通过135亿美元投资获得的27%股权[9] - 摩根斯坦利估计 AI可能将公司54亿美元的年内容资本支出降低10%至30% 即节省5.4亿至16亿美元[10] - AI被视为长期战略投资 而非短期收入增长驱动力 可信来源未量化其对收入增长的具体贡献[11] - 交易宣布后 迪士尼股价上涨2.4% 但涨幅有限 华尔街分析师基于137.87美元的中位数目标价 认为未来一年有25%的上涨空间[18] 面临的挑战与限制 - 交易的价值创造潜力低于竞争对手Netflix、派拉蒙、华纳兄弟探索的主要收购交易[15] - 与修复Disney+用户流失、加速ESPN旗舰DTC业务推出、克服漫威和星球大战内容疲劳等核心挑战相比 Sora生成内容和生产效率工具处于次要地位[15] - 美国编剧工会谴责该交易 认为其“认可对我们作品的盗窃” 并在SAG-AFTRA工会谈判临近时 为公司提供了优先AI合作而非创意工作者的谈资[17] - 对IP的严格控制以及创作者对AI的文化抵制 可能限制公司实现成本节约的能力 并延迟收入加速增长[16][20] 分析师观点 - 部分分析师持积极看法 Rosenblatt Securities分析师称此交易是对OpenAI的“重要认可” 对迪士尼引领AI生成内容趋势至关重要 Ark Invest的Nicholas Group称其为“娱乐史上的分界线”[19] - 然而 有观点认为 鉴于严格的IP控制和文化阻力 投资者的热情可能需要很长时间才能转化为更快的收入增长和更高的股价[20]