Workflow
世界模型
icon
搜索文档
当AI“看见”世界,商业的未来正在被彻底重塑 | 两说
第一财经· 2025-08-07 10:20
AI与未来商业 - 五位顶级科学家在2025世界人工智能大会特别节目中探讨AI如何重塑商业未来 包括图灵奖得主杰弗里·辛顿 北斗三号总设计师林宝军 多模态AI先锋梅涛 世界模型探索者申恒涛 中国计算机之父姚期智 [1][3] - AI不仅接管重复性工作 更成为创造性脑力劳动的合作者 不懂AI不用AI的人将首先被淘汰 [7] - AI正从数字世界向物理世界拓展 带来从"字节"到"空间"的范式转变 [13] AI对劳动力市场的冲击 - AI可能在5年内完成电视节目脚本写作等创造性工作 [7] - 从快递员 收银员到金融分析师 节目编剧 多个职业将被AI重构 [7] AI赋能北斗产业 - 中国北斗系统具有站得高 看得远 精度更高的优势 [10] - AI赋能PNT体系后 北斗将实现精准调度洪水救援 城市红绿灯优化 车道级出行规划等功能 [10] - AI推动卫星系统向"高精度 低延迟 全感知"的产业进化 [10] 世界模型发展 - 世界模型是下一代AI方向 能感知空间 推理关系 执行任务 [13] - 世界模型是支撑空间智能和机器人产业的关键底座 [13] - 应用场景包括森林火灾预警 集装箱智能卸货等复杂物理环境 [13] AIGC内容产业革命 - 使用AI的视频创作者效率是传统创作者的10倍以上 [15] - AI不仅提高效率 更赋予普通人表达的可能 [15] - 一部AI辅助制作的电影仅需数月 未来三万亿美元内容产业将重新洗牌 [15] AI治理与发展 - AI发展的终极命题是治理 如何让AI"不想统治世界"是真正难题 [18] - 中国已在AI国际治理中开始发挥话语权 [18] - AI治理需要全人类共同参与 是未来科技与伦理的核心战场 [18]
【重磅深度/小马智行】革新交通运输,Robotaxi驶向未来
行业趋势 - Robotaxi商业化拐点临近,自动驾驶套件量产降本显著,BOM成本降至30万元量级,百度Apollo RT6售价20.5万元,小马智行自动驾驶套件成本降低70% [3] - 激光雷达和车载计算单元成本分别下降68%和80%,推动整车成本优化 [3] - 政策支持、安全性提升与硬件降本共同推动行业迈过商业化拐点,潜在市场空间达千亿级 [3] 公司技术优势 - 核心团队汇聚无人驾驶领域顶尖人才,包括百度、Waymo背景的技术专家 [15][16] - PonyWorld平台生成超百亿公里测试数据,应用"世界模型"技术六年,实现闭环训练 [4][66] - 安全冗余系统具备20+功能安全机制、1000+实时检测设计,安全性达人类驾驶10倍以上 [4][67] 商业化进展 - 累计50万小时全无人安全运营,覆盖2000+平方公里区域,单车日均订单超15单 [4][73] - 2025年车队规模计划扩展至千辆,高速路测试进入"无人化"阶段 [73][75] - Robotruck累计路测600万公里,货运量9.4亿吨公里,完成无人编队运营进阶 [74] 业务布局 - 聚焦北上广深一线城市,持有中美韩卢森堡等多国运营牌照 [5][77] - 与Uber合作2025年中东落地服务,逐步推广全球 [5][78] - 物流领域联合中国外运、三一重卡,打造青骓物流平台 [5][74] 财务表现 - 2024年营收7503万美元,自动驾驶卡车收入占比提升至53.8% [18][23] - 2025Q1 Robotaxi收入同比+200%,车费收入+800% [23] - 研发费用2024年同比+95.7%至2.4亿美元,2025Q1环比降73.8% [26] 产品迭代 - 第七代车型搭载9激光雷达+14摄像头,感知范围650米,成本较上代降70% [70] - 域控制器计算效率提升3倍,体积/重量/功耗降50%以上 [67] - 与丰田、广汽、北汽合作推进L4车型量产,两款车型已下线 [69][73] 市场空间 - 中国共享出行市场规模2023年8.21万亿,Robotaxi占比0.01% [53] - 乐观预计Robotaxi占B端共享出行比例将升至36%,市场空间达2000亿元 [52] - 2026-2027年为销量爆发拐点,将替代部分私人出行需求 [52]
计算机行业重大事项点评:Genie3实现世界交互,AGI迈出关键一步
华创证券· 2025-08-06 09:34
行业投资评级 - 计算机行业评级为"推荐"(维持)[5] 核心观点 - Genie 3 实现实时交互模拟能力,可生成高度多样化的虚拟环境,标志着AGI迈出关键一步 [2] - Genie 3 基于海量视频数据集训练,支持720p分辨率、24fps帧率下实时生成高自由度动态三维场景,并能回溯长达一分钟的历史时序信息 [9] - 引入Promptable World Events功能,支持文本构建多样化虚构世界,允许实时调整环境参数和添加新角色 [9] - Genie 3 与Gemini大模型系列未来将深度整合,通过协同工作机制执行新型任务 [9] - 海内外世界模型加速突破,OpenAI的Sora支持1080p高分辨率、60秒时长视频生成,腾讯混元团队发布HunyuanWorld 1.0实现高质量可交互3D场景 [9] 行业数据 - 计算机行业股票家数337只,占总市值4.68%(50,833.86亿元),流通市值占比5.16%(44,617.66亿元)[6] - 行业绝对表现:1个月9.1%,6个月12.5%,12个月77.7%;相对表现分别超基准6.1%、4.4%、54.9% [7] 投资标的 国内企业 - 企业级服务:金山办公、合合信息、福昕软件等办公软件;迈富时、明源云等营销服务;金蝶国际ERP;泛微网络OA;万兴科技等多模态应用 [9] - 行业场景:金融(恒生电子、同花顺)、教育(科大讯飞)、医疗(卫宁健康)、工业(华大九天)、军用(中科星图)等 [9] 海外企业 - 办公(MSFT)、金融(AFRM)、工业(CDNS)、医疗(TEM)、创意(ADOBE)、电商(SHOP)、企业服务(CRM)、安全(PANW)、云服务(AMZN)等 [9] 技术突破 - Genie 3 采用单智能体架构,未来将优化多Agent代理交互机制 [9] - 国际模型如Sora采用时空Patch统一表征技术,国内HunyuanWorld 1.0融合全景图像合成与分层3D重建技术 [9]
谷歌深夜放出「创世引擎」Genie 3,一句话秒生宇宙,终极模拟器觉醒
36氪· 2025-08-06 07:32
产品核心能力 - 谷歌DeepMind发布新一代通用世界模型Genie 3,能模拟出史无前例的丰富交互环境 [1] - Genie 3能以每秒20-24帧速度实时生成720p画面,并能持续数分钟保持内容一致性 [2] - 该模型是谷歌DeepMind首个支持实时交互的世界模型,交互延迟为实时,交互时长可达数分钟 [10] - 模型具备模拟物理世界的能力,可生成水流、光照等自然现象并与复杂环境交互 [15] - 模型能生成充满生命力的自然系统,包括错综复杂的森林、花草等植物以及各种生物 [21] - 模型可创造奇幻场景和富有表现力的动画角色,如彩虹桥上的卡通狐狸、森林中的萤火虫 [26] - 模型能探索地点与历史场景,重现古代文明辉煌,实现跨越时空的体验 [31] 技术实现与突破 - 为实现实时交互与长时程一致性,模型需在自回归生成每一帧时考虑不断延长的先前轨迹,例如在一分钟后重访地点时需调取一分钟前的信息 [36] - 模型生成的环境能在数分钟内基本保持一致,视觉记忆最远可追溯到一分钟前,这是一种涌现能力 [38][46] - 相较于依赖显式3D表征的NeRFs和高斯溅射等技术,Genie 3生成的世界更为动态和丰富,是逐帧创造出来的 [46] - 除了导航输入,模型还支持由提示词驱动的世界事件,可通过一句话生成世界,例如改变天气、引入新物体或角色 [47] 行业应用与影响 - 世界模型被业界视为通往AGI道路上的关键基石,能让AI智能体在无限丰富的模拟环境中接受训练 [7] - Genie 3为新版SIMA智能体生成多个世界以验证其兼容性,智能体可通过发送导航指令完成任务,模型的一致性支持执行更长的动作序列以实现更复杂目标 [52][56] - 该模型能为教育和培训创造新机遇,帮助学生学习、助力专家积累经验,并为机器人和自主系统等AI智能体提供广阔的训练空间 [64] - 英伟达Jim Fan评价其为游戏引擎2.0时代,并认为未来UE5所有复杂功能都能被数据驱动的注意力权重吸纳 [4] - 谷歌DeepMind研究员Ali Eslami称Genie 3是自ChatGPT以来最令人印象深刻的演示 [13]
智驾平权,博世抛出基建“阳谋”
华尔街见闻· 2025-08-06 06:16
博世对智能驾驶行业的战略判断 - 核心观点为五年后全栈自研的智能驾驶将像安全气囊一样成为汽车标准件,不再构成差异化竞争优势 [2] - 博世致力于成为智能汽车时代的“基础设施”供应商,扮演底层核心角色,以打破车圈价格战内卷困局 [2] 智能驾驶技术发展趋势 - 随着技术收敛,智能驾驶将标准化,其功能价值在于安全、舒适地将用户从A点送至B点,不提供情绪价值 [3] - 行业竞争正朝“生态整合”方向发展,主机厂自研智驾面临巨大战略风险,投入高且周期长 [4] - 主机厂自研智驾需投入一两千人团队和每年数十亿资金,仅能适配自家十余款车型,而供应商能以类似资源覆盖几十款车型,且全栈自研需3年才能打通流程 [4] 博世的战略方案与竞争优势 - 博世提供高起点、可快速量产的成熟智驾方案,帮助车企迅速补齐短板,将资源投向能创造差异化价值的领域 [4] - 在端到端时代,博世认为凭借资金、算力、算法和数据优势,能够赶上头部玩家,并计划在2025年下半年通过一段式端到端方案实现体验反超 [8] - 博世与文远知行合作,基于英伟达Orin-X芯片打造的一段式端到端智驾方案将于今年8月底在星途的高端车型上落地 [10] - 博世的核心价值在于其大规模、高质量的工程交付能力,提供包含硬件、软件、测试、验证和生产的完整“交钥匙”工程 [10] 行业现状与博世的应对 - 中国汽车行业面临“增收不增利”的悖论,今年1-5月行业营收增长7%,但利润同比下滑11.9% [13] - 博世是唯一留在牌桌上做高阶智能驾驶的Tier1厂商,采埃孚、安波福、电装等企业已退出该领域 [14] - 博世为其ADAS团队推行“狼性文化”,以适应中国市场的竞争环境 [14] 未来竞争格局与博世愿景 - 当智驾实现“百公里0接管”后,竞争主战场将转向能提供情绪价值的智能座舱 [15] - 博世正与主机厂合作开发算力高达300TOPS的AI智能座舱,旨在通过感知和大数据成为用户的“灵魂伴侣” [15] - 汽车智能化的终极形态是舱驾一体,整合成算力高达1000-2000TOPS的中央计算平台,博世的智驾和AI座舱能力将构成其核心AI基石 [16]
DeepMind独家访谈实录,解密Genie 3世界模型,将颠覆游戏与机器人行业未来
36氪· 2025-08-06 06:14
核心技术突破 - 谷歌DeepMind研发的Genie 3 AI技术可通过文本提示在约3秒内生成720p分辨率、可交互且环境一致的3D虚拟世界 [1][5] - 该技术融合生成式视频模型、游戏引擎和模拟器特性,实现实时交互及长时预测能力,环境一致性通过大规模训练自然涌现 [2][5][12] - 相比前代Genie 2的360p分辨率和20秒生成时长,Genie 3将分辨率提升至720p并延长交互时间至数分钟,错误率显著降低 [3][6][11] 技术演进路径 - Genie 1基于3万小时2D游戏录像训练,具备时空视频标记器和无监督动作学习能力,发现8种离散动作并展现2.5D视差效果 [2][3] - Genie 2实现3D模拟能力,支持烟雾、火焰、水流等逼真光照效果,并具备物体记忆功能 [3][11] - 技术架构从图像提示升级为文本提示输入,增加场景多样性并支持可提示的世界事件(如添加滑雪者或鹿群) [5][16] 行业应用前景 - 为机器人和自动驾驶训练提供高保真模拟环境,可安全模拟罕见事件(如无人机避障、行人突然穿行) [5][15][20] - 推动娱乐产业变革,支持生成沉浸式VR体验和新型交互娱乐模式,潜在价值达万亿美元级 [1][7][17] - 替代传统游戏引擎部分功能,实现类似Unreal Engine 5.6的实时动态图形生成,但当前仍存在计算硬件依赖(TPU网络)和生成局限性 [7][12][19] 技术实现特点 - 采用扩散模型架构(如VO融合),逐帧生成像素并保持跨帧一致性,无需显式3D编程 [5][12][13] - 训练数据可能包含YouTube海量视频,模型通过分析帧间变化推断物理规则和动作空间 [2][8][15] - 目前仅支持单代理交互,多代理系统正在开发中,智能体行为通过模型权重嵌入实现 [6][18][19] 发展现状与规划 - 当前为研究原型,未开放公众使用,出于安全考虑将通过测试计划逐步部署 [7] - 未来方向包括多智能体模拟、与语言模型(如Gemini)结合,以及通过外循环增强系统开放性 [10][18][19] - 计算需求较高,依赖TPU网络运行,但演示显示响应速度达3秒内,具备实时交互能力 [5][8][19]
OpenAI、谷歌等深夜更新多款模型 展示开源、智能体、世界模型进展
第一财经· 2025-08-06 04:59
大模型厂商新品发布 - AI创业公司Anthropic发布Claude Opus 4 1 称该模型是Opus 4在代理任务 现实世界编码和推理方面的升级版 [1] - 谷歌推出新一代世界模型Genie 3 这是公司第一个支持实时交互的世界模型 [1] - OpenAI开源gpt-oss-120b和gpt-oss-20b两个推理模型 这是OpenAI时隔六年再次开源模型 [1] OpenAI开源策略转变 - OpenAI开源的gpt-oss-120b参数量为1170亿 采用MoE架构 激活参数量51亿 [2] - gpt-oss-20b参数量为210亿 同样采用MoE架构 激活参数量36亿 [2] - gpt-oss-120b在竞赛编码 工具调用基准测试中的得分接近或超过闭源的o4-mini模型 [2] - gpt-oss-20b在基准测试中的分数与o3-mini相当或超过o3-mini [2] - 新模型可在电脑 手机等端侧设备上本地部署 gpt-oss-120b可在单张80GB容量的GPU上运行 gpt-oss-20b可在16GB内存的消费级设备上运行 [2] Anthropic产品策略调整 - Anthropic决定更频繁地推出产品渐进式更新 而非只专注于重大版本更新 [3] - Claude Opus 4 1在深入研究 数据分析 代理搜索方面的能力较前一代有所提升 [3] - 新产品擅长处理复杂的多步骤问题 被定位为更有效的AI智能体 [3] - 在SWE-bench Verify基准测试中 Claude Opus 4 1得分74 5% 超过Opus 4的72 5% [4] - 在Terminal-Bench GPQA Diamond MMMLU基准测试中的得分分别为43 3% 80 9% 89 5% 超过Opus 4的39 2% 79 6% 88 8% [4] 谷歌世界模型进展 - 谷歌推出通用世界模型Genie 3 是公司第一个允许进行实时交互的世界模型 [5] - Genie 3可以生成多样化的交互环境 模拟水 光等自然现象 生成包含动物 植物的生态系统 创造动画角色并模拟复杂环境下各种元素的相互作用 [5] - Genie 3可以以每秒24帧的速度进行导航 在720p分辨率下保持长达几分钟的画面一致性 视觉记忆可追溯至一分钟前 [5] - Genie 3可生成长达几分钟的画面一致性 而Genie 2只能生成8秒 [6] - Genie 3可模拟灯光节期间在水面上行驶的摩托艇 效果十分真实 [6]
OpenAI、谷歌等深夜更新多款模型,展示开源、智能体、世界模型进展
第一财经· 2025-08-06 04:49
OpenAI产品策略变化 - OpenAI时隔六年再次开源模型,推出gpt-oss-120b和gpt-oss-20b两个推理模型,参数量分别为1170亿和210亿,均采用MoE架构 [1][2] - 开源策略转变源于DeepSeek引领的开源趋势,CEO表示推出强大开源模型"非常重要",这两款模型是耗资数十亿美元的研究成果 [1] - gpt-oss-120b在竞赛编码、工具调用基准测试中接近或超过闭源o4-mini,gpt-oss-20b与o3-mini相当或更优,性能属开源模型第一梯队 [2] - 新模型支持端侧设备本地部署,gpt-oss-120b可在单张80GB GPU运行,gpt-oss-20b可部署在16GB内存消费级设备甚至手机 [2] Anthropic产品策略变化 - 公司改变以往专注重大版本更新的策略,转向更频繁推出渐进式更新,此次发布Claude Opus 4.1并计划未来几周推出更多更新 [3] - Claude Opus 4.1在代理任务、现实世界编码和推理方面升级,擅长处理复杂多步骤问题,定位为更有效的AI智能体 [1][3] - 在SWE-bench Verify测试中得分74.5%超过前代72.5%,Terminal-Bench、GPQA Diamond、MMMLU测试分别达43.3%、80.9%、89.5%均超前代 [4] - 用户反馈显示代码修改精准度和调试效率明显改善 [4] 谷歌世界模型进展 - 推出首个支持实时交互的通用世界模型Genie 3,被视为迈向AGI的关键垫脚石 [5] - 可生成多样化交互环境,模拟水、光等自然现象及生态系统,动画角色和复杂元素相互作用,画面一致性达几分钟 [5] - 相比Genie 2的8秒画面一致性,Genie 3能生成长达几分钟的720p画面,视觉记忆可追溯一分钟前 [5][6] - 演示显示可模拟摩托艇撞击效果、生成推进视角的教室场景等高度逼真交互 [6] - 仍存在动作空间有限、多智能体交互模拟困难、交互时长不足数小时等局限 [9] 行业技术趋势 - 大模型能力持续升级,通过开源端侧部署模型、推进智能体技术、实现世界模型交互等方式提升可用性 [9]
震撼,世界模型第一次超真实地模拟了真实世界:谷歌Genie 3昨晚抢了OpenAI风头
36氪· 2025-08-06 03:17
谷歌DeepMind Genie 3世界模型发布 - 公司宣布推出第三代Genie世界模型,可通过单个文本提示词创建交互式、可玩的环境,支持生成从逼真风景到奇幻境界的多样化场景[1][2] - 模型在720p分辨率下实现每秒24帧实时导航,保持数分钟一致性,显著优于前代Genie 2和同类产品[2][3] 技术参数对比 - 分辨率:Genie 3达720p,超越GameNGen(320p)和Genie 2(360p),但低于Veo(最高4K)[3] - 交互视界:Genie 3达数分钟,远超GameNGen(几秒)、Genie 2(10-20秒)和Veo(8秒)[3] - 实时性:Genie 3实现实时响应,而Genie 2存在延迟[3] - 通用性:Genie 3适用于通用领域,优于游戏专用的GameNGen[4] 核心技术突破 - 实现实时响应和长时间一致性,模型需每秒多次计算以处理用户输入并维持场景连贯性[7] - 具备视觉记忆能力,可回溯一分钟前的画面状态,解决自回归生成误差累积问题[7] - 通过"涌现能力"实现二维图像的动态一致性,区别于NeRF等三维生成方法[8] 创新功能 - 支持"可提示的世界事件",可通过文本改变已生成世界的天气、物体等要素[9][11] - 能模拟自然现象、生态系统、动画场景及历史背景,突破地理时间限制[10] - 为智能体训练提供虚拟环境,如DeepMind已将SIMA智能体接入Genie 3世界进行测试[12] 应用前景 - 预计将为教育、培训领域创造新机会,如历史场景重现等教学应用[12] - 可能推动AI研究和生成式媒体发展,公司计划扩大测试范围[12] - 从2018年GQN到Genie 3,世界模型技术实现显著进化[13] 当前局限性 - 动作空间有限,agent直接执行的动作范围受限制[16] - 多agent交互模拟仍具挑战性,真实地理位置还原精度不足[16] - 文本渲染依赖输入描述,连续交互时间目前仅限数分钟[16]
六年来首次!OpenAI发布两款开放权重AI推理模型!奥尔特曼称其为“全球最佳开放模型”
每日经济新闻· 2025-08-05 22:57
OpenAI开源模型发布 - OpenAI宣布推出两款开放权重AI推理模型GPT-OSS-120b(1170亿参数)和GPT-OSS-20b(210亿参数)[1][3] - 大模型GPT-OSS-120b可由单个英伟达专业数据中心GPU驱动 小模型GPT-OSS-20b能在16GB内存消费级笔记本运行[3] - 模型采用Apache 2.0许可证 企业商用无需付费或获得许可[5] - 这是OpenAI六年来首次推出开放权重模型 标志战略转向重要节点[6] 模型技术细节 - 采用专家混合(MoE)架构Transformer 减少活跃参数数量[6] - GPT-OSS-120b每个token激活5.1亿参数 GPT-OSS-20b激活3.6亿参数[6] - 支持高达128k上下文长度 使用交替密集和局部带状稀疏注意力模式[6] - 大模型需要至少60GB显存 小模型需要16GB显存 适配高端消费GPU和苹果芯片Mac[7] 模型性能表现 - GPT-OSS-120b在核心推理基准测试接近OpenAI o4-mini表现[7] - 在Codeforces、MMLU、HLE、TauBench等测试优于o3-mini 匹敌甚至超越o4-mini[7] - 在HealthBench和AIME竞赛数学表现超过o4-mini[7] - GPT-OSS-20b在同类评估中匹敌甚至超越o3-mini[7] - 两款模型在PersonQA基准测试中幻觉率分别为49%和53% 高于o4-mini的36%[11] 行业合作与竞争 - 亚马逊将在Bedrock和SageMaker平台提供OpenAI开放模型 系首次合作[6] - OpenAI与英伟达、AMD、Cerebras和Groq等芯片商合作确保跨芯片兼容性[12] - 谷歌DeepMind同期推出第三代世界模型Genie 3 可生成720p实时交互环境[13] - Genie 3与通用智能体SIMA结合测试 为具身智能体提供训练场[14] 战略背景 - 公司承认此前在开源技术方面"站在历史错误一边" 此次发布受市场竞争压力驱动[5][12] - 模型经过广泛安全测试 过滤CBRN有害数据 恶意微调无法达到高能力阈值[12] - 公司预告本周将有"重大更新" 市场预期可能是GPT-5发布[12]