Workflow
世界模型
icon
搜索文档
OpenAI、谷歌等深夜更新多款模型,展示开源、智能体、世界模型进展
第一财经· 2025-08-06 04:49
OpenAI产品策略变化 - OpenAI时隔六年再次开源模型,推出gpt-oss-120b和gpt-oss-20b两个推理模型,参数量分别为1170亿和210亿,均采用MoE架构 [1][2] - 开源策略转变源于DeepSeek引领的开源趋势,CEO表示推出强大开源模型"非常重要",这两款模型是耗资数十亿美元的研究成果 [1] - gpt-oss-120b在竞赛编码、工具调用基准测试中接近或超过闭源o4-mini,gpt-oss-20b与o3-mini相当或更优,性能属开源模型第一梯队 [2] - 新模型支持端侧设备本地部署,gpt-oss-120b可在单张80GB GPU运行,gpt-oss-20b可部署在16GB内存消费级设备甚至手机 [2] Anthropic产品策略变化 - 公司改变以往专注重大版本更新的策略,转向更频繁推出渐进式更新,此次发布Claude Opus 4.1并计划未来几周推出更多更新 [3] - Claude Opus 4.1在代理任务、现实世界编码和推理方面升级,擅长处理复杂多步骤问题,定位为更有效的AI智能体 [1][3] - 在SWE-bench Verify测试中得分74.5%超过前代72.5%,Terminal-Bench、GPQA Diamond、MMMLU测试分别达43.3%、80.9%、89.5%均超前代 [4] - 用户反馈显示代码修改精准度和调试效率明显改善 [4] 谷歌世界模型进展 - 推出首个支持实时交互的通用世界模型Genie 3,被视为迈向AGI的关键垫脚石 [5] - 可生成多样化交互环境,模拟水、光等自然现象及生态系统,动画角色和复杂元素相互作用,画面一致性达几分钟 [5] - 相比Genie 2的8秒画面一致性,Genie 3能生成长达几分钟的720p画面,视觉记忆可追溯一分钟前 [5][6] - 演示显示可模拟摩托艇撞击效果、生成推进视角的教室场景等高度逼真交互 [6] - 仍存在动作空间有限、多智能体交互模拟困难、交互时长不足数小时等局限 [9] 行业技术趋势 - 大模型能力持续升级,通过开源端侧部署模型、推进智能体技术、实现世界模型交互等方式提升可用性 [9]
震撼,世界模型第一次超真实地模拟了真实世界:谷歌Genie 3昨晚抢了OpenAI风头
36氪· 2025-08-06 03:17
谷歌DeepMind Genie 3世界模型发布 - 公司宣布推出第三代Genie世界模型,可通过单个文本提示词创建交互式、可玩的环境,支持生成从逼真风景到奇幻境界的多样化场景[1][2] - 模型在720p分辨率下实现每秒24帧实时导航,保持数分钟一致性,显著优于前代Genie 2和同类产品[2][3] 技术参数对比 - 分辨率:Genie 3达720p,超越GameNGen(320p)和Genie 2(360p),但低于Veo(最高4K)[3] - 交互视界:Genie 3达数分钟,远超GameNGen(几秒)、Genie 2(10-20秒)和Veo(8秒)[3] - 实时性:Genie 3实现实时响应,而Genie 2存在延迟[3] - 通用性:Genie 3适用于通用领域,优于游戏专用的GameNGen[4] 核心技术突破 - 实现实时响应和长时间一致性,模型需每秒多次计算以处理用户输入并维持场景连贯性[7] - 具备视觉记忆能力,可回溯一分钟前的画面状态,解决自回归生成误差累积问题[7] - 通过"涌现能力"实现二维图像的动态一致性,区别于NeRF等三维生成方法[8] 创新功能 - 支持"可提示的世界事件",可通过文本改变已生成世界的天气、物体等要素[9][11] - 能模拟自然现象、生态系统、动画场景及历史背景,突破地理时间限制[10] - 为智能体训练提供虚拟环境,如DeepMind已将SIMA智能体接入Genie 3世界进行测试[12] 应用前景 - 预计将为教育、培训领域创造新机会,如历史场景重现等教学应用[12] - 可能推动AI研究和生成式媒体发展,公司计划扩大测试范围[12] - 从2018年GQN到Genie 3,世界模型技术实现显著进化[13] 当前局限性 - 动作空间有限,agent直接执行的动作范围受限制[16] - 多agent交互模拟仍具挑战性,真实地理位置还原精度不足[16] - 文本渲染依赖输入描述,连续交互时间目前仅限数分钟[16]
六年来首次!OpenAI发布两款开放权重AI推理模型!奥尔特曼称其为“全球最佳开放模型”
每日经济新闻· 2025-08-05 22:57
OpenAI开源模型发布 - OpenAI宣布推出两款开放权重AI推理模型GPT-OSS-120b(1170亿参数)和GPT-OSS-20b(210亿参数)[1][3] - 大模型GPT-OSS-120b可由单个英伟达专业数据中心GPU驱动 小模型GPT-OSS-20b能在16GB内存消费级笔记本运行[3] - 模型采用Apache 2.0许可证 企业商用无需付费或获得许可[5] - 这是OpenAI六年来首次推出开放权重模型 标志战略转向重要节点[6] 模型技术细节 - 采用专家混合(MoE)架构Transformer 减少活跃参数数量[6] - GPT-OSS-120b每个token激活5.1亿参数 GPT-OSS-20b激活3.6亿参数[6] - 支持高达128k上下文长度 使用交替密集和局部带状稀疏注意力模式[6] - 大模型需要至少60GB显存 小模型需要16GB显存 适配高端消费GPU和苹果芯片Mac[7] 模型性能表现 - GPT-OSS-120b在核心推理基准测试接近OpenAI o4-mini表现[7] - 在Codeforces、MMLU、HLE、TauBench等测试优于o3-mini 匹敌甚至超越o4-mini[7] - 在HealthBench和AIME竞赛数学表现超过o4-mini[7] - GPT-OSS-20b在同类评估中匹敌甚至超越o3-mini[7] - 两款模型在PersonQA基准测试中幻觉率分别为49%和53% 高于o4-mini的36%[11] 行业合作与竞争 - 亚马逊将在Bedrock和SageMaker平台提供OpenAI开放模型 系首次合作[6] - OpenAI与英伟达、AMD、Cerebras和Groq等芯片商合作确保跨芯片兼容性[12] - 谷歌DeepMind同期推出第三代世界模型Genie 3 可生成720p实时交互环境[13] - Genie 3与通用智能体SIMA结合测试 为具身智能体提供训练场[14] 战略背景 - 公司承认此前在开源技术方面"站在历史错误一边" 此次发布受市场竞争压力驱动[5][12] - 模型经过广泛安全测试 过滤CBRN有害数据 恶意微调无法达到高能力阈值[12] - 公司预告本周将有"重大更新" 市场预期可能是GPT-5发布[12]
小马智行(PONY):革新交通运输,Robotaxi驶向未来
东吴证券· 2025-08-05 13:30
投资评级 - 首次覆盖给予"买入"评级 [1] 核心观点 - 小马智行作为Robotaxi技术领跑者 有望受益于政策完善 技术突破和产业链降本 单位经济模型转正后有望快速规模化实现扭亏 [9] - 公司技术底蕴深厚 立足北上广深一线核心城市 与出行巨头Uber等合作伙伴积极开拓海外市场 发展潜力大 [9] - 预计2025-2027年营业总收入分别为0 78 1 05 3 42亿美元 当前市值对应PS分别为59 7 44 2 13 5倍 [9] 财务数据 - 2023A-2027E营业总收入预测(百万美元): 71 90 75 03 77 58 104 91 342 42 [1] - 2023A-2027E归母净利润预测(百万美元): (124 81) (274 12) (225 28) (206 22) (65 32) [1] - 2024年毛利率15 2% 较2021年77 7%显著下降 主要因低毛利率自动驾驶卡车物流营收占比提高 [32] - 2024年研发费用同比+95 7%至2 40亿美元 主要因第七代车型开发推进 [32] 技术优势 - 应用"世界模型"技术近六年 PonyWorld已生成超百亿公里测试数据 [9] - 安全冗余系统具备超20项功能安全冗余机制 超1000项实时检测设计 车队安全性达人类驾驶水平10倍以上 [9] - 第七代自动驾驶系统BOM成本较上一代降低70% 其中车载计算单元/激光雷达成本降幅达80%/68% [9] 商业化进展 - 商业化运营区域总面积突破2000平方公里 单车日均订单量超15单 [9] - Robotaxi车队累计超50万小时全场景 全天候 全无人安全运营 [9] - 计划2025年底前将车队规模扩展至千辆 [9] - 自动驾驶卡车累计路测里程超600万公里 货物运输量达9 4亿吨公里 [9] 战略合作 - 国内与如祺出行 支付宝 高德打车 腾讯云等平台合作 [9] - 海外持有美国 韩国 卢森堡等国Robotaxi牌照 2025年下半年将在中东接入Uber平台 [9] - 与丰田 广汽 北汽等车企合作推动L4级无人驾驶车型量产 [14] 行业前景 - 随自动驾驶套件量产降本 Robotaxi BOM成本下探30万元量级 [9] - 政策支持 安全性提升与硬件降本有望助力Robotaxi迈过商业化拐点 触达千亿级市场空间 [9] - 乐观预计Robotaxi占B端共享出行比例有望提升至36% 市场空间触达2000亿元 [62]
Scaling Law再遭质疑:“退化式AI”竟成终局?
虎嗅· 2025-08-04 12:14
大模型扩展的局限性 - 当前大模型行业依赖暴力数据扩展追求性能提升,但面临收益递减甚至负回报的困境 [1][2] - 学者警告 scaling law 在改善大语言模型预测不确定性方面存在严重缺陷,难以达到科学探究的可靠性标准 [2] - 这种扩展路径可能导致"退化式 AI",即灾难性积累错误与不准确性 [4] 核心机制缺陷 - 大语言模型从高斯输入分布生成非高斯输出分布的机制是错误积累的根本原因 [5] - 极低的扩展指数导致性能提升幅度有限,例如 GPT-4.5 参数量达 5-10 万亿但科学领域无实质进展 [11][12][14] - Llama 4 Behemoth 参数量达 2 万亿但性能未达预期规模水平 [13] 扩展壁垒与准确性困局 - 扩展指数符号变化预示"壁垒"出现,超过阈值后准确性可能显著下降 [16] - 即使同质训练场景中准确性问题也经常出现,异构情境下泛化能力不足 [18][19][21] - 数字系统舍入误差随复杂性增加而明显,影响模型可靠性 [20] 替代方案尝试 - 行业尝试通过大型推理模型和 Agentic AI 提高输出可信度,但缺乏严谨科学评估标准 [25] - 思维链策略模拟人类推理,但可持续性路径仍不明朗 [26][27] - AlphaEvolve 利用大语言模型生成代码变体,用进化算法替代强化学习 [28] 退化风险与解决路径 - 使用合成数据训练的大语言模型更容易发生退化式 AI [29] - 小扩展指数引发非高斯波动,导致不确定性韧性和信息灾难 [30] - 数据增加有时反而减少信息量,如存在冲突数据或恶意注入错误信息 [31] - 构建"世界模型"可从数据中识别真实相关性,避免盲目规模扩张 [34]
AI大潮下的具身和人形,中国在跟跑还是并跑?
观察者网· 2025-08-03 05:35
具身智能与人形机器人发展现状 - 具身智能被视为通往AGI的必经之路 特斯拉Optimus和波士顿动力Atlas的进展引发全球关注 [1] - 中国在具身智能领域已从"跟跑"转向与美国"并跑"甚至寻求"弯道超车" [1] - 行业讨论焦点集中在电机供应链 强化学习算法 落地场景与资本路径 [1] 美的集团机器人战略布局 - 2016年起通过收购库卡等企业布局To B业务 形成四大板块:楼宇科技 工业技术 机器人与自动化 新兴AI业务 [3][4] - 人形机器人业务2023年启动规划 2024年加速发展 依托电机 减速机等核心零部件技术积累 [4] - 库卡机器人主要服务汽车制造(60%) 3C(20%) 船舶/航空(15%)等工业领域 [4] 格灵深瞳技术路线 - 中国首家科创板AI上市公司 深耕计算机视觉12年 覆盖金融安防 智慧体育等场景 [5] - 推出视觉基础大模型MVT 1.5版本 实现图像到视觉token的转换 [5][32] - 探索视频模型技术 提升机器人对动态场景的理解能力 [36] 人形机器人技术演进 - 关节数量从传统200+缩减至现代40个(全身30个) 强化学习使复杂控制成为可能 [8][9] - 技术路线从液压传动(波士顿动力)转向电动传动(中国供应链优势) [12] - 控制方式从rule-base转向learning-base 提升任务泛化能力 [11][12] 形态路线争议 - 双足形态:适合动态复杂场景(工厂阶梯 火星移民) 具备动力学平衡优势 [16][18] - 轮式形态:平坦场景效率更高(家庭 标准工厂) 安全性更优 [13][15] - 混合形态:智元推出可折叠轮足机器人 尝试平衡效率与适应性 [20] 灵巧手发展路径 - 五指灵巧手:符合人机交互直觉 数据采集便利 但成本高达数万元 [22][25] - 两指夹爪:满足70%基础任务 成本优势明显 成为当前主流方案 [25][26] - 美的认为通用人形机器人必须配备五指手 工业场景则倾向专用末端 [22][23] 技术概念解析 - 具身智能:实现感知-决策-执行的完整闭环 需与物理世界持续交互 [30][33] - World Model:物理世界的数字重建 面临数据采集成本高难题 [40] - 强化学习:具身智能必备组件 但reward函数设计仍是关键挑战 [42][46] 中美产业对比 - 中国优势:机电产业链成熟(占全球人形机器人专利40%) 人才储备充足 政策支持力度大 [63][64] - 美国优势:AI基础研究领先 人力成本推动场景落地更快 [63][66] - 硬件创新中国占优(蔚小理等) 软件创新美国领先 全球市场成为共同目标 [66] 商业化落地展望 - 工业场景优先:上汽计划引入500台人形机器人 分阶段实现自动化 [9][60] - 家庭场景需突破:安全标准 隐私保护 个性化交互等核心问题 [61] - 数据采集瓶颈:需建立类似特斯拉FSD的规模化数据获取机制 [57]
赛道Hyper | 小鹏机器人中心成立智能拟态部
华尔街见闻· 2025-08-03 03:44
公司动态 - 小鹏机器人中心新成立智能拟态部,聚焦机器人多模态领域,研究方向包括具身智能原生多模态大模型、世界模型、空间智能等前沿技术[1] - 部门由葛艺潇掌舵,其曾担任腾讯ARC Lab技术专家,28岁晋升为腾讯T12技术专家级,在多模态领域有突出成就[2] - 目前部门仅有3名成员,但已开启社招、校招和实习招聘,招聘岗位为"研究科学家(多模态方向)"[2] 研究方向 - 具身智能原生多模态大模型:致力于赋予机器人全方位感知与交互能力,使机器人能同步处理视觉、听觉、触觉等多元感知信息[4] - 世界模型:旨在让机器人通过观察与交互深度理解世界运作规律,提升面对环境变化或新任务时的灵活性[6] - 空间智能:聚焦机器人对三维空间信息的精准理解与高效运用,提升在物流仓储、建筑施工等场景中的操作能力[7] 技术应用场景 - 家庭服务场景:机器人可精准识别语音指令、手部动作,感知周围环境障碍物,完成收拾房间、照顾老人等复杂任务[5] - 工业生产场景:机器人能综合视觉识别零部件形状与位置、触觉感知装配力度,实现高效精准的产品组装[5] - 物流仓储场景:机器人可依据世界模型理解货物存储规则,在货物摆放位置改变时迅速规划新搬运路径[6] - 建筑施工场景:机器人可识别建筑材料位置,规划吊运路线,精准完成材料运输[9] 战略布局 - 小鹏汽车董事长何小鹏透露公司已在人形机器人产业深耕5年,未来可能还需投入20年,计划投入500亿至上千亿元[10] - 计划2026年量产面向工业场景的L3级人形机器人,实现手、脚、眼、脑全向协同能力[10] - 将在第五代机器人上部署图灵芯片,大幅提升机器人端侧算力,复用小鹏物理世界基座模型的VLA架构[10] 技术挑战 - 算法优化:需要突破现有算法局限,开发能高效处理多模态数据、实现精准预测与决策的新算法[12] - 算力支持:面对海量数据处理与复杂模型运算需求,当前算力水平不足,需提升硬件性能与优化计算架构[12] - 数据质量:获取高质量、多样化且标注精准的数据面临诸多困难,如数据采集成本高、标注准确性难以保证等[12] 行业竞争 - 机器人领域技术路线竞争激烈,各大企业与科研机构纷纷布局[13] - 小鹏以多模态为切入点,避开部分与巨头的正面交锋,但该技术路径的可行性尚未得到充分验证[13] - 若在多模态技术上取得突破,可能重塑行业格局,推动机器人行业向更智能、更高效方向发展[14]
智元机器人罗剑岚老师专访!具身智能的数采、仿真、场景与工程化~
自动驾驶之心· 2025-08-01 16:03
具身智能数据讨论 - 公司与多家传感器供应商合作,重点研发视觉触觉与高密度传感器,并构建跨平台数据采集API以实现标准化数据输入[2] - 机器人应用需达到95%成功率才能满足家庭场景需求,当前性能优化是主要门槛[2] - 仿真数据用于模型迭代但大模型训练100%使用真机真实数据,仿真流水线在扩展性上存在瓶颈[2][3] - 合成数据仅用于工程迭代与模型调试,发布与部署阶段完全依赖真实场景数据[3][4] - 真实数据成本核心在于缺乏标准化机制,公司尝试通过远程摇操、自动部署机器人等方式建立自动化数据采集闭环[6] - 机器人数据瓶颈与自动驾驶不同,需解决数据稀缺、性能优化及工程伦理等多方面挑战[7] 具身大模型评估 - 行业缺乏通用benchmark,公司计划搭建统一真机测试场供不同模型评估[8][9] - 评估维度包括具身技术路线与性能表现,当前从Demo炫技转向产业闭环但仍面临工程复杂性等挑战[9] - 公司世界模型基于统一平台,能生成视频、评测模型并训练策略,处理复杂场景能力较强[10] - VLA路线需结合大模型与优化策略,机器人执行要求远高于ChatGPT的50%-60%准确率[11] - 中美差异:美国重算法创新与开源生态,中国在工程集成与规模部署上更具优势[12] 遥操作vs自主决策 - 自主决策需机器人理解世界、生成策略并执行任务,关键技术门槛在于多模态信息融合与高成功率[13][14] - 当前"失控"问题源于软件设计不完善而非机器人意识,公司通过模拟测试与安全机制确保安全[14] - 数据积累路径从垂直场景逐步过渡到通用场景,无法直接实现通用能力[15] 具身智能应用场景与落地 - 场景部署流程分为任务建模、场景迁移、场景适配与安全验证四步,强调软硬件协同与人机安全[17][18] - 工业结构化环境更易落地,需满足近乎100%的性能要求,家庭场景因复杂性长期市场更大[20][21] - 工业场景中VLA需结合大模型与优化策略,相比传统方案具备更强泛化能力与更低调试成本[23] - 人形机器人技术路线未收敛,公司同时依赖外部厂商与自研技术探索模块化标准[23] - 家庭环境异质性带来工程挑战,需通过垂直场景数据积累逐步演化通用能力[23] - 执行速度慢源于模仿学习局限,需引入专门优化训练而非仅模仿原始操作[24] 具身未来展望 - 追求DeepSeek moment即高成功率+泛化能力+速度的统一提升,而非ChatGPT式低成功率泛化[26] - 数据驱动成为科学范式,通过大规模数据与统计验证建立结论[27] - 未来架构可能超越Transformer,类脑架构更贴近生物大脑处理模型[28] - 传感器选择关键在"对的传感器"而非数量,方法论与算法架构更重要[28] 具身软硬件协同 - 公司构建平台化操作系统(类似"机器人Android")为硬件与传感器提供统一接口[30] - 行业需开放合作共建生态,单靠操作系统无法推动性能级模型创新[31][32]
AI新战场世界模型:中国已经先行一步!
搜狐财经· 2025-08-01 08:14
世界模型与AI发展 - 世界模型代表AI技术发展的重要方向 [1] - AI发展处于关键阶段 技术演进持续加速 [1] 商汤科技定位 - 公司作为AI领域重要参与者 聚焦世界模型技术研发 [1] - 公司业务布局与AI发展阶段紧密关联 [1]
ChatGPT见顶后,AI新战场世界模型:中国已经先行一步!
老徐抓AI趋势· 2025-07-31 01:03
AI发展阶段 - AI发展分为三个阶段:感知AI、生成式AI、具身AI [5][7][16] - 感知AI阶段始于2012年,图像识别准确率超越人类,但知识量有限(1400万张图片≈人类10年标注时间)[7][9] - 生成式AI阶段始于2017年,Transformer架构和GPU算力提升推动大语言模型发展,GPT-3训练数据达7500亿Token(≈人类10万年书写量)[12][13] 大语言模型瓶颈 - 互联网训练数据预计2028年枯竭,大语言模型增长面临天花板 [15] - AI需转向新学习方式,通过真实环境交互实现持续进化 [16][18] 世界模型定义与价值 - 世界模型是高精度物理规律模拟器,支持AI虚拟试错训练 [19] - 解决传统AI生成视频的物理错乱问题(如穿车、不合逻辑的物体交互)[20] - 自动驾驶训练成本大幅降低:虚拟场景可定制天气、光线、路况,替代百万小时现实数据采集 [19][22][23] 商汤科技技术突破 - 推出"开悟"世界模型,支持自然语言描述生成多视角物理合规视频 [22] - 发布"悟能"平台,整合世界模型与感知/导航能力,构建机器人虚拟训练环境 [24] - 技术应用覆盖自动驾驶、机器人操作等物理交互场景 [25][26] 行业竞争格局 - 世界模型将重塑AI数据生产方式(自我生成替代互联网采集)、训练效率(秒级仿真)、产业落地(制造业/医疗/教育等)[28] - 类比移动互联网发展:大语言模型类似"智能手机",世界模型类似"App Store",推动AI进入物理世界 [28] - 中国企业在世界模型领域已提前布局,技术升级节奏可能快于大语言模型周期(1-2年内或现突破)[28][30] 经济影响 - 世界模型与具身AI结合将推动机器人从工具向伙伴演进,加速AGI时代到来 [28] - 技术革命有望显著拉动经济增长,类似移动互联网对生产力的提升效应 [29]