世界模型

搜索文档
对话千寻智能高阳:科学家创业不太「靠谱」,但创业就像一场游戏
36氪· 2025-08-08 09:28
具身智能行业趋势 - 具身智能领域正经历技术范式转变,ChatGPT的出现推动了学习范式的革新,使得具身智能成为必然发展方向[13] - 行业现阶段普遍采用Transformer做预训练,但工程化后期效果将出现显著分化[34] - 预计四年后将进入Robot GPT3.5阶段,机器人能完成70%的家庭场景任务[41] 千寻智能商业模式 - 坚持软硬一体化路径,定位为"具身智能领域的苹果"而非安卓[10][11] - 成立19个月累计融资超10亿人民币,资方包括华为哈勃、京东、宁德时代等[7] - 技术路线强调VLA(视觉语言动作)模型创新,独创快慢系统提升动作流畅度[37][46] 技术研发重点 - VLA模型采用95%互联网人类视频数据预训练,显著提升泛化能力[58][61] - 算法创新包括任务分解能力(one two VLA)和动作tokenizer优化[40][45] - 现阶段世界模型仅小规模应用,分层技术路径将被端到端方案淘汰[49][50] 行业竞争格局 - 头部机器人公司仍聚焦硬件和教育市场,忽视"大脑"开发[14] - 同质化Demo现象普遍,叠衣服等复杂任务成为技术能力试金石[56] - "伯克利四子"分别专注不同技术方向:运动控制、操作交互、3D感知等[63][65] 数据策略差异 - 反对现阶段大规模建设数采工厂,认为跨本体数据迁移效率低[53] - 互联网数据价值在于提供多样性,遥操作数据确保物理世界精确性[59] - 数据清洗和配比直接影响模型性能,当前泛化能力提升率达60-80%[61] 人才战略 - 偏好年轻科研人才(硕士/博士),要求具备前沿技术敏感度[71][72] - 算法岗更看重近期学术成果而非工作经验,因技术迭代速度过快[72] - 团队构建强调"少而精",需同时具备研究能力和工程化思维[70]
对话千寻智能高阳:科学家创业不太“靠谱”,但创业就像一场游戏
36氪· 2025-08-08 01:49
公司战略与定位 - 千寻智能采用软硬一体模式,定位为具身智能领域的"苹果"而非"安卓",强调技术初期必须整合硬件与软件能力[5][6] - 公司成立19个月累计融资超10亿人民币,资方包括华为哈勃、京东、宁德时代等头部机构[4] - 创始团队为学术与产业组合:高阳为AI科学家,韩峰涛为硬件专家,曾操盘数万台机器人量产[3][7] 技术路径与创新 - 核心VLA模型采用快慢系统技术,实现动作流畅性(如叠衣服甩动动作),4个月前完成开发[35][36] - 独创one two VLA架构,支持复杂任务自主分解(如"手机放抽屉"需3步骤)[31] - 95%训练数据来自互联网人类视频,提升跨品类泛化能力(如折叠机识别无需额外训练)[46][47] - 现阶段暂未大规模投入世界模型研发,认为强化学习环节成本过高[37] 行业竞争格局 - 判断市场难以容纳第二家软硬一体公司,头部企业倾向固守教育细分市场[9][11] - 反对大规模数采工厂模式,认为机器人形态未定型导致数据迁移价值打折[41][42] - 叠衣服成为行业标准测试场景,因其需应对千变万化的物体形态[44] 技术发展阶段 - 预测4年后进入Robot GPT3.5阶段,任务完成率达70%(如家庭场景取水)[32] - 当前VLA存在语言模块过载问题,需优化数据利用(人类视频预训练)与架构设计[33][34] - 泛化能力仍处初级阶段,但互联网数据可使新物体识别提升60%-80%[48] 人才与研发管理 - 招聘偏好顶尖院校硕士/博士,需发表过机器人领域论文但无需工作经验,因技术迭代过快[52] - 自动驾驶与机器人技术本质相似,差异在于本体成熟度与安全容错标准[53] 产品验证标准 - 提出机器人性能评估方法论:观察跨品类操作(衣物品类切换)、动作流畅度(卡顿检测)、抗干扰能力(衣物团扔测试)[3][25][29]
当AI“看见”世界,商业的未来正在被彻底重塑 | 两说
第一财经资讯· 2025-08-07 11:15
文章核心观点 - 人工智能技术正从数字领域向物理世界扩展 驱动多行业变革 涵盖劳动力市场 航天基础设施 机器人产业 内容创作和全球治理体系[1][5][7][9][11][13] - AI发展重点从提升智能水平转向构建空间感知与物理交互能力 世界模型成为关键方向[9] - 内容产业面临效率革命 AIGC使创作效率提升10倍 三万亿美元市场规模将重构[11] AI对劳动力市场影响 - AI从接管重复性工作转向协作创造性脑力劳动 电视脚本编写等岗位可能在5年内被替代[5] - 不具备AI应用能力的从业人员将首先被淘汰 影响范围从基层快递员延伸至金融分析师等专业岗位[5] 航天基础设施智能化 - 北斗系统通过AI赋能实现定位导航授时功能升级 精度和响应速度提升[7] - 卫星系统应用场景从导航扩展至洪水救援调度 城市交通信号优化和车道级路径规划 形成千亿级产业规模[7] 机器人与空间智能发展 - 世界模型技术推动AI从数字语言处理转向物理空间感知 成为机器人产业核心基础[9] - 应用场景覆盖森林火灾预警和集装箱智能装卸等复杂环境任务[9] 内容产业变革 - 多模态AI实现电影级画面生成 扩散模型技术降低视频制作门槛[11] - AIGC使创作者效率达到传统方法的10倍 电影制作周期缩短至数月[11] 技术治理体系构建 - AI治理核心挑战从技术能力建设转向伦理控制 防止系统自主性风险[13] - 全球协作治理机制正在形成 中国开始参与国际规则制定[13]
当AI“看见”世界,商业的未来正在被彻底重塑 | 两说
第一财经· 2025-08-07 10:20
AI与未来商业 - 五位顶级科学家在2025世界人工智能大会特别节目中探讨AI如何重塑商业未来 包括图灵奖得主杰弗里·辛顿 北斗三号总设计师林宝军 多模态AI先锋梅涛 世界模型探索者申恒涛 中国计算机之父姚期智 [1][3] - AI不仅接管重复性工作 更成为创造性脑力劳动的合作者 不懂AI不用AI的人将首先被淘汰 [7] - AI正从数字世界向物理世界拓展 带来从"字节"到"空间"的范式转变 [13] AI对劳动力市场的冲击 - AI可能在5年内完成电视节目脚本写作等创造性工作 [7] - 从快递员 收银员到金融分析师 节目编剧 多个职业将被AI重构 [7] AI赋能北斗产业 - 中国北斗系统具有站得高 看得远 精度更高的优势 [10] - AI赋能PNT体系后 北斗将实现精准调度洪水救援 城市红绿灯优化 车道级出行规划等功能 [10] - AI推动卫星系统向"高精度 低延迟 全感知"的产业进化 [10] 世界模型发展 - 世界模型是下一代AI方向 能感知空间 推理关系 执行任务 [13] - 世界模型是支撑空间智能和机器人产业的关键底座 [13] - 应用场景包括森林火灾预警 集装箱智能卸货等复杂物理环境 [13] AIGC内容产业革命 - 使用AI的视频创作者效率是传统创作者的10倍以上 [15] - AI不仅提高效率 更赋予普通人表达的可能 [15] - 一部AI辅助制作的电影仅需数月 未来三万亿美元内容产业将重新洗牌 [15] AI治理与发展 - AI发展的终极命题是治理 如何让AI"不想统治世界"是真正难题 [18] - 中国已在AI国际治理中开始发挥话语权 [18] - AI治理需要全人类共同参与 是未来科技与伦理的核心战场 [18]
【重磅深度/小马智行】革新交通运输,Robotaxi驶向未来
东吴汽车黄细里团队· 2025-08-06 13:52
行业趋势 - Robotaxi商业化拐点临近,自动驾驶套件量产降本显著,BOM成本降至30万元量级,百度Apollo RT6售价20.5万元,小马智行自动驾驶套件成本降低70% [3] - 激光雷达和车载计算单元成本分别下降68%和80%,推动整车成本优化 [3] - 政策支持、安全性提升与硬件降本共同推动行业迈过商业化拐点,潜在市场空间达千亿级 [3] 公司技术优势 - 核心团队汇聚无人驾驶领域顶尖人才,包括百度、Waymo背景的技术专家 [15][16] - PonyWorld平台生成超百亿公里测试数据,应用"世界模型"技术六年,实现闭环训练 [4][66] - 安全冗余系统具备20+功能安全机制、1000+实时检测设计,安全性达人类驾驶10倍以上 [4][67] 商业化进展 - 累计50万小时全无人安全运营,覆盖2000+平方公里区域,单车日均订单超15单 [4][73] - 2025年车队规模计划扩展至千辆,高速路测试进入"无人化"阶段 [73][75] - Robotruck累计路测600万公里,货运量9.4亿吨公里,完成无人编队运营进阶 [74] 业务布局 - 聚焦北上广深一线城市,持有中美韩卢森堡等多国运营牌照 [5][77] - 与Uber合作2025年中东落地服务,逐步推广全球 [5][78] - 物流领域联合中国外运、三一重卡,打造青骓物流平台 [5][74] 财务表现 - 2024年营收7503万美元,自动驾驶卡车收入占比提升至53.8% [18][23] - 2025Q1 Robotaxi收入同比+200%,车费收入+800% [23] - 研发费用2024年同比+95.7%至2.4亿美元,2025Q1环比降73.8% [26] 产品迭代 - 第七代车型搭载9激光雷达+14摄像头,感知范围650米,成本较上代降70% [70] - 域控制器计算效率提升3倍,体积/重量/功耗降50%以上 [67] - 与丰田、广汽、北汽合作推进L4车型量产,两款车型已下线 [69][73] 市场空间 - 中国共享出行市场规模2023年8.21万亿,Robotaxi占比0.01% [53] - 乐观预计Robotaxi占B端共享出行比例将升至36%,市场空间达2000亿元 [52] - 2026-2027年为销量爆发拐点,将替代部分私人出行需求 [52]
计算机行业重大事项点评:Genie3实现世界交互,AGI迈出关键一步
华创证券· 2025-08-06 09:34
行业投资评级 - 计算机行业评级为"推荐"(维持)[5] 核心观点 - Genie 3 实现实时交互模拟能力,可生成高度多样化的虚拟环境,标志着AGI迈出关键一步 [2] - Genie 3 基于海量视频数据集训练,支持720p分辨率、24fps帧率下实时生成高自由度动态三维场景,并能回溯长达一分钟的历史时序信息 [9] - 引入Promptable World Events功能,支持文本构建多样化虚构世界,允许实时调整环境参数和添加新角色 [9] - Genie 3 与Gemini大模型系列未来将深度整合,通过协同工作机制执行新型任务 [9] - 海内外世界模型加速突破,OpenAI的Sora支持1080p高分辨率、60秒时长视频生成,腾讯混元团队发布HunyuanWorld 1.0实现高质量可交互3D场景 [9] 行业数据 - 计算机行业股票家数337只,占总市值4.68%(50,833.86亿元),流通市值占比5.16%(44,617.66亿元)[6] - 行业绝对表现:1个月9.1%,6个月12.5%,12个月77.7%;相对表现分别超基准6.1%、4.4%、54.9% [7] 投资标的 国内企业 - 企业级服务:金山办公、合合信息、福昕软件等办公软件;迈富时、明源云等营销服务;金蝶国际ERP;泛微网络OA;万兴科技等多模态应用 [9] - 行业场景:金融(恒生电子、同花顺)、教育(科大讯飞)、医疗(卫宁健康)、工业(华大九天)、军用(中科星图)等 [9] 海外企业 - 办公(MSFT)、金融(AFRM)、工业(CDNS)、医疗(TEM)、创意(ADOBE)、电商(SHOP)、企业服务(CRM)、安全(PANW)、云服务(AMZN)等 [9] 技术突破 - Genie 3 采用单智能体架构,未来将优化多Agent代理交互机制 [9] - 国际模型如Sora采用时空Patch统一表征技术,国内HunyuanWorld 1.0融合全景图像合成与分层3D重建技术 [9]
谷歌深夜放出「创世引擎」Genie 3,一句话秒生宇宙,终极模拟器觉醒
36氪· 2025-08-06 07:32
全球最强「世界AI模拟器」今夜诞生! 刚刚,谷歌DeepMind祭出新一代通用世界模型——Genie 3,能模拟出史无前例的丰富交互环境。 总有一天,UE5所有复杂功能,都能被一个数据驱动的「注意力权重」吸纳。 未来,只需要将手柄指令作为输入,即可渲染一段时空中的像素画面。 一句话,Genie 3即可生成一个动态世界。 令人惊艳的是,它能以每秒20-24帧速度,实时生成720p画面,还能持续数分钟一致性。 相比于前代,Genie 3在生成时长方面也得到了史诗级的加强——一口气能搞定长达数分钟,且内容连贯的可交互世界。 英伟达Jim Fan高度评价,「这就是游戏引擎2.0时代」! 如今,Genie 3的问世,标志着世界模拟AI迈向了全新高度,加速了人类通向AGI/ASI的终极目标。 AI实时交互模拟,真·矩阵世界 一直以来,「世界模型」被业界看作是通往AGI道路上的关键基石。 因为,它能让AI智能体在无限丰富的模拟环境中接受训练。 十多年来,谷歌DeepMind一直在模拟环境领域引领前沿研究,从训练AI智能体玩转即时战略游戏,到为开放式学习和机器人技术开发模拟环境。 正是在这些研究的推动下,他们开发出了「世界模 ...
智驾平权,博世抛出基建“阳谋”
华尔街见闻· 2025-08-06 06:16
PM N STORE 6:30 g 型 中 中 中 中 中 新 新 7月26日的世界人工智能大会(WAIC)上,当博世智能驾控中国区总裁吴永桥走上演讲台时,整个行业都在关注这家百年Tier1巨头,将如何为极度内卷的 中国车市开出新药方。 他的演讲描绘了一条清晰而宏大的路径:在当下,以领先的智驾能力帮助车企迅速补齐短板、摆脱焦虑,穿越狂卷的周期跟上行业竞赛步伐;在远方,则致 力于成为智能汽车时代的"基础设施"供应商,为行业的未来奠定基石。 博世的"阳谋"逐渐浮出水面,它要成为汽车智能时代的英伟达、高通,扮演不可或缺的底层核心角色。这是其未来战略的起点,也是打破车圈价格战内卷困 局的关键一役。 化身智驾"新基建" "未来随着技术的收敛,智驾一定会成为像今天的安全带、安全气囊一样的标准件"。 当车圈"智驾平权"竞赛如火如荼之时,吴永桥却在7月26日WAIC论坛上抛出激进论调——智驾迟早标配,"后进生"车企与其狂卷自研,不如将精力和资源投 入更能为用户提供情绪价值的智舱赛道。 在吴永桥看来,车企没必要因为自家智驾没有跟上形势而焦虑。吴永桥的思路很明确,他认为眼下国家已经对智驾行业出台了诸多严格的标准化措施,而主 机厂 ...
DeepMind独家访谈实录,解密Genie 3世界模型,将颠覆游戏与机器人行业未来
36氪· 2025-08-06 06:14
核心技术突破 - 谷歌DeepMind研发的Genie 3 AI技术可通过文本提示在约3秒内生成720p分辨率、可交互且环境一致的3D虚拟世界 [1][5] - 该技术融合生成式视频模型、游戏引擎和模拟器特性,实现实时交互及长时预测能力,环境一致性通过大规模训练自然涌现 [2][5][12] - 相比前代Genie 2的360p分辨率和20秒生成时长,Genie 3将分辨率提升至720p并延长交互时间至数分钟,错误率显著降低 [3][6][11] 技术演进路径 - Genie 1基于3万小时2D游戏录像训练,具备时空视频标记器和无监督动作学习能力,发现8种离散动作并展现2.5D视差效果 [2][3] - Genie 2实现3D模拟能力,支持烟雾、火焰、水流等逼真光照效果,并具备物体记忆功能 [3][11] - 技术架构从图像提示升级为文本提示输入,增加场景多样性并支持可提示的世界事件(如添加滑雪者或鹿群) [5][16] 行业应用前景 - 为机器人和自动驾驶训练提供高保真模拟环境,可安全模拟罕见事件(如无人机避障、行人突然穿行) [5][15][20] - 推动娱乐产业变革,支持生成沉浸式VR体验和新型交互娱乐模式,潜在价值达万亿美元级 [1][7][17] - 替代传统游戏引擎部分功能,实现类似Unreal Engine 5.6的实时动态图形生成,但当前仍存在计算硬件依赖(TPU网络)和生成局限性 [7][12][19] 技术实现特点 - 采用扩散模型架构(如VO融合),逐帧生成像素并保持跨帧一致性,无需显式3D编程 [5][12][13] - 训练数据可能包含YouTube海量视频,模型通过分析帧间变化推断物理规则和动作空间 [2][8][15] - 目前仅支持单代理交互,多代理系统正在开发中,智能体行为通过模型权重嵌入实现 [6][18][19] 发展现状与规划 - 当前为研究原型,未开放公众使用,出于安全考虑将通过测试计划逐步部署 [7] - 未来方向包括多智能体模拟、与语言模型(如Gemini)结合,以及通过外循环增强系统开放性 [10][18][19] - 计算需求较高,依赖TPU网络运行,但演示显示响应速度达3秒内,具备实时交互能力 [5][8][19]
OpenAI、谷歌等深夜更新多款模型 展示开源、智能体、世界模型进展
第一财经· 2025-08-06 04:59
大模型厂商新品发布 - AI创业公司Anthropic发布Claude Opus 4 1 称该模型是Opus 4在代理任务 现实世界编码和推理方面的升级版 [1] - 谷歌推出新一代世界模型Genie 3 这是公司第一个支持实时交互的世界模型 [1] - OpenAI开源gpt-oss-120b和gpt-oss-20b两个推理模型 这是OpenAI时隔六年再次开源模型 [1] OpenAI开源策略转变 - OpenAI开源的gpt-oss-120b参数量为1170亿 采用MoE架构 激活参数量51亿 [2] - gpt-oss-20b参数量为210亿 同样采用MoE架构 激活参数量36亿 [2] - gpt-oss-120b在竞赛编码 工具调用基准测试中的得分接近或超过闭源的o4-mini模型 [2] - gpt-oss-20b在基准测试中的分数与o3-mini相当或超过o3-mini [2] - 新模型可在电脑 手机等端侧设备上本地部署 gpt-oss-120b可在单张80GB容量的GPU上运行 gpt-oss-20b可在16GB内存的消费级设备上运行 [2] Anthropic产品策略调整 - Anthropic决定更频繁地推出产品渐进式更新 而非只专注于重大版本更新 [3] - Claude Opus 4 1在深入研究 数据分析 代理搜索方面的能力较前一代有所提升 [3] - 新产品擅长处理复杂的多步骤问题 被定位为更有效的AI智能体 [3] - 在SWE-bench Verify基准测试中 Claude Opus 4 1得分74 5% 超过Opus 4的72 5% [4] - 在Terminal-Bench GPQA Diamond MMMLU基准测试中的得分分别为43 3% 80 9% 89 5% 超过Opus 4的39 2% 79 6% 88 8% [4] 谷歌世界模型进展 - 谷歌推出通用世界模型Genie 3 是公司第一个允许进行实时交互的世界模型 [5] - Genie 3可以生成多样化的交互环境 模拟水 光等自然现象 生成包含动物 植物的生态系统 创造动画角色并模拟复杂环境下各种元素的相互作用 [5] - Genie 3可以以每秒24帧的速度进行导航 在720p分辨率下保持长达几分钟的画面一致性 视觉记忆可追溯至一分钟前 [5] - Genie 3可生成长达几分钟的画面一致性 而Genie 2只能生成8秒 [6] - Genie 3可模拟灯光节期间在水面上行驶的摩托艇 效果十分真实 [6]