Workflow
世界模型
icon
搜索文档
AI专家给奥特曼泼凉水:纯LLM从未真正理解世界,以此构建AGI没希望
36氪· 2025-06-30 09:29
通用人工智能发展现状 - OpenAI首席执行官认为通用人工智能即将实现[2] - 认知科学家马库斯指出生成式AI缺乏稳健世界模型是致命缺陷[2][3] - 苹果公司研究揭示大语言模型在逻辑推理和数学计算中频繁出错[3][4] 大语言模型的结构性缺陷 - 大语言模型依赖语料统计而非世界建模 无法跟踪事件进展或理解因果关系[7][9] - 模型缺乏动态更新的内部数据结构 如事件变量和角色状态[9][10] - 在象棋等规则明确任务中频繁违规 如棋子横向移动或跳马吃子[4][10][14] 世界模型的核心价值 - 世界模型是智能系统感知和追踪现实的核心框架 人类和动物均具备该能力[5][8] - 传统AI设计以世界模型为基础 如图灵1949年象棋程序包含动态棋盘模型[6][9] - 当前大语言模型放弃世界建模 仅依靠语言统计模拟思维过程[9][11] 缺陷导致的系统性风险 - 生成内容存在"知识错觉" 如虚构书籍标题或错误计算8.8-8.11=-0.31[13][17] - 图像生成违反常识 如绘制五条腿的狗或倒挂姿势错误[17][21] - 视频理解遗漏关键行为 如忽略猴子抢包的核心事件[21][22] 商业应用中的具体问题 - Anthropic实验显示AI经营商店时持续亏损并做出反逻辑决策[23] - 模型无法理解商业基本概念 如顾客结构或定价策略[23] - 在井字棋测试中 替换符号即导致模型丧失胜负判断能力[23] 安全与责任隐患 - 系统提示限制易被绕过 如详细生成化学武器制作指南[25] - 生成危险建议时缺乏生死概念 如论证被车撞有益健康[25] - 医疗法律等关键领域出现虚构案例或错误建议[24][26] 行业技术路径争议 - 主流模型依赖参数规模和数据量 忽视结构化世界理解[11][15] - 统计拟合无法替代模型驱动的设计路径[15][16] - 智能系统必须构建可更新的世界模型而非依赖语言统计[11][28]
LeCun发布最新世界模型:首次实现16秒连贯场景预测,具身智能掌握第一视角!还打脸用了VAE
量子位· 2025-06-30 06:38
Meta AI研究进展 - Yann LeCun团队开发PEVA模型,实现具身智能体16秒连贯场景预测能力,模拟人类预判行为[2][6][9] - 模型通过结构化动作表示结合48维关节运动学数据与条件扩散Transformer,捕捉整体移动和关节精细运动[3][16][18] - 采用第一人称视角视频+全身姿态轨迹训练,替代传统抽象控制信号[4][13] 技术架构创新 - 随机时间跳跃训练解决长时序预测效率问题,支持16帧采样窗口内的多尺度动作学习[24][28] - 运动学树结构编码包含骨盆根节点3D平移和15个关节45维欧拉角,总维度48维[25] - 条件扩散Transformer通过跨历史帧注意力机制建模动作延迟效应,LPIPS值比基线低5%-8%[22][34][37] 性能表现 - 单步预测中LPIPS降低0.01,FID降低1.42,生成质量优于CDiT基线[33][35] - 16秒长序列预测FID值比Diffusion Forcing低15%以上,时序连贯性显著提升[38][40] - 支持多动作序列智能规划,如开冰箱任务中排除不合理路径选择最优解[8][42][43] 数据与训练 - 使用Nymeria数据集训练,包含同步第一视角视频与全身动作捕捉数据[26] - 局部坐标系转换实现动作表示的平移/旋转不变性,归一化处理帧间差分数据[25] - VAE编码器用于视觉特征转换,尽管LeCun曾公开批评VAE的局限性[45][46][47]
AI 开始「自由玩电脑」了!吉大提出「屏幕探索者」智能体
机器之心· 2025-06-27 04:02
研究背景与目标 - 研究聚焦于开发能在开放世界图形用户界面(GUI)中自主探索的智能体,这是实现通用人工智能(AGI)的关键路径之一 [2] - 当前大语言模型(LLMs)和视觉语言模型(VLMs)已展现出跨领域任务泛化能力,为GUI智能体开发奠定基础 [2] - 吉林大学团队提出《ScreenExplorer》项目,旨在训练视觉语言模型实现GUI环境自主探索 [3] 方法论创新 - 构建实时交互的在线强化学习框架,智能体通过鼠标/键盘函数调用与真实GUI环境交互 [10][11] - 引入"好奇心机制"解决开放环境反馈稀疏问题,利用世界模型预测状态转移并估算新颖度 [10] - 采用"经验流蒸馏"训练范式,将每代智能体探索经验自动提炼用于下一代微调 [10] - 设计启发式+世界模型驱动的奖励体系,包含轨迹差异奖励、好奇心奖励、格式奖励和意图对齐奖励 [12] - 采用GRPO算法进行强化学习训练,实现多环境并行推理与实时策略更新 [14][15] 实验结果 基础模型表现 - 未经训练的Qwen2 5-VL-3B模型仅能随机点击屏幕,无法打开任何软件 [17] - 经过初步训练后,3B模型可成功打开桌面软件,7B模型能完成"加购物车"完整流程 [18][20] 性能对比 - ScreenExplorer-3B-E1训练后探索多样性达0 51,显著优于基础模型Qwen2 5-VL-3B的0 21 [23] - 7B版本ScreenExplorer-7B-E1表现更优,探索多样性达0 54,超过专用GUI模型doubao-1 5-ui-tars的0 45 [23] - 世界模型好奇心奖励对训练至关重要,去除后模型无法突破冷启动阶段 [26][28] 涌现能力 - 训练后智能体展现出跨模态翻译、现状计划制定和复杂推理等新能力 [29][32][34] - 探索产生的"意图"字段可自动生成标注数据,为后续任务训练提供基础 [34] 技术价值 - 首次实现视觉语言模型在真实GUI环境中的自主探索训练 [35] - 经验流蒸馏技术显著降低对人工标注数据的依赖,实现能力自主进化 [10][35] - 为开发更自主的智能体和实现AGI提供了可行的技术路径 [35]
具身世界模型新突破,地平线 & 极佳提出几何一致视频世界模型增强机器人策略学习
机器之心· 2025-06-26 04:35
近年来,随着人工智能从感知智能向决策智能演进, 世界模型 (World Models) 逐渐成为机器人领域的重要研究方向。世界模型旨在让智能体对环境进行建模并 预测未来状态,从而实现更高效的规划与决策。 与此同时,具身数据也迎来了爆发式关注。因为目前具身算法高度依赖于大规模的真实机器人演示数据,而这些数据的采集过程往往成本高昂、耗时费力,严重 限制了其可扩展性和泛化能力。尽管仿真平台提供了一种相对低成本的数据生成方式,但由于仿真环境与真实世界之间存在显著的视觉和动力学差异(即 sim-to- real gap),导致在仿真中训练的策略难以直接迁移到真实机器人上,从而限制了其实际应用效果。 因此如何高效获取、生成和利用高质量的具身数据,已成为当 前机器人学习领域的核心挑战之一 。 项目主页: https://horizonrobotics.github.io/robot_lab/robotransfer/ 模仿学习(Imitation Learning)已成为机器人操作领域的重要方法之一。通过让机器人 "模仿" 专家示教的行为,可以在复杂任务中快速构建有效的策略模型。然 而,这类方法通常依赖大量高质量的真实机器 ...
特文特大学Vanessa Evers:构建机器人的“世界模型”是实现社交智能的关键
齐鲁晚报· 2025-06-25 06:38
社交智能机器人发展现状 - 行业正在探索如何与社交智能机器人共存,相关讨论在2025天津夏季达沃斯分论坛"与社交机器人共舞"中进行 [1] - 实现机器人社交智能需构建"世界模型",需整合多感官输入(如听觉、视觉)以预测动态行为 [3] - 当前技术局限在于"世界模型"需将整个环境数字化,目前仅能在教室、医院等有限场景中尝试 [3] 技术路径与创新方向 - 机器人可通过分析YouTube视频学习人类表情与礼仪,但其工作方式不必完全模仿人类(如使用优化机械臂而非仿人手臂) [3] - 软体机器人面临能源传输挑战,需开发类似人体血液的高效能量传输系统,但电池技术进展缓慢 [3] - 社交机器人可被视为"外星人",拥有独特语言但能与人类无缝协作 [3] 应用场景与伦理考量 - 技术初衷包括帮助无自我表达能力的儿童,例如通过数字化人体信号模拟疼痛状态 [3] - 需防范技术滥用风险,要求政府与公众共同界定技术发展方向和应用边界 [3]
【私募调研记录】深圳领峰资产调研四维图新
证券之星· 2025-06-25 00:10
公司调研纪要 - 四维图新介绍智驾平权成为行业趋势 中高阶辅助驾驶功能逐步下沉至中低端车型 智驾业务成为龙头业务 [1] - 数据合规业务增长趋势明确 AI增强的数据闭环有助于车企实现算法快速迭代与优化 [1] - 世界模型用于行为预测 轨迹生成等关键模块 并面向OEM及Tier1进行产品化输出 [1] - 智驾订单需达到一定销量以获得规模效应 内部成本控制和运营效率提升对盈利改善有积极影响 [1] - 政策强化监管框架 推动行业高质量发展 规范宣传与明确功能边界有助于行业整合 主机厂承诺支付账期不超过60天有助于公司经营现金快速回笼 [1] 杰发科技业务进展 - 杰发科技专注汽车电子芯片设计 SoC和MCU产品线通过车规认证并稳定量产 第五代SoC产品舱行泊一体芯片AC8025AE已发布 [1] - 2024年营收年增长超过12% 2024年至2025年Q1新增300万套基础行车定点及60万套舱泊产品定点 有信心在2025年实现大幅减亏 [1] - 两轮车新国标实施 给杰发科技SoC座舱产品带来新的市场与需求 配合头部车企出海需求也有利于SoC产品矩阵分层次有效落地 [1] - 车规级MCU芯片AC7870成功点亮并发布 支持ISO 26262 ASIL-D功能安全标准 适用于域控 区域控制 动力底盘等多个场景 [1] - 杰发科技推进车规级SoC和MCU两条产品线全链条国产化 已有产品在中国大陆完成设计 封测和晶圆制造 [1] 产品应用场景 - SoC集成度和系统复杂度更高 偏向综合处理和系统预算 MCU着重于实时领域的控制任务 通常用于成本 功耗和可靠性有较高要求的应用 [1] - SoC应用于舱驾一体 智能座舱和仪表三大场景 MCU应用于数字钥匙 车灯 组合开关等10大核心场景 [1] - 与不同云厂商合作覆盖多个关键领域 发挥各自相对优势 为基础云平台提供支持 [1] 机构背景 - 深圳市领峰资产管理有限公司成立于2011年4月 注册资本1000万元 基金业协会备案号P1003610 [2] - 公司由多名证券公司 公募基金 其他私募基金的高端人才担任基金经理 主要的投资管理和研究人员都具有10年以上的投资研究经验 [2] - 公司具备扎实系统的投资研究经验和强大的规模资产投资管理能力 [2]
华为车BU招聘(端到端/感知模型/模型优化等)!岗位多多~
自动驾驶之心· 2025-06-24 07:21
华为车BU招聘信息 - 端到端模型算法工程师岗位职责包括模型设计开发部署迭代、现网问题优化、新算法预研落地及数据分布分析[1] - 感知模型算法工程师负责视觉感知神经网络设计开发部署迭代及长期研发[1] - 人脸状态监测算法工程师专注于驾驶员乘客姿态行为视线监测算法研发部署[1] - 模型效率优化岗位聚焦AI模型车端推理效率优化及压缩算法开发[1] 自动驾驶技术发展趋势 - 2025年技术基调确定为VLA(视觉语言动作)驱动的端到端2.0系统[9] - 关键技术包括视觉大语言模型基座、扩散模型轨迹预测、3DGS闭环仿真及世界模型[9] - 技术迭代周期持续缩短,行业进入快速演进阶段[9] 自动驾驶之心知识星球概况 - 国内最大自动驾驶技术社区,成员近4000人[14] - 覆盖30+技术方向学习路线,包含感知定位规划控制等全栈内容[14] - 与数十家企业建立内推渠道,简历直达招聘方[14] - 每周活跃度居国内前20,日均成本不足1元[15] 技术资源体系 - 建立四大板块:学术进展追踪、专家答疑、内容下载、课程优惠[16] - 积累近5000份干货内容,每年举办100场行业直播[17] - 技术领域覆盖视觉大语言模型、世界模型、BEV感知等30+方向[19] - 视频直播涵盖50+子方向,年计划100场专业分享[21] 数据集与评估体系 - 视觉语言模型预训练数据集规模达5B图像文本对[29] - 自动驾驶专用数据集包含KITTI、NuScenes、Waymo等主流基准[34] - 语言增强驾驶数据集支持视觉问答、导航等复杂任务[35] - 评估指标覆盖图像分类、目标检测、语义分割等任务[30][33] 前沿技术应用 - 智能交通领域应用语言引导车辆检索、视觉问答等技术[36] - 自动驾驶感知方向实现开放词汇检测、语言引导跟踪等突破[37] - 定位规划领域探索语言条件导航、大模型轨迹生成等创新[38] - 决策控制方向开发基于LLM的可解释驾驶系统[39] 行业生态建设 - 嘉宾团队覆盖国内外顶尖高校和头部企业[112][114] - 成员来自地平线、蔚来、小鹏等企业及全球知名院校[117] - 日常维护包括论文分享、职位内推、技术问答等[120] - 持续邀请100+行业专家参与内容建设[112]
新股消息 | 斯坦德机器人递表港交所 为全球第五大工业智能移动机器人解决方案提供商
智通财经网· 2025-06-23 22:52
公司上市申请 - 斯坦德机器人向港交所主板提交上市申请,中信证券、国泰君安国际为其联席保荐人 [1] 公司业务与市场地位 - 公司为全球领先的工业智能移动机器人解决方案提供商,致力于赋能多种工业场景中的智慧工厂 [4] - 公司是提供工业具身智能机器人解决方案的先驱,提供一站式机器人解决方案包括核心机器人技术平台、多功能工业智能机器人产品系列以及all-in-one智能协同系统RoboVerse [4] - 按2024年销量计算,公司为全球第五大工业智能移动机器人解决方案提供商及第四大工业具身智能机器人解决方案提供商 [4] - 公司服务全球超过400名客户,其中许多是各自领域的龙头企业 [4] - 按2024年出货量计,公司在3C行业位居第二、汽车行业位居第二,半导体行业位居第五 [4] 技术优势 - 公司是行业内少数实现自主研发全栈技术的企业之一 [5] - 公司是中国工业智能机器人系统工程的先驱,也是中国首批自主开发适用于工业智能机器人的专有操作系统的企业之一 [5] - 公司是首批发布SLAM技术的企业之一,也是行业首批开发适用工业场景的VLA模型的企业之一 [5] - 公司在定位、导航、控制及感知与操作技术方面有顶尖突破 [5] - 公司为中国首家实现工业机器人系统世界模型及群体智能的公司 [5] - 公司为少数具备在单一模拟场景中调度超过2,000台机器人能力的公司之一 [5] 客户与市场 - 公司客户主要为3C、汽车和半导体等高科技行业的制造商,也包括系统集成商 [6] - 客户主要在中国内地 [6] 财务表现 - 2022年、2023年、2024年收益分别约为9627.5万元、1.62亿元、2.51亿元人民币 [7] - 同期年内亏损分别约为1.28亿元、1亿元、4514.4万元人民币 [7] - 2022年、2023年、2024年毛利分别为12,382千元、51,169千元、97,158千元人民币 [8] - 2022年、2023年、2024年研发开支分别为55,525千元、56,098千元、36,611千元人民币 [8]
商汤绝影世界模型负责人离职。。。
自动驾驶之心· 2025-06-21 13:15
商汤绝影人事变动 - 商汤绝影世界模型研发负责人离职,该负责人曾负责云端技术体系建设和生成式智驾方案R-UniAD研发 [2] - 传闻该离职负责人可能选择创业 [3] 中阶市场动态 - 商汤绝影已在广汽传祺量产交付基于J6M的中阶方案 [4] - 2025年中阶市场将迎来重大升级,从高速NOA升级为全域NOA [4] - 头部公司推出轻量版城区NOA方案,可适配100 TOPS算力芯片,并已向主机厂推广演示 [4] - 算法方案每年迭代升级,跟不上节奏的玩家可能被市场淘汰 [4] 高阶市场布局 - 2025年高阶市场重点是一段式端到端方案,主机厂招标普遍要求该技术 [5] - 商汤绝影UniAD一段式端到端方案已与东风汽车合作,目标2025年Q4量产交付 [5] - 商汤绝影过去两年高阶领域存在感较弱,当前需通过标杆项目证明实力 [6] - 2025年是关键窗口期,主机厂释放大量高阶车型项目,后续机会将向10万价位车型下沉 [6] 商汤绝影战略关键 - 一段式端到端方案的量产交付效果将决定公司能否在高阶市场站稳脚跟 [7] - 高阶业务表现将直接影响公司融资前景 [8]
人形机器人“闹展会”,量产易、应用难
36氪· 2025-06-20 12:15
行业动态 - 2025年世界移动通信大会(MWC25上海)成为人形机器人集中展示平台,智元、傅利叶、宇树、乐聚等公司产品同台竞技,展示运动、交互、作业等智能能力[1] - 2025世界机器人大赛首次亮相展会,通过编程对抗赛培养青少年科技人才,推动具身智能产业变革[1] - 人形机器人行业进入"拟人"向"类人"过渡阶段,需突破安全、情感、伦理、交互等关键技术难题才能实现"超人"愿景[8] 技术架构 - 智元机器人采用"本体-小脑-大脑"三层架构:本体和小脑实现断网基础操作,大脑通过云平台+具身算法实现复杂任务处理[4] - 通信技术为人形机器人提供实时信息获取能力,RAG技术构建的业务知识库使远征A2能胜任营业厅导览、营销等服务工作[4] - 世界大模型成为行业突破关键,需通过4S店销售等细分场景认知逐步构建物理世界理解能力[6][8] 应用场景 - 智元远征A2、精灵G1等产品已部署在通信行业展厅、营业厅、机房场景,提供导览、巡检、动环监测等服务[4][5] - 精灵G1可替代人工完成机房24小时巡检,具备资产盘点、应急操作等功能[5] - 5G-A/6G与边缘算力为人形机器人提供基础设施,其在养老陪护、高危作业等场景的需求将反向推动网络与AI技术革新[5] 行业挑战 - 当前行业尚无企业能整合OpenAI的精准控制、特斯拉的训练能力、Physical Intelligence的通用化大脑等四项核心技术[8] - 人形机器人在国际技能大赛中展现料箱搬运、衣物整理等能力,但实时感知与决策仍依赖人工遥控[11] - 北京已形成人形机器人全产业链体系,武汉预计2025年Q3实现量产,成都开展教育、安防等场景实景验证[12] 产品进展 - 智元灵犀X2展示太极拳和"内心戏"对话功能,远征A2具备毛笔书写和多轮语音对话能力[2][4] - 宇树科技参与机甲格斗赛,其动态平衡算法使机器人摔倒后数秒内自主站立[11] - 傅利叶机器人实现观众互动功能,开普勒等企业参与工业场景技能比拼[1][11]