Workflow
物理图灵测试
icon
搜索文档
全球TOP 13战队翻车实录,机器人极限求生,比科幻片还残酷
36氪· 2025-12-08 10:18
赛事概况与核心理念 - 第五届ATEC科技精英赛线下赛以“真实世界极限挑战赛”为主题,旨在测试机器人在复杂户外环境中的自主能力,暴露技术弱点以推动行业进步[18][20][22] - 赛事由香港中文大学主办,ATEC前沿科技探索社区、北京大学、北京师范大学和蚂蚁集团共同承办,蚂蚁集团技术战略部负责人表示其长期支持源于对AGI技术与物理世界深度融合的信念[21] - 比赛场地设在香港中文大学岭南体育场及小桥流水生态区,全户外场景包含拱桥、山地、缓坡、石阶等多样化地形,并伴有光照变化、风力波动等真实环境扰动[25] - 赛事设计了四大任务链:垃圾分拣、自主浇花、定向越野、吊桥穿越,旨在考验机器人“多模态感知融合与连续决策”的能力,形成完整的“感知-规划-执行-反馈”闭环[30][31][32] 技术挑战与瓶颈 - 第一大挑战是环境感知与认知,真实环境的不确定性和高动态性对算法构成巨大挑战,例如“垃圾分拣”任务中,物品的油渍、变形或堆叠会干扰机器人的识别[34][35][36][40] - 第二大挑战是智能决策与响应,机器人缺乏“举一反三”和适应新场景的能力,例如“吊桥穿越”任务要求机器人能自主判断木板位置、使用工具铺路,体现了包含判断、使用工具和规划步骤的“高级智能”[41][44][46] - 第三大挑战是硬件与算力承载,存在“身体跟不上脑子”的问题,包括部署LLM的高性能专用芯片不成熟制约实时处理能力,以及精细抓取和灵活操作的技术难度与高成本[47] - 评分规则强力引导“无遥操”的全自主方式,完成任务可获得10-25分的额外加分,以此倒逼团队开发机器人的“AI大脑”和自主决策能力[29] 参赛队伍表现与结果 - 全球共有396支队伍参赛,最终13支队伍进入线下决赛,覆盖QS百强高校及985/211顶尖学府[48] - 总榜冠军由wongtsai(旺财)团队以434分获得,IRMV战队以363分位列第二,CyberPrime战队以357分位列第三[48] - 参赛队伍普遍感受到真实户外环境最大的挑战在于“不确定性”,如物品堆叠、吊桥晃动、水壶重量变化等,远比实验室条件复杂[49] - 在执行任务时,许多队伍在“无遥操”任务上做出了取舍,部分队伍在如“吊桥穿越”、“定向越野”等任务中切换至远程操控模式,也有如wongtsai、CyberPrime等团队坚持全自主并成功完成了部分任务[50][52][53] 行业洞察与未来展望 - 根据国际机器人协会《2025世界机器人报告》,2024年全球共有54.2万台机器人“上岗”,其中中国以29.5万台占全球总量的54%,但行业仍存在核心技术瓶颈,许多演示依赖遥控或预设程序,离完全自主的智能相差甚远[59][60] - 赛事被视作“物理图灵测试”的真实写照,系统性地检验机器人跨越环境感知与认知、智能决策与响应、硬件与算力承载这三大技术瓶颈的能力[61] - 冠军团队wongtsai队长朱承睿预测,大约20年后机器人可以真正走进人类生活提供服务[54] - 参赛队伍技术路线呈现多元化,既有采用传统“模块化”方案(分工负责感知、运动控制),也有探索“端到端”大模型方案,但硬件能力边界(如防水性、抓地力、算力)普遍成为制约算法发挥的瓶颈[57][58] - 赛事暴露了具身智能从“演示可行”到“应用可靠”之间的鸿沟,比赛中留下的代码、调试数据和失败经验被视为通往通用具身智能道路上的宝贵路标[63]
英伟达Jim Fan深度分享:揭秘具身智能路线与障碍
36氪· 2025-05-14 02:23
机器人技术发展现状与挑战 - 大语言模型已突破传统图灵测试,但机器人在物理世界的表现仍远未达到人类水平,数据是最大瓶颈 [1] - 机器人需要物理交互的真实数据,这些数据无法从网页抓取,只能靠人类手动采集,效率极低 [1][14] - 当前机器人面临"物理图灵测试"挑战,例如人形机器人动作笨拙、机器狗易滑倒、执行任务时混乱 [8][10] 仿真技术的突破性应用 - 在超高速仿真数字孪生中,机器人可在2小时内完成相当于现实世界10年的训练量 [17][24] - 仿真1.0采用数字孪生范式,矢量化物理引擎运行速度达每秒1万-100万帧 [28] - 通过域随机化技术(改变重力/摩擦/重量等参数),在1万个并行仿真环境中训练机器人 [20][22] 生成式AI驱动的仿真2.0革新 - RoboCasa平台中除机器人本体外,所有视觉元素由AI生成(3D资产/纹理/布局) [30][32] - 视频生成模型仅用1年实现传统图形学30年的进步,可模拟软体/流体等复杂交互 [42][43] - "数字表亲"仿真混合AI生成与传统图形管线,虽非1:1复刻但捕捉关键特征 [38] 世界模型与物理API的未来展望 - 仿真2.0结合视频扩散模型,实现"数字游民"在梦境空间的无限训练场景 [47][49] - 物理API将像大模型API操控数字信息一样操控物质变化,催生"物理App Store"经济 [54] - GR00T系列模型持续开源,推动视觉-语言-动作模型在工业/灵巧操作的应用 [51][53] 技术商业化路径 - 环境生成技术将场景数量扩展N倍,运动生成技术将演示数据扩展M倍 [34] - 米其林大厨可通过传授烹饪技艺给机器人实现服务规模化,形成技能经济 [54] - 最终目标为机器人融入环境智能,突破物理图灵测试临界点 [2][54]
腾讯研究院AI速递 20250512
腾讯研究院· 2025-05-11 14:17
OpenAI强化微调功能上线 - OpenAI发布RFT(强化微调)功能,通过思维链推理和专属评分机制,可用极少样本快速提升模型在特定领域的专业表现 [1] - RFT主要应用于指令转代码、文本精华提取、复杂规则应用三大场景,已有ChipStack等多家公司取得显著成效 [1] - 实施RFT前必须创建评估体系,明确任务定义和强化评分方案,避免模棱两可的任务目标 [1] Gemini 2.5视频理解突破 - Gemini 2.5 Pro通过低媒体分辨率技术可处理长达6小时视频,在多个学术基准测试中创下新纪录 [2] - 实现视频内容与代码无缝结合,能将视频直接转化为交互式网页应用、p5.js动画等创新应用形式 [2] - 具备精准的视频片段检索和时序推理能力,可实现复杂场景计数、时间戳定位等高级分析功能 [2] ChatGPT深度研究功能升级 - ChatGPT深度研究功能现可直接连接GitHub,团队用户可实时访问和分析代码库内容,包括代码、README和文档 [3] - 系统会根据用户提问自动生成搜索关键词查找相关内容,支持代码库搜索但需5分钟同步时间 [3] - OpenAI承诺企业级产品用户数据不会用于模型训练,但个人版用户若开启"为所有人改进模型"选项,内容可能用于训练 [3] Meta发布AssetGen 2.0 3D模型 - Meta发布新一代3D内容生成AI系统AssetGen 2.0,采用单阶段3D扩散模型,能直接从文本和图像生成高精度3D模型和贴图 [4] - 相比前代产品,新系统在几何一致性和纹理细节上有显著提升,已在Meta内部用于创建3D世界 [5] - Meta正在研发"完整3D场景生成"功能,目标通过简单文本指令一键生成完整的3D虚拟世界 [5] Multiverse:AI生成多人在线游戏 - 以色列Enigma Labs团队开发出全球首个AI生成的多人游戏Multiverse,实现了实时多人交互的赛车游戏,总开发成本不到1500美元 [6] - 技术突破在于创新的多人世界模型架构,通过沿通道轴堆叠双方玩家视图,实现共享世界状态的一致性渲染 [6] - 团队公开所有代码及数据,并通过修改《GT赛车4》游戏实现数据采集,利用B-Spec模式自动生成训练数据集 [6] Genspark推出AI Sheets工具 - Genspark AI Sheets推出全新AI表格工具,用户通过自然语言对话即可完成数据收集、整理、分析和可视化 [7] - 工具支持多格式文档导入、自动数据清洗、智能分析与可视化,官方称处理速度比传统手动操作快数十倍 [7] - 该工具目前处于Beta测试阶段免费开放,适用于销售、市场、产品等多个领域 [7] 陶哲轩数学工具升级 - 陶哲轩迅速升级其数学估计验证工具至2.0版本,将其改造为更灵活的证明助手,支持Python符号代数包sympy [8] - 新版本能处理命题逻辑、渐近估计等多种数学任务,陶哲轩在开发过程中大量依赖Github Copilot辅助编程 [8] - 陶哲轩发布数学形式化证明实验视频,展示如何在33分钟内借助Copilot和Lean证明助手完成一页纸数学证明的形式化 [8] 红杉AI峰会商业模式转型 - 红杉AI峰会提出AI商业模式转型:从卖工具转向卖成果,客户为可度量的业务结果付费,被视为"万亿美元机会" [9] - AI正从应用工具进化为操作系统级入口,谁能成为"用户意图的第一承接者",谁就能控制系统分配权 [9] - 未来AI竞争关键在于组织架构重构,从确定性执行转向目标试探模式,建立人机混合的协作体系 [9] YC合伙人谈AI应用设计 - YC合伙人指出当前AI应用不足在于产品设计思维仍停留在传统模式,未能充分发挥AI潜力 [10] - AI原生应用应该让用户能自定义系统提示词,让AI按照用户个人风格工作,而不是开发者预设的统一模式 [10] - 未来AI应用应转向"Agent构建器"而非单纯的Agent,为用户提供工具和界面来训练和定制自己的AI助手 [10] 英伟达"物理图灵测试"概念 - 英伟达机器人主管Jim Fan提出"物理图灵测试"概念:机器人能否在物理世界完成任务且让人无法分辨是人还是机器完成的 [11] - 解决机器人训练数据不足的关键在于模拟:通过高速并行模拟和域随机化生成训练数据 [11] - 未来发展方向是物理API,让机器人能像LLM处理数字信息一样处理物理世界,将催生新的技能经济和服务模式 [11]