具身人工智能 - 财报，业绩电话会，研报，新闻 - Reportify

具身人工智能

搜索文档

辛顿敷衍走场，是对科学的败坏

观察者网· 2025-08-04 06:24

文章核心观点 - 文章对当前人工智能领域的过度乐观情绪和炒作提出批判，认为人工智能缺乏坚实的科学理论基础，本质上仍是一种基于统计方法和暴力计算的现代工匠技艺，而非科学原理的突破 [1][2][9] - 文章指出大语言模型具备文字符号层面的统计性理解能力，但其理解方式与人类有本质差异，无法实现符号与现实世界的对应，因此“通用人工智能”遥不可及 [4][14][16] - 文章认为2024年诺贝尔物理学奖颁发给人工智能学者，标志着基础科学原理发展进入停滞期，人类正进入“后科学”时代，科学真理性可能被稀释 [8][18] 人工智能的科学理论基础 - 人工智能领域缺乏符合现代科学规范的基础理论，图灵测试被认为是一种主观测试方式，违背了科学客观性要求，未能为人工智能奠定科学基础 [7] - 学术界对“智能”的定义尚无统一看法，批评杰弗里·辛顿“智能的本质在于推理”的观点是以偏概全，忽视了人类智慧中“洞察”等非逻辑推理部分 [6][7] - 自20世纪70年代以来，基础原理性科学突破出现停滞，2024年诺贝尔物理学奖授予人工智能学者被视为物理学界含蓄承认此停滞局面 [8] 人工智能的技术原理与应用定位 - 人工智能技术原理上是一种基于经验的工匠技艺，依赖统计方法和计算机暴力计算在应用层面解决问题，而非理论层面突破 [9] - 信息技术应用中，人工智能仅是人类大脑可完成的复杂任务导向的技术之一，其目标应是拓展人类活动深度与广度，而非单纯替代人类劳动 [11][12][14] - 类似于Sora模型被炒作成“世界模拟器”的现象，是缺乏科学理性分析的非理性想象或别有目的的炒作 [9][10] 人工智能的发展前景与局限性 - 在可预见的未来，人工智能将在人类各活动领域通过解决具体信息性问题来拓展人类能力，但其发展带有偶然性，复杂度有限 [15] - 制造出与人类具有同等意识能力的机器是遥不可及的梦想，因为缺乏相关科学理论，且历史经验表明无法通过经验性技艺创造不理解的事物 [15][16] - 杰弗里·辛顿关于人工智能威胁论的说法被指缺乏科学依据，是历史上反复出现又很快被遗忘的耸人听闻之词 [16][18]

具身人工智能

通用人工智能

具身人工智能

通用人工智能

谢耘：诺奖得主辛顿敷衍走场，是对科学的败坏

虎嗅· 2025-08-04 05:57

人工智能理论争议 - 乐观派认为人工智能本质在于推理，但这一观点被批评为西方文化唯理性论的思维局限[4][11] - 悲观派指出大语言模型仅懂概率计算而非概念推理，缺乏真正理解能力[5] - 中间立场认为大语言模型具有文字符号层面的统计性理解能力，但与人类理解存在本质差异[7][8] 人工智能技术现状 - 当前人工智能主要依赖统计方法和暴力计算，属于应用层面的工匠技艺而非理论突破[14] - 2024年OpenAI发布的Sora视频生成模型被过度解读为"世界模拟器"，实际未突破物理定律发现[15] - 计算机在特定智能活动(如计算)上已超越人类，但整体仍无法替代人类意识活动[20] 行业发展阶段 - 人工智能领域缺乏符合现代科学规范的基础理论，仍处于技术积累阶段[10][11] - 2024年诺贝尔物理学奖授予AI学者被视为基础科学进入停滞期的标志[12] - 信息技术应用应超越单纯替代人类劳动，聚焦拓展人类活动深度与广度[19][21] 历史发展规律 - 现代科学经过400年发展已遇到"止境"，进入"后科学"时代面临理论突破瓶颈[24] - 传统工匠技艺发展缓慢且不可预测，现代信息工匠技艺可能更灵活但同样受限[22] - 制造具有人类意识的机器在可预见未来仍不可实现，因缺乏相关科学理论支持[23]

通用人工智能

具身人工智能

视频生成模型Sora

通用人工智能

具身人工智能

视频生成模型Sora

硬蛋创新(00400)：以边缘AI算力“Nvidia Jetson”为基石，赋能人形机器人赛道

智通财经网· 2025-07-28 11:55

Nvidia与硬蛋创新的合作 - Nvidia与硬蛋创新下属核心平台科通技术联合举办《物理AI和NVIDIA机器人技术在线研讨会》，特邀Nvidia资深解决方案架构师和科通技术现场应用工程师做专业分享 [1] - 研讨会深度解析人形机器人在"训练、仿真优化、部署"全链路中涉及的软硬件一体化解决方案，并推介即将于8月份上市销售的Jetson Thor平台 [1] - Nvidia构建"DGX+Jetson+Omniverse"三大计算平台，重新定义具身机器人公司从训练到仿真优化、再到端侧部署时所需要的全套协同解决方案 [1] - Jetson是人形机器人的算力引擎和基石，置于边缘侧（即人形机器人体内） [1] - Nvidia Jetson是适用于机器人和嵌入式边缘AI应用的先进平台，其硬件通过专为机器人、计算机视觉和自主系统设计的高性能节能模块为边缘AI提供动力支持 [1] 人形机器人行业前景 - 人形机器人是具身人工智能向物理人工智能突破的核心硬件节点 [2] - 2025年被视为具身智能机器人量产元年 [2] - 据IDC预测，到2028年全球用户在机器人领域的支出将接近3,700亿美元，复合增长率为13.2%，中国市场占比近半 [2] - 以智元机器人（Agibot）、宇树科技（Unitree）、傅利叶智能（Fourier）等为代表的中国明星企业推动着该领域的跨越式发展 [2] 硬蛋创新的业务布局 - 硬蛋创新是AI算力供应链核心供应商及应用技术方案服务商，覆盖"AI基础设施+AI智能终端"领域 [2] - 代理覆盖Nvidia、Xilinx、Intel、AMD、Microsoft等国际知名原厂以及众多国内知名芯片原厂 [2] - Nvidia Jetson已成为硬蛋创新核心代理线，并持续展现强劲增长势头 [2] - 硬蛋创新以Jetson系列产品为基石，向边缘AI领域（特别是人形机器人赛道）输出机器人产业应用技术解决方案 [2] 硬蛋创新的未来展望 - 硬蛋创新的经营业绩将受益于Nvidia Jetson产品家族在边缘AI领域的"产品+技术+生态"领导力 [3] - 有利于公司继续巩固自身在AI算力供应链中的核心地位 [3] - 支撑国内具身智能机器人赛道玩家参与全球科技竞赛 [3]

人形机器人

具身人工智能

人形机器人

具身人工智能

VLN-PE：一个具备物理真实性的VLN平台，同时支持人形、四足和轮式机器人（ICCV'25）

具身智能之心· 2025-07-21 08:42

视觉-语言导航平台VLN-PE的核心创新 - 推出首个支持人形、四足和轮式机器人的物理真实VLN平台VLN-PE，基于GRUTopia构建，可无缝集成MP3D之外的新场景[3][10] - 平台采用基于RL的控制器API，支持Unitree H1人形机器人、Aliengo四足机器人和Jetbot轮式机器人的物理仿真[13] - 引入90个MP3D场景并手动修复地面间隙，新增10个GRScenes合成家庭场景和3D高斯溅射扫描场景以增强环境多样性[14] 跨具身导航的关键发现 - 现有VLN-CE模型迁移到物理环境时成功率下降34%，暴露伪运动训练与物理部署的差距[15] - 模型性能因机器人类型差异显著，人形机器人表现最佳而四足机器人最差（相机高度0.5米时几乎失效）[36][37] - 联合训练三种机器人数据的模型实现最佳性能，验证跨具身训练的"一劳永逸"潜力[37][39] 多模态与光照条件影响 - 仅依赖RGB的NaVid模型在低光照下成功率下降12.47%，而RGB+深度模型的CMA和RDP表现更稳定[38] - 相机光源(CL)条件下模型性能普遍低于圆盘光(DL)，反光问题导致导航误差增加[38] - 深度信息融合使CMA模型在DL300光照条件下保持85%的基础性能，显著优于纯RGB模型[38] 模型性能对比 - 70亿参数的NaVid模型零样本迁移表现最佳，但存在70%任务片段中过度旋转的问题[29][30] - 扩散模型RDP在3DGS-Lab-VLN数据集上达到30.63%成功率，较NaVid的5.81%提升5倍[31] - 基于地图的VLMaps方法在未见验证集取得20%成功率，证明非端到端方案的可行性[27][24] 数据收集与训练策略 - 使用物理控制器收集的训练数据使模型跌倒率降低8.36%，卡住率减少2.01%[33][34] - 在VLN-PE域内数据微调的Seq2Seq模型性能超越Habitat增强训练的模型，显示仿真过拟合风险[29] - 3DGS场景微调的600万参数小型模型超越NaVid，验证多样化训练分布的价值[30]

视觉-语言导航（VLN）

具身人工智能

跨具身训练

多模态融合

视觉-语言导航（VLN）

具身人工智能

跨具身训练

多模态融合

港大强化学习驱动连续环境具身导航方法：VLN-R1

具身智能之心· 2025-07-04 09:48

研究背景 - 视觉语言导航(VLN)是具身人工智能的核心挑战，要求智能体理解自然语言指令并在三维环境中导航，需要实时决策能力以适应变化的环境 [5] - 现有方法通常依赖离散拓扑图进行路径规划，限制了智能体在未见或连续环境中的泛化能力，且需要额外传感器信息如深度图和导航图 [5] - 部分方法使用大型语言模型(LLM)但仍受限于预定义导航图，无法实现真正的具身导航 [6] VLN-R1框架创新 - 提出VLN-R1框架利用大型视觉语言模型(LVLM)处理第一视角视频流，实现连续环境中的视觉语言导航，相比基于离散导航图的方法更接近真实世界场景 [5] - 构建VLN-Ego数据集基于Habitat模拟器生成，包含第一视角视频流及对应未来动作预测，为LVLM训练提供丰富视觉和语言信息 [5] - 采用两阶段训练方法：先通过监督微调(SFT)使模型动作序列预测与专家演示对齐，再利用强化微调(RFT)进一步优化模型 [5] 数据集构建 - 数据来源于Habitat模拟器中的Matterport3D场景(90个场景分训练/验证/测试集) [6] - 每条样本包含三部分：自然语言导航指令、历史帧(Long-Short Memory采样)+当前帧、未来6步动作序列 [6] - 采用长短期记忆采样策略平衡近期细节与长期上下文，短期部分高密度采样，长期部分低密度采样 [6] 训练方法 - 监督微调将导航任务形式化为序列预测问题，使用交叉熵损失对预测动作编号与描述进行监督训练 [8] - 强化学习微调引入GRPO策略优化通过相对奖励对生成结果排序，提升高质量策略 [9] - 设计TDR机制在奖励函数中优先强化前期正确决策，提升整体导航成功率 [9] 实验结果 - R2R任务中VLN-R1在无深度图、地图等条件下实现SR=30.2(7B模型)，显著超过传统模型 [11] - RxR任务中仅使用10K样本RFT即优于完全监督模型，体现强跨域适应能力 [12] - 2B模型经RFT后可达7B模型的SFT性能，说明RFT能有效提升小模型性能 [12] 消融实验 - 预测未来6个动作的设置能取得最佳性能，仅预测单个动作会导致性能显著下降 [14] - 长短期记忆采样策略在帧选择方面表现最佳，能有效平衡当前观察与历史上下文 [16] - RFT阶段8次生成能使模型达到收敛，TDR机制在奖励函数中表现最为有效 [16] 未来方向 - 需验证VLN-R1在现实世界中的泛化能力 [16] - 可探索在更复杂现实环境中评估及扩展动作空间实现更精细导航控制 [16] - 可研究将该方法应用于其他具身AI任务如具身问答(EQA)等 [16]

视觉语言导航

具身人工智能

VLN-Ego数据集

视觉语言导航

具身人工智能

VLN-Ego数据集

“未来文旅2.0”拥抱AI点亮经济“夜动力” 撬动“八小时外”消费新活力

央视网· 2025-06-29 03:21

杭州奇妙夜活动 - 2025年杭州奇妙夜活动聚焦科技与文旅融合创新重点打造"未来文旅2 0"体验场景这是该活动举办的第6年 [1] - 活动设置裸眼3D区无需佩戴设备即可体验钱江潮涌的立体视觉效果 [4][6] - 推出"时空对话舱"功能游客可与苏东坡数字人互动并通过AI大模型获取西湖景点深度游玩建议 [9] - 现场展示格斗机器人等2025年杭州最新科技产品增强市民互动体验 [10][12] - 光影艺术汇运用数字技术将游客身影转化为水墨动画打造沉浸式江南意境体验 [14] 科技旅游发展 - 杭州市文旅部门发布"杭州科技旅游十景名单" 涵盖科技企业街区创意小镇等新型夜游地标 [18] - 钱江新城通过建筑灯光秀和IMAX巨幕展示成为城市夜间旅游核心区域 [4][16] - 科技元素融入传统景点如西湖夜游可同步体验科技夜市形成"历史+未来"的复合旅游模式 [18] 机器人足球赛事 - 国内首场机器人足球3V3 AI赛总决赛6月28日在北京亦庄举行采用14米×9米专用小型场地比赛时长20分钟 [20][22] - 赛事完全由AI自主决策无人工手柄操控保留基础足球规则但对机器人碰撞包容度更高 [24] - 4支参赛队伍使用同款机器人比拼重点在于各团队开发的AI算法优劣体现具身智能技术水平 [25][27] - 机器人具备跌倒自主爬起功能支持"一键重启"快速恢复比赛单块电池可完成全场赛事 [28][30] - 赛事推动AI开发从模拟环境转向实体机器人测试加速具身智能应用生态构建 [33]

具身人工智能

机器人赛事

格斗机器人

具身人工智能

机器人赛事

格斗机器人

机器人视觉语言导航进入R1时代！港大联合上海AI Lab提出全新具身智能框架

量子位· 2025-06-25 00:33

技术突破 - VLN-R1实现了将自然语言指令直接转化为第一人称视角下的连续导航动作，无需依赖离散地图，能在复杂环境中灵活感知、决策与行动，实现类人级别的具身智能导航[1] - 该技术打破了"视觉输入→文本描述→离散决策"的传统链条，直接让LVLM以第一人称视频流为"眼睛"，输出连续导航动作（前进、左转、右转、停止）[5] - 在VLN-CE基准测试中，仅用20亿参数模型就超越了70亿参数模型的SFT结果，在长距离导航中仅用1万RxR样本进行RFT就超过了使用完整RxR数据训练的模型[2] 技术创新 - 采用两阶段训练框架：先通过监督微调学习正确动作序列的文本表达，再通过强化微调引入奖励机制优化决策[7] - 提出分组对比优化(GRPO)方法，通过比较多个动作方案的相对优劣来学习最优路径，不需要提前设定固定奖励规则[7] - 引入时间衰减奖励(TDR)机制，对近期动作赋予更高权重，让模型优先确保眼前动作的精准执行[8][9] 数据集与训练 - 构建了全新的VLN-Ego数据集，包含63万R2R和120万RxR训练样本，完全基于第一人称视角，摒弃全局地图等"作弊"信息[12] - 提出长短时记忆采样策略，平衡近期信息与长期记忆，确保Agent在复杂环境中既不迷失方向又能对突发情况做出反应[14] 性能表现 - 2B模型通过RFT优化后性能直逼7B模型，为资源受限场景(如家用机器人)的落地提供了可能[15] - 展现出极强的数据效率，在跨域迁移任务中仅用少量样本就超越了完整数据集训练的效果[2] 应用前景 - 该框架正在促进AI从"数字智能"向"具身认知"跨越，可应用于工厂物流机器人和家庭服务助手等领域[16] - 研究证明LVLM完全有能力成为"感知-决策-行动"闭环的控制中枢，为具身智能发展提供了新思路[16]

视觉语言导航（VLN）

具身人工智能

具身智能导航

Qwen2 - VL - 2B模型

VLN - Ego数据集

视觉语言导航（VLN）

具身人工智能

具身智能导航

Qwen2 - VL - 2B模型

VLN - Ego数据集

博原资本携手银河通用成立“博银合创”，加速具身人工智能赋能工业自动化

投中网· 2025-06-18 02:21

合作成立新公司 - 博原资本与银河通用共同成立合资公司"博银合创"，专注于复杂装配、智能质检等核心制造场景，研发灵巧型机器人，推进具身人工智能在工业端的规模化落地 [1] - 三方签署战略合作备忘录，未来将通过博银合创在具身智能机器人领域开展联合研发和商业化探索，逐步推动其融资拓展与全球布局 [1] - 该合作是具身人工智能技术从技术验证走向产业落地的重要里程碑 [1] 行业前景与技术趋势 - 据IFR预测，2025年全球工业机器人市场将突破800亿美元，具身智能驱动的协作型机器人有望占据超过一半份额 [5] - 具身人工智能融合感知、认知与动作能力，使机器人能够在动态复杂环境中实现自主决策和精准执行，正在成为推动制造业柔性化、智能化的关键技术引擎 [5] - 智能制造正从"流程驱动"迈向"认知驱动"的关键转折点 [12] 博银合创定位与规划 - 公司专注于高复杂度制造工序，聚焦复杂零部件处理、精密装配、柔性质检等传统自动化难以覆盖的关键环节，研发灵巧机械手、单臂机器人等柔性、高精度解决方案 [9] - 将引入银河通用自研的仿真训练与合成数据技术管线，构建标准化、模块化、可复制的训练与部署体系 [9] - 旨在构建从早期孵化、独立融资到商业化拓展的完整成长路径，打造具备全球视野和商业穿透力的智能制造企业 [9] 技术能力与商业化路径 - 银河通用自研全球领先的端到端具身大模型体系，具备感知到执行的完整链路能力 [12] - 积累了丰富的产品工程与真实场景落地经验，能将先进算法转化为可部署、可规模复制的实际解决方案 [12] - 博原启世将协助构建从技术孵化到产品落地的全流程支持体系，推动公司前沿技术从实验室走向产业实践 [14] 产业合作与全球布局 - 已与联合汽车电子有限公司(UAES)签署战略合作备忘录，共同设立具身智能机器人联合实验室"RoboFab" [19] - 博世集团开放式创新平台OpenBosch将成为博原启世全球协作体系的关键一环，深度参与其"合作孵化"模式 [20] - 未来将推动具身机器人在欧美、东南亚等重点制造市场的本地化部署，探索"全球设计、本地制造"的智能制造新范式 [22]

具身人工智能

灵巧型机器人

灵巧机械手

单臂机器人

具身人工智能

灵巧型机器人

灵巧机械手

单臂机器人

博原资本设立全资控股平台「博原启世」：已携手银河通用成立「博银合创」

IPO早知道· 2025-06-18 01:26

博原资本与银河通用成立合资公司 - 博原资本与银河通用共同成立合资公司"博银合创"，专注于复杂装配、智能质检等核心制造场景，研发灵巧型机器人 [2] - 新公司将推进具身人工智能在工业端的规模化落地，并逐步推动融资拓展与全球布局 [2] - 博世中国、博原资本与银河通用签署战略合作备忘录，未来将在具身智能机器人领域开展联合研发和商业化探索 [2] 具身人工智能行业前景 - 国际机器人联合会预测2025年全球工业机器人市场将突破800亿美元，具身智能驱动的协作型机器人有望占据超过一半份额 [4] - 具身人工智能融合感知、认知与动作能力，正在成为推动制造业柔性化、智能化的关键技术引擎 [4] - 行业正处于从"流程驱动"迈向"认知驱动"的关键转折点，具身人工智能技术从技术验证走向产业落地 [11] 博银合创业务定位 - 专注于高复杂度制造工序，聚焦复杂零部件处理、精密装配、柔性质检等传统自动化难以覆盖的关键环节 [8] - 研发灵巧机械手、单臂机器人等柔性、高精度解决方案 [8] - 引入银河通用自研的仿真训练与合成数据技术管线，构建标准化、模块化、可复制的训练与部署体系 [8] 博原启世平台战略 - 博原资本设立全资控股平台"博原启世"，专注于具身人工智能领域的战略孵化与生态重构 [12] - 以"合作孵化"为核心路径，联合人工智能技术企业共同设立创业型公司 [12] - 博世集团开放式创新平台OpenBosch将成为博原启世全球协作体系的关键一环 [21] 联合实验室与产业合作 - 博银合创与联合汽车电子有限公司(UAES)设立具身智能机器人联合实验室"RoboFab" [19] - 实验室将聚焦具身人工智能在典型制造环节的试点应用，打通从算法模型到生产系统的全流程闭环 [19] - 未来将推动具身机器人在欧美、东南亚等重点制造市场的本地化部署，探索"全球设计、本地制造"新范式 [23]

具身人工智能

灵巧机械手

单臂机器人

具身人工智能

灵巧机械手

单臂机器人

17视触觉传感器+70%表面触觉覆盖！北大×北通院《自然·机器智能》发表F-TAC Hand，提供全新灵巧手思路！

机器人大讲堂· 2025-06-15 04:41

核心观点 - 灵巧机械手的高精度控制是机器智能和具身人工智能领域的标志性挑战触觉感知在机器人精准抓取与操作中具有不可替代的作用 [1] - F-TAC Hand通过仿生学原理在硬件架构和控制算法两个维度实现重大突破开辟了触觉具身智能研究新路径 [2][3] - F-TAC Hand在动态现实条件下展现出强大的适应性抓取能力 600次多物体抓取实验验证其显著优于传统非触觉方案 [5] - 该研究成果发表在《自然·机器智能》期刊为开发超越纯计算范式的具身人工智能系统指明了方向 [6][9] 硬件创新 - F-TAC Hand集成17个空间分辨率达0.1毫米的高分辨率触觉传感器覆盖手部70%表面区域实现接近生物触觉的感知能力 [3][12] - 模块化视触觉传感器以每平方厘米10,000像素的密度部署最小传感器尺寸仅20mm*20mm 灵敏度达0.48 kPa⁻¹ [12][14] - 采用绳驱方式通过五根精密排布的驱动腱绳模拟人类肌腱分布实现15个自由度单指10N握力输出和完整拇指对掌功能 [22] 算法突破 - 开发了能够高效处理高维触觉数据的类人手型生成算法构建完整的闭环触觉控制系统 [3] - 采用基于物理的图像形成模型生成训练数据通过编码器-解码器神经网络实现接触几何重建 [24] - 提出面向仿人多样化抓取的算法通过改进的MALA算法进行高效搜索在23个不同形状和尺寸对象测试集上验证有效性 [25][27] 性能验证 - 完成Kapandji测试中拇指与其余手指间全部10个特定接触点精准执行33种典型人类抓握类型 [33][35] - 在多物体转运任务中能在约100毫秒内快速反应和切换抓取策略 600次真实世界抓取任务验证其适应性 [36][42] - 当部分手指受损时通过重新生成健康手指的抓取策略仍能实现对物体的稳定抓取 [34][38] 应用前景 - 在假肢研发遥操作系统协作机器人以及人机交互等领域展现出广阔应用前景 [39] - 突破传统机器手在高运动自由度高覆盖率触觉感知和高分辨率之间难以兼顾的技术瓶颈 [39] - 为探索复杂触觉具身智能开辟新道路为具身智能系统发展提供现实可行的研究蓝图 [45]

具身人工智能

具身人工智能