Workflow
特斯拉FSD V14
icon
搜索文档
开源+生态协同 商汤的大晓机器人攻坚具身智能痛点
21世纪经济报道· 2025-12-18 13:08
商汤科技旗下的大晓机器人在2025年末亮相,还不算太晚。与宇树机器人、智元机器人等同行不同的是,它显然更关注生态, 并积极寻求AI产业链的合作。 "我们还是要回归真正的痛点,以人为中心,输出适配真实场景需求的软硬一体产品。"12月18日,在大晓机器人发布会现场, 商汤科技联合创始人、执行董事、大晓机器人董事长王晓刚透露,将通过ACE具身研发范式、开悟世界模型及具身超级大脑等 突破性成果,推动具身智能实现规模化商业落地。 一直以来,数据都是AI进化的核心支撑。以AI 2.0大语言模型时代为例,数据规模实现了指数级跃升,以Common Crawl为代表 的互联网文本数据集,让单人全职进行原创撰写需超过12万年才能完成。 因此,在迈入具身智能时代后,行业面临数据量级的断崖式缺口。即便是特斯拉FSD V14 在世界模型仿真器的加持下,每日训 练量相当于人类驾驶员400万小时,约等于500年的驾驶经验。而当前具身智能领域的真机数据量级仅为10万小时,这一悬殊差 距清晰表明,具身智能的研发无法延续传统研发路径,必须实现范式上的根本性革新,才能突破发展瓶颈。 王晓刚解释称,"以机器为中心"的研发范式,本质上是用极高的资源消 ...
李想: 特斯拉V14也用了VLA相同技术|25年10月18日B站图文版压缩版
理想TOP2· 2025-10-18 16:03
OpenAI人工智能五阶段定义 - 聊天机器人阶段的核心是基座模型,功能为压缩人类已知数字知识,类比人类从小学到大学的教育过程[13][14] - 推理者阶段具备思维链和连续性任务能力,依赖SFT和RLHF训练,类比人类读研或师傅带教的经验传授[15][16] - 智能体阶段AI开始实际工作并使用工具完成长任务,对专业性和可靠性要求极高,需达到80-90分合格标准[17][18] - 创新者阶段通过出题解题进行强化训练,需要世界模型和RLAIF模拟真实环境,类比职业选手上万小时实战训练[19][20] - 组织者阶段负责管理大量智能体和创新者,防止失控风险,类比企业管理者职能[21] 人工智能发展路径与算力需求 - 预训练基座模型不需要每家企业自研,类比不需要每家企业都开办大学[5][21] - 智能体阶段需要推理能力,机器人设备需要端侧推理,世界模型阶段需要海量云端推理建立数字孪生[6][22] - 未来5年推理算力需求可能扩大100倍,训练算力需求扩大10倍,端侧和云端算力需求都将显著增长[7][23] 理想汽车AI技术布局 - 公司自研技术包括推理模型(MindVLA/MindGPT)、智能体(司机Agent/理想同学Agent)和世界模型[8][24] - 2026年将为自动驾驶配备自研端侧芯片,实现车与AI深度融合[9][26] - V14证明特斯拉使用VLA相同技术,具备空间完整理解能力和长任务多任务处理能力[39] 机器人发展路径 - 机器人发展存在两条路径:将现有工具改造为机器人,或开发人形机器人操作万物[27][28] - 工具改造路径效率更高,如将炒菜工具直接机器人化而非使用人形机器人炒菜[27][28] 人类与AI的协同发展 - 训练目的为提高成功率,可参考一万小时训练理论,核心训练信息处理能力、出题解题能力和资源分配能力[9][32] - 人类需在AI遵循最佳实践训练背景下,要么理解并管理AI,要么与AI协同工作,否则面临被替代风险[30][37] - 信息处理能力训练重点在于识别关键信息并过滤无效信息,不同专业领域信息处理方式各异[33] - 资源分配能力训练关键在于有限资源的高效分配,人类大脑通过高效资源分配实现低功耗高效益[35][36] AI工具应用偏好 - 公司偏好使用Grok的对话方式,因其回答简单干脆,相较国内模型更直接利索[41] - 支持上班族使用AI撰写汇报,认为使用先进工具是人类与其他生物的最大区别[42]
揭秘特斯拉FSD V14 “车位到车位”核心算法:高保真3D Occ占用预测
自动驾驶之心· 2025-10-11 16:03
核心技术:高保真3D空间占用算法概述与优势 - 该算法仅利用视觉和AI技术,通过2D图像数据高精度重建车辆或机器人周围3D空间结构,感知精度达10厘米[5][11] - 核心算法包括占用网格算法,用于预测周围空间体素的占有率属性[5] - 算法支持高保真环境渲染,并利用符号距离函数实现更精细的形状细化和空间感知[7] - 关键创新在于仅依赖摄像头2D视觉,无需深度摄像头、激光雷达等专用深度传感技术即可运行[11] 技术实现:算法解析 - 基础流程为经典占用算法,从多摄像头图像输入中生成可查询的3D占有率输出[12] - 处理流程包括图像特征提取、空间注意力与3D转换、时间对齐融合、反卷积与体积输出等步骤[12] - 生成的可查询数据集允许下游模块通过坐标值检索特定体素占有率状态[13] - 表面属性分析方法可预测环境表面属性,生成网格表示并进行坐标校准[15] - 体积输出内容包括体素二进制占有率、占有率流数据和3D语义数据,默认体素尺寸为33厘米,可动态调整至10厘米[16] 符号距离函数技术 - 引入符号距离函数技术提高对周围物体形状和距离的感知精度,对辅助泊车等精细操作至关重要[18] - SDF值指示被占据体素与最近物体表面之间的距离,比传统占用算法更精准预测碰撞距离[18] - AI模型通过包含摄像头图像和地面真值深度图的大型数据集进行端到端训练,学习推断符号距离值[20] - 基于SDF的渲染比传统点云或二进制体素占有率渲染细节更丰富,视觉更连贯平滑[21] 应用场景:辅助泊车 - 高保真占用网络可用于停车场等近场辅助泊车应用,实现先进泊车功能[23][24] - 泊车流程包括确定泊车资格区域、空间重建与SDF预测、识别泊车位、评分选择及用户交互导航[24][25] - 泊车位识别不仅基于空间占据情况,还综合考量地面油漆线、交通标志和路缘颜色等因素[24] - 系统为识别出的泊车位生成适用性评分,基于距离和路径属性等因素进行选择[25] 应用扩展:机器人领域 - 相同方法适用于自主机器人在室内环境中的导航和定位[29] - 机器人可利用摄像头捕获环境图像,通过AI模型预测体素占有率和SDF,区分障碍物和可导航区域[29] - 模型可识别指定对接区域或充电站,评估距离和空间限制,实现自主移动和精确对接[29]