Workflow
大语言模型
icon
搜索文档
传统SLAM的定位导航和具身目标导航有什么区别?
具身智能之心· 2025-08-29 00:03
目标驱动导航技术概述 - 具身导航的核心领域涉及语言理解、环境感知和路径规划三大技术支柱 [2] - 目标驱动导航是具身导航中最具代表性的方向 通过赋予机器人自主决策能力 [2] - 要求智能体在陌生三维环境中仅凭目标描述即可自主完成环境探索与路径规划 [2] 技术实现原理 - 系统需要实现从"听懂指令走对路"到"看懂世界自己找路"的跃迁 [2] - 需自主完成语义解析 环境建模以及动态决策 [2] - 背后凝聚计算机视觉 强化学习与3D语义理解的交叉突破 [2] 产业化应用现状 - 在终端配送场景中与社交导航算法结合 使机器人具备应对动态环境和人际交互能力 [3] - 美团无人配送车通过动态路径重规划在复杂城市环境中执行递送任务 [3] - Starship Technologies的园区配送机器人已在欧美高校和社区部署 [3] - 医疗 酒店及餐饮场景中 嘉楠科技 云迹科技 擎朗智能的商用服务机器人已实现药品 文件和餐食的自主配送 [3] - 美国Aethon公司的TUG系列有效提升服务响应效率 [3] 人形机器人适配升级 - 宇树科技Unitree系列通过Habitat预训练完成基础导航任务 [3] - 智元机器人在工业场景中集成目标驱动导航模块 [3] - 特斯拉Optimus展示"取放电池"等端到端操作能力 [3] - 搭载目标驱动导航系统的人形机器人正加速向家庭服务 护理及工业物流领域渗透 [3] 技术发展历程 - 基于Habitat仿真的具身导航生态完整记录领域技术迭代轨迹 [4] - 自2020年CVPR提出点导航基准以来 评测体系逐步扩展至图像导航 目标导航及移动抓取任务 [4] - 形成覆盖空间认知到任务执行的闭环 [4] 关键技术突破 - 视觉预训练模型提升特征泛化能力 [4] - 分布式强化学习框架使PointNav任务SPL指标显著提升 [4] - 大语言模型通过跨模态对齐解决部分开放词汇导航难题 [4] 当前技术梯度 - PointNav和闭集ObjectNav接近人类表现 [4] - 开放词汇物体导航和动态障碍物场景仍面临重大挑战 [4] - Meta AI提出的Sim2Real迁移框架为仿真训练到真实部署提供方法论参考 [4] - CMU与Stanford等机构持续推动动态环境下的语义地图更新技术 [4] 第一代端到端方法 - 基于强化学习与模仿学习框架 [5] - 设计网络结构以对齐目标描述与实时观测 [5] - 优化奖励函数与监督信号设计加速模型收敛 [5] - 增强数据多样性以提升泛化能力 [5] - 在点导航与闭集图片导航任务中取得突破性进展 [5] - 部分方法的SPL指标已逼近人类表现 [5] 第二代模块化方法 - 通过显式构建语义地图将任务分解为自主探索与目标定位两个子任务 [7] - 探索阶段依赖先验导航规则生成候选路径 [7] - 匹配阶段利用预训练视觉语言模型实现跨模态语义对齐 [7] - 在零样本目标导航任务中展现显著优势 [7] - 在未见物体场景下成功率提升明显 [7] 第三代LLM/VLM融合方法 - 引入大语言模型的知识推理能力 [9] - 在探索阶段生成语义指导的探索策略 [9] - 通过视觉语言模型的跨模态对齐能力提升开放词汇目标匹配精度 [9] - 当前研究重点在于设计场景表征接口 [9] - 将3D环境特征转化为LLM可解析的上下文格式 [9] - 在开放词汇目标导航任务中实现对未知类别的有效识别 [9]
英伟达CEO:更先进AI模型将推动芯片与数据中心持续增长
搜狐财经· 2025-08-28 06:24
公司业绩与行业地位 - 英伟达上季度营收达到467亿美元 [2] - 公司是AI行业硬件供应商 被比喻为AI淘金热中的"锄头和铲子" [2] - 生成式AI行业呈现惊人增长且没有放缓迹象 [2] AI行业前景预测 - AI基础设施支出到本十年末可能达到3万亿至4万亿美元 [2] - 未来几年乃至整个十年都将看到非常重大的增长机会 [2] - 每一代AI技术的需求只会持续增长 [4] 技术发展与计算需求 - AI推理模型采用"长思考"技术 通过多网站研究 多次尝试和整合信息来提升答案质量 [3] - 推理模型可能需要比传统大语言模型多100倍或更多的计算能力 [3] - OpenAI将推理技术直接整合到GPT-5发布中 采用路由程序分配处理模型 [3] 基础设施需求与影响 - AI数据中心占用大量土地 消耗大量水和能源 [2] - 对周围社区产生重大影响 并对美国电网造成更大压力 [2] - 智能体系统和机器人模型进一步增加了对芯片 能源和数据中心土地的需求 [3]
理想汽车自研智驾芯片M100上车路测,部分计算性能超英伟达Thor-U!1颗M100所提供有效算力可对标3颗英伟达 Thor-U
格隆汇· 2025-08-28 05:17
自研芯片进展 - 理想汽车自研智驾芯片M100于今年一季度完成样片回片 迈过量产前关键阶段 [1] - M100在两周内完成功能测试和性能测试 并通过研发人员压力测试 [1] - 芯片已小批量上样车进行道路测试 目前处于实际应用验证阶段 [1] 芯片性能表现 - 处理大语言模型计算任务时 1颗M100有效算力相当于2颗英伟达Thor-U [1] - 处理卷积神经网络视觉任务时 1颗M100有效算力可对标3颗英伟达Thor-U [1] - 芯片在特定计算任务中展现出显著性能优势 尤其在传统图像识别领域 [1]
阿里巴巴和上汽热捧!这家独角兽要IPO了!
IPO日报· 2025-08-28 02:30
公司分拆与上市计划 - 阿里巴巴集团拟分拆旗下智能座舱解决方案提供商斑马网络并在香港联交所主板独立上市 [1] - 斑马网络已向港交所提交上市申请 拟通过全球发售方式进行 联合保荐人为德意志银行、中金公司、国泰君安国际 [1] - 分拆上市有助于更好反映斑马网络价值 提高运营及财务透明度 并使其能够独立进入资本市场融资 [18] 行业前景与市场规模 - 全球智能汽车销量预计从2024年5800万辆增长至2030年8650万辆 复合年增长率6.9% [5] - 中国智能汽车中大语言模型渗透率预计从2024年10%提升至2030年40% [5] - 中国智能座舱解决方案市场规模预计从2024年1290亿元增长至2030年3274亿元 复合年增长率16.8% [5] - 基于软件的座舱解决方案市场预计从2024年401亿元增至2030年1149亿元 复合年增长率19.2% [5] - 中国车载平台服务规模预计到2030年达147亿元 2024年至2030年复合增长率64.8% [5] 公司业务与技术优势 - 主要从事智能座舱解决方案开发 提供系统级OS解决方案、AI全栈端到端解决方案和车载平台服务 [4] - 按2024年收入计算是中国最大的以软件为核心的智能座舱解决方案供应商 按解决方案搭载量计算排名第一 [11] - 中国仅有的两家完全自研汽车操作系统的第三方供应商之一 [11] - 大语言模型能力在九家中国顶级汽车AI公司中排名第一 [11] - 车载平台服务涵盖180多个品类的座舱原生应用 覆盖范围在中国所有智能座舱提供商中最广 [12] 财务与运营数据 - 2022年至2024年营业收入分别为8.05亿元、8.72亿元和8.24亿元 2024年收入略有下滑 [6] - 2025年一季度实现营业收入1.36亿元 同比下滑19.53% [6] - 2022年至2024年净亏损8.78亿元、8.76亿元、8.47亿元 亏损幅度逐年收窄 [7] - 2025年一季度净亏损15.82亿元 同比增长6.75倍 [7] - 经营活动所用现金净额持续净流出 2022年至2024年分别为-5.85亿元、-4.17亿元、-4.87亿元 2025年一季度为-1.99亿元 [8] - 2022年至2024年研发费用分别为11.11亿元、11.23亿元和9.80亿元 占营收比例超过100% [13] - 截至2025年3月31日现金及现金等价物为3.22亿元 [14] 市场地位与成长性 - 搭载量从2022年83.5万台增长至2024年233.4万台 复合年增长率67.2% [11] - 截至2025年6月30日智能座舱解决方案已在60个主机厂的逾800万辆车上搭载 覆盖超过14个国家 [11] - 最新估值达220亿元 市销率约26.7倍 显著高于德赛西威的3倍和华阳集团的3.8倍 [14] 股东背景与客户关系 - 阿里巴巴通过多家子公司拥有斑马网络已发行股本总额约44.72%份额 控制40.17%投票权 [17] - 上汽集团通过上海赛为及嘉兴瑞佳拥有约34.34%份额和37.16%投票权 [17] - 2022年至2024年来自前五大客户收入占比始终在90%左右 [17] - 最大客户上汽带来的收入累计达12.38亿元 2022年至2024年占比分别为54.7%、47.4%、38.8% [17] - 阿里巴巴是最大供应商 报告期内累计采购额达7.7亿元 采购占比超50% [17] 融资历程与估值 - 2018年完成由阿里巴巴领投的16亿元融资 投后估值突破60亿元 [12] - 完成六轮融资累计融资额超过百亿元 [12] - 2023年9月最新一轮融资投后估值达220亿元(约30亿美元) [12] - 以220亿元估值位列《2025全球独角兽榜》全球第331位 [13]
理想汽车智驾方案MindVLA方案详解
自动驾驶之心· 2025-08-27 23:33
文章核心观点 - 理想汽车推出MindVLA自动驾驶框架 通过整合空间智能模块、语言智能模块、动作策略模块和强化学习模块 构建端到端自动驾驶系统 其核心技术包括自监督3D高斯编码器预训练、定制化大语言模型设计以及基于扩散模型和人类反馈的轨迹生成方案 显著提升自动驾驶系统的空间理解能力、交互博弈能力和人类偏好对齐能力[3][5][9] 空间智能模块 - 采用3D高斯编码器处理多模态传感器数据 提取时空特征并融合语义信息形成统一表征[5] - 传统BEV方法存在高度信息压缩导致细节丢失 稀疏查询可能忽略关键环境细节 密集体素表示计算开销大[8] - GaussianAD框架用均匀高斯序列初始化3D场景 通过4D稀疏卷积实现高斯交互 支持稀疏体素特征预测和目标检测[12][20] - 高斯表示通过多视角图像优化高斯参数 生成稀疏3D语义高斯集合 每个单元描述局部几何和语义属性 减少冗余计算同时保留细粒度结构[16] 语言智能模块 - 嵌入式部署大语言模型MindGP 支持空间与语言联合推理 实现语音指令和反馈的人车交互功能[5] - 基于互联网多模态数据训练的通用LLM缺乏3D空间理解能力 需从零开始预训练适合自动驾驶场景的基座模型[18] - 采用稀疏化设计减少模型容量 通过MoE+SparseAttention结构平衡参数量与推理速率 实现10HZ实时推理性能[27] - 训练数据配比重构 增加3D场景数据和自动驾驶图文数据比例 降低文史类数据占比[27] 动作策略模块 - 使用扩散模型生成车辆未来行为轨迹 引入噪声引导扩散过程以产生多样化动作规划[5] - 扩散策略将action token解码为自车、他车和行人轨迹 提升复杂交通环境下的博弈能力[22] - 采用多层DIT结构 基于ODE采样器加速生成过程 在2-3步内完成稳定轨迹生成[28] - 通过人类反馈驱动的强化学习微调 对齐专业驾驶员行为 提高安全驾驶下限[28] 强化学习模块 - 使用World Model模拟外部环境响应评估行为后果 奖励模型提供偏好或安全性评估 可能采用RLHF技术[5] - 通过闭环学习根据行为轨迹进行持续优化和泛化[5] - TrajHF框架结合扩散策略生成多样化候选轨迹 通过RLHF微调对齐人类偏好 同时用行为克隆损失保留基础驾驶能力[26][28] - 偏好数据自动构建通过人类接管数据识别六类驾驶风格 关键帧标注实现大规模自动注释[33] 技术实现细节 - 感知任务采用高斯编码器块 包含自编码模块促进高斯交互、图像交叉关注模块聚合视觉信息、细化模块微调高斯属性[17] - 预测与规划端到端训练 结合未来高斯流和占用情况优化轨迹 最小化碰撞风险与轨迹偏差[20] - 支持多任务监督包括3D检测、语义地图、运动预测和占用预测 通过损失函数联合优化[20] - 推理系统采用双模式:CoT生成加速使用小词表+投机推理 action token生成采用并行解码方式[27]
【私募调研记录】睿郡资产调研盈康生命、海通发展等3只个股(附名单)
证券之星· 2025-08-27 00:07
盈康生命调研要点 - 公司参与投资设立天津天开优达海河佰盈股权投资基金合伙企业[1] - 盈康一生旗下AI平台盈康大脑及数智化产品接入DeepSeek-R1大语言模型[1] - 结合AI诊断技术升级高端三维数字乳腺机图像处理技术并通过AI图像智能分析[1] 海通发展经营与财务表现 - 2025年上半年实现营收18亿元同比增长6.74%但归母净利润下滑64%至0.87亿元主要受市场运价下降及修船影响[1] - 有息负债12.21亿元有息负债率19.59%未来财务费用随业务增长温和上涨[1] - 当前阶段更多留存收益投入运力扩张未来提高现金分红比例[1] 海通发展战略与市场展望 - 计划到2028-2029年自有运力达100艘每年新增约15艘涵盖多种船型[1] - 对下半年及未来几年干散货市场保持乐观供需两端有利因素支持[1] - 公司看好重吊船市场需求提升运输货种多样性及竞争力[1] 五矿新能经营与技术进展 - 二季度盈利主要因市场商务环境改善及产品产能利用率提升[2] - 除部分特殊型号产品前驱体外购外其余前驱体均由子公司生产供应[2] - 与中科大马教授团队合作研发高镍材料与卤化物电池匹配的固态电池技术[2] 五矿新能产品与资本管理 - 磷酸铁锂产品以动力电池领域为主要应用方向并在储能领域开展技术布局[2] - 可转债转股事宜董事会将根据实际情况决策目前公司偿债能力良好[2]
理想汽车MoE+Sparse Attention高效结构解析
自动驾驶之心· 2025-08-26 23:32
理想汽车智驾技术架构 - 公司采用"MoE + Sparse Attention"高效结构解决大模型部署时的推理效率问题,通过混合专家架构实现模型容量扩容而不显著增加推理负担[3] - MindGPT大语言模型经过重新设计与预训练,具备3D空间理解和推理能力,但参数量增加导致端侧部署可能出现效率低下问题[3] - 该技术方案针对英伟达Thor-U智驾芯片优化,确保在车载计算平台上的实际应用性能[3] 稀疏注意力机制技术细节 - 采用局部窗口(Local Attention)与跳跃连接(Strided Attention)组合结构,每个token关注附近窗口内token(如前后2个位置)以及步长为s的远端token[9][10] - 注意力矩阵呈现对角线局部连接与分布条纹状跳跃连接相结合的模式,保证token能快速传播到远端同时保留局部建模能力[10][15][16] - 通过构建稀疏注意力mask实现计算优化,在不修改Transformer主体结构前提下限制注意力机制复杂度,仅关注关键输入部分[6][12][14] 混合专家架构实现方案 - 使用8个专家网络(E1-E8),由Router动态选择激活部分专家而非全部,仅在需要时调用相关子模型[6][22] - 采用Top-k路由策略(通常k=2),通过Gate模块计算输入样本对各个专家的偏好程度并选择最优专家[24][32] - 支持分布式部署模式,通过all_to_all通信机制实现跨GPU的专家网络数据交换与负载均衡[34][37] 计算复杂度优化 - 稀疏注意力机制显著降低计算复杂度,相比标准全连接Self-Attention大幅减少计算量[17] - MoE架构通过激活部分专家网络实现计算资源动态分配,在不增加推理成本前提下扩大模型容量[22][25] - 采用专家并行(Expert Parallelism)技术,支持多GPU分布式训练与推理,提升系统整体效率[28][31]
英伟达再出手!新型混合架构模型问世,两大创新实现53.6倍吞吐提速
机器之心· 2025-08-26 09:38
模型架构创新 - 英伟达提出新型混合架构语言模型Jet-Nemotron系列,在达到全注意力模型SOTA精度的同时实现卓越效率 [2][4] - 2B版本模型性能超越Qwen3、Qwen2.5、Gemma3和Llama3.2等开源全注意力模型 [2][8] - 在H100 GPU上实现256K上下文长度下最高53.6倍生成吞吐量加速 [2][8] 技术突破 - 采用后神经架构搜索(PostNAS)技术,可在预训练Transformer模型中灵活尝试不同注意力模块设计,大幅降低开发成本和风险 [6][12] - 提出新型线性注意力模块JetBlock,结合动态卷积与硬件感知架构搜索,精度显著优于Mamba2等现有设计 [6][20][21] - PostNAS通过束搜索确定全注意力层最优位置,在MMLU基准上精度显著优于均匀放置策略 [15][16] 性能表现 - Jet-Nemotron-2B在MMLU-Pro准确率达39.0%,高于Qwen3-1.7B-Base的37.8% [5][24] - 在64K上下文长度下,H100 GPU生成吞吐量达2,885 token/s,是Qwen3-1.7B-Base(61 token/s)的47倍 [5][24] - 4B版本在GSM8K数学基准达78.7%准确率,显著超越Qwen3-1.7B-Base的62.8% [24] 效率优势 - KV缓存大小仅154MB(64K上下文),远低于Qwen3-1.7B-Base的7,168MB [24] - 硬件感知搜索实现参数量1.62B-1.98B范围内保持154MB缓存大小,吞吐量稳定在2,952-2,986 token/s [19] - 在保持相似生成吞吐量前提下,更高参数模型可获得更高精度(检索准确率67.6%-70.1%,数学准确率31.3%-34.8%) [19] 基准测试结果 - 通用知识测试:MMLU达60.8%(2B)/65.2%(4B),超越Qwen3-1.7B-Base的60.3% [24] - 数学能力:GSM8K达76.2%(2B)/78.7%(4B),显著领先同类模型 [24] - 代码生成:EvalPlus基准达60.8%(2B)/65.6%(4B),优于多数对比模型 [24]
公司问答丨云天励飞:公司开发了自研AI驱动产品噜咔博士AI毛绒玩具 预计将于2025年第三季度推出
格隆汇APP· 2025-08-26 09:35
公司产品与技术 - 公司依托大模型IFMind和自主研发的嵌入式声纹模型开发了自研AI驱动产品噜咔博士AI毛绒玩具 该产品是一款数码赋能儿童陪伴产品 [1] - 产品通过多模态视觉识别技术模拟真实喂养场景 旨在培养儿童责任感 [1] - 公司未来将持续利用IFMind大模型推理能力改进消费电子产品与AI耳机 AI手表等可穿戴设备作为AI赋能产品 [1] 产品上市计划 - 噜咔博士AI毛绒玩具预计将于2025年第三季度推出 [1] - 目前该AI毛绒玩具产品正在积极推进中 做上市前的准备工作 [1] 行业市场动态 - AI玩具是融合大语言模型技术的新一代玩具 今年以来AI玩具市场火热 销量大幅度上涨 [1] - 据《央视财经》报道 AI玩具销量暴增600% 市场被描述为又一千亿级大市场 [1]
ChatGPT到底学了多少「污言秽语」?清华团队首提大语言模型中文语料污染治理技术
机器之心· 2025-08-25 23:38
中文词表污染问题研究 - 清华大学、南洋理工大学和蚂蚁集团的研究团队发现GPT-4o/o1/o3/4.5/4.1/o4-mini的中文词表污染率高达46.6%,包含大量色情和赌博相关词元如「波*野结衣」和「大发时时彩」[3][6] - 研究团队对OpenAI近期发布的GPT-5和GPT-oss的词表进行分析,发现其中文token没有变化[4] - 中文污染词定义为存在于LLM词表中、从主流中文语言学角度编译不合法、不常见、不常用内容的中文词(多于2个字)[12] 污染词分类与危害 - 中文污染词分为五类:成人内容(如「波*野结衣」)、在线赌博(如「大发彩票网」)、在线游戏(如「传奇私服」)、在线视频(如「在线观看」)和奇怪内容(如「给主人留下些什么吧」)[13][14] - 专家标注团队对ChatGPT模型的中文长词(1659个)进行标注,发现污染词有773个(46.6%),其中成人内容污染词最多(219个,13.2%)[13] - 输入中文污染词会显著降低ChatGPT的回答质量,在解释和重复任务上有约50%的性能损失(例如GPT-4o在解释任务上性能下降44.3%,在重复任务上下降41.8%)[17][18] 污染检测与自动化识别 - 研究团队微调GLM-4-32B构建自动化中文污染词识别模型,通过设计网络检索机制(返回10条Google检索信息)达到97.3%的识别正确率[23] - 识别模型对23个主流LLM的9个词表进行检测,发现中文污染词普遍存在,其中成人内容、在线赌博和奇怪内容占大多数[23] - 上一代ChatGPT模型(GPT-4/4-turbo/3.5)包含很少表征多个中文字的token,但不包括中文污染词[24] 污染追踪与数据治理 - 研究团队通过LLM词表反向估计训练数据污染情况,结合Zipf分布和上下确界理论拟合词ID-词频的经验估计,为海量数据治理提供轻量化方案[29][30][31] - 估计结果显示「波*野结衣」相关页面在GPT-4o中文训练语料占比高达0.5%,是中文常用词「您好」的2.6倍[35] - 在无污染开源数据集上按0.5%比例混合「波*野结衣」相关页面,能准确复现4个相关词在GPT-4o词表中的词ID[35][40] 污染数据的潜在价值 - 哈佛大学ICML 2025文章指出预训练中适量的污染数据可作为对齐模型的催化剂,当有害数据适量时(10%),有害表征更容易被区分[37][39] - 实验显示按0-25%不同有害数据比例预训练Olmo-1B模型,适量(10%)有害数据预训练的模型在应用抑制方法后有害性最低,甚至低于不包含有害数据的预训练模型[39] 研究影响与应用 - 研究团队于2025年5月29日在清华大学基础模型学术年会上首次分享,并提出针对10T级大语言模型训练语料库的污染数据治理技术[8] - 央视于2025年8月17日新闻中指出AI数据被污染存在风险[9] - 该研究为LLM海量训练语料治理提供轻量化解决方案,项目网站为https://pollutedtokens.site/[6][7][41]