Workflow
大语言模型
icon
搜索文档
理想汽车自研智驾芯片M100上车路测,部分计算性能超英伟达Thor-U!1颗M100所提供有效算力可对标3颗英伟达 Thor-U
格隆汇· 2025-08-28 05:17
自研芯片进展 - 理想汽车自研智驾芯片M100于今年一季度完成样片回片 迈过量产前关键阶段 [1] - M100在两周内完成功能测试和性能测试 并通过研发人员压力测试 [1] - 芯片已小批量上样车进行道路测试 目前处于实际应用验证阶段 [1] 芯片性能表现 - 处理大语言模型计算任务时 1颗M100有效算力相当于2颗英伟达Thor-U [1] - 处理卷积神经网络视觉任务时 1颗M100有效算力可对标3颗英伟达Thor-U [1] - 芯片在特定计算任务中展现出显著性能优势 尤其在传统图像识别领域 [1]
阿里巴巴和上汽热捧!这家独角兽要IPO了!
IPO日报· 2025-08-28 02:30
公司分拆与上市计划 - 阿里巴巴集团拟分拆旗下智能座舱解决方案提供商斑马网络并在香港联交所主板独立上市 [1] - 斑马网络已向港交所提交上市申请 拟通过全球发售方式进行 联合保荐人为德意志银行、中金公司、国泰君安国际 [1] - 分拆上市有助于更好反映斑马网络价值 提高运营及财务透明度 并使其能够独立进入资本市场融资 [18] 行业前景与市场规模 - 全球智能汽车销量预计从2024年5800万辆增长至2030年8650万辆 复合年增长率6.9% [5] - 中国智能汽车中大语言模型渗透率预计从2024年10%提升至2030年40% [5] - 中国智能座舱解决方案市场规模预计从2024年1290亿元增长至2030年3274亿元 复合年增长率16.8% [5] - 基于软件的座舱解决方案市场预计从2024年401亿元增至2030年1149亿元 复合年增长率19.2% [5] - 中国车载平台服务规模预计到2030年达147亿元 2024年至2030年复合增长率64.8% [5] 公司业务与技术优势 - 主要从事智能座舱解决方案开发 提供系统级OS解决方案、AI全栈端到端解决方案和车载平台服务 [4] - 按2024年收入计算是中国最大的以软件为核心的智能座舱解决方案供应商 按解决方案搭载量计算排名第一 [11] - 中国仅有的两家完全自研汽车操作系统的第三方供应商之一 [11] - 大语言模型能力在九家中国顶级汽车AI公司中排名第一 [11] - 车载平台服务涵盖180多个品类的座舱原生应用 覆盖范围在中国所有智能座舱提供商中最广 [12] 财务与运营数据 - 2022年至2024年营业收入分别为8.05亿元、8.72亿元和8.24亿元 2024年收入略有下滑 [6] - 2025年一季度实现营业收入1.36亿元 同比下滑19.53% [6] - 2022年至2024年净亏损8.78亿元、8.76亿元、8.47亿元 亏损幅度逐年收窄 [7] - 2025年一季度净亏损15.82亿元 同比增长6.75倍 [7] - 经营活动所用现金净额持续净流出 2022年至2024年分别为-5.85亿元、-4.17亿元、-4.87亿元 2025年一季度为-1.99亿元 [8] - 2022年至2024年研发费用分别为11.11亿元、11.23亿元和9.80亿元 占营收比例超过100% [13] - 截至2025年3月31日现金及现金等价物为3.22亿元 [14] 市场地位与成长性 - 搭载量从2022年83.5万台增长至2024年233.4万台 复合年增长率67.2% [11] - 截至2025年6月30日智能座舱解决方案已在60个主机厂的逾800万辆车上搭载 覆盖超过14个国家 [11] - 最新估值达220亿元 市销率约26.7倍 显著高于德赛西威的3倍和华阳集团的3.8倍 [14] 股东背景与客户关系 - 阿里巴巴通过多家子公司拥有斑马网络已发行股本总额约44.72%份额 控制40.17%投票权 [17] - 上汽集团通过上海赛为及嘉兴瑞佳拥有约34.34%份额和37.16%投票权 [17] - 2022年至2024年来自前五大客户收入占比始终在90%左右 [17] - 最大客户上汽带来的收入累计达12.38亿元 2022年至2024年占比分别为54.7%、47.4%、38.8% [17] - 阿里巴巴是最大供应商 报告期内累计采购额达7.7亿元 采购占比超50% [17] 融资历程与估值 - 2018年完成由阿里巴巴领投的16亿元融资 投后估值突破60亿元 [12] - 完成六轮融资累计融资额超过百亿元 [12] - 2023年9月最新一轮融资投后估值达220亿元(约30亿美元) [12] - 以220亿元估值位列《2025全球独角兽榜》全球第331位 [13]
理想汽车智驾方案MindVLA方案详解
自动驾驶之心· 2025-08-27 23:33
文章核心观点 - 理想汽车推出MindVLA自动驾驶框架 通过整合空间智能模块、语言智能模块、动作策略模块和强化学习模块 构建端到端自动驾驶系统 其核心技术包括自监督3D高斯编码器预训练、定制化大语言模型设计以及基于扩散模型和人类反馈的轨迹生成方案 显著提升自动驾驶系统的空间理解能力、交互博弈能力和人类偏好对齐能力[3][5][9] 空间智能模块 - 采用3D高斯编码器处理多模态传感器数据 提取时空特征并融合语义信息形成统一表征[5] - 传统BEV方法存在高度信息压缩导致细节丢失 稀疏查询可能忽略关键环境细节 密集体素表示计算开销大[8] - GaussianAD框架用均匀高斯序列初始化3D场景 通过4D稀疏卷积实现高斯交互 支持稀疏体素特征预测和目标检测[12][20] - 高斯表示通过多视角图像优化高斯参数 生成稀疏3D语义高斯集合 每个单元描述局部几何和语义属性 减少冗余计算同时保留细粒度结构[16] 语言智能模块 - 嵌入式部署大语言模型MindGP 支持空间与语言联合推理 实现语音指令和反馈的人车交互功能[5] - 基于互联网多模态数据训练的通用LLM缺乏3D空间理解能力 需从零开始预训练适合自动驾驶场景的基座模型[18] - 采用稀疏化设计减少模型容量 通过MoE+SparseAttention结构平衡参数量与推理速率 实现10HZ实时推理性能[27] - 训练数据配比重构 增加3D场景数据和自动驾驶图文数据比例 降低文史类数据占比[27] 动作策略模块 - 使用扩散模型生成车辆未来行为轨迹 引入噪声引导扩散过程以产生多样化动作规划[5] - 扩散策略将action token解码为自车、他车和行人轨迹 提升复杂交通环境下的博弈能力[22] - 采用多层DIT结构 基于ODE采样器加速生成过程 在2-3步内完成稳定轨迹生成[28] - 通过人类反馈驱动的强化学习微调 对齐专业驾驶员行为 提高安全驾驶下限[28] 强化学习模块 - 使用World Model模拟外部环境响应评估行为后果 奖励模型提供偏好或安全性评估 可能采用RLHF技术[5] - 通过闭环学习根据行为轨迹进行持续优化和泛化[5] - TrajHF框架结合扩散策略生成多样化候选轨迹 通过RLHF微调对齐人类偏好 同时用行为克隆损失保留基础驾驶能力[26][28] - 偏好数据自动构建通过人类接管数据识别六类驾驶风格 关键帧标注实现大规模自动注释[33] 技术实现细节 - 感知任务采用高斯编码器块 包含自编码模块促进高斯交互、图像交叉关注模块聚合视觉信息、细化模块微调高斯属性[17] - 预测与规划端到端训练 结合未来高斯流和占用情况优化轨迹 最小化碰撞风险与轨迹偏差[20] - 支持多任务监督包括3D检测、语义地图、运动预测和占用预测 通过损失函数联合优化[20] - 推理系统采用双模式:CoT生成加速使用小词表+投机推理 action token生成采用并行解码方式[27]
【私募调研记录】睿郡资产调研盈康生命、海通发展等3只个股(附名单)
证券之星· 2025-08-27 00:07
盈康生命调研要点 - 公司参与投资设立天津天开优达海河佰盈股权投资基金合伙企业[1] - 盈康一生旗下AI平台盈康大脑及数智化产品接入DeepSeek-R1大语言模型[1] - 结合AI诊断技术升级高端三维数字乳腺机图像处理技术并通过AI图像智能分析[1] 海通发展经营与财务表现 - 2025年上半年实现营收18亿元同比增长6.74%但归母净利润下滑64%至0.87亿元主要受市场运价下降及修船影响[1] - 有息负债12.21亿元有息负债率19.59%未来财务费用随业务增长温和上涨[1] - 当前阶段更多留存收益投入运力扩张未来提高现金分红比例[1] 海通发展战略与市场展望 - 计划到2028-2029年自有运力达100艘每年新增约15艘涵盖多种船型[1] - 对下半年及未来几年干散货市场保持乐观供需两端有利因素支持[1] - 公司看好重吊船市场需求提升运输货种多样性及竞争力[1] 五矿新能经营与技术进展 - 二季度盈利主要因市场商务环境改善及产品产能利用率提升[2] - 除部分特殊型号产品前驱体外购外其余前驱体均由子公司生产供应[2] - 与中科大马教授团队合作研发高镍材料与卤化物电池匹配的固态电池技术[2] 五矿新能产品与资本管理 - 磷酸铁锂产品以动力电池领域为主要应用方向并在储能领域开展技术布局[2] - 可转债转股事宜董事会将根据实际情况决策目前公司偿债能力良好[2]
理想汽车MoE+Sparse Attention高效结构解析
自动驾驶之心· 2025-08-26 23:32
理想汽车智驾技术架构 - 公司采用"MoE + Sparse Attention"高效结构解决大模型部署时的推理效率问题,通过混合专家架构实现模型容量扩容而不显著增加推理负担[3] - MindGPT大语言模型经过重新设计与预训练,具备3D空间理解和推理能力,但参数量增加导致端侧部署可能出现效率低下问题[3] - 该技术方案针对英伟达Thor-U智驾芯片优化,确保在车载计算平台上的实际应用性能[3] 稀疏注意力机制技术细节 - 采用局部窗口(Local Attention)与跳跃连接(Strided Attention)组合结构,每个token关注附近窗口内token(如前后2个位置)以及步长为s的远端token[9][10] - 注意力矩阵呈现对角线局部连接与分布条纹状跳跃连接相结合的模式,保证token能快速传播到远端同时保留局部建模能力[10][15][16] - 通过构建稀疏注意力mask实现计算优化,在不修改Transformer主体结构前提下限制注意力机制复杂度,仅关注关键输入部分[6][12][14] 混合专家架构实现方案 - 使用8个专家网络(E1-E8),由Router动态选择激活部分专家而非全部,仅在需要时调用相关子模型[6][22] - 采用Top-k路由策略(通常k=2),通过Gate模块计算输入样本对各个专家的偏好程度并选择最优专家[24][32] - 支持分布式部署模式,通过all_to_all通信机制实现跨GPU的专家网络数据交换与负载均衡[34][37] 计算复杂度优化 - 稀疏注意力机制显著降低计算复杂度,相比标准全连接Self-Attention大幅减少计算量[17] - MoE架构通过激活部分专家网络实现计算资源动态分配,在不增加推理成本前提下扩大模型容量[22][25] - 采用专家并行(Expert Parallelism)技术,支持多GPU分布式训练与推理,提升系统整体效率[28][31]
英伟达再出手!新型混合架构模型问世,两大创新实现53.6倍吞吐提速
机器之心· 2025-08-26 09:38
模型架构创新 - 英伟达提出新型混合架构语言模型Jet-Nemotron系列,在达到全注意力模型SOTA精度的同时实现卓越效率 [2][4] - 2B版本模型性能超越Qwen3、Qwen2.5、Gemma3和Llama3.2等开源全注意力模型 [2][8] - 在H100 GPU上实现256K上下文长度下最高53.6倍生成吞吐量加速 [2][8] 技术突破 - 采用后神经架构搜索(PostNAS)技术,可在预训练Transformer模型中灵活尝试不同注意力模块设计,大幅降低开发成本和风险 [6][12] - 提出新型线性注意力模块JetBlock,结合动态卷积与硬件感知架构搜索,精度显著优于Mamba2等现有设计 [6][20][21] - PostNAS通过束搜索确定全注意力层最优位置,在MMLU基准上精度显著优于均匀放置策略 [15][16] 性能表现 - Jet-Nemotron-2B在MMLU-Pro准确率达39.0%,高于Qwen3-1.7B-Base的37.8% [5][24] - 在64K上下文长度下,H100 GPU生成吞吐量达2,885 token/s,是Qwen3-1.7B-Base(61 token/s)的47倍 [5][24] - 4B版本在GSM8K数学基准达78.7%准确率,显著超越Qwen3-1.7B-Base的62.8% [24] 效率优势 - KV缓存大小仅154MB(64K上下文),远低于Qwen3-1.7B-Base的7,168MB [24] - 硬件感知搜索实现参数量1.62B-1.98B范围内保持154MB缓存大小,吞吐量稳定在2,952-2,986 token/s [19] - 在保持相似生成吞吐量前提下,更高参数模型可获得更高精度(检索准确率67.6%-70.1%,数学准确率31.3%-34.8%) [19] 基准测试结果 - 通用知识测试:MMLU达60.8%(2B)/65.2%(4B),超越Qwen3-1.7B-Base的60.3% [24] - 数学能力:GSM8K达76.2%(2B)/78.7%(4B),显著领先同类模型 [24] - 代码生成:EvalPlus基准达60.8%(2B)/65.6%(4B),优于多数对比模型 [24]
公司问答丨云天励飞:公司开发了自研AI驱动产品噜咔博士AI毛绒玩具 预计将于2025年第三季度推出
格隆汇APP· 2025-08-26 09:35
公司产品与技术 - 公司依托大模型IFMind和自主研发的嵌入式声纹模型开发了自研AI驱动产品噜咔博士AI毛绒玩具 该产品是一款数码赋能儿童陪伴产品 [1] - 产品通过多模态视觉识别技术模拟真实喂养场景 旨在培养儿童责任感 [1] - 公司未来将持续利用IFMind大模型推理能力改进消费电子产品与AI耳机 AI手表等可穿戴设备作为AI赋能产品 [1] 产品上市计划 - 噜咔博士AI毛绒玩具预计将于2025年第三季度推出 [1] - 目前该AI毛绒玩具产品正在积极推进中 做上市前的准备工作 [1] 行业市场动态 - AI玩具是融合大语言模型技术的新一代玩具 今年以来AI玩具市场火热 销量大幅度上涨 [1] - 据《央视财经》报道 AI玩具销量暴增600% 市场被描述为又一千亿级大市场 [1]
ChatGPT到底学了多少「污言秽语」?清华团队首提大语言模型中文语料污染治理技术
机器之心· 2025-08-25 23:38
中文词表污染问题研究 - 清华大学、南洋理工大学和蚂蚁集团的研究团队发现GPT-4o/o1/o3/4.5/4.1/o4-mini的中文词表污染率高达46.6%,包含大量色情和赌博相关词元如「波*野结衣」和「大发时时彩」[3][6] - 研究团队对OpenAI近期发布的GPT-5和GPT-oss的词表进行分析,发现其中文token没有变化[4] - 中文污染词定义为存在于LLM词表中、从主流中文语言学角度编译不合法、不常见、不常用内容的中文词(多于2个字)[12] 污染词分类与危害 - 中文污染词分为五类:成人内容(如「波*野结衣」)、在线赌博(如「大发彩票网」)、在线游戏(如「传奇私服」)、在线视频(如「在线观看」)和奇怪内容(如「给主人留下些什么吧」)[13][14] - 专家标注团队对ChatGPT模型的中文长词(1659个)进行标注,发现污染词有773个(46.6%),其中成人内容污染词最多(219个,13.2%)[13] - 输入中文污染词会显著降低ChatGPT的回答质量,在解释和重复任务上有约50%的性能损失(例如GPT-4o在解释任务上性能下降44.3%,在重复任务上下降41.8%)[17][18] 污染检测与自动化识别 - 研究团队微调GLM-4-32B构建自动化中文污染词识别模型,通过设计网络检索机制(返回10条Google检索信息)达到97.3%的识别正确率[23] - 识别模型对23个主流LLM的9个词表进行检测,发现中文污染词普遍存在,其中成人内容、在线赌博和奇怪内容占大多数[23] - 上一代ChatGPT模型(GPT-4/4-turbo/3.5)包含很少表征多个中文字的token,但不包括中文污染词[24] 污染追踪与数据治理 - 研究团队通过LLM词表反向估计训练数据污染情况,结合Zipf分布和上下确界理论拟合词ID-词频的经验估计,为海量数据治理提供轻量化方案[29][30][31] - 估计结果显示「波*野结衣」相关页面在GPT-4o中文训练语料占比高达0.5%,是中文常用词「您好」的2.6倍[35] - 在无污染开源数据集上按0.5%比例混合「波*野结衣」相关页面,能准确复现4个相关词在GPT-4o词表中的词ID[35][40] 污染数据的潜在价值 - 哈佛大学ICML 2025文章指出预训练中适量的污染数据可作为对齐模型的催化剂,当有害数据适量时(10%),有害表征更容易被区分[37][39] - 实验显示按0-25%不同有害数据比例预训练Olmo-1B模型,适量(10%)有害数据预训练的模型在应用抑制方法后有害性最低,甚至低于不包含有害数据的预训练模型[39] 研究影响与应用 - 研究团队于2025年5月29日在清华大学基础模型学术年会上首次分享,并提出针对10T级大语言模型训练语料库的污染数据治理技术[8] - 央视于2025年8月17日新闻中指出AI数据被污染存在风险[9] - 该研究为LLM海量训练语料治理提供轻量化解决方案,项目网站为https://pollutedtokens.site/[6][7][41]
运动控制行业深度:人形机器人“小脑”有望成为主赛道
2025-08-25 14:36
行业与公司 * 运动控制行业 特别是人形机器人领域的运动控制(小脑)环节[1] * 工业机器人行业[5] * 涉及的公司包括第三方运动控制平台公司(如顾高、雷赛、华中)[22][23] 以及一体化布局的机器人公司(如拓斯达、埃斯顿、埃夫特)[19][24][25] 核心观点与论据 * 人形机器人发展重心从硬件转向软件 软件是通用人形机器人的核心痛点[1][2] * 人形机器人控制系统分为大脑(算力平台)和小脑(运动控制) 大脑技术快速迭代对小脑的响应速度和控制精度提出更高要求 从而提升小脑价值量[1][3] * 现代化人形机器人运动控制采用分散式多级结构 通过整体运动控制器下接多个MCU以均衡计算负担并降低延迟[6] * 未来人形机器人将更注重极致性能 推动独立小脑(运动控制平台)的出现 其价值量预计持续提升[7][8] * 人形机器人控制方式从工业机器人的预编程指令转向结合大语言模型(如VLA模型)和视觉模块 将任务指令映射为动作要求 以此降低算力需求和能耗 提高响应速度与效率[1][11] * 未来通用人形机器人将采用结合VLA模型和传统工业运控系统的混合架构 降低对GPU算力及电耗需求 提升响应速度与精度[3][13][14] * 小脑商业模式主要有三种:第三方运动控制平台(如西门子模式)、一体化布局(如拓斯达、埃斯顿)、深度合作定制化开发运控系统[19] * AI大模型主要用于优化运动控制系统中的数学计算过程 而非直接实现最终结果[21] * 随着大脑性能提升(如Figure发布的双系统大模型 其中小模型参数量为8000万 推理速度从每秒生成几个控制信号提高到每秒上百个信号) 对小脑性能要求更高 未来趋势是采用更多参数量小但架构优化、推理速度快(如100赫兹到200赫兹 甚至可能达到1000赫兹)的小模型[16] 其他重要内容 * 工业机器人的运动控制系统包括运动控制器、伺服驱动、电机和传感器 其基本工作原理是控制器接受输入信号 通过计算解码后转化为每个执行器的控制量 并通过伺服驱动传递电信号至电机 完成末端驱动[5] * 工业机器人多关节联动控制面临摩擦、惯性干扰等复杂变量 需要通过编码器进行位置检测 实现闭环回路来减少误差[10] * 人形机器人的上肢与下肢分别采用独立系统(上肢称为manipulation 下肢称为local motion)以简化建模过程[12] * 运动控制模块在工业应用中主要提供通用平台 企业可根据自身需求进行二次开发 运动控制企业与主机厂之间是合作关系[20] * 具备竞争优势的公司展示了强大的多轴联动控制、高精度误差补偿和低延迟能力 例如雷赛实现了灵巧手驱控一体化及人形机器人运动控制器开发[22][23] * 工业机器人企业通过自研或收购技术向上游延伸以增强运动控制技术储备 例如拓斯达与华为合作微调大模型来实现类人形结构[24]
大模型能否为不同硬件平台生成高性能内核?南大、浙大提出跨平台内核生成评测框架MultiKernelBench
机器之心· 2025-08-25 02:48
深度学习内核生成技术现状 - 深度学习模型的计算依赖底层计算内核执行矩阵乘法、卷积等核心算子运算 这些内核通常需开发者使用CUDA、AscendC等硬件专用语言手工编写 要求极高的性能调优技巧和硬件架构理解[2] - 大语言模型在代码生成领域的突破使"自动生成高性能深度学习内核"成为研究热点 KernelBench、TritonBench等评测基准聚焦评估LLM在NVIDIA GPU内核生成表现[2] - 研究表明现有LLM已具备一定GPU内核生成能力 例如英伟达工程师基于DeepSeek-R1的工作流程在简单CUDA内核生成任务中达到100%通过率[2] 多平台内核生成挑战与解决方案 - AI加速器架构日趋多样(NVIDIA GPU、华为昇腾NPU、Google TPU、Intel GPU等) 底层内核语言差异显著 现有评测基准存在平台覆盖单一、评估维度粗糙、可扩展性不足等局限[3] - 南京大学与浙江大学联合推出开源评测框架MultiKernelBench 打破平台、维度与扩展性限制 为LLM驱动的高性能内核生成提供新测评标准[3] - MultiKernelBench设计充分考虑算子多后端可扩展性 Intel工程师基于该框架高效实现了Intel GPU适配 仅需少量代码修改即可支持SYCL后端[7][8] MultiKernelBench框架架构 - 采用模块化评测体系包含四大核心特性:跨硬件平台支持、细粒度任务体系、端到端自动化评测、类别感知One-shot提示策略[9][11][14][16] - 首批覆盖三大主流架构:NVIDIA GPU(CUDA/Triton)、华为昇腾NPU(AscendC)、Google TPU(Pallas) 通过统一Backend接口与装饰器机制实现快速接入新平台[9][13] - 任务体系覆盖14类核心深度学习算子(卷积、归一化、优化器等) 继承250个经典任务并新增35个关键算子 总计285个任务[11][12] - 构建标准化流程:内核生成→编译→硬件执行→性能分析 确保在真实硬件环境完成全流程验证[14] - 针对不同算子类别动态选取典型样例作为上下文提示 显著提升生成代码语义相关性与功能正确性 尤其在AscendC、Pallas等训练语料稀缺平台效果显著[16] 多模型性能评估结果 - 评估7个主流大模型(GPT-4o、Claude、DeepSeek-V3、Qwen等) 参数规模涵盖32B~681B 评估指标包括编译通过率(Comp@1)、功能正确率(Pass@1)和性能优化率(SpeedUp@1)[19][21] - Claude-Sonnet-4在整体评测中表现最佳:CUDA平台Pass@1达47% SpeedUp@1达20.4%;Pallas平台Pass@1达8.4% SpeedUp@1达7.7%;总通过数164个[20] - DeepSeek-R1在CUDA平台表现突出:Pass@1达52.6% SpeedUp@1达26.0%[20] - 平台对比显示:CUDA平台通过率显著高于Pallas与AscendC 反映LLM对CUDA更具适应性;类别感知式Prompting明显优于通用模板 尤其在低资源平台显著提升生成效果[27] 技术局限与未来方向 - 当前最先进LLM在多平台高性能内核生成任务中存在明显短板:非CUDA平台成功率显著下降 生成代码性能普遍落后于手工优化版本[23] - 未来重点探索方向:开发反馈式、文档增强等新型提示方法提升低资源平台生成质量;实现多平台版本同步生成与优化思路共享;与社区合作接入更多新平台覆盖异构计算全景[24][27] - 框架已全面开源 包含全量数据集、框架代码与评测流程 邀请研究者与工程师贡献平台支持共同推动多平台高性能内核自动生成发展[24]