大模型训练

搜索文档
万钢:实现L3、L4级别的自动驾驶,需要智慧的道路和云计算技术平台的支撑
证券时报网· 2025-09-27 11:42
转自:证券时报 炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 责任编辑:凌辰 新浪合作大平台期货开户 安全快捷有保障 人民财讯9月27日电,9月27日,在2025世界新能源汽车大会上,中国科协主席、世界新能源汽车大会主 席万钢表示:"要实现L3(有条件自动驾驶)、L4(高度自动驾驶)级别的自动驾驶,需要智慧的道路 和云计算技术平台的支撑。具体而言,需要将汽车在驾驶过程中遇到的情况和处理方式,上传到云平台 进行大模型训练,再将升级后的能力反馈至车端,形成一个从车端到云端的闭环,才能真正提高自动驾 驶能力。" ...
腾讯申请大模型训练库WeChat-YATT商标
企查查· 2025-09-24 06:28
公司动态 - 腾讯科技(深圳)有限公司近期注册"WeChat-YATT"商标 涉及国际分类科学仪器和设计研究 当前商标状态为注册申请中 [1] - WeChat-YATT是腾讯微信团队开源的一个专注于大模型训练的软件库 [1] 技术布局 - 公司通过商标注册强化大模型训练工具的知识产权保护 体现对人工智能基础设施的战略投入 [1]
放榜了!NeurIPS 2025论文汇总(自动驾驶/大模型/具身/RL等)
自动驾驶之心· 2025-09-22 23:34
自动驾驶 - FutureSightDrive提出时空思维链技术用于自动驾驶视觉思考[2] - AutoVLA开发端到端自动驾驶视觉-语言-动作模型 具备自适应推理和强化微调能力[4] - 阿里与西交联合研发FSDrive系统 论文编号2505.17685[6] - UCLA团队推出AutoVLA框架 论文编号2506.13757[7] - 清华AIR与北航等机构开发双边网格驾驶场景高斯泼溅技术[13] 视觉感知推理 - OmniSegmentor构建多模态语义分割灵活学习框架[16] - 水牛城大学与中科院研发YOLOv12注意力中心实时目标检测器 论文编号2506.05280[18] - 南开大学程明明团队提出DFormer模型 论文编号2509.15096[19] - PixFoundation 2.0研究视频多模态大模型在视觉定位中的运动使用机制 论文编号2509.02807[20][33] 视频理解 - DeepTraverse采用深度优先搜索网络实现算法化视觉理解 论文编号2506.10084[25] - 英伟达与台湾大学开发ThinkAct视觉-语言-动作强化推理系统 论文编号2507.16815[27] 图像视频生成 - Fast and Fluent Diffusion通过卷积解码和拒绝微调提升扩散语言模型效率 论文编号2509.15188[34][63] - AutoEdit实现图像编辑超参数自动调优[31] - OmniSync通过扩散变换器实现通用唇形同步 论文编号2505.21448[36][38] 具身智能 - DeepMind推出自改进具身基础模型 论文编号2509.15155[46][50] - 复旦与上交等机构开发ForceVLA力感知混合专家模型 用于接触式操作 论文编号2505.22159[48][51][64] 大模型训练 - Scaling Offline RL通过高效表达捷径模型扩展离线强化学习 论文编号2505.22866[40][44] - 研究发现在机械推理中LLM世界模型存在输出层脆弱性 论文编号2507.15521[40][62] 大模型微调 - 卷积解码和拒绝微调技术提升扩散语言模型性能 论文编号2509.15188[42][63] - 联邦学习框架实现自适应LoRA专家分配与选择 论文编号2509.15087[42][55] - 康奈尔大学开发差分隐私联邦低秩适配技术 论文编号2507.09990[44] 医疗诊断评估 - 构建3D肿瘤中心视觉问答医疗基准测试VLM诊断能力 论文编号2505.18915[39][44][57] - DeepTumorVQA项目评估视觉语言模型临床诊断准备度[39][44][57] 文档理解与安全 - STEM-POM评估语言模型在文档解析中的数学符号推理能力 论文编号2411.00387[55][65] - AgentMisalignment测量基于LLM智能体的行为错位倾向[55] - 概念级可解释性技术用于审计和引导LLM响应 论文编号2505.07610[54] 代码生成 - SBSC逐步编码方法提升数学奥林匹克竞赛性能 论文编号2502.16666[60] - 卷积解码和拒绝微调技术优化扩散语言模型代码生成 论文编号2509.15188[60][63] 强化学习 - 强化视觉潜在规划实现视觉-语言-动作推理 论文编号2507.16815[23][27][65] - 扩展离线强化学习通过高效表达捷径模型 论文编号2505.22866[40][44] 持续学习 - 持续学习技术改进多模态大语言模型 论文编号2410.19925[53][56] - 研究分布外泛化在ARC类任务中的挑战 论文编号2505.09716[66] 人机交互 - 实时直观AI绘图系统整合形式与上下文意图增强人类创造力 论文编号2508.19254[54] - 公平摘要技术平衡提取式摘要的质量与多样性 论文编号2411.07521[66]
但我还是想说:建议个人和小团队不要碰大模型训练!
自动驾驶之心· 2025-09-20 16:03
这个暴论需要叠加很多buff,但我想说的确实就是这个标题。也算是和大家对齐一下认知。 这个暴论自然引申出一个问题: 不训练大模型怎么办? 为什么不要微调?因为没有模型的原始数据配比,更有可能原始的训练数据都没有,微调之后极有可能损失掉大 部分的性能。 那如果开源模型在特定领域的效果非常差,怎么办? 如果是很垂类的领域模型,可以先试试RAG,不行就试试In-context Learning,在上下文中,教LLM一些领域知 识。能尝试的低成本方案都尝试后,再考虑垂类领域模型的微调训练! 一些实际使用过程中的经验,将最需要脑子的任务交给o1系列模型,比较需要脑子的任务,交给4o这一梯队的 模型。 除了付费的模型,还可以考虑国产的大模型,点名表扬DeepSeek、豆包、Qwen等等开源大模型。 这其实就是Agentic AI的思路。 如果你的业务在上面的方案中都跑不通,那么自己训练模型大概率也是白瞎。大模型时代,基础模型能力的每一 次提升,都算是一次地球Online的版本更新。 距离大厂基座模型团队之外的AI人,需要先了解现有LLM的性能边界,敏锐的分辨出现有模型能力和过去方案 的差异,能否给当前的业务带来新的变化, ...
算力“好兄弟”存储发力:先进存力中心建设加速
21世纪经济报道· 2025-08-25 04:52
文章核心观点 - 数据作为基础性战略资源和关键生产要素 其价值释放与高效利用已成为推动经济社会高质量发展的核心动力 但数据生产量与存储资源扩充速度不匹配 存在数据"应存未存"现象 同时数据质量和规模是AI发展的关键[1] - 大模型训练对存储提出毫秒级延迟 TB级带宽 EB级扩展要求 推动全闪化 AI数据湖 内生存储安全等技术同步发展[2] - 国内存储产业呈现稳健增长态势 存力总规模增速超20% 结构持续优化 闪存占比提升 行业应用呈现分层演进趋势[3] - 大模型应用需求涌现 需要海量多模态数据 非结构化数据价值凸显 但处理流程复杂 需要集约化建设打破数据孤岛 数据流通是关键环节[4] - 数据留存率下滑 存储空间利用率提升 面临低延迟高吞吐存储性能和大规模存储需求挑战[5] - 先进存力中心建设启动 需完善数据治理体系 深化存算协同 探索量子存储 DNA存储等先进技术 加大闪存技术研发投入[6] - 构建存算协同新模式 采用AI数据湖存储技术 全局数据可视编织技术 湖仓一体架构打破数据孤岛[7] - 采用内生存储安全机制 SSD发展触发成本拐点 全闪数据中心成为AI时代战略选择[8] - 先进存力是智能时代数据基础设施核心 需分层推进建设 城市建存力中心 行业建语料库 企业建AI数据湖[9] - 企业通过AI全流程工具链建设AI数据湖 实现自主高效运行[10] 存力发展现状 - 2022-2024年间存力总规模以超过20%的增长率扩张 截至2024年底全国数据存力总规模达1580EB 全年新增380EB 同比增长32%[3] - 闪存在外置存储中占比从2023年25%提升到2024年28% 存储系统由容量驱动向性能导向转型[3] - 存力布局呈现东部引领 中西提速的差异化协同发展态势[3] - 制造 互联网 金融等行业闪存替代节奏快 占比已超45% 教育 医疗 交通等行业在政策支持下稳步优化结构[3] 数据存储挑战 - 数据年产量由32.85ZB增至41.06ZB 增速25% 但数据存储总量由1.73ZB提升至2.09ZB 增速仅为20.81%[5] - 数据留存率由2.89%下滑至2.8% 同比下降3.15% 数据应存未存现象依然存在[5] - 存储空间利用率从2023年59%提升至61% 有效存储空间被进一步压缩[5] - 海量非结构化数据需要低延迟 高吞吐存储性能 数据要素汇聚需要PB级甚至EB级存储规模[5] 技术发展方向 - 推动全闪化 AI数据湖 内生存储安全等技术同步发展[2] - 探索量子存储 DNA存储等先进存储技术应用 打造存算一体化示范项目[6] - 聚焦闪存技术 架构 AI融合 内生安全等关键技术 加大研发投入[6] - 采用全局数据可视编织技术实现多源数据全局可视可管[7] - 构建湖仓一体架构打破数据孤岛[7] - SSD发展触发成本拐点 全闪数据中心成为AI时代战略选择[8] 应用实践案例 - 华为联合国内某车企进行联合创新 把城市数据和行业数据汇聚到统一平台 构建可信数据流通空间 实现新能源汽车安全隐患派车等安全监管服务 数据脱敏后提供金融保险 汽车销售等价值变现[9] - 华为已有多个存力中心上线或逐步上线[9] - 企业通过AI全流程工具链建设AI数据湖 令整体运行更自主高效[10]
国内AI算力市场需求——云厂训练和推理投入分配情况解析
傅里叶的猫· 2025-08-24 12:31
国内AI算力训练市场格局 - 训练市场进入下半场和淘汰赛最后阶段 由大厂主导 若无大厂订单支撑可能陷入停滞 [2][3] - 英伟达在训练领域占据主导地位 主流使用B卡 H卡和A卡需求仍存在 [2] - 国内训练需求超过60%由阿里拉动 其次是字节和腾讯 [2] - H公司训练卡效果与英伟达存在较大差距 短期内难以显著提升市场份额 [2] AI六小龙状况及影响 - 六小龙正在大规模退租训练资源 对训练市场造成不良影响 [3] - 六小龙资金状况不容乐观 仍处于争取用户和拓展市场阶段 商业化程度较低 [3] - 月之暗面专注国内to C市场 MiniMax更关注国际市场 [3] - 月之暗面需支撑C端APP推理需求 减少训练投入在情理之中 [3] 大厂训练投入策略 - 腾讯坚持投入训练下一代混元模型 [3] - 阿里巴巴和字节竞争激烈 大模型训练呈现零和博弈态势 [3] - 训练市场零和博弈对英伟达B卡供应链公司带来较大冲击 [3] 推理市场现状与挑战 - 推理算力需求未如预期大幅增长 年初的AI热潮未能持续 [3][4] - 元宝APP增长势头放缓:第二季度MAU从2358.3万增至2502.5万 增幅仅6% 月均下载量从1343.3万下跌54%至617.5万 [4] - 腾讯对元宝等AI应用投入趋于温和 不再进行激进流量推广 [4] - 海外下架二手A100和H100快速进入国内市场 预计H100价格从210万降至170-160万 2026年可能降至100万 [4] - 二手训练设备转为推理设备将对合规卡(H20/4090/5090)带来较大冲击 [4] 长期推理市场展望 - 推理算力成本大幅降低将刺激下游AI应用客户使用 [5] - 海外下架训练设备转为推理设备将进一步推动推理算力成本下降 [5] 企业训练推理投入分配 - 阿里巴巴训练推理投入比例为8:2 80%预算用于训练集群 [5] - 字节训练推理预算比例约为50:50 包括海外集群 [5] - 腾讯训练推理投入比例约为2:8 所有应用目前均处于消耗状态 [5] - 月之暗面训练推理投入比例为7:3 [6] - 智谱训练推理投入比例为9.5:0.5 [6] - 阶跃星辰训练推理投入比例为9.5:0.5 [6] - 百川训练推理投入比例为4:5 [6]
训练效率提升25%、成本降23%!上海期智研究院、算秩未来联合推出MegatronApp:专为万亿参数大模型训练打造的系统工具包
AI前线· 2025-07-28 06:47
核心观点 - 上海期智研究院联合算秩未来发布国内首个针对Megatron-LM的开源增强工具链MegatronApp,聚焦高可用、自适应、高效率和可观测四大目标 [2][3] - 该工具通过慢节点识别、智能调度、计算解耦和可视化诊断等技术,在金融行业实测中实现训练效率提升25%、成本降低23% [5] - 在万亿参数模型训练场景下,细节优化可节省千卡GPU资源,对应数十万元成本 [1] 技术模块 MegaScan慢节点检测 - 通过毫秒级CUDA Events捕捉GPU执行状态,3分钟锁定慢节点,故障定位效率提升超100% [9][15] - 在256张4090集群实测中仅需76秒生成根因报告,对训练时长影响低于1.3% [15] - 采用通信同步特性对齐百万级事件,实现跨节点/设备的统一检测与归因分析 [9] MegaDPP动态流水线调度 - 重构传统1F1B策略,首创深度优先(DFC)和广度优先(BFC)双模式动态切换 [17][18] - 通过共享内存+RDMA组合通信技术,使流水线发送窗口扩展2.6倍,数据并行缩减窗口扩展2.4倍 [20] - 实际降低网络带宽需求50%,显存高峰显著缓解 [17][18] MegaFBD计算解耦 - 将前向/后向计算物理分离,单卡有效TFLOPs提升18.7% [24][30] - 采用虚拟Rank+物理Rank双层调度结构,避免资源竞争 [22] - 轻量级通信协调机制实现百卡规模稳定运行,同步复杂度仅线性增长 [26] MegaScope可视化系统 - 支持Attention/QKV/MLP模块热图回放、Token生成过程逐帧查看等交互功能 [33] - 异步缓存与在线聚合算法使性能损耗控制在1%以内 [37] - 提供扰动注入功能,可模拟通信异常或施加噪声干扰,响应时间短于3秒 [34][36] 性能表现 - 在8卡节点200G IB网络测试中,通信效率提升显著 [20][23] - Llama-3 13B模型训练场景下单卡算力利用率提升18.7% [24][30] - 整体端到端训练效率提升25%,成本节约效果显著 [5][38][40] 行业意义 - 填补国内Megatron-LM生态工具链空白,成为大模型训练系统基座 [3][40] - 开源项目地址已发布,推动社区协作优化 [3][42] - 适用于万亿参数规模训练场景,每1%效率提升对应数十万元成本节约 [1][40]
连续套现14亿元,黄仁勋急着“下车”?
36氪· 2025-07-23 12:01
黄仁勋减持行为 - 黄仁勋在7月18日减持英伟达7.5万股股票,套现1294万美元(约9267万人民币),当日英伟达盘中股价创历史新高至174.25美元/股[2] - 两月内连续减持约20次,累计减持135万股,套现超过2亿美元(约14.35亿元人民币)[3][5] - 7月份分12次减持90万股,套现约1.5亿美元[6] - 减持后仍直接持有8000万股,通过信托等间接持有9亿股(占总股本3.77%),保持绝对话语权[5] 英伟达市场表现 - 7月9日英伟达总市值短暂突破4万亿美元(约28.7万亿元人民币),成为全球首家达到该里程碑的公司[3] - 2025年第一季度占据独立显卡市场92%份额,环比增长8.5个百分点,AMD份额下降7.3个百分点至8%[8] - 数据中心业务订单排期已至2026财年第二财季,Blackwell架构产品发布提振市场信心[8] - 美国政府解禁H20芯片后,中国客户大批订单推动股价在7月中旬创历史新高[8] 公司经营环境 - 美国政策限制导致正常经营受阻,欧盟提出AI安全标准、合规及伦理审查要求[10] - 2025年4月7日股价曾跌破87美元(较1月初153美元接近腰斩),4月9日H20芯片出口许可消息带来转机[10] - 生成式AI和大模型训练需求扩张使GPU成为稀缺产品,但面临华为等竞争对手追赶[11] 行业竞争格局 - 英伟达在独立显卡市场形成绝对优势,与AMD和英特尔差距持续拉大[8] - 黄仁勋承认华为AI芯片替代英伟达"只是时间问题"[11]
大数据ETF(159739)上涨超1%,H20芯片恢复对华销售,大模型训练迎来利好
新浪财经· 2025-07-16 02:31
市场表现 - 中证云计算与大数据主题指数(930851)上涨1 68% 成分股新易盛(300502)上涨12 90% 云天励飞(688343)上涨5 35% 税友股份(603171)上涨4 34% [1] - 大数据ETF(159739)上涨1 41% 最新价报1 22元 近1周累计上涨5 99% 涨幅排名可比基金1/5 [1] 行业动态 - 英伟达获准向中国出售H20芯片 多家互联网大厂表示积极购买 对云计算服务和大模型训推带来利好 [1] - 海外token需求持续增长 AI算力与应用实现正向循环 [2] - AI Agent商业模式从"提供工具"向"交付价值"转变 垂直行业know how型卡位公司投资机会提升 [2] 指数成分 - 中证云计算与大数据主题指数选取50只业务涉及云计算服务 大数据服务及相关硬件设备的上市公司证券 [2] - 前十大权重股合计占比51 84% 包括科大讯飞(002230) 中际旭创(300308) 新易盛(300502)等 [2] 投资建议 - 建议关注国内NV链相关企业 字节生态合作伙伴 以及AI Agent布局领先的垂直领域卡位SAAS企业 [2] 产品信息 - 大数据ETF(159739)场外联接A 021090 联接C 021091 联接I 022882 [3]
科创板年内新增最大IPO融资项目拆解:摩尔线程的商业化初探
华尔街见闻· 2025-07-03 13:09
国产GPU行业竞争格局 - "国产GPU四小龙"中摩尔线程和沐曦集成科创板IPO已获受理,壁仞科技、燧原科技、格兰菲智能处于IPO辅导阶段,行业集体迈向资本化[1] - 摩尔线程计划募资80亿元,为2024年上半年科创板最大IPO募资规模,沐曦集成募资额约为其一半[5][6][7] - 行业竞争焦点在于谁能率先成为"国产GPU第一股",市场高度关注[8] 摩尔线程核心竞争力 - 核心团队来自英伟达,MTT S80显卡单精度浮点算力接近RTX 3060,千卡GPU智算集群效率超过国外同代产品[2] - 2024年收入达4.38亿元同比增长超2倍,AI智算产品首次创收3.36亿元占比超7成[3][11] - 研发投入达13.59亿元,净亏损14.92亿元但同比减亏10%[4] 产品与技术进展 - 产品线覆盖AI智算、专业图形加速、桌面级图形加速和智能SoC,形成全功能布局[9][10] - 2023年推出第三代GPU芯片MTT S4000,2024年披露新品MTT S5000,FP32算力达32TFLOPS超越A100但低于H100和MI325X[12][13][15][17] - 基于MTT S5000构建的千卡集群效率超过国外同代产品,计划投资25亿元研发新一代AI训推一体芯片[16] 商业化策略与财务表现 - 消费级产品MTT S80/S70累计收入仅0.72亿元,因国际品牌竞争采取低价策略导致毛利率为负[20] - 转向聚焦B端市场,AI智算和专业图形加速板卡毛利率分别达90.7%和83.13%,显著高于沐曦集成同类产品[21][22] - 在手订单4.4亿元,管理层预计2027年可实现盈利[23][24] 行业技术发展趋势 - FP8低精度浮点格式成为技术突破方向,可在保持低精度同时实现准确性、效率、内存和能耗的平衡[14][15] - 摩尔线程通过支持FP8计算与存储实现训练加速和内存占用降低,与BF16基线相比精度损失控制在0.25%以内[15]