Workflow
大模型推理
icon
搜索文档
最受欢迎的开源大模型推理框架 vLLM、SGLang 是如何炼成的?
AI科技大本营· 2025-09-24 02:01
文章核心观点 - 大语言模型推理阶段是决定模型实用性和广泛采用的关键 需要高效处理延迟、吞吐量和成本约束[2][3] - vLLM和SGLang作为领先的开源推理引擎项目 通过创新内存管理技术和优化调度设计显著提升推理性能[4][8][12] - 两个项目均起源于学术研究 现已发展为社区驱动的开源标杆 获得业界广泛采用和投资机构支持[7][16][31][34] 项目技术特性 - vLLM采用PagedAttention算法 借鉴操作系统分页缓存管理技术 实现精细化内存管理 官方测试显示比Hugging Face Transformers后端提升30倍吞吐量[8][9] - SGLang以RadixAttention为核心 重用过往请求的KVCache 在前缀匹配时大幅减少Prefill阶段计算量 即使关闭RadixAttention仍保持优秀性能[12] - 两者均支持Continuous Batching、Chunked Prefill、Speculative Decoding等先进特性 在功能算法层面日趋同质化[29] 社区发展数据 - vLLM于2023年6月开源 截至2025年8月获56,045星标 9,578分叉 1,465贡献者 12,393名社区参与者[15] - SGLang于2024年1月发布 同期获17,095星标 2,697分叉 638贡献者 2,754名社区参与者 规模不及vLLM五分之一[13][15] - 两项目中国开发者占比显著 vLLM达33% SGLang高达52% 社区活跃度高但待处理issue均超2000条[9][13][37] 学术与产业关联 - 项目核心发起人Woosuk Kwon(vLLM)和Lianmin Zheng(SGLang)均来自加州大学伯克利分校 师从Spark和Ray创建者Ion Stoica[16] - vLLM贡献主力来自Red Hat SGLang贡献主力来自xAI、Skywork、Oracle和LinkedIn 194名开发者在两项目间交叉贡献[18][19][20] - OpenAI工程师comaniac在vLLM提交77个代码请求 在SGLang提交17个请求 2024年3月后活跃度降低引发行业猜测[20] 性能演进历程 - vLLM在2024年9月发布v0.6.0 通过CPU调度优化实现2.7倍性能提升和5倍延迟下降 但架构复杂性导致增长放缓[23][25] - 2025年1月vLLM推出V1重构版本 结合DeepSeek V3/R1发布 与SGLang同步进入第二轮爆发式增长[21][25] - 性能竞争白热化后 双方转向强调可复现方法和真实工作负载端到端指标 鼓励第三方独立评测[26] 生态合作与投资 - a16z的Open Source AI Grant基金在2023年8月资助vLLM核心开发者 2024年6月第三批名单资助SGLang开发者[31][33] - 真格基金2024年7月向vLLM提供捐赠 Linux基金会将vLLM纳入PyTorch基金会 2025年3月SGLang加入PyTorch生态系统[40] - 两项目已成为Google、Meta、Microsoft、字节跳动、阿里巴巴、腾讯等顶尖科技公司首选推理方案[34]
商汤拆分芯片业务始末:百度创始成员加入,半年已融15亿
36氪· 2025-09-19 13:42
公司背景与团队构成 - 曦望由商汤科技拆分成立 专注于大模型推理芯片研发 采用"1+X"战略推动芯片业务独立发展[4][5] - 高管团队包括联席CEO王湛(前百度创始产品经理)和王勇(前AMD、昆仑芯老将) 王湛负责运营管理和商业化 王勇主导产品与技术[11][12] - 团队规模达200人 年增长50% 核心成员来自AMD、Intel、阿里等企业[12] 技术研发与产品布局 - 累计投入11亿元研发资金 已量产两款芯片:S1(云边视觉推理芯片 出货超万片)和S2(大模型推理GPGPU)[13][14] - 下一代S3芯片计划2026年推出 通过架构创新将推理成本降低10倍 采用低精度计算单元和大容量显存设计[15][16] - 实现100%自主知识产权 覆盖指令集定义、GPGPU IP架构及编译器工具链[17] - 研发周期仅14个月 较行业平均22个月缩短36% 团队规模为行业普遍水平的1/3[17] 融资与商业化进展 - 2025年完成多轮融资 累计超15亿元 其中70%资方为产业资本(三一集团、第四范式、游族网络等)[13][19] - 通过绑定产业资本实现研发与商业化协同 在芯片规划阶段即考虑实际应用场景[19] - 与商汤日日新大模型和万卡智算中心形成技术协同 提供验证和商业化支撑[22] 行业趋势与竞争格局 - 2025年被视作中国GPU行业元年 推理市场爆发和外部环境变化为国产芯片创造机会窗口[22] - 国产芯片企业迎来商业化突破:寒武纪营收同比增长4347% 沐曦出货超2.5万颗 海光芯片出货迈过10万大关[22] - 行业共识转向兼容CUDA架构和聚焦细分赛道 避免早期企业在技术路线上的试错成本[24] - 市场至少支撑3-5家头部企业 2025年成为入场资格线 未实现流片的企业将失去竞争机会[25] 战略定位与发展路径 - 坚持兼容CUDA生态 选择推理芯片细分赛道 利用后发优势规避行业早期试错风险[24] - 核心竞争要素包括软硬件一体化能力、市场预判能力以及商业化落地速度[25] - 通过产业资本联动和商汤技术背书 实现从研发到商业化的闭环推进[19][22]
腾讯云总裁邱跃鹏:腾讯云已全面适配主流国产芯片
新浪科技· 2025-09-16 03:26
AI基础设施升级 - 腾讯云通过异构计算平台整合多种芯片资源提供高性价比AI算力 并全面适配主流国产芯片[1] - 大模型产业重心从训练转向推理 客户对Agent应用热情推动推理需求暴涨[3] - 自研FlexKV多级缓存技术将首字时延降低70% 对话时延降低57%[4] - 集成多token联合预测技术使生成速度提升35% 注意力数据并行功能使吞吐量提升30%[4] - MoE-Chunk技术支持超过256K超长输入 适用于长文档分析和复杂代码生成场景[5] 全球化基础设施布局 - 云基础设施覆盖全球55个可用区 部署3200多个加速节点 为超1万款游戏提供安全防护[1][10] - 在日本大阪和沙特新建可用区 全球设立9个技术支持中心 获得400多项专业认证[1][14] - 自研星星海服务器全球累计部署核数超2亿 旗舰SA9单机规格提升至768核[9] - 防护容量达25T(同比增长70%) 带宽储备达400T(同比增长100%)[13] 企业级解决方案创新 - 推出Agent Runtime解决方案 集成执行引擎/云沙箱/安全服务 提供100毫秒极速启动支持数十万实例并发[6] - 云沙箱通过MCP/SDK/API多种方式接入 具备严格身份权限管理和数据安全防护[6] - 专家服务智能体Cloud Mate集成超90%腾讯云产品 提供超100万次智能架构治理服务[7] - Cloud Mate对风险SQL拦截率达95% 累计检测超770万行代码 平均排障时间从30小时缩短至分钟级[8] 客户实践与性能提升 - 完成印尼GoTo集团超大规模迁移 管理1亿注册用户/10000台云主机/730+数据库实例/1000+微服务[13][14] - 5个月建成印尼第三可用区 交付500+定制化需求 进行5轮全链路演练[14] - 新一代TDSQL数据库在复杂查询场景下总时延下降80% 专有云TCE达到RTO 2分钟容灾能力[9] - EdgeOne Pages产品上线3个月助力超10万用户出海 互动直播组件客户数增长超300%[11][12] 行业领导地位与技术贡献 - 与AWS/Google/Microsoft同被评为全球游戏云平台领导者[10] - 深度参与开源社区 向DeepSeek/vLLM/SGLang提交优化技术[1] - 优化DeepEP使IB网络性能提升30% RoCE网络性能翻倍[3] - 支撑国家级活动8000万观众同时在线直播 保障亚太超一半正版英超直播[13]
劲爆!高盛上调寒武纪目标价1835元,“寒王”市值超五粮液股价超茅台?85后创始人陈天石身价超1500亿,大佬章建平火了!
搜狐财经· 2025-08-25 02:37
股价表现 - 寒武纪上周五涨停后股价达1243元 为A股第二高价股 仅次于贵州茅台 [1] - 公司市值超5200亿元 超过美的集团 五粮液 东方财富 浦发银行 中信证券 恒瑞医药等知名企业 [1] - 自7月11日以来股价累计暴涨137% 2023年以来从不足50元飙升至1243元 最大涨幅超25倍 [3] - 高盛将目标价上调50%至1835元 潜在市值接近7700亿元 [3] 市场驱动因素 - 英伟达暂停H20芯片生产催化国产AI芯片替代需求激增 [5] - DeepSeek-V3.1正式发布并适配国产芯片架构 打开国产芯片想象空间 [5] - 国内云厂商和互联网大厂对自主可控AI芯片需求快速增长 [5] - 本土大模型快速发展带动高性能AI推理芯片旺盛需求 [5] 公司竞争优势 - 被称为"中国英伟达" 在AI芯片架构设计和软硬件协同优化方面具有技术积累 [5] - 定增申请获上交所审核通过 39.85亿元募资将投入大模型芯片及软件平台建设 [5] - 创始人陈天石持有29.63%股份 市值达1541亿元 [5] 资金动向 - 游资章建平持续加仓至608.63万股 持股1.46%跻身第七大股东 [6] - 当前持股市值75.66亿元 以均价计算浮盈超40亿元 [6]
"六边形战士"GPU公司完成亿元新融资
是说芯语· 2025-08-24 01:39
融资与资金用途 - 公司完成近亿元B2轮融资 由飞图创投领投[2] - 资金将重点投入RPP芯片产业化推进 核心技术研发升级以及边缘计算和AI芯片推理市场拓展[2] - 公司曾在今年3月完成数千万元B1轮融资 由长石资本领投 达泰资本 江门长信 硕明等机构跟投[2] 公司背景与研发布局 - 公司成立于2017年 已在珠海 深圳 西安及美国设立研发中心[2] - 经过8年持续技术研发与产品迭代 建立起完整AI计算产品矩阵[3] 核心技术架构 - 自主研发可重构并行处理器架构(RPP)专为并行计算设计[4] - RPP架构具有生态兼容性和超高能效并行计算能力 打破高性能芯片与通用芯片界限[4] - 底层兼容CUDA编程语言和多种开发工具 实现边缘AI应用快速高效部署[4] - 融合GPGPU通用性与NPU高效计算能力 在大模型推理 计算机视觉等领域具有优势[4] 产品特性与商业化进展 - RPP-R8芯片已在AI PC 医疗检测 存储服务器等多个领域实现商业化落地 与联想等头部企业建立深度合作[6] - RPP-R8 AE7100E芯片是业界最小最薄GPGPU 功耗控制在10W以下 适配Qwen Llama Stable Diffusion等主流大模型[6] - AI芯片AE7100尺寸为17mm × 17mm 集成该芯片的M.2加速卡尺寸为22mm x 88mm[6] - M.2加速卡拥有32TOPS算力及60GB/s内存带宽 可动态控制功耗 支撑大模型在笔记本电脑等设备运行[6] - 已适配DeepSeek Llama3-8B Stable Diffusion 通义千问 BitNet等开源模型[6] 战略发展方向 - 公司将围绕打造自有产权高端通用型芯片的发展方向前行[7]
寒武纪涨停总市值超5200亿!即将超越贵州茅台成为新股王?
搜狐财经· 2025-08-22 07:00
股价表现 - 截至14时44分股价报1243.20元 较前一交易日大涨20.00% [1] - 成交额达160.90亿元 市值超5200亿元 [1] - 自7月25日收盘以来累计涨幅达107.12% 盘中创1243.2元区间新高 [1] 市场驱动因素 - 国产替代加速 国内云厂商和互联网大厂对自主可控AI芯片需求快速增长 [1] - 大模型推理需求爆发 本土大模型发展带动高性能AI推理芯片需求 [1] - 技术实力获市场认可 被赋予"中国英伟达"称号 [1] 公司动态 - 2025年度向特定对象发行A股申请获上交所审核通过 已提交证监会注册 [2] - 发布澄清公告 明确网传载板订单/收入预测/新产品信息均为不实信息 [2] - 强调不存在应披露未披露重大事项 经营情况正常 [2] 行业前景 - 处于AI产业风口 国产替代和大模型需求双重驱动 [2] - 行业景气度提升 公司作为AI芯片龙头持续受益 [1][2]
DeepSeek引爆国产AI芯片:寒武纪、华胜天成、和而泰三大龙头热度爆棚,5000亿“寒王”市值超五粮液
金融界· 2025-08-22 06:50
DeepSeek-V3.1 发布及技术升级 - 混合思考模式、更高思考效率和更强智能体能力三大核心升级 [1] - 采用UE8M0 FP8 Scale技术 支持下一代国产芯片生态 [2] - 国产AI生态实现全环节闭环:国产AI芯片-国产开源模型-下游应用 [2] 寒武纪市场表现及驱动因素 - 股价盘中最高1240元 单日涨幅超19% 市值突破5000亿元 [3] - 成交额超130亿元 市场交投异常活跃 [3] - 自去年924以来累计涨幅超460% 近一个月实现股价翻倍 [4] - 受益国产替代加速、大模型推理需求爆发及技术实力认可三大因素 [4] 华胜天成业务亮点及市场表现 - 作为华为昇腾芯片合作伙伴 深度参与智算中心建设 [6] - 天津人工智能计算中心项目投资8.6亿元 将提供300P算力 [6] - 持有物联网芯片公司泰凌微9.92%股权 [6] - 近一个月最大涨幅达130% 本轮行情涨幅超2倍 [6] 和而泰投资布局与业务发展 - 持有国产GPU厂商摩尔线程1.244%股份 [8] - 摩尔线程为首个支持原生FP8的国产GPU厂商 启动科创板IPO [8] - 智能控制器业务覆盖汽车电子、储能及AIoT三大领域 [8] - 自去年924以来涨幅达300% 单日成交额超50亿元 [8]
大华股份(002236):服务器业务有望开启新增长点
华泰证券· 2025-08-19 02:04
投资评级 - 维持"买入"评级,目标价28.56元人民币[1][6] - 基于2025年24.4倍PE估值(可比公司均值),较当前股价18.19元存在56.9%上行空间[1][6][19] 核心观点 - 服务器业务成为新增长引擎:1H25中标中国移动AI推理服务器、南方电网等集采项目,合计金额或超10亿元,构建从训练到推理的全场景算力解决方案[9][12] - 大模型推理需求爆发:国内日均token消耗量达30万亿(1年半增长300倍),Google月均token调用量960万亿,驱动算力基础设施需求[9][13] - 1H25业绩表现:营收151.81亿元(yoy+2.12%),归母净利24.76亿元(yoy+36.8%),经营性现金流6.39亿元创上市同期新高[8][15] - 创新业务高速增长:1H25营收30.23亿元(yoy+22.83%),子公司华睿科技拟分拆赴港上市[10][16] 业务分析 服务器业务 - 技术适配:深度适配DeepSeek-R1/V3系列大模型,鲲鹏服务器主频2.5GHz,性能领先业界15%,能效比领先60%[12] - 产品矩阵:GS4498-G02(云端中心算力)、GS2298(推理应用)、DH-RS2297系列(24-64核配置)形成完整解决方案[12][13] 分业务表现 - G端业务:1H25营收18.51亿元(yoy+4.68%),公共民生/交管领域表现突出[10][16] - B端业务:1H25营收42.19亿元(yoy+8.17%),央国企订单强劲但中小企业下滑超10%[10][16] - 海外业务:1H25营收76.28亿元(占比50.25%),关税影响致增速放缓至1.91%[10][16] 财务预测 - 收入调整:2025-2027年营收预测下调至332.75/351.65/380.02亿元(原344.92/378.24/421.31亿元)[6] - 盈利预测:2025-2027年EPS 1.17/1.18/1.28元,对应PE 15.6x/15.4x/14.2x[5][6] - 盈利能力:1H25毛利率回升至41.61%,2025E ROE提升至9.83%[5][8][24] 行业比较 - 可比公司估值:海康威视/视源股份/浪潮信息2025E平均PE 24.4倍,大华股份15.6倍存在折价[19] - 算力产业趋势:国家数据局统计显示AI算力需求呈指数级增长,服务器本地化替代加速[9][13]
链式思维是幻象吗?从数据分布视角重新审视大模型推理,马斯克回复,Grok破防
机器之心· 2025-08-14 09:11
思维链(CoT)提示技术的本质 - 核心观点:CoT提示技术生成的推理链条可能并非真正的逻辑推理,而是对训练数据分布内模式的复现,当输入任务与训练数据分布存在差异时,推理链条会迅速失效[2][10] - 典型例证:模型回答「美国建国年是否为闰年」时,推理步骤正确但结论自相矛盾,显示其仅复述逻辑规则而非实际应用[10] - 性能提升来源:CoT效果主要依赖表层语义匹配,问题改写或引入无关内容会导致表现显著下降[11] 数据分布视角的理论框架 - 结构性归纳偏差:CoT有效性源于模型对训练数据中常见模式的复现,而非真实逻辑推演[13] - 理论公式:通过分布差异指标量化推理性能受分布偏移的影响,公式显示测试风险与训练风险、分布差异及样本量相关[15] - 实验验证:分布偏移时模型准确率从100%骤降至0.01%,全新变换下性能几乎完全丧失[23] 可控实验平台与泛化性测试 - 数据炼金术框架:从零训练语言模型,通过字母原子序列和ROT/循环平移变换构建可控任务,精确生成标准推理链以评估差异[18][19][21] - 任务泛化:变换顺序重组或新字母组合导致准确率暴跌,监督微调仅扩展分布边界而非提升抽象能力[23][24] - 长度泛化:输入序列长度或推理步数微小变化即引发表现显著下降,模型通过增减词元凑长度[26] - 格式泛化:提示格式扰动(如元素/变换部分修改)即使逻辑不变也可导致推理失败[28] 普遍性与现实意义 - 普遍脆弱性:不同采样温度和模型规模下CoT对分布偏移的敏感性一致,表明此为普遍现象而非个别特性[31] - 应用警示:高风险领域(医疗/金融/法律)需警惕流畅但逻辑错误的推理链误导性,评测需引入严格分布外测试[34][35] - 发展建议:需正视CoT泛化瓶颈,平衡分布内优势与评测部署的谨慎性[37][38]
华为发布AI推理新技术 中国银联大模型效率提高125倍
21世纪经济报道· 2025-08-13 23:10
技术发布 - 华为发布AI推理创新技术UCM 专门优化大模型推理过程的缓存管理技术 旨在提升推理速度 效率和成本效益 [1] - UCM是以KV Cache为中心的推理加速套件 融合多类型缓存加速算法工具 分级管理推理过程中产生的KV Cache记忆数据 扩大推理上下文窗口 实现高吞吐 低时延体验 [1] - 技术通过推理框架 算力 存储三层协同 包含推理引擎插件 功能库和高性能存取适配器三大组件 [3] 性能提升 - UCM依托层级化自适应的全局前缀缓存技术 使首Token时延最大降低90% [3] - 在中国银联试点应用中 大模型推理速度提升125倍 仅需10秒即可精准识别客户高频问题 [4] - 国外主流模型单用户输出速度达200Tokens/s(时延5ms) 而国内普遍小于60Tokens/s(时延50~100ms) [3] 行业应用 - 华为联手中国银联在金融典型场景开展UCM技术试点应用 联合发布智慧金融AI推理加速方案 [1] - 金融行业因数字化属性强 对速度 效率 安全 可靠性要求高 成为验证技术的标杆场景 [4] - 中国银联将依托国家人工智能应用中试基地 联合华为等生态伙伴共建"AI+金融"示范应用 推动技术成果规模化应用 [4] 技术优势 - UCM将专业存储能力引入分级缓存管理 在软硬件协同与卸载方面做了大量工作 如直通加速 KV检索索引与底层文件系统元数据融合 [6] - 具备KV Cache生命周期管理的完整机制 包括预热 分级 淘汰等功能 [6] - 算法加速库超越业界普遍的Prefix Cache层面 商用稀疏全流程算法和后缀检索算法 提供更丰富可靠的技术手段 [6] 生态发展 - UCM通过开放统一的南北向接口 适配多类型推理引擎框架 算力及存储系统 将于今年9月正式开源 [7] - 华为希望促进框架厂商 存储厂商和算力厂商共同加速框架机制成熟 解决AI行业落地过程中的效率与成本问题 [7] - 公司强调从单点算力模组转向网络 存储 端到端的系统性优化 以有效加速AI落地 [7]