Workflow
vLLM
icon
搜索文档
迈向超级人工智能之路
36氪· 2025-09-29 09:33
工业革命把蒸汽机接入生产线,放大了人类的体力;信息革命让计算机走进工厂和办公室,放大了人类处理信息的能力。阿里巴巴集团CEO吴泳铭在2025 年云栖大会上判断,AI将是新一次跃迁的起点,它会放大人类的智力,并最终走向能够自我进化的超级人工智能(ASI)。 "通用人工智能(AGI:Artificial General Intelligence)并非AI发展的终点,而是全新的起点。AI不会止步于AGI,它将迈向超越人类、能够自我迭代进化 的超级人工智能(ASI:Artificial Superintelligence)。"吴泳铭在主题演讲中说道。 这个判断并不遥远,在一些企业的日常运营里,越来越多Agent替代人工比对、人工处理的环节,让重复劳动被自动化,让复杂流程变得更快、更精准。 Agent是能让大模型真正落地产业,释放实际价值的方式之一。 更背后的支撑,是一条完整的产业链路:从通义系列基础模型,到百炼企业级开发平台,再到算力、存储、数据库等底层基础设施。它不仅让企业今天的 Agent能够真正跑起来,也在为未来迈向超级人工智能奠定基础。 未来的宏大目标与当下的具体应用,贯穿在一起,这也是阿里云一直以来的风格— ...
从模型到生态:2025 全球机器学习技术大会「开源模型与框架」专题前瞻
AI科技大本营· 2025-09-26 05:49
开源没? 每当新模型或新技术亮相时,总会有人第一时间抛出这个问题。 2025 年,AI 世界正处在一道分界线上:一边是不断壮大的开源阵营,一边是紧锁的闭源堡垒。最 新斯坦福《AI 指数》报告显示,开源与闭源模型的性能差距已从常见的 8% 缩小到 1.7%,开源正 迎头追上。 2025 全球机器学习技术大会特设立「开源模型与框架」专题,诚邀那些最懂底层构件的开源创作者 与实践者带来第一手的实践与思考:他们如何筑起这座未来的基石,又如何让更多人参与进来,共同 完善这场宏大的工程。 他们分别是 每个人的背后,都是一个具体的开源项目——从移动端大语言模型推理,到强化学习框架、RAG 新 范式,再到高效推理服务和投机采样训练工具。他们的工作,就是让这些"砖石"真正落到开发者手 中,让开源不再只是概念,而是可以触碰、可落地的力量。 陈海泉 字节跳动工程师、verl项目核心贡献者 阿里淘天集团技术专家、MNN团队架构师王召德 字节跳动工程师、verl项目核心贡献者陈海泉 Dify资深架构师姜勇 vLLM核心维护者游凯超 SGLang核心开发者、新加坡南洋理工大学在读博士李升桂 开源模型与框架 0 王召德 阿里淘天集团技术专 ...
最受欢迎的开源大模型推理框架 vLLM、SGLang 是如何炼成的?
AI科技大本营· 2025-09-24 02:01
文章核心观点 - 大语言模型推理阶段是决定模型实用性和广泛采用的关键 需要高效处理延迟、吞吐量和成本约束[2][3] - vLLM和SGLang作为领先的开源推理引擎项目 通过创新内存管理技术和优化调度设计显著提升推理性能[4][8][12] - 两个项目均起源于学术研究 现已发展为社区驱动的开源标杆 获得业界广泛采用和投资机构支持[7][16][31][34] 项目技术特性 - vLLM采用PagedAttention算法 借鉴操作系统分页缓存管理技术 实现精细化内存管理 官方测试显示比Hugging Face Transformers后端提升30倍吞吐量[8][9] - SGLang以RadixAttention为核心 重用过往请求的KVCache 在前缀匹配时大幅减少Prefill阶段计算量 即使关闭RadixAttention仍保持优秀性能[12] - 两者均支持Continuous Batching、Chunked Prefill、Speculative Decoding等先进特性 在功能算法层面日趋同质化[29] 社区发展数据 - vLLM于2023年6月开源 截至2025年8月获56,045星标 9,578分叉 1,465贡献者 12,393名社区参与者[15] - SGLang于2024年1月发布 同期获17,095星标 2,697分叉 638贡献者 2,754名社区参与者 规模不及vLLM五分之一[13][15] - 两项目中国开发者占比显著 vLLM达33% SGLang高达52% 社区活跃度高但待处理issue均超2000条[9][13][37] 学术与产业关联 - 项目核心发起人Woosuk Kwon(vLLM)和Lianmin Zheng(SGLang)均来自加州大学伯克利分校 师从Spark和Ray创建者Ion Stoica[16] - vLLM贡献主力来自Red Hat SGLang贡献主力来自xAI、Skywork、Oracle和LinkedIn 194名开发者在两项目间交叉贡献[18][19][20] - OpenAI工程师comaniac在vLLM提交77个代码请求 在SGLang提交17个请求 2024年3月后活跃度降低引发行业猜测[20] 性能演进历程 - vLLM在2024年9月发布v0.6.0 通过CPU调度优化实现2.7倍性能提升和5倍延迟下降 但架构复杂性导致增长放缓[23][25] - 2025年1月vLLM推出V1重构版本 结合DeepSeek V3/R1发布 与SGLang同步进入第二轮爆发式增长[21][25] - 性能竞争白热化后 双方转向强调可复现方法和真实工作负载端到端指标 鼓励第三方独立评测[26] 生态合作与投资 - a16z的Open Source AI Grant基金在2023年8月资助vLLM核心开发者 2024年6月第三批名单资助SGLang开发者[31][33] - 真格基金2024年7月向vLLM提供捐赠 Linux基金会将vLLM纳入PyTorch基金会 2025年3月SGLang加入PyTorch生态系统[40] - 两项目已成为Google、Meta、Microsoft、字节跳动、阿里巴巴、腾讯等顶尖科技公司首选推理方案[34]
LLM开源2.0大洗牌:60个出局,39个上桌,AI Coding疯魔,TensorFlow已死
36氪· 2025-09-17 08:57
大模型开源生态全景图2.0核心更新 - 全景图收录114个项目(较1.0版减少21个),覆盖22个领域,其中39个为新晋项目,60个项目被淘汰 [4] - 生态中位年龄仅30个月,平均寿命不足三年,62%项目诞生于2022年10月"GPT时刻"之后 [5] - 分类框架从Infrastructure/Application进化为AI Agent/AI Infra/AI Data三大板块,反映行业向智能体为中心演进 [10] 项目生态动态 - 头部前十项目覆盖模型生态全链路,平均Star数接近3万,远超历史同期开源项目 [5] - TensorFlow因迭代迟缓被淘汰,PyTorch以92,039 Stars成为训练平台绝对主导 [4][6] - 新晋高热度项目包括Gemini(AI Coding)、TensorRT-LLM(推理引擎)、Cherry Studio(聊天机器人) [6][28] 开发者地域分布 - 全球366,521位开发者中,美国占37.41%、中国占18.72%,两国合计贡献超55% [10][12] - 美国在AI Infra领域贡献度达43.39%(中国22.03%),在AI Data领域贡献度35.76%(中国10.77%) [14] - 中国在AI Agent领域表现接近美国(中国21.5% vs 美国24.62%),与应用层投入密切相关 [14] AI Agent领域演进 - AI Coding完成从"补代码"到"全生命周期智能引擎"跨越,支持多模态与团队协同 [23] - 大厂通过开源工具链(如Gemini CLI、Codex CLI)绑定开发者生态,战略类似Windows+.NET模式 [27] - Agent Workflow Platform向企业级能力演进,Dify提供从原型到生产的一站式平台 [34] - Browser-use项目9个月内获60K Stars,实现Agent网页操作能力 [37] AI Infra技术趋势 - Model Serving赛道持续高热,vLLM(53,912 Stars)和NVIDIA TensorRT-LLM主导云端推理 [6][45] - 本地化推理框架崛起,ollama使大模型可运行于个人设备,GPUStack等新框架补位 [49] - LLMOps接棒MLOps,聚焦监控、提示词评测与安全可信,Phoenix、Langfuse等项目覆盖全生命周期管理 [52] - 模型训练赛道热度回落,社区更关注低成本微调方案(如Unsloth集成QLoRA) [55] 许可证模式变革 - 新晋项目多采用限制性许可证(如BSL变体、Fair-code),传统MIT/Apache 2.0协议使用减少 [62] - 部分项目按用户规模设限(如月活超阈值需额外授权),反映商业博弈加剧 [62] - Cursor、Claude-Code等闭源项目仍在GitHub获高热度,挑战"开源社区"定义 [63] 大模型技术前沿 - MoE架构普及使模型参数达万亿级别(如K2、Claude Opus),通过稀疏激活控制推理算力 [69] - Reasoning成为模型新标配,DeepSeek R1通过强化学习增强复杂决策能力 [70] - 多模态全面爆发,语言/图像/语音成为标配,中国厂商在开源与闭源路线均取得领先 [71] - 模型评价体系多元化,OpenRouter等平台通过调用数据形成"数据投票"排行榜 [72]
LLM开源2.0大洗牌:60个出局,39个上桌,AI Coding疯魔,TensorFlow已死
机器之心· 2025-09-17 04:00
大模型开源开发生态全景图2.0核心变化 - 全景图收录114个项目 较上一版减少21个 覆盖22个领域 其中39个为新晋项目 60个项目被淘汰[7] - 生态中位年龄仅30个月 平均寿命不足三年 62%的项目诞生于2022年10月"GPT时刻"之后 包含12个2025年新项目[10] - 分类框架从Infrastructure/Application进化为AI Agent/AI Infra/AI Data三大板块 反映行业以智能体为中心的技术趋势[15][16] 项目活跃度与更替 - PyTorch以92,039个Star位居榜首 vLLM以53,912个Star位列第二 新晋项目GERTINI获得66,881个Star[11] - TensorFlow因迭代迟缓退出市场 PyTorch实现生态统一[8] - 头部前十项目覆盖模型生态全链路 平均Star数接近3万 远超历史同期开源项目[10] 开发者地域分布 - 全球366,521位开发者中 美国占37.41% 中国占18.72% 中美合计贡献超55%[17][20] - 美国在AI Infra领域贡献度达43.39% 为中国的两倍 在AI Data领域优势更明显[18][19] - 中国在AI Agent领域贡献度达21.5% 与美国24.62%接近 反映应用层投入集中[23] AI Agent领域演进 - AI Coding成为最活跃赛道 完成从"补代码"到"全生命周期智能引擎"的跨越 支持多模态与团队协同[43] - Chatbot领域经历高光后回归理性 Lobe-Chat保持64.7k Star Cherry Studio以"个人知识助理"定位逆势上榜[50][53] - Agent Workflow Platform向基础设施演化 Dify提供从原型到生产的一站式平台 RAGFlow等项目快速走红[54][57] - Agent Tool领域爆款频出 Browser-use9个月获60k Star mem0解决记忆管理问题 Supabase成为GenAI数据基础设施[57] AI Infra技术趋势 - Model Serving持续高热 vLLM和SGLang主导云端推理 NVIDIA TensorRT-LLM绑定GPU硬件巩固算力优势[62][66] - 本地化推理快速发展 ollama使大模型可运行于个人设备 GPUStack等新框架持续涌现[68][70] - LLMOps接棒MLOps 成为2025年增长最快赛道 Phoenix/Langfuse等项目覆盖监控至工作流管理全环节[71][72] - 模型训练热度回落 社区更关注低成本微调方案如Unsloth集成QLoRA[78] AI Data领域状态 - 技术成熟度较高 多数项目诞生于2014-2020年 Chroma成为少数抓住RAG机遇的新秀[82] - 向量数据库等基础组件缺乏突破点 Milvus/Weaviate/Elasticsearch等已成为标准拼图[86] - 企业级场景特性使开发者关注度难以维持 但向量化/RAG/多模态处理正推动数据平台向智能中枢演进[87] 开源许可模式演变 - 新项目多采用限制性许可协议 保留许可方干预权 Dify使用BSL变体 n8n采用Fair-code条款[92][93][94] - 部分项目按用户规模设限 月活超阈值需重新授权 GitHub出现代码闭源但获高星现象[91][94] 大模型技术发展动向 - MoE架构成为主流 DeepSeek/Qwen/Kimi等模型参数达万亿级 推理时仅部分激活[101] - Reasoning能力成为标配 DeepSeek R1通过强化学习增强推理 Qwen/Claude引入"快思慢想"混合模式[102] - 多模态全面爆发 语言/图像/语音交互成基础能力 语音模态工具链Pipecat/LiveKit Agents快速完善[103][104] - 模型评价体系多元化 从人工投票平台转向OpenRouter等API网关的"数据投票"排行榜[106]
昔日王者TensorFlow,已死
量子位· 2025-09-15 00:30
TensorFlow衰落与PyTorch崛起 - TensorFlow社区活跃度已跌至历史最低点,甚至不及初发布时期[3] - PyTorch呈现高歌猛进增长态势,形成鲜明对比[3] - 蚂蚁开源正式将TensorFlow从《大模型开源开发生态全景图2.0》中除名[8] 开源生态快速迭代特征 - 开源项目兴衰计量单位已从"年"缩短为"天"[10] - 全景图1.0到2.0仅隔100天,更新39个项目,替换率达35%[11][12][17] - 60个原有项目被移出,反映AI领域极快迭代周期[17][18] 项目淘汰机制与标准 - 短期热点型项目如OpenManus和OWL因热点消退被移出[19] - 迭代速度落后项目如NextChat被新兴项目取代[20] - 同生态位竞争落后者如MLC-LLM和GPT4All被Ollama取代[21] - 项目准入门槛设定为OpenRank > 50[17] 开源定义与商业模式演变 - Top 10活跃项目中部分未采用OSI标准开源许可证[26] - Dify在Apache 2.0基础上增加多租户使用限制[26][32] - Cherry Studio采用按用户规模双许可模式[27] - n8n采用自定义"Sustainable Use License"[28] - GitHub功能扩展为集产品发布、用户反馈、社区营销一体化平台[31] - 开源运营属性增强,成为重要GTM(Go-to-Market)战略[31] 技术领域竞争焦点转移 - Agent Framework领域整体活跃度呈下降趋势[38] - Model Serving和AI Coding领域呈现显著增长态势[39] - 竞争从功能覆盖转向性能深度优化[45] - vLLM和SGLang通过技术创新提升GPU利用率[44] - NVIDIA TensorRT-LLM提供极致性能优化方案[44] 全球开发贡献格局 - 美国开发者占比24%,贡献度37.4%[46][47] - 中国开发者占比18%,贡献度18.7%[46][47] - 中美两国合计贡献度超过55%[46] - 美国在AI Infra领域贡献度43.39%,显著领先[51] - 中国在AI Agent领域贡献度21.5%,与美国24.62%差距缩小[51] 新兴项目崛起案例 - OpenCode和Gemini CLI在数月内获得极高社区关注度[54] - Browser-use项目由2名研究生9个月开发获得60K星标[55]
Mira Murati 创业公司首发长文,尝试解决 LLM 推理的不确定性难题
Founder Park· 2025-09-11 07:17
公司背景与动态 - Thinking Machines Lab由OpenAI前CTO Mira Murati于2024年2月成立的人工智能初创公司[2] - 公司推出新博客栏目Connectionism,涵盖从核函数数值计算到提示工程等广泛研究主题[3] - 核心开发者Horace He(前PyTorch核心开发者,Meta离职)加入公司并主导技术研究[8] LLM推理不确定性问题分析 - 大语言模型推理中存在不可复现性,即使温度参数设为0,API仍非确定性[10] - 开源推理库(如vLLM或SGLang)在自有硬件上运行同样存在非确定性问题[11] - 传统假设认为浮点非结合性与并发执行导致不确定性,但未完全解释根本原因[13][16] 不确定性根本原因 - 浮点运算的非结合性导致数值计算差异,但非直接原因[17][21] - 原子加法操作在并发环境下导致运行间不确定性,但LLM前向传播过程通常无需原子加法[26][29][33] - 核心问题在于缺乏批次不变性:核函数输出受batch size变化影响,而服务器负载决定batch size[35][37][40] 批次不变性解决方案 - 实现批次不变性需确保RMSNorm、矩阵乘法和注意力机制与batch size无关[42] - RMSNorm需固定归约顺序,避免因batch size变化改变并行策略[46][50] - 矩阵乘法需编译固定核函数配置,放弃Split-K等优化以保持一致性[56][60] - 注意力机制需处理序列维度和特征维度归约,采用固定拆分大小策略而非动态调度[67][72] 实验验证与性能 - 使用Qwen3-235B模型测试,未优化时1000次采样产生80种不同结果,首次差异出现在第103个token[76][77] - 启用批次不变性核函数后,1000次结果完全一致[78] - 当前未优化版本性能下降,但未出现灾难性性能损失(vLLM默认26秒 vs 确定性版本42秒)[80][81] 应用价值与行业意义 - 确定性推理可实现真正的在策略强化学习,避免训练与推理间数值差异导致的策略偏移[82] - 解决不确定性问题有助于提升科学研究的可复现性和系统可靠性[85] - 公司开源批次不变性核函数库,提供确定性推理示例(GitHub仓库thinking-machines-lab/batch_invariant_ops)[74][75]
刚刚,Thinking Machines Lab首次发长文,揭开LLM推理不确定性真相
机器之心· 2025-09-11 03:36
文章核心观点 - Thinking Machines Lab发布首篇研究文章指出大语言模型推理不确定性的根本原因是缺乏批次不变性而非浮点非结合性或并发性[1][17][41] - 通过实现批次不变性核函数可彻底解决LLM推理不确定性问题使模型在温度参数为0时产生完全确定性输出[41][86][91] - 确定性推理对强化学习训练至关重要可避免策略偏离实现真正的在策略强化学习[90][91] 公司背景与动态 - Thinking Machines Lab由OpenAI前CTO Mira Murati于2025年2月创立并推出博客栏目Connectionism致敬20世纪80年代连接主义学派[1][3] - 公司首篇博客由PyTorch核心开发者Horace He主笔其于2025年3月从Meta离职加入该公司[8] LLM推理不确定性现象 - 即使温度参数设为0大语言模型API仍无法保证确定性输出[11] - 开源推理库如vLLM或SGLang在自有硬件上运行同样存在非确定性采样问题[12] - 实验显示Qwen3-235B模型在1000次重复生成中产生80种不同结果最高频结果仅出现78次[85] 传统假设的局限性 - "并发+浮点"假设认为浮点非结合性与并发执行导致不确定性但未解释根本机制[13][14] - GPU矩阵乘法在相同输入下可保持位级一致性证明并发性并非主因[15][21] - 前向传播过程本身具有运行间确定性但系统级不确定性源于批次大小变化[39][41] 批次不变性原理 - 核函数输出结果受批次大小影响导致同一请求在不同服务器负载下产生差异[41][44] - 缺乏批次不变性的操作包括RMSNorm矩阵乘法和注意力机制[49] - 归约顺序随批次大小变化是打破不变性的关键因素例如RMSNorm中核心分配策略受batch size影响[52][56] 技术实现方案 - 矩阵乘法需固定核函数配置避免使用Split-K策略以保持批次不变性[63][67] - 注意力机制需确保KV缓存内存布局一致性并采用固定拆分大小策略而非动态调度[74][79] - 已开源批次不变性核函数库batch-invariant-ops并提供确定性vLLM示例[82][83] 性能与实验数据 - 确定性核函数使Qwen3-235B模型1000次生成结果完全一致首次差异出现于第103个token[86] - 未优化确定性vLLM在Qwen-3-8B模型推理中耗时42秒较默认配置26秒存在性能损耗但属可接受范围[88][89] - 确定性推理使强化学习训练KL散度降至0避免奖励崩溃问题[91] 行业意义 - 解决数值差异可提升科学实验可复现性并优化强化学习训练流程[90][91] - 呼吁社区深入理解系统底层机制而非容忍不确定性[94]
躺在风口上的硅谷教授,身家180亿不离讲台,捧出7家AI创企
36氪· 2025-09-02 07:20
核心观点 - Ion Stoica教授横跨产业与学术界 通过科研项目孵化多家高估值AI及数据基础设施企业 包括估值1000亿美元的Databricks等[1][3][31] - 其主导的实验室25年来产出118个科研项目 涵盖Spark/Ray/vLLM等AI核心基础设施 并成功转化为商业实体[1][9][19] - 通过创业反哺科研 将25亿美元个人资产部分投入实验室运营 并吸引英伟达/Meta/华为等企业赞助[2][28][29] 学术成果转化 - AMP实验室(2011-2016年)产出25个项目 包括Apache Spark/Apache Mesos/Alluxio三大核心基础设施[9] - RISE实验室(2017年)产出41个项目 核心成果分布式执行框架Ray转化为估值10亿美元的Anyscale[16][19][23] - 天空计算实验室(2022年)产出52个项目 包括vLLM/LMArena/MemGPT等生成式AI基础设施[24] 企业孵化成果 - **Databricks**:基于Spark框架开发 估值1000亿美元 服务60%财富500强企业 总融资208亿美元[10][12] - **Anyscale**:基于Ray框架开发 估值10亿美元 总融资2.59亿美元 客户包括Uber/OpenAI/亚马逊[20][23] - **LMArena**:大模型评估平台 估值6亿美元 托管400+AI模型 获350万张用户投票 种子轮融资1亿美元[24][25] - **Conviva**:视频流分析技术公司 估值3亿美元 总融资1.1亿美元 客户包括FOX/NBC环球[2][8] - **Alluxio**:分布式数据编排平台 总融资7300万美元 为全球十大互联网公司中九家提供支持[13][14] - **Mesosphere/D2iQ**:数据中心操作系统 最高估值7.75亿美元 总融资2.5亿美元 2023年底终止运营[14][15] - **Letta**:基于MemGPT技术 估值7000万美元 种子轮融资1000万美元 GitHub获1.8万星标[26][27] 资源整合模式 - 通过硅谷人脉获取英伟达/Meta/蚂蚁/AMD/谷歌/亚马逊/华为等企业实验室赞助[2][28] - 指导80多名学生 其中7名加入Databricks 多数进入学术界或创办企业[30] - 倡导教授通过创业获取资金 应对美国政府科研资助削减趋势[28]
o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark
量子位· 2025-06-16 04:50
经典小游戏成为新Benchmark - o3-pro突破推箱子第六关上限并通关所有关卡 表现远超benchmark原有标准[2][8] - 俄罗斯方块测试中o3-pro得分无上限 成绩较前SOTA模型o3直接翻倍[3][14] - 测试采用迭代交互循环模式 结合智能体框架的感知/记忆/推理模块提升稳定性[18][20] Lmgame基准测试体系 - 包含6款游戏:推箱子(1989版)、俄罗斯方块、2048、糖果传奇、马里奥兄弟、逆转裁判[6][18] - 各游戏评估标准差异化:推箱子计算通关关卡数 俄罗斯方块按方块数+10倍消行数计分[7][13][24] - 测试框架开源 支持动态更新游戏关卡(如推箱子从4关扩展至50关)[9][23] 模型性能对比 - 推箱子历史排名:o3-pro > o3 > o4-mini > DeepSeek-R1(0528版)[10] - 俄罗斯方块历史排名:o3-pro > o3 > R1 > o4-mini 与推箱子排名存在差异[14] - o3-pro操作耗时显著 单步决策需数分钟[17] 研究团队背景 - 项目来自UCSD Hao AI Lab 负责人张昊(卡内基梅隆博士)曾参与创立LMSYS[28][29][30] - 实验室获谷歌/英伟达资助 2024年4月接收DGX B200捐赠[34] - 开源项目FastVideo获GitHub 1 5k星标 团队同时开发大模型竞技场等知名框架[32][31] 行业应用延伸 - Gemini模型2024年5月成功通关宝可梦·蓝 谷歌CEO公开宣布成果[26][27] - 测试方法受业界认可 网友认为比大模型竞技场更适合评估模型能力[5]