Large Language Model (LLM)
搜索文档
1000 行 Java 代码手搓 OpenAI gpt-oss 推理引擎
AI前线· 2025-10-24 04:07
模型发布与项目背景 - OpenAI于2025年8月发布了开源模型gpt-oss,提供120b和20b两个推理模型版本[3] - 该项目使用约1000行Java代码实现了一个可在CPU上运行的高性能gpt-oss推理引擎,并发布在亚马逊官方GitHub上[3] 模型架构设计 - 模型采用decode-only MoE架构,使用RoPE位置编码和RMSNorm归一化[5] - 注意力层使用Grouped Query Attention,结合Sliding Window Attention和full context交替计算以降低复杂度[5] - MLP FFN层采用MoE架构,20b模型共24层,每层含32个专家,每次前向传播仅激活4个专家[5] - 模型参数采用mxfp4量化,20b模型文件大小仅约13GB,可在单卡16GB GPU上运行[5] 技术实现关键模块 - 代码结构参照PyTorch的model.py设计,包括模型加载、基础算子、注意力块、MLP块和采样等模块[10][15] - 实现原生gpt-oss model.safetensors格式的模型加载[15] - 基础算子包括矩阵运算、RMSNorm和softmax等[15] - 注意力块实现QKV计算、GQA注意力计算及RoPE位置编码[15] - MLP块实现专家路由、SwiGLU激活函数和MLP投影[15] MXFP4量化计算优化 - 模型文件采用mxfp4量化MLP层参数,使用u8类型做块级缩放参数,其余参数采用bf16[12] - 利用Java Project Panama的Vector API实现CPU指令级并行,通过查表转换和FMA指令加速计算[17][19] - 结合多线程并行大幅加速计算过程[19] 性能优化策略 - 通过矩阵转置提高CPU缓存空间局部性,实现26倍性能提升[26] - 利用SIMD向量化指令和4倍循环展开,达到77倍加速[26] - 采用多核并行计算,实现785倍性能提升[26] - 使用分块计算优化CPU缓存命中率,最终达到942倍加速,占物理机实际算力的42%[26] 系统级优化技术 - 关键计算环节如GQA缩放点积和MLP层的4个专家执行均实现并行化[28] - 采用Java Foreign Memory API通过内存映射方式加载MLP权重,仅需16GB内存即可运行模型[29] - 减少内存拷贝,直接加载内存映射段到CPU向量寄存器,避免JVM中间内存分配[30] - 实现算子合并减少计算量和迭代次数,并采用KV缓存优化内存占用[31][32] 性能表现对比 - 在MacOS Apple M3 Pro上实现解码速度8.7 tokens/秒,预填充速度11.8 tokens/秒[33] - 在AWS EC2 m5.4xlarge实例上实现解码速度6.8 tokens/秒,预填充速度10 tokens/秒[34] - 性能显著高于PyTorch原始的0.04 tokens/秒和Huggingface transformers的约3.4 tokens/秒[34] Java在AI推理中的潜力 - Java通过Project Panama等特性不断缩小与底层语言在计算效率上的差距[38] - 项目证明经过适当优化,Java可实现接近O3优化程序95%的性能[38] - Java在性能方面的持续进步使其在AI推理领域具有应用潜力[38]
SecureLend Targets Community Banks With AI Lending Platform
Crowdfund Insider· 2025-10-20 19:55
公司产品发布 - SecureLend本周宣布其人工智能驱动的贷款平台正式商业发布[1] - 该平台旨在使社区银行、保理公司和替代性贷款机构的贷款发放速度提高高达10倍,成本效率提升60%[1] - 该公司是首家引入大型语言模型无关架构的金融科技公司,允许机构在OpenAI、Anthropic、Google Gemini、DeepSeek等模型之间切换,消除了供应商锁定[1] 行业背景与挑战 - 社区银行面临来自数字优先竞争对手日益增长的压力,其银行业资产份额在过去几十年中已减半[2] - 在关键领域如小企业贷款中,数字挑战者现在每年捕获30%至50%的新业务[2] - 如果没有现代化,社区银行每年的损失可能达到两位数百分比的下滑[2] 产品技术细节与效益 - 根据房地美的一项研究,手动抵押贷款发放成本约为每笔贷款11,600美元,主要由文件验证和承保驱动[3] - SecureLend端到端自动化这些工作流程,从人工智能驱动的借款人沟通到信用备忘录生成,从而降低成本和加速处理[3] - 平台允许银行混合搭配最佳模型,例如Claude用于分析、GPT-4用于沟通、DeepSeek用于批量任务,全部通过一个编排层实现[4] 公司创始人背景 - SecureLend由Pfuetze创立,其此前曾为Tower Community Bank、Thread Bank和Broadriver Asset Management发起资产[3] - Pfuetze在金融科技领域拥有十年经验,始于其2011年基于QR码的支付初创公司PAYMEY[3]
手撕大模型,KVCache 原理及代码解析
自动驾驶之心· 2025-10-20 06:30
KV Cache技术概述 - KV Cache是大型语言模型推理过程中的关键技术,通过缓存中间计算结果显著提升模型运行效率[1] - 该技术专门针对Transformer自回归推理场景,在文本生成等任务中发挥重要作用[1] KV Cache的工作原理 - 核心思想是缓存历史计算中的键(Key)和值(Value)矩阵,避免重复计算[4] - 生成新token时只需计算新的Q矩阵并与历史KV矩阵进行注意力计算[4][7] - 将时间复杂度从O(n²)降低到O(n),极大提升长序列生成效率[4][7] - 首次生成时计算并缓存所有输入token的K和V矩阵,后续生成只需计算新token的查询矩阵[7] KV Cache的技术实现细节 - 为每个注意力头维护独立缓存,结构为[batch_size, num_heads, seq_len, head_dim][11] - 缓存会随着生成过程动态增长,直到达到模型最大序列长度限制[11] - 采用滑动窗口机制处理超长序列,如Llama 2只保留最近N个token的KV缓存以控制内存占用[12] - 需要权衡最大缓存长度、批量大小和精度选择等参数[15] 内存与性能权衡 - KV Cache提升速度但需要额外内存存储缓存数据[11] - 以GPT-3 175B模型为例,每个token的KV缓存约占用20KB内存[12] - 生成1000个token时单个样本需要约20MB内存,批量处理时内存消耗线性增加[12] 代码实现机制 - 通过维护cache_k和cache_v变量实现历史KV值的存储和更新[14] - 使用缓存时会将新计算的K、V与历史缓存进行拼接[14] - 提供reset_cache方法用于新序列生成时重置缓存状态[14] 优化策略 - 分页KV Cache借鉴内存分页机制,将连续缓存分割成固定大小块提高内存利用率[22] - 动态缓存管理根据输入序列长度动态调整缓存大小[22] - 量化缓存使用INT8或INT4等低精度格式存储,大幅减少内存占用[22] - 选择性缓存对不重要层或注意力头不进行缓存,平衡速度和内存[22]
100美元、仅8000行代码,复现ChatGPT,Karpathy:这是我写过的最疯狂的项目
Founder Park· 2025-10-14 04:18
项目概览 - 特斯拉前AI总监、OpenAI创始成员Andrej Karpathy发布全新开源项目“nanochat”,这是一个极简但完整的“从零构建ChatGPT”训练框架 [3] - 该项目被描述为LLM101n的“压轴之作”,并可能成为未来研究基线和开源社区的实验平台 [8][16] - 项目核心理念是降低LLM研究与复现门槛,让每个人都能亲手训练自己的模型,延续了其在nanoGPT时期倡导的民主化路线 [12][22] 技术规格与成本效益 - 整个系统仅需约8000行干净代码,在一台GPU机器上运行约4小时后,即可通过网页界面与训练的“小ChatGPT”对话 [7][25][26] - 项目全程花费低至约100美元,可训练出一个能创作故事/诗歌、回答简单问题的小型ChatGPT [10][13] - 训练约12小时即可超过GPT-2的核心指标,将预算扩展到约1000美元(训练约41.6小时)后,模型能解决简单的数学/代码问题并做多项选择题 [10][11][13] 功能与性能 - nanochat涵盖从数据准备、预训练、中期训练(对话、多项选择题、工具使用)、SFT、RL微调到推理部署的全流程 [6] - 训练24小时的模型(FLOPs大致相当于GPT-3 Small 125M,约为GPT-3的1/1000)在MMLU上得分进入40分段,在ARC-Easy上进入70分段,在GSM8K上进入20分段 [11] - 项目实现了高效的推理引擎,带有KV缓存,支持简单的预填充/解码,工具使用(如Python解释器),并可通过CLI或类ChatGPT的网页界面交互 [12] 项目定位与影响 - nanochat被视为“LLM生态系统微缩版”,与nanoGPT构成“从神经网络基础到产品级对话系统”的两步闭环 [17][18][19][20] - 项目在放出不到12小时内,GitHub星标就突破4.2k,显示出开源社区的高度关注 [4][6] - Karpathy的目标是将完整的“强基线”技术栈整合到一个连贯、极简、可读、可修改、可最大化派生的代码仓库中 [14]
100美元、8000行代码手搓ChatGPT,Karpathy最新开源项目爆火,一夜近5k star
36氪· 2025-10-14 02:25
项目概述 - AI领域专家Andrej Karpathy发布名为nanochat的开源项目,旨在以极低成本实现ChatGPT克隆版 [1][2] - 项目包含从零开始构建大模型的完整流程,代码约8000行,发布12小时内GitHub星标数超过4500 [2] - 目标是将一整套“强势基线”能力打包进结构统一、可读性强、易于修改的代码库中 [5] 技术功能与流程 - 实现训练分词器、在FineWeb数据集上预训练Transformer LLM、SFT微调及可选GRPO强化训练 [3] - 包含高效推理引擎,支持KV Cache、prefill/decode推理、工具调用,可通过CLI或WebUI交互 [3] - 自动生成Markdown评分报告卡,总结与游戏化展示整个训练过程 [3] 成本与性能表现 - 约100美元成本(8×H100 GPU训练4小时)即可训练出具备聊天功能的迷你模型,能写故事/诗歌、回答简单问题 [3] - 训练约12小时模型性能可超过GPT-2的CORE指标 [3] - 预算扩展至1000美元(训练41.6小时),模型在MMLU得分40+、ARC-Easy得分70+、GSM8K得分20+ [4] 项目定位与社区影响 - nanochat是LLM101n课程的压轴项目,有潜力像nanoGPT一样成长为研究平台或标准基准 [5] - 项目框架已成型,适合社区协同迭代改进每个模块 [5] 应用场景与局限性 - 专家认为该微型模型类似年幼孩子,不适合直接用于个性化数据微调,否则效果不佳 [9][10] - 实现有效的个性化模型需复杂步骤,包括大量合成数据生成和重写,目前仍偏重科研 [10]
阿里巴巴-2025 年云栖大会承诺加大投资,拥抱人工智能大模型时代
2025-09-26 02:29
公司信息 * 阿里巴巴集团 在2025年云栖大会上宣布将增加对人工智能和云计算的投资 初始预算为未来三年超过3800亿元人民币[1] * 公司定位为全球领先的全栈人工智能服务提供商 提供最佳大模型 全球AI云网络以及开放和开发者友好的生态系统[1] * 根据Omdia数据 阿里云占据中国AI云市场36%的份额 在提供商中排名第一[14][15] 战略与投资 * 管理层认为大模型将成为下一代操作系统 而AI云将成为下一代计算机[1] * 管理层认为全球可能只有5-6个超级云计算平台[1] * 长期投资将超过3800亿元人民币的资本支出计划[1] * 利用其300多个开源AI模型 公司推出了云模型工作室代理-百炼 为AI代理的开发和优化提供端到端支持[2] 产品与技术升级 * 发布了迄今为止最大、能力最强的大型语言模型Qwen3-Max 其指导版本超越了GPT-5-Chat以及最新的视觉语言模型Qwen3-VL[2] * 升级了Qwen-Coder 升级了多模态视觉模型系列Wan家族和音频模型系列Fun家族[2] * 在AI基础设施方面 发布了高密度磐久超节点服务器 高性能网络架构HPN8.0 面向AI时代的分布式存储CPFS[2] * 增强了基础设施能力 包括灵骏AI集群 PAI模型训练 推理 强化学习加速等[2] 财务数据与预测 * 将FY26-28e EPADS(每股ADS收益)提高0-4%[3] * 目标价从168.00美元上调至195.00美元[3][7] * 预计未来三年云业务复合年增长率(CAGR)将超过30%[3] * 2025A财年调整后净利润为1301.09亿元人民币 2026E财年预计为1040.68亿元人民币(同比下降19.0%) 2027E财年预计为1360.43亿元人民币(同比增长32.7%) 2028E财年预计为1738.34亿元人民币(同比增长31.9%)[4] * 2025A财年每股收益为53.88元人民币 2026E财年预计为43.62元人民币 2027E财年预计为57.89元人民币 2028E财年预计为76.34元人民币[4] * 2025A财年市盈率为21.95倍 2026E财年预计为26.59倍 2027E财年预计为20.04倍 2028E财年预计为15.20倍[4] * 2025A财年净债务权益比为7.8%[7] 商业化与增长动力 * 公司看到巨大的云业务上升空间 驱动力来自强劲的AI原生需求 国际扩张和传统行业AI采用率的提高[3] * 利用其全栈云+AI服务 预计来自电动汽车 金融和具身智能垂直领域的业务将快速增长[3] * 电子商务前景稳固[3] 风险因素 * 下行风险包括:1) 宏观消费放缓 2) 价值破坏性或低效投资 3) 为海外扩张和新技术开发过度支出 4) 关于数据 安全 反垄断 蚂蚁集团 贸易 增值税 上市 美国限制以及PCAOB审计检查的监管 5) 关于监管 合规和质量的声誉风险 6) 行业竞争 包括短视频平台和社交媒体平台对核心商业的竞争以及AI计算和应用的新进入者 7) 在庞大基数或高渗透率下行业增速放缓 8) 宏观和国家层面的冲击 如疫情 经济体系变化 制裁或军事冲突 9) 管理团队不稳定可能导致战略混乱和执行效率低下[18] 其他重要信息 * 投资意见为买入(BUY)[1][3][7] * 当前ADR价格为163.08美元[1][7] * 目标价基于多阶段DCF估值 对阿里巴巴业务的DCF估值为170美元 其上市实体长期投资的市场价值为8美元 包括股权和债务投资在内的未上市实体为6美元 其对蚂蚁集团的持股估值更新为785亿美元[17]
LeCun力荐的JEPA杀入LLM,用CV的思路训练LLM,性能鲁棒性双丰收
机器之心· 2025-09-22 07:26
文章核心观点 - Yann LeCun及其团队提出LLM-JEPA架构 将计算机视觉领域的联合嵌入预测架构(JEPA)成功扩展至大型语言模型领域 通过嵌入空间预测任务增强模型抽象能力 同时保留生成能力 [7][8][10] - LLM-JEPA在多项实验中被验证显著优于传统自回归训练目标 在微调和预训练阶段均能提升模型性能 且对过拟合表现出强鲁棒性 [10][23][32] 技术架构创新 - 核心设计采用JEPA理念 将文本和代码视为同一概念的多种视图 通过编码器提取嵌入向量 预测器基于自注意力机制实现权重绑定 度量方式采用余弦相似度 [15][16][17] - 损失函数结合传统自回归损失和JEPA目标 通过超参数λ平衡两项损失 编码器通过两次独立前向传播避免跨视角信息泄露 [15][16] 性能验证结果 - 在Llama3、Gemma2、Olmo等主流模型及NL-RX、GSM8K等数据集上 微调后准确率显著提升 例如Llama-3.2-1B-Instruct在实验中准确率从54.38%提升至60.59% [11][23][33] - 预训练实验表明 采用LLM-JEPA的模型在表示学习质量上优于传统方法 下游情感分类任务准确率提升 如rotten_tomatoes数据集从56.57%提升至57.76% [32][33] 应用潜力与局限性 - 方法展现出提升推理与生成能力的潜力 但当前依赖配对数据导致泛化性受限 且训练计算开销为传统方法的三倍 [35][36] - 未来计划通过掩码自注意力等优化降低计算成本 并探索更大规模预训练实验 [35]
AI winner: Wayfair sees a surge of traffic from LLMs such as ChatGPT and Perplexity
Seeking Alpha· 2025-09-19 11:50
公司运营亮点 - Wayfair在通过大型语言模型流量变现方面领先于Jefferies覆盖的其他公司[2] - 公司官网Wayfaircom的推荐访问量中有20%来源于大型语言模型[2]
Canaccord Genuity Raises Doximity Price Target To $67, Maintains Hold
Financial Modeling Prep· 2025-09-18 18:32
公司评级与目标价调整 - Canaccord Genuity将Doximity Inc目标价从59美元上调至67美元 [1] - 公司维持持有评级 [1] 行业技术趋势 - 大型语言模型环境快速变革正在重塑医疗保健技术行业 [1] - 用户信任度对长期成功至关重要 [1] - 用户采用规模和用户采用率仍然重要 [1] 公司竞争地位 - Doximity在人工智能转型早期阶段可能成为领域赢家 [2] - 当前估值水平下维持持有立场 [2]
研报 | 英伟达机器人“新大脑”推升芯片市场规模有望于2028年达4,800万美元以上
TrendForce集邦· 2025-08-26 07:19
文章核心观点 - NVIDIA推出新一代机器人芯片Jetson Thor 其AI算力达前代产品7.5倍 推动人形机器人实现实时感知与决策能力 [2] - 人形机器人芯片市场规模预计2028年突破4800万美元 产业生态圈由Agility Robotics、Boston Dynamics及Amazon等厂商推动建设 [2] - 高阶SoC芯片在人形机器人长期普及阶段发挥关键作用 但短期厂商可能采用平价芯片满足基础需求 [6] 技术规格与产品迭代 - Jetson Thor采用Blackwell GPU架构 配备128GB记忆体 提供2070 FP4 TFLOPS AI算力 [2] - 新一代芯片开发套件定价3499美元 较前代Jetson Orin的1499美元价格提升133% [6] - 芯片算力升级使机器人能即时处理传感器数据与大型语言模型 实现认知与行动一体化 [2] 产业发展阶段 - 短期(当前阶段):人形机器人以试点补位为主要应用模式 [6] - 中期:进入制造业与服务业规模化部署阶段 [6] - 长期:2032年后有望普及至家庭日常场景 全球出货量将突破10万台 [6] 厂商战略与市场需求 - NVIDIA通过软硬件绑定策略提升产品价值 计划推出配套软件平台缩短开发周期 [6] - 产业趋势倾向于降低机器人成本 中短期简单作业场景可采用平价芯片方案 [6] - 国际机器人联合会(IFR)确认各国技术发展路径差异 但阶段性目标一致 [6] 研究机构背景 - TrendForce集邦咨询为全球高科技产业研究机构 覆盖AI机器人、半导体及新能源等领域 [13] - 研究内容包含人形机器人产业季度报告 及新能源车销量年增21%等预测 [11]