AI推理

搜索文档
揭秘:OpenAI是如何发展出推理模型的?
硬AI· 2025-08-04 09:46
OpenAI的AI发展路径 - OpenAI的成功源于数学领域的探索,而非ChatGPT的意外走红,数学被视为逻辑和推理能力的试金石[3][4][5] - 公司内部代号"草莓"的计划旨在通过数学训练提升AI的推理能力,最终目标是开发通用AI智能体[4][8] - 2024年推出的o1推理模型展现了突破性进展,其核心研究员成为行业争抢对象,Meta以亿美元薪酬挖走5人[10] 技术突破与创新 - 结合大语言模型(LLM)和强化学习(RL),开发出"思考链"(Chain-of-Thought)方法,使AI能展现完整解题思路[9][10][12] - 测试时计算技术让模型在给出答案前反复验证步骤,IMO金牌模型采用多智能体协作探索最优解[12][15] - AI推理机制不同于人类思考,但能实现更强大结果,如同飞机与鸟类飞行的差异[13] 未来发展方向 - 当前AI擅长客观编码任务,但处理主观任务(如旅行规划)仍存在数据瓶颈[15] - 下一代AI将向多智能体协作演进,从处理事实转向理解主观意图[16] - 终极目标是开发能自主处理互联网任务并理解用户偏好的超级智能体[16] 行业竞争格局 - OpenAI面临Google、Anthropic、xAI和Meta等对手的激烈竞争[17] - 行业焦点已从能否实现智能体未来转向谁将率先突破[17]
【深圳特区报】云天励飞董事长兼CEO陈宁:选准了赛道来对了城市
搜狐财经· 2025-08-03 23:51
公司发展历程 - 公司成立于2014年 初心是通过NPU降低AI算法计算成本 并凭借NPU课题获得政府人才引进项目第一名及研发资金支持[3][9] - 公司推出首个智慧警务产品"深目"系统 上线后使深圳某区警情下降50% 并实现15小时跨省找回被拐儿童[3][9] - 2019年获得国家发改委 科技部和工信部芯片项目 其中科技部项目已完成验收[3][9] - 2020年全面转向国产工艺 成为首家采用国产Chiplet工艺的AI芯片公司[4][10] - 经过11年发展 从几人团队成长为近千人规模的上市企业[4][11] 技术研发成果 - 基于FPGA实现首款自主知识产权神经网络处理器 应用于加速卡及边缘计算盒子 主要用于目标识别与特征提取[3] - 2018年第二代自主知识产权神经网络处理器芯片正式投片 应用于智能相机 政务终端 机器人及工业智能检测等领域[3] - 已推出五代NPU芯片 针对边缘推理 大模型推理和具身智能场景推出系列产品矩阵[6][13] - 获得海内外授权专利1000余项 其中发明专利700余项 发明专利占比超70%[13] - 自研深界DeepEdge10系列AI推理芯片采用"算力积木"架构 满足从边缘设备到智算中心的高性能计算需求[13] 战略布局与规划 - 在2025世界人工智能大会宣布全面聚焦AI芯片 围绕边缘计算 云端大模型推理和具身智能三大核心布局 打造国产算力加速器[4][10] - 提出"自进化城市智能体"战略蓝图 深圳市政府连续三年将其纳入规划 较全球AI Agent概念领先5年[5][12] - 构建覆盖云端 边缘和智能终端的AI推理产品系列 包括模组 边缘智能盒子 AI推理加速卡 大模型推理一体机及智算服务器[14] - 在具身智能领域与十余家机器人厂商合作 边缘芯片产品已进入服务型机器人实际部署阶段[15] - 致力于打造涵盖高性能 低成本和强适配三大优势的国产AI推理芯片体系 成为AI大模型时代关键加速器[15] 行业趋势判断 - 2025年是人工智能重要转折点 大模型技术成熟度提升且调用成本显著降低 AI从专家工具演变为全民基础设施[6][13] - AI从训练时代迈入推理时代 推理算力需求将迎来爆发式增长[6][13] - 中国有机会在AI推理时代定义推理芯片标准[13] 区域发展环境 - 深圳被评价为全国最适合海归创业的城市 粤港澳大湾区是全球最具潜力的人工智能创新先行区[4][11] - 深圳通过深度研判技术潜力与产业方向适配性 推动技术从实验室走向产业化 构建产学研深度融合的创新生态[5][11] - 过去4年深圳积极推动鹏城自进化智能体建设 将AI技术应用于警务 交通 教育 医疗和城市治理等领域[5][12]
IPO周报 | 云天励飞赴港上市;蓝箭航天、艺妙神州启动科创板IPO
IPO早知道· 2025-08-03 12:41
云天励飞 - 公司于2025年7月30日向港交所递交招股说明书,拟主板挂牌上市,华泰国际、中信证券和招银国际担任联席保荐人,迈向"A+H"双重上市新阶段 [3] - 公司长期专注于AI推理芯片研发设计,推出面向企业级、消费级、行业级三大场景的NPU驱动AI推理芯片产品,构建从基础设施到商业化落地的完整闭环 [3] - 以2024年中国市场收入计算,公司是全场景AI推理芯片行业前三、NPU驱动AI推理芯片领域前二的提供商 [4] - 2022-2024年营收分别为5.46亿元、5.06亿元和9.17亿元,2025年Q1营收同比增长168%至2.64亿元 [4] - 中国AI推理芯片行业规模从2020年113亿元以94.9%复合年增长率增至2024年1,626亿元,预计2029年达13,830亿元 [4] - 公司宣布加大对AI推理芯片投入,未来布局边缘计算、云端大模型推理、具身智能三大方向 [4] 蓝箭航天 - 公司于2025年7月25日同中金公司签署辅导协议,启动科创板上市进程,或将成为"科创板商业航天第一股" [6] - 公司致力于构建中大型液氧甲烷运载火箭全产业链条,为全球提供高性价比航天运输服务 [6] - 作为全国首家取得全部准入资质的民营运载火箭企业,2023年7月实现全球首款液氧甲烷火箭朱雀二号遥二成功入轨 [6] - 朱雀三号可重复使用运载火箭计划2025年下半年首飞,起飞重量约570吨,已完成我国规模最大的九机并联地面热试车 [7][8] - 2025年4月15日第100台天鹊系列液氧甲烷火箭发动机下线,标志民营商业航天进入规模化应用新阶段 [8] 艺妙神州 - 公司于2025年7月23日同中信证券签署辅导协议,启动科创板上市进程 [10] - 专注于原研基因细胞药物技术,拥有自主研发和产业化平台,已获批7项中国和1项美国CAR-T新药临床试验批准 [10] - 血液肿瘤产品IM19已在中国提交上市申请并获得受理,实体肿瘤产品IM96获中美临床试验批准 [10] - IM19采用创新CAR分子设计,可显著提升r/r DLBCL患者生存质量,填补国产CAR-T药物市场空白 [11] - IM96是全球唯一中美获批的靶向GUCY2C的CAR-T候选药物,国内首个针对结直肠癌的CAR-T候选药物 [11] - 成立至今累计完成10轮融资,投资方包括君联资本、国投创业等30余家机构 [12] 行业动态 - 科创板将重启未盈利企业适用第五套标准上市,扩大适用范围至人工智能、商业航天、低空经济等前沿领域 [6]
GPU的替代者,LPU是什么?
半导体行业观察· 2025-08-03 03:17
核心观点 - Groq的LPU(语言处理单元)架构专为AI推理设计,消除了传统GPU在推理速度和精度之间的权衡,能够在保持高质量的同时实现极低延迟 [2] - 通过TruePoint数值技术、SRAM主存储器、静态调度等创新,LPU在运行1万亿参数模型时展现出显著性能优势 [3][4][6][7][9] - 该架构支持张量并行和流水线并行,使Moonshot AI的Kimi K2等大模型能实时生成令牌 [10] - 在MMLU等基准测试中,Groq解决方案在保持高准确率的同时,速度比BF16提升2-4倍 [3][15] 技术架构创新 数值处理 - TruePoint技术允许在无损精度的区域降低计算精度,以FP32执行矩阵运算,同时选择性量化输出,速度比BF16快2-4倍且无准确率损失 [3] - 采用100位中间累积存储,确保无论输入位宽如何都能实现无损累积 [3] 内存设计 - 使用数百兆片上SRAM作为主权重存储器(非缓存),相比DRAM/HBM将访问延迟从数百纳秒降至最低 [6] - 支持混合精度存储:FP32用于注意逻辑,块浮点用于MoE权重,FP8用于容错层激活 [5] 执行模型 - 编译器预先计算整个执行图至时钟周期级别,消除动态调度带来的延迟 [7][9] - 静态调度实现无尾延迟的张量并行和流水线并行,支持第N+1层在N层计算时即开始处理 [9] 性能优化 并行处理 - 张量并行将单层拆分到多个LPU芯片,使单次前向传递更快完成,适合实时应用 [10] - 推测解码技术通过草稿模型预测令牌,LPU架构能高效验证批次,支持每个流水线阶段处理2-4个token [11] 芯片互连 - RealScale互连协议消除时钟漂移,使数百个LPU对齐为单核心,编译器可精确预测数据到达时间 [12] 实际应用表现 - 在OpenBench框架测试中,运行Kimi-K2-Instruct模型时保持高准确率得分 [15] - 第一代14nm LPU已实现优异性能,近期使Kimi K2在72小时内性能提升40倍 [16]
又一家AI芯片企业,获巨额融资
半导体芯闻· 2025-07-30 10:54
融资动态 - AI芯片初创公司Groq正洽谈新一轮6亿美元融资 估值接近60亿美元 若达成则较2024年8月28亿美元估值实现一年内翻倍[1] - 最新融资由风投机构Disruptive领投 已注资超3亿美元 2024年11月融资则由贝莱德领投 参与方包括Neuberger Berman 思科 KDDI及Samsung Catalyst Fund等[1] - 公司此前累计融资额约10亿美元 2024年8月曾以6.4亿美元融资创28亿美元估值[1] 财务与业务进展 - The Information报道称Groq将2025年收入预期下调超10亿美元 但知情人士表示下调部分预计在2026年实现[2][3] - 2024年5月与加拿大贝尔达成独家合作 为其大型AI基础设施提供算力 4月与Meta合作加速Llama4模型推理效率[3] 技术定位与竞争格局 - 公司专注LPU(语言处理单元)芯片设计 专攻AI推理场景而非训练 采用不同于英伟达GPU的技术路径[3] - 创始人乔纳森·罗斯曾参与开发谷歌TPU芯片 强调LPU避免使用高带宽内存等昂贵组件 供应链集中于北美[3][4] - 推理芯片领域竞争者包括SambaNova Ampere Cerebras及Fractile等 公司计划在多维度与英伟达等形成差异化[3] 行业背景 - 英伟达GPU主导AI模型训练芯片市场 但推理芯片领域存在多家初创企业争夺份额[3] - 公司技术路线选择反映行业对专用推理芯片的需求增长 尤其在实时数据处理场景如聊天机器人等[3]
传英伟达(NVDA.US)“挑战者”Groq接近完成新一轮融资,估值或翻倍至60亿美元
智通财经· 2025-07-30 07:09
融资动态 - AI芯片初创公司Groq正洽谈新一轮6亿美元融资 估值接近60亿美元 若达成则较2024年8月28亿美元估值实现一年内翻倍 [1] - 本轮融资由Disruptive公司牵头 2024年11月融资由贝莱德领投 Neuberger Berman等多家机构参与 [1] - 公司此前累计融资约10亿美元 2024年8月曾以6.4亿美元融资刷新估值 [1] 技术定位 - Groq设计的LPU芯片专攻AI推理场景 针对预训练模型实时数据处理 如聊天机器人响应生成 [2] - 公司CEO指出LPU不依赖高带宽内存等昂贵组件 供应链集中于北美 与英伟达GPU形成差异化 [2] 行业竞争 - 英伟达GPU主导AI训练芯片市场 但推理芯片领域涌现Groq、SambaNova、Ampere等多加初创公司竞逐 [2] 商业合作 - 2024年5月与加拿大贝尔达成独家合作 为其AI基础设施提供算力支持 [1] - 2024年4月与Meta合作推出AI基础设施 加速Llama4模型推理效率 [1] 公司背景 - 创始人乔纳森·罗斯曾参与开发谷歌TPU芯片 公司2016年进入公众视野 [1]
AI推理算力需求即将爆发,深圳云天励飞加注推理芯片
新浪财经· 2025-07-29 02:53
行业趋势 - AI推理芯片成为人工智能行业新方向 云天励飞宣布全面聚焦该领域 围绕边缘计算 云端大模型推理和具身智能三大场景 [1] - AI正从训练时代迈入推理时代 推理算力需求将迎来爆发式增长 2025年成为人工智能发展重要转折点 大模型技术达到新成熟高度 模型调用成本显著降低 [1] - 三大增量助力推理算力需求加速 包括互联网大厂加速AI与原有业务结合 Agent和深度思考推理结合 多模态加速渗透 [2] - AI将全面重塑各类电子产品 包括智能穿戴设备 家用电器和电动汽车 设备将具备主动工作能力 实现人性化交互和功能跃升 [2] 公司战略与产品 - 云天励飞开发四款AI推理芯片 包括DeepEdge10C DeepEdge10标准版 DeepEdge10Max和DeepEdge200 [3] - DeepEdge10系列芯片面向边缘人工智能 核心定位满足边缘端千亿参数大模型部署需求 支持Transformer BEV CV大模型和LLM大模型等主流模型 [3] - 芯片采用算力积木架构 通过D2D Chiplet技术和C2C Mesh技术 覆盖8T-256T算力需求 实现7B至671B参数量大模型推理 [4] - 架构实现算力纵向拓展 单个封装最多集成8个算力积木 形成128T推理算力的单芯片成果 [4] - 通过C2C Mesh技术实现算力扩展 将多个节点连接形成更大规模算力池 支撑MoE架构大模型推理 [5] 技术突破与适配 - DeepEdge10芯片平台成功适配DeepSeek R1系列模型 QwQ-32B模型及国产鸿蒙操作系统 [5] - DeepSeek R1采用GRPO强化学习策略 专门优化数学推理任务 减少计算资源消耗 实现更低成本 [1] - DeepSeek R1模型价格仅为OpenAI o1模型的几十分之一 具有极高性价比优势 [1] 财务表现 - 云天励飞2024年营收增长81% 今年一季度增速提升至160% [5] - 管理层预计下半年随着AI推理算法迭代 算力需求攀升和应用拓展 将继续保持高速增长态势 [5] 市场前景 - AI推理芯片市场仍处于蓝海阶段 市场规模较数千亿美元训练芯片市场仍较小 [3] - 预计未来三至五年内 AI推理芯片增长速度将大幅超越训练芯片 [3]
北美AI军备竞争2
2025-07-29 02:10
纪要涉及的行业和公司 - **行业**:AI、半导体、光模块、PCB - **公司**:谷歌、Meta、OpenAI、Oracle、英伟达、AMD、芬尼萨 纪要提到的核心观点和论据 - **AI 产业链从训练转向推理**:1.0 阶段聚焦 AI 训练,以通用 GPU 为主导,市场对模型训练持续性存疑;2.0 阶段转向 AI 推理,算力卡从 GPGPU 转向云商自研 ASIC,推理业务可实现商业正循环 [3] - **北美主要科技公司加大 AI 推理投入**:谷歌 2025 年 Q2 资本支出达 224 亿美元,同比增长近 70%;Meta 规划激进数据中心建设;OpenAI 与 Oracle 合作新增 4.5GW 数据中心容量 [1][5] - **ASIC 在 AI 产业链地位提升**:2026 年 ASIC 的 Flops 占比将从 2025 年的 13%增至 18%,CAPEX 占比从 6%增至 8%,成为云商实现商业正循环的关键工具 [1][6] - **未来推理算力依赖 ASIC**:博通预测 2027/28 年或 2030 年 ASIC 市场占比将超 GPU,半导体市场规模预计达 600 - 900 亿美元 [1][7] - **ASIC 与 GPU 成本差异大**:ASIC 单位 Flops 投入成本仅为 GPU 的 1/2 到 1/3,光模块和 PCB 价值量约为 GPU 的 4 倍,整体成本差异接近 9 倍 [1][9] - **AI 集群网络侧发展趋势**:AI 集群规模扩大,对训练和推理性能要求提高,未来 AI 集群会维持较高带宽水平及较大配比差距,网络侧占比将显著提升 [10][11] - **光模块及 PCB 板块优势显著**:中国光模块厂商价格有竞争优势,毛利率 40% - 50%,净利率 30% - 40%;光模块和 PCB 板块在未来 KPI 比例中占比将急剧增加,有望实现超额增速 [1][13] - **看好未来 AI 行业特别是光模块行业**:云服务提供商提升资本支出,供应商上修 EPS,龙头公司估值较低,预计挑战 20 倍,GPT - 5 等关键模型发布将产生强劲拉动作用 [2][14] 其他重要但可能被忽略的内容 - **AI 训练阶段市场问题**:2023 年下半年至 2025 年期间,多次出现股价回撤,反映市场对预训练模型天花板以及训练所需算力不足等问题的担忧,且训练无直接收入和利润,被认为不可持续 [3] - **ASIC 协同方式**:单个 ASIC 卡性能较弱,需通过高速带宽连接多个 ASIC 卡实现高效协同以与单张 GPU 卡竞争 [7][8] - **光模块市场格局**:光模块市场一线与二线公司良品率有差距,整体产能非瓶颈,核心瓶颈在于上游物料,被头部公司掌握,二线公司难获足够低成本物料供应 [13]
Google Token使用量是ChatGPT的6倍?
傅里叶的猫· 2025-07-27 15:20
核心观点 - Google的token使用量是ChatGPT的6倍,但Gemini的DAU仅为ChatGPT的1/4至1/2 [1][3][4] - Google的token消耗主要来自搜索产品(如AI Overviews、Lens等),而非Gemini Chat,后者仅占整体token使用的5% [6][7] - 2025年Q1 Google的AI推理token使用量达634万亿,远超微软的100万亿,4月单月token使用量480万亿,同比增长50倍 [6] - 尽管用户规模差距大,Gemini与ChatGPT的单个用户token消耗量相近(月均56,000 token/MAU) [7][8] - AI推理成本占Google搜索收入比例较低(1.4%),对利润率影响有限 [8] 用户数据对比 - ChatGPT的MAU为8亿+,Gemini为4亿+,DAU比例从1:2(Barclays)到1:4(semianalysis)不等 [4][6] - 用户活跃比率(DAU/MAU和WAU/MAU)均为0.1和0.6,两者持平 [6] - 在chat app统计中,ChatGPT DAU达1.6亿(占49%用户份额),Gemini DAU未披露具体数值但占11%用户份额 [6] 业务驱动因素 - Google搜索业务的新功能(AI Overviews、Circle to Search等)和Workspace产品深度集成Gemini模型是token激增主因 [6][7] - 2025年Q1 Google处理推理token的成本为7.49亿美元,占非TAC运营支出的1.63% [8] - 传统搜索运营成本占营收18%,AI成本占比1.4%,成本结构差异显著 [8] 基础设施需求 - 2025年Q1 Google需要约27万颗TPU v6芯片支撑token处理,季度新增芯片支出6亿美元 [8] - 预计Q2芯片支出将增长至16亿美元,AI推理成为基础设施建设的核心驱动力 [8] 行业动态 - 英伟达B系列服务器在国内开放样品订单 [10] - 行业信息交流平台提供每日更新的投行数据和分析报告 [12]
云天励飞:2025年全面聚焦AI芯片 三大核心布局押注推理蓝海
快讯· 2025-07-27 02:13
公司战略布局 - 云天励飞将在2025年全面聚焦AI芯片 围绕边缘计算、云端大模型推理、具身智能三大核心布局 [1] - 公司正在构建"高性能、低成本、强适配"的国产AI推理芯片体系 目标成为中国AI推理芯片领军企业 [1] - 公司拥有五代神经网络处理器指令集架构和商用芯片的技术积累 [1] 技术产品优势 - 云天励飞"算力积木"深界DeepEdge10芯片平台覆盖8T至256T算力范围 [3][8] - 思元370系列最大算力达256TOPS(INT8) 支持大语言模型和多模态AIGC推理业务 [3] - 公司技术架构在国产工艺下实现算力单元高效灵活扩展 [8] 行业市场规模 - 2025年全球AI推理市场规模预计达到1061.5亿美元(约7370亿元人民币) [6] - 2025-2030年行业复合年增长率(CAGR)预计为19.2% 2030年规模将达2549.8亿美元 [6] 行业竞争格局 - 寒武纪总市值2500.56亿元 推理产品线布局完整 覆盖云端与边缘 [8] - 海光信息总市值3153.66亿元 推理服务器芯片布局领先 政企订单持续增长 [8] - 中科曙光总市值1007.36亿元 参与AI服务器整机市场 具备推理适配优化经验 [8] - 云天励飞总市值184.78亿元 覆盖边缘推理、具身智能和云推理三大场景 [8]