大语言模型(LLM)

搜索文档
榨干GPU性能,中兴Mariana(马里亚纳)突破显存壁垒
量子位· 2025-08-26 05:46
行业背景与挑战 - 大语言模型在行业应用中面临推理效率与显存成本的尖锐矛盾 尤其KV Cache技术成为显存消耗的主要瓶颈 每增加一个token都需要更多显存存储键值向量 制约模型规模扩张和并发能力提升 [1] 现有技术方案局限性 - Nvidia Dynamo项目采用多级缓存算法 将热数据存于显存、温数据在主机内存、冷数据在SSD或远端存储 但存在数据迁移流程复杂和延迟开销问题 [2] - 微软LMCache存储系统兼容vLLM等推理框架 但分布式存储支持度低且空间上限受限 [3] - 阿里巴巴方案将KV Cache扩展到Tair数据库 虽易于扩展存储空间 但读写性能难以满足低延迟需求 [3] 技术创新方案 - CXL高速互联技术凭借高带宽、低延迟和硬件级缓存一致性特性 为破解内存瓶颈提供新方向 但目前业界针对CXL存储加速LLM推理的研究仍较少 [5] - 中兴通讯与华东师范大学联合推出Mariana分布式共享KV存储技术 通过三项核心创新实现比现有方案高1.7倍吞吐量 尾延迟降低23% [6] - 细粒度并发控制方案将锁粒度从节点级降至条目级 通过RDMA_CAS竞争空闲槽位闩锁 显著减少写密集型和高偏斜工作负载下的争用 [8] - 定制化叶子节点数据布局采用分离式存储 Key连续存放可一次性加载至SIMD寄存器 Value与校验和另存内存块 大幅提升查找速度 [10] - 自适应缓存策略通过Count-Min Sketch算法快速感知热点数据 维护按热度排序链表 降低热点数据加载延迟 [11] 性能验证与应用 - Mariana支持将数据分布在远端CPU DRAM及PMem/SSD组成的共享内存池 理论存储空间无上限 [13] - 在vLLM框架测试中 GPU显存仅能存放50% KV数据时 Mariana多级存储方案显著提升大模型推理预加载阶段性能 [15][17] - 该技术通过硬件加速和智能缓存减少KV Cache查找的计算与网络开销 提升读吞吐量 其数据路径针对低延迟优化 延迟远低于需经远端CPU协议栈的解决方案 [19] 技术演进前景 - Mariana设计理念与底层硬件解耦 核心算法可直接从RDMA网络迁移至CXL硬件生态 仅需替换远程访问API即可利用CXL低延迟和一致性优势 [18] - 该技术重新定义大模型推理存储逻辑 使分布式存储在高吞吐与低延迟间找到平衡点 为百亿/千亿参数模型在普通硬件上高效运行奠定基础 [18]
电改“136号文”半年考,新能源资产后服务赛道马太效应放大
21世纪经济报道· 2025-08-25 06:13
政策与行业变革 - 国家发展改革委和国家能源局联合印发"136号文",推动新能源上网电价市场化改革,终结传统固定电价盈利模式,促进行业从政策驱动转向市场驱动 [1] - 政策落地半年后,全国可再生能源新增装机达2.68亿千瓦,同比增长99.3%,占新增装机总量的91.5% [1] - 电力市场化改革推动新能源资产后服务行业从内部生产职能向覆盖运维、交易和数字化的全链条资产运营能力转型 [1] 新能源后服务市场格局 - 新能源后服务市场规模持续扩大,2024年风电和光伏运维服务市场规模超700亿元,未来整体后服务市场预计突破1000亿元 [4] - 行业马太效应显著,头部企业凭借规模优势构建壁垒,中等规模公司面临挑战,小型企业聚焦基础性服务并依赖本地资源 [6] - 市场参与者从大型电力央企扩展至地方国资、城投、装备制造商及个人投资者等多元化主体 [4] 协合运维业务发展 - 协合运维成立于2007年,拥有18年新能源资产管理经验,当前管理容量突破40GW,电力交易资产规模超8GW,驻场项目300余个 [2][4] - 公司从集团内部服务部门转型为市场化专业服务企业,2020年后业务以满足市场化需求为主 [3][4] - 近期获得信金控股股权投资,被看好为新能源资产后服务市场的确定性投资机会 [3] 行业技术门槛与能力要求 - 行业核心矛盾从人力缺口转为缺乏综合能力专业团队,因电力市场化改革推动服务从设备可靠运维向资产盈利保障跨越 [5] - 成熟服务商需整合设备运维、电力交易及数字化支撑能力,且各板块能力需长期积累 [5] - 多元化投资者需求覆盖生产技术管理、数字化支撑、交易智能化和风险管理的全链条服务 [5] 数字化与技术创新 - 协合运维通过AI技术、数字化工具和长周期数据积累开发"PowerInsights智能分析系统",可自动生成资产报告并精准定位电量损失 [7] - 试点"人机协同"运营模式,应用无人机航拍与图像识别提升故障识别效率,使用时序大模型预测电价和供需关系 [8] - 未来将深化大语言模型应用,自动生成交易策略报告、辅助自动化策略生成及多源情报分析,但设备运维最后一公里仍需人工完成 [8] 资产价值逻辑转变 - 新能源资产价值逻辑从资源禀赋和设备选型转向全周期资产运营能力,成为保障长期稳健收益的关键因素 [7] - 资产估值由发电量、电价和运营成本等因素共同决定,在电价波动性增加背景下需提升盈利保障能力 [7] - 行业重塑推动新能源后服务市场向头部集中,资产价值重估路径清晰化 [9]
理想VLA到底是不是真的VLA?
自动驾驶之心· 2025-08-21 23:34
文章核心观点 - 理想MindVLA是机器人领域基于大语言模型(LLM)作为主干网络的狭义VLA(Vision-Language-Action)模型,通过多模态信息整合编码和决策输出实现更优的自动驾驶能力,其核心优势包括防御性驾驶、场景理解能力和轨迹稳定性 [2][5][7] 技术架构与原理 - VLA基于LLM作为主干网络,串行整合多模态信息(视觉、激光雷达、语言、地图、定位),输出决策并转换为轨迹及控制细节 [2] - 模型通过扩散模型生成轨迹,相比端到端(E2E)模型更收敛,具备稳定的中短时序轨迹生成能力 [10] - 语音功能是LLM的附加能力,具备基础语音和记忆功能 [11] 场景性能对比(VLA vs E2E+VLM) 防御性驾驶 - 在无遮挡十字路口行驶快速稳健,在有遮挡路口基于剩余距离丝滑减速,减速G值根据距离动态调整,无漏检或虚惊情况 [4][5] - E2E模型难以学会丝滑减速,VLM模块在丁字路口需强制减速但体感为急刹 [3] 拥堵场景决策 - VLA在拥堵高架场景中,让行2辆Cut-in车辆后主动向左变道,避免持续加塞,体现深度场景理解能力 [7] - E2E+VLM通常触发绕行逻辑,缺乏真实场景理解能力 [7] 非标准车道行驶 - VLA在1.5-2.5倍宽闸道轻微减速并居中行驶,无画龙现象 [9][11] - E2E+VLM在该场景100%出现轻微画龙轨迹 [10] 复杂路径规划 - VLA在路口右转后需短距离左转时选择直行并触发导航重规划,决策坚决 [11] - E2E+VLM大概率直接变道或小概率直行 [11] 能力边界与局限性 - 当前版本为辅助驾驶而非自动驾驶,需随时接管 [11] - 行车场景(地面/高架/高速)为完整技术栈,但偶发异常如绿灯不走或误判红绿灯 [11] - 部分场景控车细节仍逊于FSD,但选路能力在杭州优于FSD [11] 迭代与工程优化 - VLA因MoE(混合专家模型)和工程巧思,分场景、能力、细节并行优化,迭代速度快于E2E模型 [11] - 关键信息提取COT(Chain-of-Thought)延迟可接受,在路口15-20米触发防御性减速 [11] 硬件与部署 - 模型运行于2022年双OrinX计算芯片平台 [12]
3000万融资,20%付费转化,语音输入工具Wispr Flow如何精准找到PMF?
Founder Park· 2025-08-21 07:30
公司转型背景 - 公司最初致力于开发基于神经信号转换的可穿戴硬件设备 旨在实现无声语音交流 这是创始人长期追求的愿景 [4][5] - 硬件原型在初步功能实现后获得首轮融资 团队规模扩展至40人 包括神经科学和机器学习领域的顶尖专家 [5] - 但硬件产品面临根本性挑战:消费级市场尚未成熟 用户缺乏明确使用场景 且软件生态无法支持跨应用无缝体验 [7][9] - 行业环境加剧了硬件路线的困境 Humane AI Pin和rabbit r1等同类产品相继失败 证明语音工作流程尚未跨越鸿沟 [7] 战略转型决策 - 2024年年中董事会后启动战略评估 最终决定彻底放弃硬件业务 全面转向软件方向 [9][11] - 转型核心逻辑是优先构建软件层实现产品市场匹配(PMF) 为未来硬件发展奠定基础 [9] - 尽管存在企业级(如医疗或国防)市场的融资机会 但基于创始人-市场匹配度考量 坚持消费级方向 [10] - 2024年7月18日正式停止硬件研发 集中资源开发语音听写平台Wispr Flow [11] 组织调整执行 - 实施激进裁员措施 团队从40人缩减至5人 裁员比例达87.5% 以避免后续二次调整并保持剩余团队稳定性 [11][12] - 转型后招聘策略趋于保守 直至2025年1月团队仍不足10人 体现对组织规模控制的谨慎态度 [12] - 领导层在过渡期强调确定性 通过每日到岗和明确目标维持团队士气 [19] 产品发布与市场表现 - 开发周期大幅压缩至6周 于2024年10月1日完成产品发布 较原计划提前3个月 [13] - 发布效果显著:获得数百万浏览量 登顶Product Hunt当日及周榜第一 [13] - 用户数据表现优异:20%付费转化率(远超行业3-4%平均水平) 日均听写次数约100次 键盘输入占比降至25-30% [2][13] - 2025年1-2月实现近90%月度自然增长 用户自发分享产品体验 确认达到PMF状态 [13] 核心成功要素 - 决策速度至关重要 从犹豫到执行仅用一周 整个转型在六周内完成 最大限度减少不确定性暴露时间 [17] - 坚持从客户实际需求出发 放弃科幻式创新 转向解决具体痛点(打字慢于说话4倍) [2][20] - 通过用户行为数据验证需求 而非依赖主观判断 键盘输入占比下降至30%以下证明替代效应 [2][13] - 融资能力支撑转型 公司完成3000万美元融资 为业务调整提供资源保障 [2] 行业洞察 - 语音识别技术存在明确应用场景 但需聚焦具体痛点(如输入效率)而非硬件形态创新 [2][9] - 消费级硬件创新受制于软件生态成熟度 跨应用无缝体验是技术突破的关键门槛 [9] - 用户习惯改变需要渐进过程 日均100次听写行为表明高频使用可培养新输入习惯 [2][13]
个人AI助理开发万字指南:从0到1,把AI打造成顶级思考伙伴
36氪· 2025-08-20 07:10
AI助手应用价值 - 通过提供充足上下文,AI助手可生成简洁周到且逻辑严密的用户故事,显著提升文档撰写效率 [5] - AI助手能够协助处理战略决策、头脑风暴路线图想法、发展软技能甚至提供情感支持,成为专业思考伙伴 [10] - 使用AI助手后用户反馈"每天都在用"且"在工作时总是开着",工作效率提升显著以致领导层邀请其培训他人 [10] 上下文工程实施 - 大语言模型处理智能型知识工作时需提供与人类工作所需的相同背景知识才能高效运作 [7] - 通过指令设定角色/个性、上传组织文档、开启独立聊天线程三步骤构建AI助手,模拟新员工入职流程 [12][13] - 项目知识库需包含公司战略演示文稿、客户细分研究、竞争格局分析、团队组织架构图等核心背景材料 [24][29] 实际应用场景 - AI原型开发可通过自我迭代、团队迭代和客户迭代三路径缩短产品打造周期,助手能生成交互式原型规范 [50][53][57] - AI自动化适用于事件驱动型任务(如"当新支持工单到达时分析并提醒"),而非批处理任务 [60][61] - 通过移动端语音转文字功能实时更新项目进展(称为"聊八卦"),可使助手保持上下文新鲜度 [65][68] 技术实现要点 - 推荐使用付费版LLM的项目功能(ChatGPT/Claude/M365 Copilot/Gemini),其包含项目知识、指令和聊天线程三要素 [11][12] - 若缺乏项目功能,可将指令和知识整理至文本文件手动粘贴至每个新聊天线程,模拟相同效果 [86] - 当聊天线程达到上下文限制时,可要求LLM生成浓缩90%内容但保留90%价值的摘要文档以开启新线程 [75][76] 未来演进方向 - 期望助手能直接集成部门模板/项目管理工具/团队消息系统,实现动态知识更新而非人工导出PDF [81] - 未来助手可能具备团队共享知识层,新员工可直接获得公司特定模板和集体经验教训构建的智能基础 [82] - 演进重点在于增强连接性与主动性,例如根据日历自动提醒角色扮演练习或推动集中精力完成关键任务 [83]
大模型给自己当裁判并不靠谱!上海交通大学新研究揭示LLM-as-a-judge机制缺陷
量子位· 2025-08-17 03:43
大语言模型作为裁判的评估能力 - 大语言模型(LLM)正从工具进化为"裁判"(LLM-as-a-judge),开始大规模评判AI生成内容,但其可靠性与人类判断的一致性尚未深入验证 [1] - 核心问题在于AI裁判能否准确识别对话中谁在说话,这是评估角色扮演的基础 [2] - 即便表现最好的模型Gemini-2.5-pro准确率仅为68.8%,远低于人类实验组的90.8% [4][15] PersonaEval基准测试 - 上海交通大学课题组提出PersonaEval基准,测试模型从候选角色中选出真正说话者的能力 [2] - 基准特点包括:源于人类创作数据、精心设计语义接近的干扰项、专注于高难度案例 [13] - 包含三个测试集:文学小说、中文剧本、专家对话场景,覆盖不同方向 [19] 模型与人类判断的差异 - 顶尖模型在简单案例中也会失误,如混淆"罗辑"和"史强",因过度关注语言风格而非对话意图 [8][9][12] - 差异源于智能模式不同:LLM依赖语言模式匹配,人类基于意图和认知使用语言 [10] - 微调角色知识反而降低性能,而增强推理能力的模型表现更优 [20][22] 行业影响与未来方向 - 研究揭示了当前LLM-as-a-judge范式在基础维度上的缺陷,需重新思考与人类价值观对齐的方式 [23][24] - 提升方向应聚焦强化模型的上下文感知和推理能力,而非灌输角色知识 [22] - 该领域商业潜力巨大,涉及虚拟伴侣、内容创作等应用场景 [6] 研究团队与成果 - 论文由上海交通大学王德泉课题组完成,第一作者周凌枫 [26][28] - 论文将发表于2025年COLM会议,项目代码和论文已开源 [5][29]
安凯微(688620.SH):带一定算力的SoC芯片产品已经上市并量产
格隆汇· 2025-08-12 07:46
公司战略布局 - 公司从三个维度展开云边端结合战略以满足终端智能化的差异化需求 包括推进产品线向搭载轻量级或较高智能算力芯片方向发展 开发基于大语言模型和大视觉模型技术的中小模型 以及与云端大模型对接 [1] - 公司带一定算力的SoC芯片产品已经上市并实现量产 [1] - 基于公司SoC芯片并对接云端大模型的多款AI应用产品已陆续上市 [1] 产品技术发展 - 公司正推进各产品线布局向智能化芯片方向发展 重点提升端侧芯片的智能化处理能力 [1] - 技术开发聚焦于本地化、场景化的中小模型 采用大语言模型和大视觉模型技术 实现与智能化芯片的协同应用 [1] - 技术方案覆盖端侧和边缘侧的落地应用 同时保持与云端大模型的对接能力 [1]
国泰海通|产业:AI Agent的技术演进与产业洞察
国泰海通证券研究· 2025-08-08 09:24
AI Agent技术演进与产业洞察 核心观点 - AI Agent的未来发展核心在于以大语言模型(LLM)为"大脑"的范式革命,其商业价值通过解决行业痛点的垂直应用和开发平台体现 [1] - AI Agent正在重塑软件开发与人机交互范式,从传统架构演进为以LLM为核心的现代范式,具备自主规划、环境感知与工具调用能力 [1] - 多智能体协作时代开启,多个专业Agent协同解决宏大问题,驱动从上游基础模型到下游应用的完整产业链形成 [1] 技术架构演进 - 传统Agent架构(如审议式和反应式)受限于硬件和预编程规则,自主性与适应性有限 [2] - 2017年Transformer架构的出现为LLM崛起奠定基础,彻底重塑AI Agent设计理念 [2] - 现代LLM-based Agent核心架构由三大模块构成:大脑(LLM)、感知和行动 [2] - LLM-MAS(大语言模型多智能体系统)通过多个专业Agent协作/竞争,解决单个Agent处理超复杂任务的局限性 [2] 产业链格局 - 上游由少数科技巨头掌控,提供基础大模型和算力,主导交互协议制定,抢占生态话语权 [3] - 中游涌现开源开发框架和商业平台,通过低/无代码界面显著降低开发门槛 [3] - 下游应用分为两类: - 通用型Agent:自主完成复杂多步任务 - 垂直型Agent:深度融合行业知识(软件开发/法律/金融/医疗等),展现巨大商业价值 [3] 发展挑战与未来方向 - 当前面临LLM规划推理能力不足、上下文窗口受限、记忆瓶颈、多Agent协同及评估困境等挑战 [3] - 未来依赖基础LLM持续进化、多模态感知能力普及、软硬件生态重构,向AGI迈进 [3]
ChatGPT驱动40%-60%流量,SEO进入“即时呈现时代”
36氪· 2025-08-07 11:38
这不是理论,而是真实的流量数据。 仅五个月内,AI推荐的总会话量就从17,076次跃升至107,100次。 过去一年,我们一直在讨论AI可能如何改变搜索。如今,那个时代已经结束了。这不再是"假设性"的讨论,我们正目睹网络流量格局发生可量化的转变。 在Previsible,我们分析了19个GA4属性中的大型语言模型(LLM)驱动流量,发现了一个不可否认的事实:ChatGPT、Perplexity、Claude、Gemini和 Copilot等AI平台已在影响用户发现和访问网站的方式。 2025年1月至5月间,增幅高达527%。部分SaaS网站中,已有超过1%的会话来自LLM。 在法律、健康和金融等垂直领域,来自ChatGPT、Claude等平台的流量正翻倍甚至三倍增长。 如果你从事SEO、内容创作或增长策略工作,这种场景或许似曾相识。就像"移动优先"策略一夜之间颠覆排名因素,或社交媒体从品牌点缀摇身变为正规 获客引擎的时刻。 每次规则改变,早期采用者总能胜出。这次也不例外,只是变化速度更快。因此,问题不在于AI是否在改变你的流量构成,而在于它已经带来了多大影 响,却未被你察觉。 01.核心要点:关于AI搜索你需 ...
大模型究竟是个啥?都有哪些技术领域,面向小白的深度好文!
自动驾驶之心· 2025-08-05 23:32
大语言模型(LLM) - 大语言模型是基于海量文本数据训练的深度学习模型,核心能力在于理解并生成自然语言文本,参数量通常达数十亿至数千亿级别,训练数据量可达TB级[3] - 现代LLM核心特征包括大规模参数(如GPT-3有1750亿参数)、Transformer架构、预训练+后训练范式以及多任务适应性[6] - LLM核心能力包括理解和生成两方面,技术基础是Transformer神经网络架构特别是自注意力机制[6] Transformer架构 - Transformer是LLM核心技术基础,由Google于2017年提出,包含Encoder和Decoder两部分,关键创新是自注意力机制[9] - Encoder-only架构仅保留编码器部分,典型代表是BERT模型,适合文本理解任务[10] - Decoder-only架构是现代LLM主流选择,如GPT系列、Llama系列,适合文本生成任务[11] LLM核心能力 - 文本生成与创作:如GPT-4可生成技术文档,Claude 4在工程文档生成方面比GPT-4.1高42%[12] - 代码生成与辅助编程:Claude 4 Opus在SWE-bench测试中得分80.2%,Qwen2.5-Max中文代码采纳率达82%[12] - 知识问答与推理:Gemini 2.5 Pro凭借200万token上下文窗口在实时数据分析中表现优异[12] - 文本理解与转换:Llama 3.1 8B在德语医疗文本结构化任务中准确率达89.3%[13] - 多模态处理:前沿模型如Gemini 2.5 Pro支持文本、图像、视频多模态输入输出[14] 代表性LLM工作 - GPT系列:由OpenAI开发,GPT-3有1750亿参数,GPT-5预计将具备2000万token上下文窗口[15][16][20] - Llama系列:由Meta开发的开源模型,Llama 4首次采用MoE架构,包含三个版本[17][21] - Qwen系列:阿里巴巴开发的中国最具影响力开源大模型,已开源200多款模型[18][22] - DeepSeek系列:以创新架构设计和高效推理著称,DeepSeek-V3采用MoE架构[19][23] 视觉基础模型 - 视觉基础模型是通过大规模数据预训练、具备通用视觉理解或生成能力的深度学习模型[25] - 主流架构包括视觉Transformer(ViT)、CNN与Transformer混合架构如ConvNeXt和MobileViT[26][27] - 核心任务包括图像分类与识别、跨模态理解、目标检测与定位、图像分割等[27][29] 语音大模型 - 语音大模型是经过大规模语音数据预训练的大型神经网络模型,参数规模庞大,训练数据量达百亿甚至万亿级别[31] - 主流架构以Transformer为主,采用序列到序列结构,如Whisper模型[32] - 适用任务包括语音识别、语音翻译、语音到语音翻译、文本到语音合成等[36] 多模态大模型(MLLM) - 多模态大模型能同时处理和理解文本、图像、语音、视频等多种模态信息[39] - 主流架构为"预训练模态编码器+可训练模态连接器+大语言模型+模态解码器"组合模式[40] - 适用任务包括视觉问答、图文生成、跨模态检索、视觉定位与分割等[41] - 代表性工作包括LLaVA、Qwen2.5-VL、GPT-4o等[41][42] 推理大模型 - 推理大模型聚焦于通过优化提示方式、引入外部知识或改进推理流程提升大模型推理能力[43] - 主流架构以"基础模型+增强模块"为核心,不改变原模型主干结构[45] - 核心技术方向包括提示工程、上下文学习、思维链与慢思考、检索增强生成等[46] - 代表性工作包括自动提示优化(OPRO)、思维链(CoT)、DeepSeek-R1等[47][48]