Large Language Model (LLM)
搜索文档
Andrej Karpathy年度复盘:AI大模型正在演变成一种新型智能,今年出现6个关键拐点
华尔街见闻· 2025-12-20 04:41
文章核心观点 - 2025年是大型语言模型领域蓬勃发展的关键一年,出现了六个改变行业格局的“范式转变”拐点,揭示了LLM正在演变成一种全新的智能形态 [1][3] - LLM展现出独特的“锯齿状”智能特征,既是博学的天才,又像思维混乱的小学生,其潜力目前实现尚不足10%,预计未来将持续飞速进展 [1][3] - 从训练范式、智能形态到应用层、交互界面,LLM技术栈的各个层面均发生根本性变革,标志着AI应用进入新的发展阶段 [3] 技术范式转变 - **拐点一:基于可验证奖励的强化学习成为训练新阶段**:传统的LLM生产流程(预训练、指令微调、基于人类反馈的强化学习)被改变,基于可验证奖励的强化学习成为新阶段 [4][5] - RLVR通过在数学题、代码谜题等可自动验证的环境中训练,使LLM自发演化出类似“推理”的策略,如将问题拆解为中间步骤并掌握多种解决方法 [5] - 与指令微调和基于人类反馈的强化学习不同,RLVR针对客观且不可作弊的奖励函数,允许更长周期的优化,具有极高的“能力/成本比” [5] - 2025年大部分能力提升源于各实验室将原本用于预训练的算力转向消化RLVR这一新阶段的“算力积压” [5] - OpenAI o3的发布是真正的拐点,RLVR带来了通过增加“思考时间”来控制推理能力的新调节旋钮 [6] LLM智能形态认知 - **拐点二:“幽灵智能”展现锯齿状性能特征**:业界开始理解LLM是一种与生物智能完全不同的全新智能实体,其神经架构、训练数据、算法和优化压力均不同 [7] - LLM展现出“锯齿状”性能特征:在可验证领域附近能力“激增”,但整体表现极不均衡,既是博学天才,又可能被简单提示词破解 [3][7] - 这种现象导致对基准测试产生信任危机,因为基准测试本质是可验证环境,极易受到RLVR攻击,“面向测试集训练”成为新艺术形式 [7] 应用层与交互范式革新 - **拐点三:Cursor引领新一代LLM应用层崛起**:Cursor的成功揭示了“LLM应用”的全新层级,标志着垂直领域LLM应用的兴起 [8] - 此类LLM应用为特定垂直领域封装并编排LLM调用,核心功能包括处理上下文工程、编排多个LLM调用串联成复杂有向无环图、提供特定图形界面以及提供“自主程度调节滑块” [8] - LLM实验室倾向于培养通用能力的“大学生”,而LLM应用则通过提供私有数据、传感器、执行器和反馈闭环,将这些“大学生”组织成特定领域的专业从业者 [8] - **拐点四:Claude Code开创本地AI智能体新范式**:Claude Code成为LLM智能体的首次令人信服展示,它以循环方式串联工具调用和推理进行长时间问题解决,且运行在用户电脑上,使用私有环境、数据和上下文 [9] - 这种本地化、个性化的AI交互范式改变了AI的样貌,使其从被动访问的网站变为“住”在电脑里的灵体,强调了隐私保护和个性化体验的重要性 [9] - **拐点五:Vibe Coding让编程能力普及化**:2025年AI跨越关键能力阈值,使人们仅凭英语就能构建复杂程序,“Vibe Coding”概念的流行标志着编程门槛的彻底降低 [10] - 编程不再是专业人士专利,普通人从LLM中获益远超专业人士、企业和政府,代码变得免费、瞬时、可塑,用完即弃,将重塑软件生态并让创意实现的成本接近零 [11] - **拐点六:Nano Banana开启LLM图形界面时代**:谷歌Gemini Nano Banana被称为2025年最震撼、最具范式转移意义的模型,预示着LLM交互界面的根本变革 [12] - 文本并非人类偏好的信息消费格式,真正的“LLM GUI”需要以人类偏好的图像、信息图、幻灯片、白板、动画视频、网页应用等方式进行交流 [12] - Nano Banana的显著特征不仅是图像生成,更是文本生成、图像生成和世界知识在模型权重中的交织融合,提供了多模态融合能力的早期雏形 [12]
Cerence AI Set to Showcase Agentic AI and LLM-Powered Innovations at CES 2026
Globenewswire· 2025-12-18 13:00
SUMMARY AND KEY POINTS: Cerence AI will unveil the latest updates to its Cerence xUI™ platform at CES 2026.The company will highlight CaLLM™ Edge running on several different chipsets, delivering faster performance, lower latency, and reliable in-car interaction even without connectivity.Cerence will introduce new AI agents for vehicle owners and dealerships, expanding its presence in the extended automotive ecosystem and beyond. LAS VEGAS and BURLINGTON, Mass., Dec. 18, 2025 (GLOBE NEWSWIRE) -- CES 2026 -- ...
Kyivstar and Ukrainian Ministry of Digital Transformation Select Google Gemma as the Foundation for Ukraine’s National LLM
Globenewswire· 2025-12-01 10:00
项目合作与战略定位 - VEON集团旗下公司Kyivstar与乌克兰数字转型部WINWIN AI卓越中心合作,选择谷歌Gemma作为基础模型,以开发乌克兰国家大语言模型[1] - Kyivstar作为该项目的战略合作伙伴,将主导乌克兰大语言模型的运营开发工作[2] - 该项目旨在利用谷歌Vertex AI基础设施提供算力支持[1] 技术选型与开发目标 - 选择谷歌Gemma作为基础模型,因其为开源模型且来自全球技术领导者,有助于构建反映乌克兰语言深度和文化特性的模型[3] - 国家语言模型的目标是全面捕捉乌克兰的方言、术语、历史和背景,同时将敏感的国家数据安全地存储和处理在乌克兰境内[2] - 开发主要任务是在现成开源模型基础上,使用乌克兰独特数据进行进一步训练,以最小化语言和伦理风险[4] - Kyivstar将首先优化Gemma模型以适配乌克兰语,改进分词器,并在精选的乌克兰数据集上进行训练[6] 预期影响与应用领域 - 乌克兰大语言模型预计将成为乌克兰公共和私营部门新一代人工智能服务的基础[5] - 潜在应用案例包括法规和法律分析工具,以及教育、金融、医疗等领域的特定解决方案[5] - 通过使用乌克兰数据训练模型,Kyivstar旨在提供比通用全球模型更准确、更符合本地需求且可操作的输出结果[5] - 该模型将使乌克兰消费者、企业和政府机构能够集成真正理解乌克兰语言和背景的尖端增强智能技术[5] 公司战略与投资背景 - 此项目基于VEON在其市场缩小AI语言差距的更广泛战略,此前已在哈萨克斯坦推出KazLLM,在巴基斯坦推出乌尔都语大语言模型项目[7] - Kyivstar集团计划在2023年至2027年间通过基础设施投资、技术发展、慈善捐赠和战略收购,向乌克兰投资10亿美元[8] - VEON为近1.5亿连接用户和1.2亿数字用户提供融合连接和数字服务,业务覆盖占全球人口6%以上的五个国家[9]
Kyivstar, Ministry of Digital Transformation of Ukraine Select Google’s Gemma as Base Model for Training National LLM
Globenewswire· 2025-12-01 10:00
合作项目与核心模型 - 乌克兰领先的数字运营商Kyivstar与乌克兰数字转型部下属的WINWIN AI卓越中心选择谷歌的Gemma作为训练大型语言模型的基础模型[1] - Kyivstar是乌克兰政府开发国家LLM的战略合作伙伴和运营主导方,该公司将人工智能解决方案整合进其长期技术转型战略[2] - 选定的Gemma模型将针对乌克兰语进行适配,其关键优势包括支持超过140种语言(含乌克兰语)、高达128,000个token的上下文窗口、多模态能力以及灵活的架构[3] 模型选择依据与优势 - 选择Gemma模型是基于其在性能与资源使用之间的最佳平衡,以及高质量的训练效果[3] - 该模型已被证明是MamayLM、Lapa LLM等现有乌克兰LLM以及保加利亚语现代LLM INSAIT BgGPT的成功基础模型[6] - 模型的其他优势包括多语言支持、多模态性(可处理文本和图像)、先进的tokenizer以及多种模型尺寸可供灵活选择[6] 项目实施计划 - 项目计划改进乌克兰语tokenizer以提升模型性能、减少乌克兰语文本生成错误并优化计算成本[5] - 项目将进一步在专家正在收集的独特乌克兰语文本上对模型进行训练,并创建基准测试以针对未来应用微调模型[5] - 开发的主要任务是在现成的开源模型基础上,使用独特数据进行进一步训练,以最小化语言和伦理风险[4] 公司背景与投资 - Kyivstar集团是一家在纳斯达克上市的控股公司,运营着乌克兰领先的数字运营商JSC Kyivstar,是首家在美国交易所上市的乌克兰公司[5][7] - 截至2025年9月30日,JSC Kyivstar拥有超过2250万移动客户和超过120万家庭互联网固定线路客户[8] - 公司与VEON计划在2023年至2027年间向乌克兰投资10亿美元,用于基础设施和技术开发方面的社会投资、慈善捐赠和战略收购[8] - 在过去三年中,公司已分配超过34亿乌克兰格里夫纳用于支持国防部队、用户以及社会项目的实施[9] 政府数字转型目标 - 乌克兰数字转型部是领导国家数字革命的关键国家机构,旨在为公民和企业构建最便利的国家[11] - 在六年内,乌克兰在数字公共服务发展方面的全球排名从第102位上升至第5位[11] - 该部的旗舰产品是Diia(“智能手机中的国家”),这是一个包含150多项公共服务的门户网站以及一个拥有33种数字证件和65项以上服务的应用程序[12]
AI 顶尖科学家、前 OpenAI 联创 Ilya Sutskever 的 18 个最新思考
Founder Park· 2025-11-26 13:06
AI行业发展阶段与范式转变 - Scaling(扩展)时代已结束,单纯将规模扩大100倍不会带来模型能力的质变[4][8] - 行业从2020年至2025年是扩展时代,而2012年至2020年是研究时代[9] - 行业正重新进入研究时代,特征是尝试多种方法并观察有趣现象的发生[11] - 当前真正瓶颈是模型泛化能力远不如人类,而非算力[4][13] 技术研发方向与核心挑战 - 预训练数据终将耗尽,行业正在探索魔改版预训练用于强化学习等其他方法[7] - 模型能力呈"锯齿状",评测表现与真实世界表现存在巨大断层[27][30] - 泛化能力包含两个子问题:样本效率低以及难以教会模型所需技能[25] - 人类样本效率极高,可能源于进化赋予的核心先验知识或更好的机器学习算法[26] 价值函数与情感的作用 - "情感"作为一种价值函数未来一定会被广泛使用,简单但能在广泛情境下发挥作用[4][18] - 价值函数能让强化学习更高效,无需等待任务完成即可提供实时反馈[16][17] - 人类情感对于生存和有效行动至关重要,类比为大模型中的价值函数[15] - 价值函数的使用界限开始模糊,可能是新配方的关键组成部分[10] AI公司竞争格局与商业模式 - 沿用"盲目扩大规模"路线的公司可能获得惊人收入但不一定有利润[4] - 未来竞争将导致价格下降,公司需在同质化竞争中寻找差异化[34] - 可能出现专业化竞争格局,不同AI公司专注不同复杂领域[34] - 大规模部署AI可能带来经济飞速增长,但增长速度难以预料[35] 超级智能发展与对齐目标 - 未来5-20年可能出现具备人类级别学习能力并能走向超智能的系统[44] - 最终对齐目标是让超级智能真正关心和感知所有生命[4][43] - 构建关爱感知生命的AI比只关爱人类的AI更容易,因为未来大多数感知体将是AI自身[43] - 渐进式部署AI比纯粹思考更重要,让世界感受AI能力是关键[4][39] 研究方法与公司战略 - 好的研究品味需要美感、简洁、优雅以及从大脑汲取的正确灵感[37][38] - SSI公司专注于研究,技术路线与众不同且全力以赴[57][58] - 公司认为分阶段发布模型至关重要,部署过程本身就是试错和学习时期[53][56] - 持续学习非常重要,AI应像绝顶聪明的15岁少年那样充满干劲地学习[56]
Transformer作者重磅预言:AI无寒冬,推理革命引爆万亿市场
36氪· 2025-11-14 11:51
AI行业技术范式转移 - Transformer架构共同作者Łukasz Kaiser认为,推理模型正引发AI领域重大的范式转移,这被视为继2017年Transformer之后最重大的突破[3] - 推理模型具备自我反思、动态分配计算资源、调用外部工具及生成并筛选多条推理路径的能力,完全不同于GPT-4这类纯自回归大语言模型[19] - 在绝大多数推理密集型任务中,OpenAI的首个推理模型o1显著优于当时最强的通用模型GPT-4o,尤其在数学、程序分析等结构化任务上效果明显[21][23] AI技术发展瓶颈与核心制约因素 - AI未来一两年极速跃升的瓶颈不在于算法,而在于GPU计算能力与能源供应,这是当前所有实验室面临的根本性制约[1][17] - 推理模型所需训练数据量比传统模型少几个数量级,但对算力的需求巨大,目前缺乏足够的算力支撑其并行开展更多实验[17] - 通用的互联网数据基本上已被使用完,谁也无法轻易获得比这多得多的数据,纯粹的Scaling在经济上已不可行[35] 行业内对AGI发展路径的争论 - 强化学习之父Richard Sutton与图灵奖得主Yann LeCun等专家认为大语言模型已走入死胡同,其改进能力存在极限,且这个极限远比众所周知的要近[11][13] - OpenAI等公司推动的“LLM+数据+GPU+能源”的AGI路径被部分经济学家认为已接近成功,甚至有观点认为2025年4月16日就是AGI日[4][7] - Łukasz Kaiser反驳“LLM是死胡同”的观点,认为推理模型代表着根本性突破,并指出AI能力会持续增强,但短期内物理世界相关领域仍将存在人类不可替代的工作[17][27] 推理模型的技术特点与应用前景 - 推理模型不急于生成响应,而是先进行推理、检索、调用工具等“深度思考”过程,像人类在回答问题前的犹豫,从而能真正“搞定一件事”[23] - 该方法已能真正胜任职场中的某些工作任务,并且能持续工作数小时产出有价值成果,例如在编程领域能理解大型代码库、进行代码审查、发现漏洞甚至安全威胁[28][31] - 代码模型在三个月前还只是辅助工具,但现在却能真正处理复杂代码库,展现出指数级进步[34] 多模态学习与未来研究方向 - 当前多模态训练已取得成功,模型能将音频编码成离散的音频token,图像被分成多个图像块进行编码,并通过预测下一个token来进行训练[40] - 视频训练虽然数据量巨大,但大部分信息对推理帮助有限,AI需要学会“挑重点”,只提取有意义的部分如运动、因果、变化[42] - 语言模型已掌握对抽象世界的建模,最欠缺的是对人类最熟悉的物理世界的理解,填补这个空白是实现实用机器人的关键突破[42] AI行业未来发展趋势预测 - Łukasz Kaiser认为AI冬天不会来临,未来一两年内改进可能非常猛烈,之后世界将翻天覆地[39] - 未来推理模型需要实现“多线并行思考”,例如同时运行多个思维链然后让它们“讨论”并选出最佳答案,GPT-5 Pro已初步实现这一点[39] - 谷歌的Gemini 1.5 Robotics已开始结合推理与视觉,未来机器人将具备“快反应系统”和“慢思考系统”的结合[43][45]
别被骗了,AI Coding可没那么神,22名软件开发者道出了这些弊端
36氪· 2025-11-14 03:23
AI Coding对软件开发行业的影响 - 大语言模型(LLM)驱动的代码生成器和编程助手正在重塑软件开发者的工作方式,AI Coding成为全球科技巨头和初创企业的战略焦点 [1] - 研究显示,LLM将软件开发者的工作效率提高了26% [1] - 约59%的参与者每天与LLM至少交互6次,ChatGPT是最常被使用的工具 [5][6] AI Coding带来的益处 - 在个人层面,LLM能自动生成样板代码、修复语法、提供即时反馈,帮助开发者节省时间、减少中断并保持“心流”状态 [7] - 在团队层面,LLM减少了开发者之间的协作干扰与沟通成本,并能提供“第二意见”以提升整体创造力 [9] - 在组织层面,LLM节约了软件开发公司的时间和成本,特别是对中小型企业而言,能以更少的人力完成更多任务 [9] - 在社会层面,LLM促进了创新创业,降低了创业门槛 [9] AI Coding存在的弊端 - LLM在生成代码或提供建议时容易出现错误或“幻觉”,反而可能拖慢进度,并需要额外时间验证结果 [11] - 过度依赖LLM可能削弱开发者的代码理解力与学习动力,导致开发者变得懒惰、冷漠,甚至对自身能力失去信心 [11] - LLM生成代码可能涉及版权问题或隐藏漏洞,引发安全隐患,部分公司因此明令禁止员工使用 [13] - 频繁调用LLM需要付费,增加了企业的运行负担,且可能使依赖经验和重复性工作的技术岗位面临失业风险 [13] 开发者与LLM的协作模式 - 开发者会在不同LLM之间反复试用,以找到最契合自己工作需求的工具,并认识到LLM是基于统计的工具而非“智能体” [14] - 开发者倾向让LLM参与代码优化而非直接生成,以保持对逻辑与结构的控制,部分开发者出于隐私考虑选择在本地运行模型 [14] - 开发者需要与LLM维持一种成熟的关系:既信任其能力,又保持理性距离,用人机协作的方式扩展自己的边界 [14] - 开发者基于长期经验积累形成的“直觉”在协作中起到“安全阀”作用,帮助识别LLM的错误或误导性建议 [15]
港中文中稿ICCV'25的自驾自适应快慢双系工作统AdaDrive
自动驾驶之心· 2025-11-12 00:04
文章核心观点 - 香港中文大学(深圳)与中山大学等团队提出名为AdaDrive的自适应协作快慢框架,旨在解决大语言模型融入自动驾驶系统时面临的计算开销与实时性平衡难题 [2] - 该框架通过自适应激活损失动态判断LLM调用时机,并引入自适应融合策略连续调节LLM对传统规划器的影响强度,实现按需激活与无缝协作 [2] - 在语言引导的自动驾驶基准测试中,AdaDrive在驾驶准确率与计算效率两方面均达到最先进性能 [3] 背景与挑战 - 早期方法如LMDrive和AD-H采用同步串行架构,LLM与规划器在每个驾驶步骤都参与运作,虽提升智能性但引入巨大内存开销与延迟,使实时部署面临挑战 [4] - 后续异步策略采用固定间隔激活LLM,但无法适应动态变化的驾驶场景,在安全关键场景中LLM可能未被激活,而在简单场景中激活则显得多余 [7] - 理想框架需具备动态决定LLM激活时机以及自适应控制LLM影响程度的能力 [7] AdaDrive算法架构 - 系统采用快慢路径并行运行,轻量级规划器作为快速路径高频处理每帧图像,LLM作为慢速路径低频激活并在关键场景下提供辅助 [13] - 通过Connector-W和Connector-H两个组件实现自适应整合,分别负责决定LLM激活时机和控制其贡献程度 [13][19] - Connector-W通过新颖的自适应激活损失,基于对比LLM辅助与无辅助预测结果的轨迹损失差异,动态学习LLM的最优激活条件 [20] - Connector-H利用预测置信度分数作为动态加权系数,实现LLM贡献的连续缩放,而非二元决策,公式为轨迹预测统一表示 [21][22] 技术创新点 - 提出长短时Q转换器(LS-Qformer),通过分组机制将可学习令牌分为长时组和短时组,同时提取当前帧关键特征并建模时序特征演变 [24] - 引入传播式记忆融合(PMF)机制,在固定大小的流式内存缓冲区中,将待淘汰帧的特征合并到其前一帧,实现信息前向传播并优化内存效率 [28] - 自适应LLM激活机制在训练中通过损失函数自然学习,确保仅当LLM贡献显著(差值超过预设阈值d=0.3)时才激活,以控制计算开销 [20] 实验性能结果 - 在LangAuto基准测试上,AdaDrive在LangAuto-Tiny和LangAuto-Short子任务的驾驶分数分别达到80.9%和70.6%,较排名第二的方法优势分别为12.9%和16.3% [31][32] - 在推理效率方面,自适应快慢系统与流式内存缓冲区设计使AdaDrive的GFLOPs较连续LLM激活降低62%,同时驾驶分数提升5.6% [33][38] - 消融实验表明,单独使用LS-Qformer可使驾驶分数从67.4%提升至71.9%,增加Connector-W后进一步提升至77.9%,最终完整系统达到80.9% [34][35] - LS-Qformer(20+20令牌)在驾驶分数上优于标准Qformer(75.8%)、SeqQ-Former(77.6%)等变体,达到80.9% [35]
扩散不死,BERT永生,Karpathy凌晨反思:自回归时代该终结了?
36氪· 2025-11-05 04:44
文章核心观点 - 基于RoBERTa的掩码语言模型可通过引入动态掩码率改造为文本扩散模型,实现从表示学习到文本生成的转变 [1][13][26] - 实验证明改造后的RoBERTa Diffusion能生成视觉连贯的文本,表明BERT系模型本质上是固定掩码率训练的文本扩散模型 [21][24][26] - 文本扩散模型采用在整个Token画布上迭代重采样的双向注意力机制,与自回归模型的单向生成机制形成对比 [27][28] 技术原理与实验 - 文本扩散通过在前向过程逐步添加<MASK>噪声,在反向过程训练模型迭代去噪,将掩码语言建模目标扩展为生成过程 [11][13] - 实验使用10个扩散步骤,每个训练批次随机采样从1.0到0.1的掩码比例,推理时从240个<MASK>开始逐步减少掩码比例 [17][18] - 在H200显卡上训练30分钟后,模型基于256长度提示词生成了连贯文本,尽管存在数据集格式化导致的异常 [21][22] 行业影响与前景 - 该方法表明生成领域仍存在优化创新空间,结合AR-Diffusion等技术可进一步提升生成质量与推理速度 [25][28] - 谷歌DeepMind已发布实验性Gemini Diffusion模型,业界认为扩散语言模型在速度上有优势且是下一代AI发展方向 [30] - 扩散模型采用双向注意力机制迭代更新整个Token画布,与自回归模型的单向追加机制形成技术路径差异 [28]
SK hynix Presents Next Generation NAND Storage Product Strategy at OCP 2025
Prnewswire· 2025-10-26 23:46
公司战略发布 - 公司在2025年OCP全球峰会上公布了下一代NAND存储产品战略 [1] - 为满足AI推理市场快速增长的需求,公司正式推出针对AI时代优化的“AIN (AI-NAND) Family”系列解决方案产品 [2] AIN产品系列详情 - AIN系列包含分别针对性能、带宽和密度优化的NAND解决方案产品,旨在提升数据处理速度和存储容量 [3] - AIN P (性能型) 旨在高效处理大规模AI推理工作负载下产生的大容量数据,通过最小化存储与AI操作间的瓶颈来显著提升处理速度和能效,计划于2026年底发布样品 [3] - AIN D (密度型) 是一种高密度解决方案,旨在以低功耗和低成本存储大量AI数据,目标是将密度从当前QLC SSD的TB级别提升至PB级别,实现SSD的速度和HDD的成本效益 [4] - AIN B (带宽型) 是公司利用HBF™技术的解决方案,通过垂直堆叠多个NAND来扩展带宽 [5] HBF技术发展 - HBF技术类似于堆叠DRAM芯片的HBM,是通过垂直堆叠多个NAND闪存制成的产品 [6] - 公司凭借全球顶级的HBM研发和生产能力,早期即开始研究AIN B,以解决AI推理扩展和LLM规模扩大带来的内存容量差距问题,关键是将HBM的堆叠结构与高密度、成本效益高的NAND闪存相结合 [6] - 公司正考虑将AIN B与HBM放置在一起以增强整体系统容量等多种策略 [6] 生态系统合作 - 公司与Sandisk在8月签署HBF标准化谅解备忘录后,联合举办了“HBF Night”以扩展技术生态系统 [7] - 活动吸引了众多行业架构师和工程师参与,并提出了跨行业合作以加速NAND存储产品创新的提议 [8][9] - 公司表示将通过紧密的客户与合作,成为下一代NAND存储市场的关键参与者 [9]