大语言模型(LLM)

搜索文档
烧钱一年,李飞飞的「空间智能」愿景有变化吗?
机器之心· 2025-06-13 12:02
创业一年后 World Labs 的愿景 - World Labs 在成立一年内完成两轮融资累计募资2 3亿美元 估值突破10亿美元 成为AI领域独角兽企业 [5] - 公司已发布「世界生成」模型和Forge渲染器等技术成果 其中「世界生成」技术仅需单张图片即可生成可交互3D物理世界 [5][6] - 空间智能被定位为理解重建生成物理世界的核心能力 超越语言模型局限 目标构建可创造无限虚拟宇宙的AI系统 [5][6] - 技术路径依赖跨学科整合(AI+计算机图形学) 当前算力数据工程能力提升使「世界模型」攻关具备可行性 [7] 空间智能对AI完整性的意义 - 语言模型存在三维物理世界描述的天然缺陷 空间智能作为更古老的智能形式可弥补这一关键缺口 [6][8] - 公司技术路线选择与主流LLM分野 专注让AI理解3D物理世界运作方式 涉及机器人设计社交等多领域应用 [5][8] - 空间智能被视为智能的核心组件之一 其突破将推动AI从单一现实向多元宇宙演进 [5][6] 空间智能与多元宇宙愿景 - 「多元宇宙」指通过AI创造无限虚拟宇宙 需依赖3D物理世界的理解与生成能力 [4][6] - 技术反直觉发展体现在:早期忽视3D表征 现通过数据驱动方法实现空间智能突破 [4][7] - Forge渲染器支持Web端实时渲染AI生成3D场景 标志技术落地取得实质性进展 [7] 世界模型的发展现状 - 前置技术如算力提升数据积累工程优化为世界模型创造发展时机 [7] - 公司方法论借鉴LLM的数据驱动和神经网络经验 但强调需结合计算机图形学等跨学科知识 [7] - 下一步重点攻关方向包括3D物理世界的理解重建及生成技术的场景化应用 [4][7]
揭秘LLM“思考”之谜:推理即“梯度下降”,元学习框架解构训练过程,还给优化提供新思路
量子位· 2025-06-10 04:05
RaML框架核心观点 - 大语言模型(LLM)的推理过程可类比为梯度下降优化过程,推理轨迹中的每个令牌对应参数的一次隐式更新[2] - 研究团队通过理论推导证明Transformer模型中增加的推理轨迹令牌会内化为对模型参数的更新[2] - 实证验证显示随着推理轨迹解码,模型对正确答案的置信度逐步上升,证实推理轨迹作为参数更新的合理性[4] 元学习视角下的LLM推理 - 将LLM推理训练置于元学习框架下解释,每个具体问题视为独立任务[7] - 推理轨迹承担"内循环优化"角色,动态调整内部参数适应特定任务[8] - 外循环优化基于内循环结果调整"学习策略",形成双循环机制实现泛化能力[8] - 该框架统一解释LLM在不同训练策略、推理策略和任务泛化上的表现[9] 训练方法对比 - 有监督微调(SFT)模型相比纯强化学习(RL)模型在数学基准上表现更优[10] - SFT提供"最优梯度指导",对较小模型收益显著(Pass@8提升31%,mG-Pass@8提升175%)[13] - RL理论上限更高但需要更强基座模型,可采用SFT+RL混合训练策略[12] 推理轨迹特性 - 更长的推理轨迹对应更好的内循环优化效果,与传统优化算法迭代次数原理类似[14] - "反思"令牌能显著改变模型置信度,帮助跳出局部最优解[15][17] - 强制结束思考过程的令牌序列可能导致模型停留在次优解[18][20] 跨任务泛化能力 - 仅在数学推理训练即可提升科学推理和代码推理任务表现[21] - 模型学习到普适推理特征,通过元学习机制快速适应新任务[23] 实践优化策略 - 增加每个问题的训练轨迹数量(相当于扩大元学习支撑集)可提升推理表现[25] - 对长推理轨迹进行摘要提炼,在保持性能同时显著降低解码开销[30] - 未来可探索更高效的推理轨迹提取方法及任务配比优化[31] 研究价值 - 为理解大模型推理提供全新视角,揭示其与元学习、梯度下降的关联[32] - 理论框架具有实践指导意义,已开源代码和论文供进一步研究[32]
大模型是「躲在洞穴里」观察世界? 强化学习大佬「吹哨」提醒LLM致命缺点
机器之心· 2025-06-10 03:58
语言模型与视频模型的对比 - 语言模型通过预测下一个token学习到丰富知识,而视频模型通过下一帧预测学习效果有限,引发对两者差异的思考 [1] - 语言模型核心算法简单(预测下一个词+强化学习调优),却展现出强大认知能力,包括解决新问题和空间推理 [18][23] - 视频模型虽能生成逼真视频,但在复杂问题解决、深度推理方面远不如语言模型,尽管视频数据信息量远超文本 [21] 语言模型的本质与局限性 - 语言模型并非直接学习世界运作,而是通过分析人类在互联网上的文字输出(思维投影)进行逆向工程,间接复制人类认知过程 [26][28] - 语言模型如同被困在柏拉图洞穴中,只能观察人类智能投下的阴影(网络文本),无法直接体验真实世界 [33][34] - 语言模型擅长模仿人类认知技能,但在从真实世界经验中自主学习新技能方面薄弱,这正是人类智能的核心优势 [36] AI发展的方向性思考 - 当前AI研究方向可能存在基础性错误,过于关注回忆和解决数学问题,而非人类从经验中学习的方式 [10] - 未来AI研究的关键挑战是:既要借鉴语言模型成功经验,又要探索从物理经验中自主获取表征的方法,实现真正灵活的智能 [38] - 有研究提出无需配对数据即可跨向量空间转换文本嵌入的新方法,可能为AI发展提供新思路 [39] 人类智能与AI的差异 - 人类智能强大之处在于能从经验中快速学习、适应新环境并解决全新问题,而非记忆力或数学能力 [19] - 早期研究者曾猜想人类大脑可能使用单一"万能算法",这一猜想对AI研究极具吸引力 [16] - 数字计算机理论上应能实现大脑所有功能,但当前AI与人类智能的实现路径存在本质差异 [2][25]
强化学习之父:LLM主导只是暂时,扩展计算才是正解
量子位· 2025-06-10 02:23
大模型技术前景 - 当前大语言模型(LLM)主导地位是暂时的 未来5-10年将不再是技术前沿[1][4] - LLM依赖人类数据训练 但模仿人类思维只能达到人类水平上限 难以突破现有认知边界[9][10][11] - 静态数据集存在局限性 AI需要从第一人称交互中获取动态"体验数据"实现自我迭代[13][14][15] 强化学习与体验时代 - 强化学习之父Richard Sutton提出AI将进入"体验时代" 通过Agent与环境互动产生更高级数据[14][18] - AlphaGo第37手非常规走法证明体验学习能突破人类认知局限[14] - 持续学习算法+大规模算力扩展是强化学习发挥潜力的关键[20][22][23] Agent去中心化发展 - 不同目标Agent可通过去中心化合作实现互利共赢 类似人类社会经济运转模式[24] - 集中控制AI的主张源于恐惧 多样性目标与合作秩序更能释放AI潜力[25][26] - 未来AI将具备自主设计能力 人类角色转变为设计催化剂[29] 行业技术争议 - 技术社区对LLM发展存在分歧 部分观点认为LLM已接近领域天花板[31] - 技术突破常来自未知领域 当前LLM技术成熟度可能限制创新空间[31]
苹果:向第三方开发者开放AI模型
快讯· 2025-06-09 17:13
苹果公司动态 - 面向开发者推出苹果智能(Apple Intelligence)模型 [1] - APP开发商将能接入预装的大语言模型(LLM) [1] - 公司确认重新设计众多操作系统 [1] - 新版设计被称为"公司历史上范围最广的新设计" [1] 技术更新 - 操作系统将迎来重大更新 [1] - 开发者工具将集成大语言模型能力 [1]
硅谷风投a16z:GEO将重塑搜索 大语言模型取代传统浏览器
36氪· 2025-06-05 11:39
行业趋势转变 - 生成式引擎优化(GEO)正在取代传统搜索引擎优化(SEO),成为品牌提升营销效果的核心手段,其重要性甚至超越SEO [1] - 搜索的主战场正在从传统搜索引擎浏览器转向大语言模型(LLM)平台,谷歌的搜索霸主地位面临挑战 [2] - 超过800亿美元的SEO市场基础正在逐渐动摇,语言模型驱动的新范式正在崛起 [2] GEO与SEO的差异 - 传统SEO依赖于"链接"和关键词匹配,而GEO依赖于"语言"和语义信息深度 [3][6] - GEO时代品牌可见性定义为内容能否被直接整合进AI生成的答案中,而不仅仅是出现在搜索结果列表里 [3] - GEO成功的内容需要具备清晰的结构和深度的语义信息,以便生成式语言模型能够有效提取并回答用户的查询 [6] 商业模式与激励机制 - 传统搜索引擎通过广告实现流量货币化,而大语言模型多采用付费墙和订阅制商业模式 [7] - 语言模型界面的外链点击量已成为重要价值指标,ChatGPT已为数万个独立域名输送推荐流量 [10] - 模型提供商缺乏展示第三方内容的动力,除非这些内容能够增强用户体验或产品的核心价值 [7] 品牌传播核心指标变革 - 传统搜索引擎时代的"点击率"(CTR)正在让位于"引用率",即品牌内容被AI生成答案主动引用的频率 [11] - 新兴平台通过AI分析帮助品牌追踪在生成式AI答案中的出现频率、情感倾向和内容源影响 [11] - 品牌策略重心从"如何被找到"转向"能否被记住",代表AI时代品牌认知度的新标准 [11] GEO工具与平台发展 - 传统SEO工具提供商如Ahrefs和Semrush正积极拥抱GEO时代,推出专门AI工具包 [12] - 领先的GEO平台将通过模型微调主动参与生成式AI的行为建构,构建差异化技术体系 [15] - GEO的真正价值不止于"被看见",而是"被记住",成为品牌与大模型互动的"系统记录层" [17] 未来趋势与机遇 - 2025年真正的流量风口是大语言模型以及帮助品牌"进入模型大脑"的GEO平台 [18] - GEO有潜力成为绩效营销的切入口,成为AI时代的"自主营销官" [17] - 营销人必须思考的核心问题是:在用户搜索之前,模型会记住你吗 [18]
AI 编程终结的不是代码,而是作为「容器」的软件
Founder Park· 2025-06-03 12:56
AI驱动的软件生产变革 - 大语言模型(LLM)将软件开发的边际成本压至趋近于零 类似互联网对内容生产的颠覆效应 [3][6] - 代码生成成本降至零后 传统软件作为独立"应用程序"或"平台"的形式将逐渐消失 [3][6] - 工作重点从"怎么写代码"转变为"描述需求" 模型自主决定实现方式 [10] 产业层级重构 - 算力作为最底层资源 正从中心化数据中心向边缘设备渗透 本地模型开始部署于终端设备 [13] - 上下文数据(用户习惯/偏好/历史)构成中间层 使模型比公开语料更了解个体需求 [13] - 信任成为最稀缺的顶层资源 决定AI代理能否代表用户做决策 [13] 软件形态进化 - 软件容器的概念正在消融 功能将脱离特定应用形态实现自由流动 [15][16] - 历史类比显示 内容自由流动会导致载体消亡(如报纸→网页 CD→流媒体) [15] - 未来软件功能将实现"无处不在 触手可及"的无限调用状态 [16] 生产力跃迁 - 原本需要团队完成的软件原型 现可通过单一提示词即时生成 [8] - AI赋予"描述"这一新生产动词 取代Web2.0时代的"上传"动词 [10] - 系统响应速度将成为新竞争维度 透明度让位于便利性 [13]
疯了!我那些怀疑 AI 的程序员朋友,都疯了!网友:越聪明越觉得 LLM 不行
程序员的那些事· 2025-06-03 10:12
AI编程助手/LLM行业现状 - AI编程助手话题在技术社区引发激烈讨论,HackerNews单篇文章18小时内获得1830条留言 [1] - 科技公司高管普遍推动大语言模型应用,但部分资深技术人员持怀疑态度,认为类似NFT泡沫 [3] - 行业出现两极分化:怀疑派认为AI无法取代程序员,支持派则认为已改变工作方式 [8][38] 技术实现与工具链 - 现代AI编程采用智能体(agent)模式,可自主操作代码库、运行测试并迭代,远超早期直接复制生成代码的方式 [5] - 智能体核心价值在于工具链设计而非模型本身,熟练开发者可用周末时间构建实用编程智能体 [6] - 领先工具如Cursor、Cline通过深度集成显著提升效率,能处理复杂重构和依赖管理等传统难题 [34] 生产力影响 - AI可处理项目中80%的重复性编码工作,大幅减少资料查询时间,使开发者专注核心逻辑 [10] - 典型工作流:开发者异步提交多项任务,AI可并行处理并返回可直接合并的代码请求 [24] - 实际案例显示AI能发现人类数月未能解决的系统问题(如LVM元数据损坏) [25] 代码质量争议 - AI生成代码质量下限高于人类平均水平,尤其在算法实现和边界条件处理方面 [19] - 反对观点认为AI代码缺乏创新性,支持方回应"普通代码"本就是行业常态且足够实用 [18] - 代码审查责任始终在人类开发者,使用AI仍需逐行检查并调整风格 [11] 语言适配差异 - Go语言因类型安全和丰富标准库成为AI编程最佳搭档,Rust等语言适配度较低 [16] - 开发者开始将AI适配性纳入语言选型考量,形成新的技术栈选择标准 [16] 行业变革趋势 - AI编程可能重复开源软件历史,通过自动化提高效率但减少岗位需求 [21] - 类比Photoshop对设计行业影响,技术不会取代职业但会重塑工作方式 [36] - 当前阶段工具链进步比模型能力突破对实际生产力的影响更显著 [34]
搜索Agent最新高效推理框架:吞吐量翻3倍、延迟降至1/5,还不牺牲答案质量丨南开& UIUC研究
量子位· 2025-05-29 01:08
大语言模型搜索智能体效率优化 - 大语言模型驱动的搜索智能体通过动态拆解问题、交错执行推理和检索来解决复杂任务,展现强大能力 [1] - 深度交互存在显著效率痛点,包括检索慢、不准等问题拖慢整体流程 [2][3] - SearchAgent-X框架实现吞吐量提升1.3-3.4倍,延迟降至1/1.7-1/5,且不牺牲答案质量 [3] 检索效率瓶颈分析 - 检索精度存在非单调关系:过低精度导致更多轮次检索,过高精度则计算资源消耗过大 [5][6] - 研究表明系统吞吐量随近似检索精度先升后降,超过最佳点后检索成本反噬效率 [6] - 检索延迟微小增加可导致端到端延迟放大高达83倍,与KV-cache命中率骤降相关 [11] 延迟放大核心原因 - 不当调度导致55.9%的token被不必要重计算,因长任务KV-cache被短任务抢占 [12] - 异步检索与生成时间错位使25%序列经历检索停滞,错过调度批次 [13] SearchAgent-X优化机制 - 优先级感知调度动态排序请求,核心理念是"让最有价值的计算优先" [17][18] - 无停顿检索采用自适应提前终止策略,判断检索成熟度与LLM就绪状态 [19][20][22] 性能验证结果 - 离线推理吞吐量比基线高1.3-3.4倍,延迟降至20%-60% [27] - 在线推理完成请求量多1.5-3.5倍,高负载时达基线5.8倍 [27] - 六个数据集测试显示生成准确率与精确检索基线相当,部分数据集因扰动略有提升 [28][29] 技术组件贡献度 - 优先级调度使KV-cache命中率从0.07提升至0.51,延迟降低35.55% [30] - 无停顿检索进一步将命中率提升至0.65,微小时间节省显著影响端到端延迟 [31] 行业应用启示 - AI智能体需平衡工具性能与整体工作流匹配度,单一组件并非越高越好 [33] - 复杂系统中微小延迟和调度不当会产生雪崩效应,需系统性优化 [34]
LLM加RL遭质疑:故意用错奖励,数学基准也显著提升,AI圈炸了
机器之心· 2025-05-28 08:09
大模型强化学习有效性研究 - 核心观点:虚假奖励(随机/错误信号)在Qwen-Math模型上能显著提升数学推理能力,但对其他模型无效,挑战了强化学习依赖高质量监督信号的传统认知[5][9][16] 实验发现 虚假奖励效果 - 随机奖励使Qwen2 5-Math-7B在MATH-500准确率提升21%,错误奖励提升25%,接近真实奖励的28 8%增幅[5] - 仅要求答案包含`\boxed{}`格式的虚假奖励使Qwen2 5-1 5B准确率绝对提升49 9%,但损害Llama3和OLMo2性能(分别降低7 3%和5 3%)[23] 模型特异性 - 虚假奖励仅对Qwen系列有效:Qwen-Math-7B代码推理频率达65%,RLVR训练后提升至90%以上[28][34] - Llama3和OLMo2等模型无法从虚假奖励中获益,甚至出现性能下降[17][23] 机制分析 预训练策略影响 - Qwen-Math通过RLVR强化了预训练已有的代码推理能力(Python代码生成频率与性能强相关)[27][34] - 虚假奖励通过GRPO裁剪触发"集中效应",使模型聚焦现有优势策略而非学习新能力[46] 策略转换收益 - Qwen-Math从自然语言推理转向代码推理时,单问题性能提升55%(虚假奖励)至60 2%(真实奖励)[36] - 模型总增益:Qwen2 5-Math-7B提升23 5%,1 5B版本提升28 5%[37] 方法论启示 - 当前RLVR研究过度依赖Qwen模型,结论可能无法泛化至其他架构[21][25] - 建议未来研究需跨模型验证,并优先分析预训练获得的推理策略[50]