大语言模型
搜索文档
全新MoE架构!阿里开源Qwen3-Next,训练成本直降9成
机器之心· 2025-09-12 00:51
模型架构创新 - 采用混合注意力机制Gated DeltaNet与Gated Attention以3:1比例混合 实现性能与效率双重优化 在长序列建模中兼顾高效率和强召回能力[5][9] - 标准注意力层引入三项增强设计:输出门控机制缓解低秩问题 注意力头维度从128扩展至256 仅对前25%位置维度添加旋转位置编码[10] - 采用高稀疏度MoE架构 总参数量800亿 每次推理仅激活约30亿参数 稀疏度低至3.7%[11][20] 性能突破 - 80B参数模型仅激活3B参数 性能媲美235B旗舰模型Qwen3 并超越Gemini-2.5-Flash-Thinking[2][21] - 在编程评测LiveCodeBench v6、人类偏好对齐Arena-Hard v2及综合能力评测LiveBench中超越开源旗舰模型[21] - 数学推理AIME25评测获得87.8分 全面超越Gemini2.5-Flash-Thinking[21] 效率提升 - 预填充阶段吞吐量达Qwen3-32B的7倍(4k tokens上下文)和10倍以上(32k+ tokens上下文)[17] - 解码阶段吞吐量提升近4倍(4k上下文)和10倍以上(32k+长上下文)[18] - 训练成本仅为Qwen3-32B的十分之一以下 实现极致训练和推理性价比[20] 技术实现 - 采用Zero-Centered RMSNorm并对norm weight施加weight decay 解决QK-Norm导致的权重异常增长问题[12] - 初始化时归一化MoE router参数 确保训练早期专家被无偏选中[13] - 引入原生Multi-Token Prediction机制 优化多步推理性能并提高Speculative Decoding接受率[14] 模型发布 - 模型已在Qwen.ai平台上线并开源至HuggingFace和Kaggle[4][6] - 开源指令模型Qwen3-Next-Instruct和推理模型Qwen3-Next-Thinking两款模型[20] - 第三方平台已接入新模型 包括anycoder的vibe coding示例[24][25]
宇树科技官宣IPO后王兴兴首次发声:我最后悔的是以前没有学AI;甲骨文与OpenAI签署3000亿美元的算力协议丨AIGC日报
创业邦· 2025-09-12 00:12
腾讯优图实验室开源技术进展 - 腾讯优图实验室于9月11日开源全新图检索增强生成框架Youtu-GraphRAG 该框架采用大语言模型与RAG结合模式 通过知识图谱提升复杂问答任务精准度和可追溯性 适用于企业知识库 科研文档及私域管理等知识密集型场景 [2] 宇树科技AI与机器人融合战略 - 宇树科技创始人王兴兴在外滩大会表示AI在创作领域已超越99.99%人类 但实际应用仍处早期阶段 其透露2011年因AI冷门未深入钻研 现借大模型发展推动AI与机器人结合实现落地应用 [2] - 宇树科技近期宣布IPO计划 创始人首次公开探讨大模型时代机器人产业机遇与挑战 [2] 美国加州AI监管立法动态 - 加州众议院于9月10日通过SB 243法案 要求AI聊天机器人运营商实施安全协议 若未达标准将追究公司法律责任 该法案获两党支持 将于本周五参议院最终投票 预计2026年1月生效 成为全美首例相关立法 [3] 甲骨文与OpenAI算力合作 - OpenAI与甲骨文签署价值3000亿美元算力协议 合约期约五年 需4.5吉瓦电力容量 创云服务合同规模历史纪录 [4] 行业活动与数据资源 - 创业邦开启2025早期AI创新先锋50强招募 入选者可直面200余家投资机构 [2] - 睿兽分析会员提供AI 汽车 智能制造等行业日报 图谱及报告资源 覆盖17万+投资价值企业 5077家国家高新技术企业及10万+基金数据 [4][6] - AIGC垂直赛道产业日报可通过扫码订阅 含1400家独角兽企业及专精特新小巨人企业标签体系 [5][6]
文心轻量化思考模型登顶HuggingFace全球热度榜榜首
新浪财经· 2025-09-11 10:16
模型性能表现 - 在HuggingFace文本模型趋势榜排名第一 总榜排名第三 [1] - 以21B总参数量实现接近SOTA的智能表现 激活参数仅3B [1] - 在逻辑推理 数学 科学 代码与文本生成等专业任务实现显著提升 [1] 技术架构特性 - 采用混合专家(MoE)架构 支持128K上下文窗口 [1] - 基于ERNIE-4.5-21B-A3B训练的深度思考模型 [1] - 通过指令微调及强化学习训练 具备高效工具调用能力 [1] 应用场景定位 - 适用于需要长上下文的复杂推理任务 [1] - 支持复杂任务的自动化处理 [1] - 以轻量级规模实现接近顶级大尺寸模型的表现 [1]
Kimi开源又放大招!20秒更新万亿参数的中间件来了
量子位· 2025-09-11 05:19
技术突破 - Kimi K2推出checkpoint-engine中间件 实现万亿参数模型权重更新进入"秒更时代" [1][6] - 该中间件可在约20秒内完成在数千个GPU上对1万亿参数的更新操作 [7] - 支持两种更新模式:一次性将更新完的权重从一个节点同时发送给所有节点 以及点对点动态更新 [2] 性能表现 - 在8×H800 TP8配置下 GatherMetas耗时0.17秒 Update(Broadcast)耗时3.94秒 [2] - 在16×H20 TP16配置下 GatherMetas耗时1.44秒 Update(Broadcast)耗时12.22秒 [2] - 在256×H20 TP16配置下 GatherMetas耗时1.40秒 Update(Broadcast)耗时13.88秒 [2] 系统架构 - 采用混合共置架构 训练引擎和推理引擎部署在同一组工作节点上 [8] - 每个引擎都针对高吞吐量进行深度优化 通过资源释放和调配实现高效协同 [9][10] - 使用参数逐条更新的流水线方式 将内存占用降至最低 [19] 技术创新 - 采用三阶段流水线:H2D阶段将权重分片异步复制到缓冲区 广播阶段将分片复制到IPC缓冲区并广播到所有GPU 重载阶段推理引擎从另一个IPC缓冲区加载参数 [20] - 选择将完整参数集广播到整个集群 简化系统设计并降低对训练和推理引擎的侵入性 [24][25] - 通过牺牲微小开销实现训练引擎与推理引擎的完全解耦 大大简化维护和测试流程 [26] 系统优化 - 优化启动时间 让每个训练工作节点选择性地从磁盘读取参数并广播至对等节点 确保所有节点只需集体读取一次检查点 [28][29] - 在启动阶段复用检查点引擎 集体从磁盘读取检查点后更新未初始化的推理引擎状态 [31][32] - 系统可抵御单点故障 某个推理副本可独立重启而无需与其他副本通信 [33]
“小而美”语言模型正崛起
环球网资讯· 2025-09-11 02:10
行业趋势变化 - 大型语言模型进展乏善可陈 热度不及最新iPhone 17 [1] - 小型语言模型在企业中崛起 需求增速预计是大型语言模型的两倍 [1][2] - 企业更青睐行业数据微调的专业模型 因大型语言模型存在AI幻觉等问题导致用户疲劳 [2] 技术性能比较 - 小型语言模型参数通常在40亿甚至低于1亿 大型语言模型参数达数千亿 [2] - 训练方式改进使小型语言模型缩小与大型语言模型差距 例如英伟达9亿参数模型超过元公司40倍参数模型(40倍参数约360亿参数) [2] - 当前小型语言模型比去年大型模型更强大 [2] 应用场景优势 - 小型模型适合企业内部IT系统运行 以及智能手机、自动驾驶汽车等对能耗与速度敏感的设备 [1] - 人力资源聊天机器人等特定任务无需大型模型全知全能能力 [1] - 小型模型在AI代理中具优势 能以更低成本完成任务并支持多个专业模型组合替代单一大型模型 [3] 成本效益分析 - 小型语言模型成本低、易部署更经济高效 [1] - 重复可标准化任务可用小型模型完成 无需调用资源消耗巨大的大型模型 [2] - 小型模型可在更便宜芯片上运行 降低硬件成本 如万国商业机器公司Docling产品仅用2.5亿参数执行数据转化任务 [2] 市场策略调整 - 苹果等厂商未大举投资云端大型语言模型被视为明智决策 [1] - 大型语言模型仍主导ChatGPT等消费者应用 但企业与设备端AI可能更多采用小型语言模型 [3] - OpenAI内部使用不同规模模型 根据任务复杂度分配资源 [3]
李飞飞一年前究竟说了啥?怎么又火了
量子位· 2025-09-11 01:58
大语言模型的局限性 - 语言信号基于人类输入生成,无法独立于人类存在 [2][4] - 语言模型底层表示为一维离散token序列,与三维物理世界存在本质差异 [12][14] - 物理世界具有客观存在的三维结构和物理定律,需要不同的信息处理方式 [5][19] 空间智能与语言模型的差异 - 三维世界信息提取需匹配任务类型,直接处理3D数据可改善表示效果 [15] - 空间智能需从真实世界提取、表示和生成信息,涉及物理约束和材料特性 [17][19] - 多模态模型将其他模态强行嵌入一维序列导致物理信息损失 [14] 模型在物理任务中的表现缺陷 - 多模态大模型在Animal-AI测试中仅能完成最简单任务,复杂任务失败率极高 [24][26] - 增加教学案例后模型表现仍无显著提升 [27] - 模型表现远逊于人类儿童及专用测试机器人 [28] 物理推理能力测试结果 - ABench-Physics测试中最佳模型Phy A正确率仅43% [32][34] - 修改题目数值后(Phy B)模型准确率下降22.5% [33][34] - 视觉感知任务中模型最高正确率51%,远低于人类95.7%的水平 [37][38] 行业技术发展方向 - 模型开发正向物理基础与多模态理解扩展 [44] - 人工智能可能创造独立于人类语言的新表征体系 [47] - 需探究语言训练取得成就的核心因素以突破现有局限 [48]
传统的感知被嫌弃,VLA逐渐成为新秀...
自动驾驶之心· 2025-09-10 23:33
自动驾驶技术演进 - 自动驾驶技术从传统模块化架构向端到端VLA模型演进 解决错误累积和信息损失问题[2] - 传统模块化架构存在错误累积效应 上游模块微小误差会逐级传递放大[2] - 纯视觉端到端模型存在黑箱问题和因果混淆 可能学到虚假关联而非真正因果关系[2] - VLA模型通过引入语言作为中间表征 赋予模型推理解释和交互能力[2][3] - VLA模型可利用LLM预训练的世界知识 理解复杂交通场景并做出符合逻辑决策[3] VLA技术优势 - VLA模型提升可解释性与可信赖性 能用自然语言解释决策依据[3] - VLA模型增强泛化与处理长尾场景能力 通过语言抽象和推理能力泛化到未见场景[3] - VLA实现自然人机交互 用户可通过自然语言向车辆下达高级指令[3] - VLA范式打造感知认知决策一体化智能体 不仅是会开车更能理解世界与人沟通的AI驾驶员[3] 论文辅导课程内容 - 课程系统讲解VLA自动驾驶重点理论知识 帮助形成清晰知识体系[4] - 课程将模型理论与代码实践结合 协助开发设计新模型[4] - 课程提供论文写作方法论和投稿建议 解决文章不会写不会投问题[4] - 课程时长12周在线小组科研加2周论文指导和10周论文维护期[5][12] - 课程提供经典论文前沿论文和代码实现 包括创新点baseline数据集[5][10] 课程收获 - 学员可获得对典型论文分析方法 理解重点算法与原理清晰不同算法优劣势[5][12] - 导师为每位学员提供研究idea 即使自己没想到合适idea也能进行后续研究[5][12] - 学员coding能力增强 在老师准备baseline代码和数据集上高效展开研究[5][12] - 学员获得论文写作自查修改方法论 以及投稿建议[5][13] - 学员可能产出一篇论文初稿 通过完全投入课程学习与实践[13] 课程大纲 - 课程覆盖传统端到端自动驾驶 VLA端到端自动驾驶模块化VLA模型等内容[6][8][19] - 具体包括传统端到端介绍 VLA端到端介绍 模块化VLA模型 统一端到端VLA模型等[6][8][24] - 课程包含论文写作方法论和课题汇报与投稿意见[8][25] - 每周课时1-1.5小时 共14周课程[24][25] - 课程采用2+1式师资 主导师由名校教授行业导师担任 副导师由博士硕士担任[21] 招生要求 - 学员需具备深度学习基础 对自动驾驶算法有简单了解[14] - 学员需熟悉掌握python语法和PyTorch使用[14] - 学员需完成在线1v1面试[14] - 硬件要求最好具备8张4090显卡或以上设备 最低不少于4张4090显卡[17] - 学习要求每周上课前阅读资料完成作业 课上积极参与讨论 应该全勤[17] 服务支持 - 课程提供公开数据集 如nuScenes Waymo Argoverse等自动驾驶数据集[21] - 课程提供baseline代码 包括基于模仿学习扩散模型和VLA的端到端自动驾驶代码[22] - 课程提供必读论文 包括A Survey on Vision-Language-Action Models等5篇核心论文[23] - 上课平台为腾讯会议直播加小鹅通回放[26] - 答疑周期为6个月 授课周期为3.5-4个月[27]
Duolingo Set To Unveil Major Product Updates At Duocon 2025
Yahoo Finance· 2025-09-08 18:12
产品更新与战略 - 公司将于9月16日的年度Duocon大会上公布主要产品更新,包括新的视频通话功能、扩展的能量系统以及非语言学习产品,旨在提升用户参与度[1] - 视频通话功能增强将包括双语对话工具、游戏化元素、互动背景和更长的会话形式[5] - 能量系统是基于使用量的模式,已改善iOS用户的参与度、使用时间和转化率,并正在向Android平台扩展[5] - 内容扩展是重点,包括超过148个新语言课程对、更深入的CEFR标准英语学习产品以及用于衡量熟练度的Duolingo分数[6] - 非语言垂直领域如国际象棋、数学和音乐已吸引数百万日活跃用户,增强了平台粘性,但预计不会对2025年收入产生实质性贡献[6] 财务表现与预期 - 摩根大通分析师重申对公司股票的增持评级,目标价为515美元,较周五收盘价271.18美元有近90%的上涨空间[1] - 股价自第二季度财报公布以来已下跌21%,反映了投资者对日活跃用户增长、第三方数据疲软以及下半年美国营销支出温和的担忧[2] - 摩根大通预计公司2025-26年平均增长率为:固定汇率预订额增长26%,调整后税息折旧及摊销前利润增长44%,美国通用会计准则每股收益增长50%,自由现金流增长33%[8] - 分析师预计公司在实现管理层设定的30-35%长期税息折旧及摊销前利润利润率目标方面将取得“有意义的进展”[8] 运营数据与竞争环境 - Sensor Tower数据显示,第三季度至今全球日活跃用户同比增长28%,低于第二季度的39%,其中8月增长25%,低于7月的31%[3] - 公司面临来自人工智能平台的激烈竞争,例如OpenAI GPT-5和谷歌翻译的进步[4] - 全球高级社交媒体经理Zaria Parvez的离职引发了对公司推动病毒式和前沿营销能力的担忧[4] - 人工智能应用仍是焦点,公司利用生成式人工智能和大型语言模型来发展可与人类教师相媲美的辅导能力[7]
大模型,为何搞不定软件开发?根本原因就在…
程序员的那些事· 2025-09-08 00:57
文章核心观点 - 大语言模型在软件开发中存在根本性局限 无法维持清晰的思维模型 导致无法处理复杂软件开发任务[5][8][9][14] - 人类工程师通过构建和验证思维模型来迭代开发 而LLM缺乏这种能力 常陷入无限混乱或推倒重来[7][9][14] - 尽管LLM在代码生成和简单任务上表现良好 但在复杂项目中无法维持足够上下文来迭代可行方案[15][16] - 未来人机协作是趋势 但目前LLM只能作为辅助工具 主导权仍需人类工程师掌握[17] 软件开发中的人类优势 - 资深工程师通过四步循环开展工作:构建需求模型 编写实现代码 建立代码行为认知 找出差异并修正[7][10] - 人类能实时验证工作成果 测试失败时能对照思维模型决定修正方向或收集更多数据[9] - 人类具备上下文切换能力 既能纵览全局忽略细节 又能深入局部攻坚 且不会无限制扩展思维缓存区[12] - 人类开发者即使遗漏逻辑细节 也属于局部失误而非根本性误判 且能通过讨论理解需求痛点[22] LLM的技术局限 - LLM无法同时维护两个相似思维模型 无法识别差异 更无法判断该修改代码还是需求[14] - 存在三大硬伤:语境盲区(对缺失上下文束手无策) 近因偏见(过度关注最近信息) 幻觉频发(虚构不存在内容)[13][20] - 测试失败时往往暴露系统底层逻辑的根本性缺陷 但LLM只能通过"打补丁"方式让测试通过 抓不住关键点[22] - 缺乏对系统运作方式的完整认知 表面代码工整但未抓住需求精髓 光靠堆算力难以解决[22] 发展前景与应用价值 - LLM对工程师有价值 能快速生成代码 擅长梳理需求文档 对明确简单任务能一气呵成[15] - 进化速度惊人:2022年ChatGPT水平只有现在的十分之一 按此速度五年后可能搞定软件开发[21] - 体验糟糕却被持续使用的技术往往创造不可替代价值 骂声越响迭代越快[19][21] - 未来人机协作开发是大势所趋 但现阶段方向盘必须握在人类手中[17]
从AI上下半场切换看后续产业投资机会
2025-09-07 16:19
行业与公司 * AI行业 正处于从深度学习向大语言模型转变的关键时期 核心是智能涌现 包括理解 生成 记忆和逻辑四大能力 推动从感知智能向认知智能转化[1] * 海外科技巨头如 Meta 持续加大资本开支 预计2025年同比2024年将有五六十以上的高增长 以支持算力需求[9] * 在基础设施方面 值得关注的公司包括阿里巴巴 深信服 第三范式等Infra公司 以及航迹和海光等算力相关公司[18] * 在典型应用层面 值得关注的公司包括有场景 有空间且未来具有壁垒保护业务落地的相关公司 如石油股份 美图等[18] 核心观点与论据 * AI产业发展的三要素是算力 算法和数据 这三个要素共同驱动整个AI产业的发展 通过飞轮效应实现不断提升[5] * AI技术发展分为上下半场 上半场主要探索模型智力水平极限 算力为王 下半场主要完善系统能力 推动AI现实场景融合落地变现 应用为王[6] * Transformer框架的大规模应用引发了质变 包括理解能力和逻辑推理能力等新能力涌现 推动通往AGI的路径[7] * 短期内大模型升级逐渐显现天花板 发展路径包括效率提升(数学及编程领域) 推理提升以及全模态模型 是后续重点发展方向[8] * AI对人工替代分为辅助 替代和超越三个阶段 目前已在编程和内容审核等领域批量替代中低级人员 并逐渐扩展至更多行业[10] * AI中长期发展的逻辑在于算力产业的显著增长和应用场景的多样化 AI产品基于概率分布 需要面对不确定性 商业化基点相对较晚[12] * AI Agent代表了一种原生应用范式变革 可以与SOP PDCA OKR等传统管理工具适配 通过AI赋能实现升级[13] * AGI是能够自主感知环境并采取行动实现目标的计算实体 基于大语言模型的AGI能够使用传感器感知环境 并利用LLM进行记忆检索 决策推理和行动顺序选择[15] * 以Minus为例 其工作流呈现出清晰分层协作架构 在文件处理 数据分析 代码编写到内容创作等多个任务上展现出强大的整合能力[16] * 2025年将是AI制片元年 AI原生APP用户规模持续走高 各类垂直领域APP涌现 其繁荣发展将显著提升对算力需求 云计算将成为产业投资核心[17] 其他重要内容 * AI产业经历了三次主要浪潮 第一次是20世纪50-70年代的起步阶段 第二次是20世纪80-90年代以专家系统为代表的实践阶段 第三次是2000年以后以机器学习和深度学习为代表的算法革命阶段[2] * 复盘2023年以来的大型事件显示 多轮行情由模组预测边际变化驱动 例如2023年ChatGPT发布引发普涨 2024年kimi实现超文本突破带动办公软件上涨 2025年AGI加速落地促使金蝶 鼎捷等公司涨幅明显[11]