Workflow
大语言模型
icon
搜索文档
作为研究,VLA至少提供了一种摆脱无尽corner case的可能性!
自动驾驶之心· 2025-09-15 03:56
VLA技术演进 - VLA成为自动驾驶主流关键词 新势力企业下半年集中抢占VLA技术高地[1] - 传统模块化架构存在错误累积效应和信息损失问题 依赖人工规则难以应对复杂交通场景[4] - 纯视觉端到端方案存在黑箱问题和因果混淆缺陷 泛化能力受限于训练数据覆盖范围[4][5] - VLA范式通过语言中间表征连接感知与行动 赋予模型推理解释和交互能力[5] - VLA模型利用LLM预训练的世界知识理解交通场景 实现更符合逻辑的决策[5] 学术研究课程 - 课程提供12周在线小组科研加2周论文指导和10周论文维护期[7][14] - 覆盖语言模型解释器 模块化VLA模型 统一端到端VLA模型 推理增强VLA模型四大研究方向[7] - 学员将获得经典论文与前沿论文分析能力 掌握创新点baseline和数据集使用方法[12] - 课程提供baseline代码和可用数据集 包括nuScenes Waymo Argoverse等自动驾驶数据集[23] - 配备2+1多师制教学团队 包括主导师副导师和科研论文班主任[23] 技术资源支持 - 提供基于模仿学习的端到端自动驾驶开源代码库包括VAD和UniAD项目[24] - 提供基于扩散模型的端到端自动驾驶项目DiffusionDrive和OccNet[24] - 开放VLA端到端自动驾驶项目OpenDriveVLA SimLingo和Senna[24] - 课程必读论文包括Senna SimLingo OpenDriveVLA和ORION等最新研究成果[25] - 硬件要求最低配置为4张4090显卡 推荐配置为8张4090显卡或更高性能设备[20] 课程体系设计 - 14周课程包含传统端到端自动驾驶介绍 VLA架构详解和模块化模型研究[26][27] - 每周安排1-1.5小时课程 包含课题概览 选题讨论 算法详解和论文写作方法论[26] - 学员需具备深度学习基础 熟悉Python和PyTorch 最好掌握Linux开发环境[16][20] - 课程要求每周课前阅读资料并完成作业 课后自学时间至少1-2小时[20] - 最终产出包括论文初稿 项目结业证书和优秀学员推荐信[23]
将KV Cache预算降至1.5%!他们用进化算法把大模型内存占用砍下来了
机器之心· 2025-09-14 05:16
核心技术创新 - 提出EvolKV进化框架 仅使用完整KV cache预算的1.5%即可实现超越完整模型的性能表现 大幅降低大语言模型推理成本 [1][6][11] - 采用任务驱动的进化算法优化KV cache分配 通过下游任务性能反馈自适应调整每层缓存预算 突破传统基于规则启发式方法的局限性 [4][6][13] - 将层分组优化与黑盒进化搜索结合 在减少搜索空间的同时实现细粒度性能感知分配 支持多样化评估标准包括准确率和F1分数 [6][9][16] 性能表现 - 在Needle-in-a-Haystack基准测试中比最佳基线提升多达13% 在RULER基准测试中提升多达3.6% [11][31] - LongBench评估显示在128到2048的KV cache预算范围内持续优于所有基线 在GSM8K数学任务中128预算下比最强基线准确率提升7个百分点 [11][25] - Mistral-7B-Instruct模型在多个子数据集(MultiFieldQA-en/2WikiMultihopQA/MuSiQue等)上不仅保持完整模型竞争力 甚至在某些预算下实现超越 [22] 方法架构 - 设计缓存效率评分机制CacheScore ∈ [0,1] 通过平滑折扣函数确保方案平均预算接近目标值c 超参数λ平衡原始性能与缓存效率 [14][15] - 采用层分组策略将L个transformer层划分为J=⌈L/n_g⌉个连续组 显著降低搜索维度并优化稳定性的同时保持细粒度控制 [16] - 通过迭代进化算法逐组优化 固定已优化组参数并动态更新未优化组 最终通过比例补全机制确保总预算精确匹配目标值 [17][20] 实验结果 - 在Llama-3-8B-Instruct上TREC子集128预算时比最强基线高7.69个百分点 在GSM8K任务中512预算下达到完整模型95.7%性能 显著优于基线84.5% [23][25] - 可视化显示不同预算下KV cache分配呈非均匀模式 验证了模型不同层级在信息处理中的功能差异性 [7][27][28] - RULER基准测试表明优化策略具备强泛化能力 迁移到其他评估场景仍保持性能优势 在Mistral-7B-Instruct上提升0.99分 Llama-3-8B-Instruct提升3.6分 [31]
AI解数学题只靠最后一个token
量子位· 2025-09-14 05:05
henry 发自 凹非寺 量子位 | 公众号 QbitAI 大语言模型在解心算题时,只依赖最后一个token? 最近,来自加州大学圣克鲁兹分校、乔治·梅森大学和Datadog的研究人员发现:在心算任务中,几乎所有实际的数学计算都集中在序列的 最后一个token 上完成,而不是分散在所有token中。 这意味着,相较于在Transformer和多层感知机(MLP)中常见的 全局信息访问 ——即每个token在预测时都能查询并利用整个上文信息 ——在诸如心算这样的特定任务中,全局访问其实并不是必需的。 这是怎么一回事? 心算只要最后一个token?! 总的来说,研究人员采用了 上下文感知平均消融(Context-Aware Mean Ablation, CAMA) 和 基于注意力的窥视(attention-based peeking) 技术对 Llama-3-8B 等Transformer架构的模型进行了一系列的消融实验。 这些实验通过系统性地移除或改变模型的一部分,探究能让模型依然表现良好的 "最少计算量" 。 在这一过程中,研究人员发现模型内部会形成一个稀疏子图(sparse subgraph)——他们把它称 ...
Meta开源MobileLLM-R1模型,不到1B参数,用1/10的训练就超越了Qwen3
机器之心· 2025-09-13 08:54
产品发布 - Meta AI团队正式发布MobileLLM-R1高效推理模型系列 包含基础模型和最终模型版本 参数规模包括140M、360M和950M [4][5] - 该系列模型专门针对数学、编程和科学问题进行监督微调训练 并非通用聊天模型 [6] - 公司同时发布完整训练方案和数据源以确保可重复性 支持进一步研究 [8] 性能表现 - 950M参数模型仅使用约2T高质量token进行预训练 总训练token量少于5T 但性能与使用36T token训练的Qwen3 0.6B相当或更佳 [8] - 在MATH基准上准确率比Olmo 1.24B模型高出约五倍 比SmolLM2 1.7B模型高出约两倍 [10] - 在编码基准测试中表现远超Olmo 1.24B和SmolLM2 1.7B 在完全开源模型中创下新最高水平 [10] 技术规格 - 模型采用文本输入输出模态 上下文长度基础版为4k 最终版为32k 词汇表大小128k 共享嵌入 [15] - 140M模型配置为15层、576维、2048隐藏维度 360M模型为15层、1024维、4096隐藏维度 950M模型为22层、1536维、6144隐藏维度 [14] 研发团队 - 项目由三位华人研究科学家领衔 研发时间长达一年 [17][18] - Zechun Liu专注于大模型高效部署与优化 在顶级会议期刊发表20多篇论文 引用量达数千次 [21][22][23] - Ernie Chang专注于自然语言处理和多模态学习 参与开发代理评估方法和移动设备优化研究 [24][26] - Changsheng Zhao专注于模型量化和神经网络架构 参与开发极低比特量化研究和Llama Guard变体 [30][31][33] 行业影响 - 小参数模型训练成本较低 便于尝试最新技术 模型体量下降可覆盖更多端侧设备 实现更大面积落地 [15] - 机器学习社区欢迎通义和Meta等顶尖团队基于小体量模型的探索 [15] - 随着训练成本普遍下降 行业将获得更好的模型 [16]
100轮工具调用,8B小模型也能做复杂长搜索,MiniMax&港科大最新开源
36氪· 2025-09-12 12:25
研究背景 - 大语言模型快速发展推动网络搜索智能体能力边界扩展 能够自主从广泛在线资源中检索信息 长视野网络智能体需在多个网站间进行复杂推理和搜索[5] - 现有开源网络智能体处理复杂搜索任务表现有限 商业模型缺乏透明训练细节 超过一半BrowseComp-en基准测试问题人类标注者两小时内无法解决[6] 核心问题 - 优质训练数据稀缺成为制约因素 开发高能力网络搜索智能体关键在于提升训练数据质量而非增加模型参数[1][6] - 常见方法存在局限性 导致不自然查询表达和有限合成灵活性 无法满足复杂推理需求[6] 解决方案 - 研究团队提出两阶段方法WebExplorer 采用探索-演化框架创建多步推理和复杂网络导航的高难度QA对[8] - 第一阶段模型驱动探索 从种子实体开始通过迭代搜索和浏览操作模拟图构建 形成初步QA对[10] - 第二阶段迭代查询演化 通过移除显著信息 引入战略性模糊化和寻找替代描述三个方向提高查询难度[12][13] 数据集构建 - 通过探索-演化过程构建WebExplorer-QA数据集 包含约4万个演化后问答对[13] - 演化过程使强性能商业模型准确率从86.6%下降至67.1% 平均工具调用次数从7.9次增加至9.9次[15] 模型性能 - 基于Qwen3-8B训练WebExplorer-8B模型 支持128K上下文长度和100次工具调用长视野推理[3][16] - 8B参数模型在BrowseComp-en/zh基准上超越WebSailor-72B 在WebWalkerQA和FRAMES数据集取得小于100B参数模型中最佳性能[17] - 在学术前沿基准HLE上取得17.3%成绩 超越之前32B模型 展现良好泛化能力和可转移性[19] 行业意义 - 证明通过精心设计数据合成方法和训练策略 较小模型可在复杂任务上超越更大模型[19] - 参数效率对AI技术在资源受限环境中应用和部署具有重要意义[19] - 为训练高级网络智能体提供实用路径 模型驱动探索方式比传统图谱方法使浏览行为更灵活[3][19]
博实结(301608) - 301608投资者关系活动记录表2025年9月12日
2025-09-12 11:23
财务表现 - 2024年营业收入14.02亿元,同比增长24.85% [1] - 2024年归母净利润1.76亿元,同比增长0.81% [1] - 2025年上半年营业收入8.05亿元,同比增长20.17% [2] - 2025年上半年归母净利润1.08亿元,同比增长19.07% [2] 业务模式与技术架构 - 采用"模组+平台+终端"业务体系 [2] - 核心技术聚焦通信、定位、AI技术应用 [1][2] - 自研无线通信模组支撑物联网智能终端开发 [1] - 云管理平台通过模块化重组实现多行业定制化开发 [2] 云平台创新应用 - 完成Deepseek大语言模型本地化部署 [2] - 实现通义千问视频分析模型平台集成 [2] - 云平台赋能终端产品销售并提升用户体验 [2] - 标准化平台解决物联网行业碎片化痛点 [2] 智能睡眠终端发展 - 采用ODM模式且不改变家庭装修环境 [2] - 通过AI算法自适应调节温度优化睡眠体验 [2] - 主要销往北美、欧洲、中东、东亚地区 [2] - 正在推进国内产品认证并筹备市场进入 [2] 战略定位 - 定位为物联网智能化应用解决方案专家 [1] - 深耕车联网领域并广泛布局物联网 [1] - 高新技术企业及专精特新"小巨人"企业资质 [1]
Claude 官方发文:如何给 Agent 构建一个好用的工具?
Founder Park· 2025-09-12 10:06
Claude新功能与AI工具开发方法论 - Claude新增创建和编辑Excel、文档、PPT、PDF等主流办公文件功能 拓展AI在实际任务中的应用场景[2] - Anthropic目标是将AI从"聊天机器人"转变为解决实际问题的强大伙伴 曾推出artifact等小而美的客户端工具[2] AI智能体工具设计核心原则 - 转变思维 为不确定的、会推理的AI设计直观易用工具 而非传统编程只考虑输入输出[4] - 评估驱动 用真实且复杂的任务系统性验证工具效果 评估场景需接近真实世界[5] - 少即是多 构建整合工作流的强大工具而非零散API功能 减轻AI推理负担[6] - 精心设计描述 工具名称、描述和参数定义是AI理解用途的唯一途径 清晰准确描述提升调用成功率[7] 工具定义与智能体协作 - 工具是确定性系统与非确定性智能体之间的新型软件契约 需重新设计方法而非简单封装API[15] - 开发流程包括快速搭建原型、全面评估、与Claude Code协作自动优化工具性能[16] - 通过本地MCP服务器或桌面扩展连接测试工具 可直接传入Anthropic API进行程序化测试[19][20] 评估体系构建方法 - 生成基于现实世界用途的评估任务 避免简单"沙盒"环境 优秀任务需多达数十次工具调用[24] - 评估任务示例包括安排会议、处理客户投诉、准备客户挽留方案等复杂场景[26] - 通过程序化运行评估 收集准确率、运行时间、工具调用次数、Token消耗量等多维度指标[29] 高效工具设计原则 - 选择合适工具 构建少数精心设计工具针对高影响力工作流 而非简单封装现有API[37] - 使用命名空间划分工具功能界限 按服务或资源分组 帮助智能体选择正确工具[40] - 返回有意义的上下文 优先考虑相关性而非灵活性 避免低级技术标识符[43] - 优化Token效率 实施分页、过滤、截断 默认限制工具响应在25,000个Token内[48] - 精心设计工具描述 明确输入输出参数 微小改进可显著提升性能[52] 未来发展方向 - 软件开发实践需从确定性模式转向非确定性模式 适应智能体特性[54] - 通过迭代式、评估驱动过程确保工具随智能体进化 适应MCP协议和基础模型升级[54]
Claude 的秘密:AI 聪不聪明,取决于你给它什么工具 | Jinqiu Select
锦秋集· 2025-09-12 08:48
转变思维:为 AI 智能体设计,而非为代码封装 Claude 最近的新功能可以直接创建和编辑包括 Excel、文档、PPT 乃至 PDF 在内的多种主流办公文件,进一步拓展了 AI 在实际任务中的应用场景。Anthropic 很早 就推出过很多小而美但切中用户需求的客户端工具例如artifact,其目标始终是将 AI 从"聊天机器人"转变为能解决实际问题的强大伙伴。 最近 Anthropic 撰写了一篇文章,分享了其在开发和优化智能体工具方面的经验与方法论。 核心是为不确定的、会推理的 AI 设计直观易用的工具,而不是像传统编程那样只考虑输入输出。 评估驱动:用真实且复杂的任务来衡量和迭代 工具好不好,要靠系统性的评估来验证。评估场景必须接近真实世界,足够复杂,才能发现真正的问题。 少即是多:构建整合工作流的工具,而非零散的功能点 与其提供一堆零散的 API 功能,不如创建一个能处理多步骤任务的强大工具,这能极大减轻 AI 的推理负担。 精心设计描述:工具的"说明书"和功能本身同样重要 工具的名称、描述和参数定义是 AI 理解其用途的唯一途径。清晰、准确的描述是提升工具调用成功率最有效的方法之一。 智能体的效 ...
你聪明,它就聪明——大语言模型的“厄里斯魔镜”假说
36氪· 2025-09-12 01:54
1983年,特伦斯·谢诺夫斯基(Terrence J. Sejnowski)在约翰·霍普金斯大学任教。这一年,他每周末都要在巴尔的摩和匹兹堡之间开车往返——为 了和当时在卡内基梅隆大学任教的杰弗里·辛顿(Geoffrey Hinton)讨论一项合作研究的进展。 20世纪80年代,神经网络研究碰上了"硬骨头",多层神经网络的学习算法成了这一领域寻求突破的关键瓶颈。传统算法难以解决多层神经网络的训 练问题,使神经网络发展受限——特伦斯和辛顿敏锐地意识到这一问题,决定寻找一种有效的学习算法,能够让多层神经网络像人类大脑一样,从 数据中自动学习规律和模式,实现更强大的智能。 特伦斯和辛顿决定,将物理学中的玻尔兹曼分布和统计物理概念引入神经网络研究。这项合作历时三年,最终在1986年获得了突破成果。某天,特 伦斯接到了辛顿打来的电话,宣布他发现了"大脑的工作原理"——这背后的洞见最终促成了一种用于训练玻尔兹曼机权重的学习算法,打破了神经 网络研究一直以来的僵局,并很快催生了效率更高的反向传播算法。 20世纪80年代后期,玻尔兹曼机、反向传播算法、卷积神经网络雏形等成果,逐渐累起现代神经网络技术的基座,并随后在计算机视觉 ...
全新MoE架构!阿里开源Qwen3-Next,训练成本直降9成
机器之心· 2025-09-12 00:51
模型架构创新 - 采用混合注意力机制Gated DeltaNet与Gated Attention以3:1比例混合 实现性能与效率双重优化 在长序列建模中兼顾高效率和强召回能力[5][9] - 标准注意力层引入三项增强设计:输出门控机制缓解低秩问题 注意力头维度从128扩展至256 仅对前25%位置维度添加旋转位置编码[10] - 采用高稀疏度MoE架构 总参数量800亿 每次推理仅激活约30亿参数 稀疏度低至3.7%[11][20] 性能突破 - 80B参数模型仅激活3B参数 性能媲美235B旗舰模型Qwen3 并超越Gemini-2.5-Flash-Thinking[2][21] - 在编程评测LiveCodeBench v6、人类偏好对齐Arena-Hard v2及综合能力评测LiveBench中超越开源旗舰模型[21] - 数学推理AIME25评测获得87.8分 全面超越Gemini2.5-Flash-Thinking[21] 效率提升 - 预填充阶段吞吐量达Qwen3-32B的7倍(4k tokens上下文)和10倍以上(32k+ tokens上下文)[17] - 解码阶段吞吐量提升近4倍(4k上下文)和10倍以上(32k+长上下文)[18] - 训练成本仅为Qwen3-32B的十分之一以下 实现极致训练和推理性价比[20] 技术实现 - 采用Zero-Centered RMSNorm并对norm weight施加weight decay 解决QK-Norm导致的权重异常增长问题[12] - 初始化时归一化MoE router参数 确保训练早期专家被无偏选中[13] - 引入原生Multi-Token Prediction机制 优化多步推理性能并提高Speculative Decoding接受率[14] 模型发布 - 模型已在Qwen.ai平台上线并开源至HuggingFace和Kaggle[4][6] - 开源指令模型Qwen3-Next-Instruct和推理模型Qwen3-Next-Thinking两款模型[20] - 第三方平台已接入新模型 包括anycoder的vibe coding示例[24][25]