Workflow
大语言模型
icon
搜索文档
作为研究,VLA至少提供了一种摆脱无尽corner case的可能性!
自动驾驶之心· 2025-09-15 03:56
VLA技术演进 - VLA成为自动驾驶主流关键词 新势力企业下半年集中抢占VLA技术高地[1] - 传统模块化架构存在错误累积效应和信息损失问题 依赖人工规则难以应对复杂交通场景[4] - 纯视觉端到端方案存在黑箱问题和因果混淆缺陷 泛化能力受限于训练数据覆盖范围[4][5] - VLA范式通过语言中间表征连接感知与行动 赋予模型推理解释和交互能力[5] - VLA模型利用LLM预训练的世界知识理解交通场景 实现更符合逻辑的决策[5] 学术研究课程 - 课程提供12周在线小组科研加2周论文指导和10周论文维护期[7][14] - 覆盖语言模型解释器 模块化VLA模型 统一端到端VLA模型 推理增强VLA模型四大研究方向[7] - 学员将获得经典论文与前沿论文分析能力 掌握创新点baseline和数据集使用方法[12] - 课程提供baseline代码和可用数据集 包括nuScenes Waymo Argoverse等自动驾驶数据集[23] - 配备2+1多师制教学团队 包括主导师副导师和科研论文班主任[23] 技术资源支持 - 提供基于模仿学习的端到端自动驾驶开源代码库包括VAD和UniAD项目[24] - 提供基于扩散模型的端到端自动驾驶项目DiffusionDrive和OccNet[24] - 开放VLA端到端自动驾驶项目OpenDriveVLA SimLingo和Senna[24] - 课程必读论文包括Senna SimLingo OpenDriveVLA和ORION等最新研究成果[25] - 硬件要求最低配置为4张4090显卡 推荐配置为8张4090显卡或更高性能设备[20] 课程体系设计 - 14周课程包含传统端到端自动驾驶介绍 VLA架构详解和模块化模型研究[26][27] - 每周安排1-1.5小时课程 包含课题概览 选题讨论 算法详解和论文写作方法论[26] - 学员需具备深度学习基础 熟悉Python和PyTorch 最好掌握Linux开发环境[16][20] - 课程要求每周课前阅读资料并完成作业 课后自学时间至少1-2小时[20] - 最终产出包括论文初稿 项目结业证书和优秀学员推荐信[23]
将KV Cache预算降至1.5%!他们用进化算法把大模型内存占用砍下来了
机器之心· 2025-09-14 05:16
核心技术创新 - 提出EvolKV进化框架 仅使用完整KV cache预算的1.5%即可实现超越完整模型的性能表现 大幅降低大语言模型推理成本 [1][6][11] - 采用任务驱动的进化算法优化KV cache分配 通过下游任务性能反馈自适应调整每层缓存预算 突破传统基于规则启发式方法的局限性 [4][6][13] - 将层分组优化与黑盒进化搜索结合 在减少搜索空间的同时实现细粒度性能感知分配 支持多样化评估标准包括准确率和F1分数 [6][9][16] 性能表现 - 在Needle-in-a-Haystack基准测试中比最佳基线提升多达13% 在RULER基准测试中提升多达3.6% [11][31] - LongBench评估显示在128到2048的KV cache预算范围内持续优于所有基线 在GSM8K数学任务中128预算下比最强基线准确率提升7个百分点 [11][25] - Mistral-7B-Instruct模型在多个子数据集(MultiFieldQA-en/2WikiMultihopQA/MuSiQue等)上不仅保持完整模型竞争力 甚至在某些预算下实现超越 [22] 方法架构 - 设计缓存效率评分机制CacheScore ∈ [0,1] 通过平滑折扣函数确保方案平均预算接近目标值c 超参数λ平衡原始性能与缓存效率 [14][15] - 采用层分组策略将L个transformer层划分为J=⌈L/n_g⌉个连续组 显著降低搜索维度并优化稳定性的同时保持细粒度控制 [16] - 通过迭代进化算法逐组优化 固定已优化组参数并动态更新未优化组 最终通过比例补全机制确保总预算精确匹配目标值 [17][20] 实验结果 - 在Llama-3-8B-Instruct上TREC子集128预算时比最强基线高7.69个百分点 在GSM8K任务中512预算下达到完整模型95.7%性能 显著优于基线84.5% [23][25] - 可视化显示不同预算下KV cache分配呈非均匀模式 验证了模型不同层级在信息处理中的功能差异性 [7][27][28] - RULER基准测试表明优化策略具备强泛化能力 迁移到其他评估场景仍保持性能优势 在Mistral-7B-Instruct上提升0.99分 Llama-3-8B-Instruct提升3.6分 [31]
AI解数学题只靠最后一个token
量子位· 2025-09-14 05:05
研究核心发现 - 大语言模型在心算任务中,几乎所有实际数学计算都集中在序列最后一个token上完成,而非分散在所有token中[1] - 模型内部形成名为“人人为我”的稀疏子图,通过最少的计算层和最有限的信息传递高效完成运算[4][5] - 该过程将任务通用型计算与输入特定型计算分开,表明在特定任务中全局信息访问并非必需[1][10] 研究方法与实验设计 - 研究采用上下文感知平均消融和基于注意力的窥视技术对Llama-3-8B等Transformer模型进行消融实验[2][20] - 实验通过三阶段操作:在初始层抑制token针对特定输入的计算,在少数层限制跨token信息传递,最后强制所有计算在最后一个token上发生[15][18][19] - 在Llama-3-8B的A+B+C任务中,只需前14层做任务通用计算,然后通过2层信息传输让最后token获取全局信息,剩余层仅进行最后token自计算[24] 模型性能表现 - AF1_llama子图在八个算术任务中总体表现出高忠实度,其中A+B+C任务忠实度达0.995,A-B-C任务达0.995[28][29] - 仅少数注意力头对算术计算关键,移除近60个头部后模型仍能保持约95%准确率,表明大部分注意力头冗余[30] - 在Pythia和GPT-J模型中也发现类似AF1子图,但等待期更短、信息传输层更长,且性能边界不如Llama清晰[35] 任务适用性与局限性 - AF1_llama在不含额外语义上下文的直接算术任务中保持高准确率,但在需要语义理解的应用题和Python代码任务上完全失败[33][34] - 该方法聚焦于心算任务,即涉及两个或三个操作数的算术问题,可通过单个token输出解决而无需链式思维推理[11] - 研究方法论具有创新性,可服务于算术任务之外的更广泛应用,为理解大语言模型中的算术推理机制做出贡献[37]
Meta开源MobileLLM-R1模型,不到1B参数,用1/10的训练就超越了Qwen3
机器之心· 2025-09-13 08:54
产品发布 - Meta AI团队正式发布MobileLLM-R1高效推理模型系列 包含基础模型和最终模型版本 参数规模包括140M、360M和950M [4][5] - 该系列模型专门针对数学、编程和科学问题进行监督微调训练 并非通用聊天模型 [6] - 公司同时发布完整训练方案和数据源以确保可重复性 支持进一步研究 [8] 性能表现 - 950M参数模型仅使用约2T高质量token进行预训练 总训练token量少于5T 但性能与使用36T token训练的Qwen3 0.6B相当或更佳 [8] - 在MATH基准上准确率比Olmo 1.24B模型高出约五倍 比SmolLM2 1.7B模型高出约两倍 [10] - 在编码基准测试中表现远超Olmo 1.24B和SmolLM2 1.7B 在完全开源模型中创下新最高水平 [10] 技术规格 - 模型采用文本输入输出模态 上下文长度基础版为4k 最终版为32k 词汇表大小128k 共享嵌入 [15] - 140M模型配置为15层、576维、2048隐藏维度 360M模型为15层、1024维、4096隐藏维度 950M模型为22层、1536维、6144隐藏维度 [14] 研发团队 - 项目由三位华人研究科学家领衔 研发时间长达一年 [17][18] - Zechun Liu专注于大模型高效部署与优化 在顶级会议期刊发表20多篇论文 引用量达数千次 [21][22][23] - Ernie Chang专注于自然语言处理和多模态学习 参与开发代理评估方法和移动设备优化研究 [24][26] - Changsheng Zhao专注于模型量化和神经网络架构 参与开发极低比特量化研究和Llama Guard变体 [30][31][33] 行业影响 - 小参数模型训练成本较低 便于尝试最新技术 模型体量下降可覆盖更多端侧设备 实现更大面积落地 [15] - 机器学习社区欢迎通义和Meta等顶尖团队基于小体量模型的探索 [15] - 随着训练成本普遍下降 行业将获得更好的模型 [16]
100轮工具调用,8B小模型也能做复杂长搜索,MiniMax&港科大最新开源
36氪· 2025-09-12 12:25
研究背景 - 大语言模型快速发展推动网络搜索智能体能力边界扩展 能够自主从广泛在线资源中检索信息 长视野网络智能体需在多个网站间进行复杂推理和搜索[5] - 现有开源网络智能体处理复杂搜索任务表现有限 商业模型缺乏透明训练细节 超过一半BrowseComp-en基准测试问题人类标注者两小时内无法解决[6] 核心问题 - 优质训练数据稀缺成为制约因素 开发高能力网络搜索智能体关键在于提升训练数据质量而非增加模型参数[1][6] - 常见方法存在局限性 导致不自然查询表达和有限合成灵活性 无法满足复杂推理需求[6] 解决方案 - 研究团队提出两阶段方法WebExplorer 采用探索-演化框架创建多步推理和复杂网络导航的高难度QA对[8] - 第一阶段模型驱动探索 从种子实体开始通过迭代搜索和浏览操作模拟图构建 形成初步QA对[10] - 第二阶段迭代查询演化 通过移除显著信息 引入战略性模糊化和寻找替代描述三个方向提高查询难度[12][13] 数据集构建 - 通过探索-演化过程构建WebExplorer-QA数据集 包含约4万个演化后问答对[13] - 演化过程使强性能商业模型准确率从86.6%下降至67.1% 平均工具调用次数从7.9次增加至9.9次[15] 模型性能 - 基于Qwen3-8B训练WebExplorer-8B模型 支持128K上下文长度和100次工具调用长视野推理[3][16] - 8B参数模型在BrowseComp-en/zh基准上超越WebSailor-72B 在WebWalkerQA和FRAMES数据集取得小于100B参数模型中最佳性能[17] - 在学术前沿基准HLE上取得17.3%成绩 超越之前32B模型 展现良好泛化能力和可转移性[19] 行业意义 - 证明通过精心设计数据合成方法和训练策略 较小模型可在复杂任务上超越更大模型[19] - 参数效率对AI技术在资源受限环境中应用和部署具有重要意义[19] - 为训练高级网络智能体提供实用路径 模型驱动探索方式比传统图谱方法使浏览行为更灵活[3][19]
博实结(301608) - 301608投资者关系活动记录表2025年9月12日
2025-09-12 11:23
财务表现 - 2024年营业收入14.02亿元,同比增长24.85% [1] - 2024年归母净利润1.76亿元,同比增长0.81% [1] - 2025年上半年营业收入8.05亿元,同比增长20.17% [2] - 2025年上半年归母净利润1.08亿元,同比增长19.07% [2] 业务模式与技术架构 - 采用"模组+平台+终端"业务体系 [2] - 核心技术聚焦通信、定位、AI技术应用 [1][2] - 自研无线通信模组支撑物联网智能终端开发 [1] - 云管理平台通过模块化重组实现多行业定制化开发 [2] 云平台创新应用 - 完成Deepseek大语言模型本地化部署 [2] - 实现通义千问视频分析模型平台集成 [2] - 云平台赋能终端产品销售并提升用户体验 [2] - 标准化平台解决物联网行业碎片化痛点 [2] 智能睡眠终端发展 - 采用ODM模式且不改变家庭装修环境 [2] - 通过AI算法自适应调节温度优化睡眠体验 [2] - 主要销往北美、欧洲、中东、东亚地区 [2] - 正在推进国内产品认证并筹备市场进入 [2] 战略定位 - 定位为物联网智能化应用解决方案专家 [1] - 深耕车联网领域并广泛布局物联网 [1] - 高新技术企业及专精特新"小巨人"企业资质 [1]
Claude 官方发文:如何给 Agent 构建一个好用的工具?
Founder Park· 2025-09-12 10:06
Claude新功能与AI工具开发方法论 - Claude新增创建和编辑Excel、文档、PPT、PDF等主流办公文件功能 拓展AI在实际任务中的应用场景[2] - Anthropic目标是将AI从"聊天机器人"转变为解决实际问题的强大伙伴 曾推出artifact等小而美的客户端工具[2] AI智能体工具设计核心原则 - 转变思维 为不确定的、会推理的AI设计直观易用工具 而非传统编程只考虑输入输出[4] - 评估驱动 用真实且复杂的任务系统性验证工具效果 评估场景需接近真实世界[5] - 少即是多 构建整合工作流的强大工具而非零散API功能 减轻AI推理负担[6] - 精心设计描述 工具名称、描述和参数定义是AI理解用途的唯一途径 清晰准确描述提升调用成功率[7] 工具定义与智能体协作 - 工具是确定性系统与非确定性智能体之间的新型软件契约 需重新设计方法而非简单封装API[15] - 开发流程包括快速搭建原型、全面评估、与Claude Code协作自动优化工具性能[16] - 通过本地MCP服务器或桌面扩展连接测试工具 可直接传入Anthropic API进行程序化测试[19][20] 评估体系构建方法 - 生成基于现实世界用途的评估任务 避免简单"沙盒"环境 优秀任务需多达数十次工具调用[24] - 评估任务示例包括安排会议、处理客户投诉、准备客户挽留方案等复杂场景[26] - 通过程序化运行评估 收集准确率、运行时间、工具调用次数、Token消耗量等多维度指标[29] 高效工具设计原则 - 选择合适工具 构建少数精心设计工具针对高影响力工作流 而非简单封装现有API[37] - 使用命名空间划分工具功能界限 按服务或资源分组 帮助智能体选择正确工具[40] - 返回有意义的上下文 优先考虑相关性而非灵活性 避免低级技术标识符[43] - 优化Token效率 实施分页、过滤、截断 默认限制工具响应在25,000个Token内[48] - 精心设计工具描述 明确输入输出参数 微小改进可显著提升性能[52] 未来发展方向 - 软件开发实践需从确定性模式转向非确定性模式 适应智能体特性[54] - 通过迭代式、评估驱动过程确保工具随智能体进化 适应MCP协议和基础模型升级[54]
Claude 的秘密:AI 聪不聪明,取决于你给它什么工具 | Jinqiu Select
锦秋集· 2025-09-12 08:48
公司产品与战略 - Claude近期推出可直接创建和编辑Excel、文档、PPT及PDF等主流办公文件的新功能,拓展了AI在实际任务中的应用场景[1] - 公司目标是将AI从"聊天机器人"转变为能解决实际问题的强大伙伴,并曾推出artifact等小而美的客户端工具[1] - 公司分享了其在开发和优化智能体工具方面的经验与方法论[2] 智能体工具设计核心原则 - 转变思维:为不确定的、会推理的AI设计直观易用的工具,而非像传统编程那样只考虑输入输出[3] - 评估驱动:使用真实且复杂的任务进行系统性评估以验证工具效能,评估场景需接近真实世界才能发现真正问题[4] - 少即是多:构建能处理多步骤任务的整合工作流工具,而非提供零散API功能,以减轻AI推理负担[5] - 精心设计描述:工具的名称、描述和参数定义是AI理解其用途的唯一途径,清晰准确的描述能显著提升工具调用成功率[6] 工具开发与优化流程 - 开发流程包括构建原型、运行全面评估、与Claude Code协作自动提升工具性能[11] - 快速搭建工具原型并在本地测试,可借助Claude Code编写工具并连接本地MCP服务器或桌面扩展进行测试[17][18] - 生成大量基于现实世界用途的评估任务,避免过于简单的"沙盒"环境,优秀任务可能需要多达数十次工具调用[24] - 通过程序化方式运行评估,建议收集准确率、总运行时间、工具调用次数、总Token消耗量及工具错误等指标[29] - 分析评估结果时需观察智能体在何处遇到困难,通读推理和反馈以识别不顺手之处,并分析工具调用指标[31] 高效工具的具体设计策略 - 构建少数精心设计的工具针对特定高影响力工作流程,而非简单封装现有API功能[36][37] - 通过命名空间将相关工具按共同前缀分组,帮助在大量工具间划定界限并影响工具使用评估[41] - 工具响应应优先返回高信息量信号,避免低级别技术标识符,将任意UUID解析为更具语义意义的语言可显著提高检索任务精确度[42] - 对可能占用大量上下文的工具响应实施分页、范围选择、过滤或截断组合,并设置合理默认参数值,如Claude Code默认将工具响应限制在25,000个Token[48] - 对工具描述和规范进行提示工程是最有效的改进方法之一,即使微小改进也能带来显著性能提升,例如Claude Sonnet 3.5在SWE-bench Verified评估中取得最先进性能[52]
你聪明,它就聪明——大语言模型的“厄里斯魔镜”假说
36氪· 2025-09-12 01:54
神经网络研究历史与突破 - 20世纪80年代,神经网络研究面临多层神经网络学习算法的关键瓶颈,传统算法难以解决训练问题[1] - 特伦斯·谢诺夫斯基与杰弗里·辛顿合作将物理学中的玻尔兹曼分布和统计物理概念引入神经网络研究,历时三年在1986年获得突破,发现了一种用于训练玻尔兹曼机权重的学习算法[1] - 该突破打破了神经网络研究的僵局,并催生了效率更高的反向传播算法,为现代神经网络技术奠定基座[1][2] 大语言模型能力评估与“厄里斯魔镜”假说 - 大语言模型的表现高度依赖提示词,提示是一种能够显著影响模型后续输出的技术手段,提示的不同造成结果显著差异[10] - 在提供清晰社会互动框架的提示下,模型可展现事实理解、社会逻辑推演和多层级心智理论建模能力,但这本质是对人类社交问题思考方式的统计拟合,而非真正拥有心智理论[11] - 当提示词未提供合理语境时,模型因训练数据缺乏相关内容,可能生成荒诞回答,但通过调整提示(如引导模型进行事实自检)可显著改善回答质量[12] - 大语言模型如同“厄里斯魔镜”,能够映射对话者的知识水平、信念体系和认知期望,其智能表现与用户的智慧相关[13][14] 下一代模型发展方向与挑战 - 实现人工通用自主性需要补充具身化模块,使模型能与物理世界交互,例如通过与大语言模型与机器人控制系统融合[16] - 模型需发展长期记忆与持续学习能力,开发类似人类海马的功能模块,以克服当前记忆容量有限的不足[17] - 模型缺乏类似人类儿童期和青春期的发育过程,预训练是“批量式”而非“渐进式”,导致对基础概念的感知根基薄弱[18] - 当前模型的反馈学习存在时机滞后和多样性不足的缺陷,下一代模型可能需要更长、更扎实的“儿童期”,在预训练早期嵌入反馈并增加反馈场景多样性[19][20] 行业应用与多模态进展 - 多模态融合推理能力提升,如谷歌Gemini 2.0实现视频生成与工业级3D建模无缝衔接,将汽车制造产线切换时间从72小时压缩至2小时[22] - OpenAI的o3模型在数理推理任务中准确率大幅提升,并支持端到端工具使用能力训练,可完成复杂报告撰写等高阶任务[22] - 华为盘古3.0的“五感诊断模块”整合多模态指标,使癌症早期筛查准确率达97%,并在三甲医院实现全流程AI辅助诊断[22] - 通用类Agent呈现双路径发展,多智能体系统成为新范式,正在重构工作流,例如埃森哲的财务智能体和安永的税务Agent可提升任务处理效率达50%[22] 人工智能与神经科学的相互促进 - 人工智能与神经科学的相互促进是核心主题,围绕“智能”和“理解”的争论类似历史上关于“生命本质”的辩论[23] - 通用人工智能预示着一种对生命实在的无限逼近,机器学习的进步可能催生类似DNA结构之于生物学的全新概念框架,为领域带来根本性突破[23]
全新MoE架构!阿里开源Qwen3-Next,训练成本直降9成
机器之心· 2025-09-12 00:51
模型架构创新 - 采用混合注意力机制Gated DeltaNet与Gated Attention以3:1比例混合 实现性能与效率双重优化 在长序列建模中兼顾高效率和强召回能力[5][9] - 标准注意力层引入三项增强设计:输出门控机制缓解低秩问题 注意力头维度从128扩展至256 仅对前25%位置维度添加旋转位置编码[10] - 采用高稀疏度MoE架构 总参数量800亿 每次推理仅激活约30亿参数 稀疏度低至3.7%[11][20] 性能突破 - 80B参数模型仅激活3B参数 性能媲美235B旗舰模型Qwen3 并超越Gemini-2.5-Flash-Thinking[2][21] - 在编程评测LiveCodeBench v6、人类偏好对齐Arena-Hard v2及综合能力评测LiveBench中超越开源旗舰模型[21] - 数学推理AIME25评测获得87.8分 全面超越Gemini2.5-Flash-Thinking[21] 效率提升 - 预填充阶段吞吐量达Qwen3-32B的7倍(4k tokens上下文)和10倍以上(32k+ tokens上下文)[17] - 解码阶段吞吐量提升近4倍(4k上下文)和10倍以上(32k+长上下文)[18] - 训练成本仅为Qwen3-32B的十分之一以下 实现极致训练和推理性价比[20] 技术实现 - 采用Zero-Centered RMSNorm并对norm weight施加weight decay 解决QK-Norm导致的权重异常增长问题[12] - 初始化时归一化MoE router参数 确保训练早期专家被无偏选中[13] - 引入原生Multi-Token Prediction机制 优化多步推理性能并提高Speculative Decoding接受率[14] 模型发布 - 模型已在Qwen.ai平台上线并开源至HuggingFace和Kaggle[4][6] - 开源指令模型Qwen3-Next-Instruct和推理模型Qwen3-Next-Thinking两款模型[20] - 第三方平台已接入新模型 包括anycoder的vibe coding示例[24][25]