Workflow
课程学习
icon
搜索文档
沉寂一个月,openPangu性能飙升8%!华为1B开源模型来了
机器之心· 2025-09-05 04:31
端侧AI模型技术突破 - 华为发布专为昇腾端侧硬件打造的高性能语言模型openPangu Embedded-1B 通过软硬件协同设计显著降低推理延迟并提升资源利用率 采用多阶段训练策略增强任务表现[1] - 模型仅10亿参数但实现性能与效率高度协同 树立"小模型大能力"新标杆 成功将强大AI能力带入端侧设备[2] 性能表现与基准测试 - 模型在多个权威基准上创下10亿参数级别全新SOTA纪录 整体平均分达63.90 持平更大规模Qwen3-1.7B模型(63.69分)[3] - 数学推理能力突出 GSM8K数学基准达82.76% MATH数学题集达81.83% 大幅领先同类模型[3] - 相比上月开源版本V1 V1.1版本平均分实现8%以上大幅跃升 显示开源盘古系列加速迭代升级[5] 软硬件协同优化 - 针对昇腾Atlas硬件特性定制网络超参数 隐藏层规模与前馈网络维度匹配高效吞吐配置 确保计算单元充分利用[9] - 在Atlas 200I A2硬件上首字输出延迟仅约1.8秒 后续每词生成约0.156秒 速度优势显著[12] 创新训练方法 - 采用两阶段课程学习式微调 第一阶段专注理性推理能力 第二阶段训练快速作答 激活深层推理能力[15][23] - 引入离线On-Policy知识蒸馏方法 学生模型自主作答后教师模型针对性指导 提升准确率和泛化能力[18][24] - 采用多源奖励强化学习机制 数学代码任务使用规则奖励 复杂任务采用轻量级LLM评估 结合格式规范奖励策略[22][25] - 开发昇腾NPU集群高效并行方案 减少约30%设备空闲 通过主机-设备权重共享优化大规模强化学习运行效率[21] 技术发展前景 - 提出自适应快慢融合方案 模型可根据问题难度自动选择快速作答或深入推理 在保持精度的同时提高易答问题效率[29] - openPangu-Embedded-7B模型已应用该策略并在7B量级取得领先 升级版本即将开源[30]
成本暴降88%!通义实验室、北大发布ZeroSearch,无需搜索即可激活LLM检索能力
机器之心· 2025-05-29 04:53
核心观点 - 提出ZeroSearch框架 无需真实搜索即可激活大语言模型搜索能力 通过模拟搜索引擎和课程学习策略降低成本88%并在多项任务性能超越真实搜索方法[1][4][13] - 采用结构化训练模板引导模型划分思维步骤 提升推理路径清晰度 格式化的输出便于奖励计算[8][14] - 通过模拟微调策略解决Prompt生成内容与真实搜索风格差异问题 并引入正确答案扩充知识边界[9][10] - 基于课程学习逐步降低文档质量 通过指数函数控制Noisy文档生成概率 实现训练难度平滑过渡[11][13][14] - 奖励函数设计改用F1 Score抑制冗余答案 模型能自主生成结构规范回答[17][18] 方法创新 - 引入大语言模型作为模拟搜索引擎 避免传统方法频繁调用API的高成本 公式化表示为最大化奖励与KL散度约束的优化问题[4] - 采用损失屏蔽技术 仅对策略模型自生成token计算损失 防止记忆模拟文档[4] - 轨迹采集-质量评估-监督微调三步法构建高质量训练集 7B模型仅需30分钟微调[15] - 课程学习策略分三阶段:初期缓慢提升难度学习基础逻辑 中期快速提升强化推理 后期稳定应对低质量文档[22][34] 性能表现 - 在NQ/TriviaQA等7个数据集平均表现超越基线:ZeroSearch-base达40.93分 超过Search-R1-base的39.51分[20] - 参数量扩展性:3B模型激发基础能力 7B接近Google效果 14B实现超越 Google对比分为32.81 vs 34.47[28][33] - 域内外数据集均显示优势 单跳问答任务NQ最高43.6分 多跳问答HotpotQA达34.6分[20][21] - 奖励曲线显示训练后期超越真实搜索 波动更小 最终奖励提升更显著[32] 技术细节 - 模拟搜索设定中SFT-7B达到33.53分 超过Prompt-7B的31.39分 验证微调必要性[28] - 交互轮数呈现U型变化:初期冗余调用导致高轮数 中期效率提升轮数下降 后期为应对低质量文档轮数回升[30][34] - 课程学习策略显著优于随机难度训练 验证系统性能力提升路径的有效性[36]
国产人形机器人破全球纪录!连续空翻一镜到底,量产3.99w起售
量子位· 2025-03-14 11:22
文章核心观点 国产人形机器人取得进展,NOETIX Robotics松延动力的N2机器人实现连续空翻且价格亲民,其背后是硬件、算法和工程化的创新,清华创业团队展现出强大的技术和产品化能力,推动行业发展 [1][7][33] 分组1:N2机器人亮点 - 全球首个在「室内外多场景」连续空翻一镜到底的机器人,动作稳定流畅,落地后能站稳 [1][2][3] - 身高1.2米,体重30公斤,小巧灵活,具备大步行走、奔跑、单双脚跳跃及舞蹈等多种运动能力,奔跑速度实测最快可达每秒3.5米 [3] - 全身有18个自由度,单腿各有5个自由度,单臂各有4个自由度,能完成高难度动作 [9] - 单脚跳跃稳健,抗干扰能力强,摔倒后能迅速恢复正常运行 [10][11][12] - 已将量产提上日程,3.99万起售,标配二次开发接口,有三种颜色可选 [13][14] - 机身集成多个外置硬件接口,方便开发者进行二次开发,可用于科研、安防巡检等领域 [15] 分组2:N2实现连续空翻的技术路径 - 硬件架构:采用自由度精简策略,主打轻量化和抗摔性能,减少非核心自由度,选用球轴承和高强铝合金 [19][21][23] - 算法融合:实现模型预测控制(MPC)与强化学习(RL)的协同,采用课程学习技术分阶段训练 [24] - 工程化实践:以抗摔设计驱动迭代效率,采用成本导向的可靠性设计,零部件高度国产化,结构易于生产装配 [25][26][28] 分组3:清华创业团队情况 - 准00后创业团队,核心成员来自清华、浙大、南加大等高校,创始人姜哲源本科清华电子系,研究方向为深度强化学习足式机器人运动控制 [30] - 成立一年多完成三大产品布局,包括运动员N2、通用型人形机器人E1、仿生机器人Hobbs,技术和应用场景各有侧重 [31] - 一年多收获5轮2亿融资,团队能力、技术水平和产品化能力获资本认可 [32] 分组4:行业发展情况 - 春节以来国产人形机器人持续有新动作,体现「硬件 - 算法 - 场景」三角闭环下的产业技术升级 [33] - 更多本土化年轻团队崭露头角,成为行业发展主力军 [34] - N2之后团队还将推出升级版新品E1系列 [36]