Workflow
机器之心
icon
搜索文档
「只参与,不参赛」奖牌数却仅次于宇树,这个幕后玩家如何做到的?
机器之心· 2025-08-23 10:51
赛事表现 - 2025年世界人形机器人运动会中宇树科技G1和H1机器人分别获得11枚和8枚奖牌,成为奖牌榜第一和第二名 [3][4] - 加速进化T1机器人获得6枚奖牌,位列奖牌榜第三名 [3][4] - 在纯AI足球项目中,加速进化T1被清华火神队、中国农业大学山海队、德国HTWK队等十多个国家参赛队伍选用,成为标准化平台 [5][6] - 加速进化T1在2025 RoboCup巴西机器人足球世界杯上帮助中国队首次在AdultSize组别夺冠,打破欧美国家28年垄断 [6] - 加速进化T1组成世界机器人大会开幕式首个入场机器人方阵,实现全球首次5x5 AI机器人非遥控方式走方阵 [8] 技术路线与战略 - 加速进化选择"先让四肢健全,再让心智健全"的技术路径,重点投入运动控制、动态平衡和抗冲击性等物理能力 [12][17] - 公司通过端到端运动大模型将机器人射门高度从35厘米提升至2米,最快1秒自主爬起,续航超1小时 [18][20][23] - 选择足球场景作为技术试炼场,因算法迁移价值高,已应用于家庭陪伴、工业巡检和智慧物流等领域 [24] - 战略定位为平台型公司,构建"本体+系统+开发工具"开放生态,目标成为人形机器人领域的"苹果" [25] - 软硬件平台已沉淀超过500名足球Agent开发者,支持高中生团队数周内开发出竞技级足球智能体 [27][29] 行业地位与竞争优势 - 加速进化与宇树科技形成"南宇树,北加速"行业格局,分别代表"产品驱动"和"生态驱动"两种成功路径 [30][31][37] - 2025年上半年交付数百台机器人,7月销量超100台,其中50%以上销往海外,交付量居行业前列 [35] - 核心团队融合清华机器人技术(20年经验)与互联网大厂产品思维,是唯一兼具顶尖硬件基因与软件工程经验的公司 [36] - 2024年获得多轮融资,2025年6月由深创投领投A轮,7月由北京机器人产业发展投资基金领投A+轮 [38] 市场前景 - 2024年中国人形机器人市场规模达27.6亿元,预计2050年增至6万亿元 [37] - 公司规划短期深耕百亿级赛事/科研/教育市场,中期切入千亿级家庭陪伴市场,长期走向万亿级通用机器人市场 [38]
Chain-of-Agents: OPPO推出通用智能体模型新范式,多榜单SOTA,模型代码数据全开源
机器之心· 2025-08-23 04:42
文章核心观点 - 提出全新智能体推理范式Chain-of-Agents(CoA)以解决传统多智能体系统通信效率低、泛化能力有限及缺乏数据驱动学习能力的问题 [2][3] - CoA框架通过层次化智能体架构实现端到端多智能体协作 显著降低推理成本并提升性能 [6][8] - 基于CoA训练的Agent Foundation Model(AFM)在近20项复杂任务基准测试中刷新性能记录 包括多跳问答、代码生成和数学推理等领域 [6][18][24][25][27] 技术架构 - CoA采用角色型智能体(思考/计划/反思/验证)与工具型智能体(搜索/爬取/代码)的层次化架构 支持动态激活机制 [10][13] - 通过多智能体能力蒸馏将OAgents成功轨迹转换为CoA兼容格式 生成约87k条SFT轨迹数据用于监督微调 [11][14][15] - 强化学习阶段采用约85k条高质量任务数据 通过策略抽样优化高难度任务表现 [16] 性能表现 多跳问答任务 - AFM-RL在7个数据集上达成平均性能新高 以Qwen-2.5-7B-instruct为基准时平均准确率达45.5% 较ZeroSearch提升6.4% [19] - 多跳问答任务提升显著 表明其在任务分解与工具使用方面具有更强能力 [19] 复杂网页搜索任务 - AFM(Qwen-2.5-32B-Instruct)在GAIA基准实现55.4%通过率 领先WebSailor 2.2%和WebDancer 3.9% [24] - 在BrowseComp任务以11.1%成功率居32B模型首位 WebWalker任务准确率达63.0% 超过WebThinker-RL 16.5% [24] 数学推理能力 - AFM-RL-7B在五个数学基准平均准确率64.3% 较次优模型SimpleTIR-7B-Multi提升3.6% [26] - AFM-RL-32B平均准确率78.0% 领先ReTool-32B达3.6% 在AIME25和OlympiadBench分别实现10.5%和5.7%绝对提升 [26] 代码生成能力 - AFM-RL-32B在LiveCodeBench v5准确率47.9% CodeContests成绩32.7% 显著超越TIR方法 [6][27][28] - 与基础模型相比 AFM通过RL优化后在7B与32B模型上平均准确率分别提升8.5%和13.2% [27] 效率优势 - AFM将推理成本(token消耗)减少高达85.5% 在工具调用效率和token消耗维度均表现最优 [6][33] - 在GAIA数据集测试中 AFM工具调用次数最少 且提示工程token消耗最低 [33] 技术局限与展望 - 当前角色型智能体类型需预先定义 未来需探索动态角色生成机制以增强未知任务适应性 [39] - 现有工具以文本为主 需融合图像/语音等模态工具扩展应用场景 [39] - 针对长周期任务需设计更高效的智能体状态记忆与历史轨迹复用策略 [39]
Coinbase强制全员上手AI工具,拒绝者直接开除
机器之心· 2025-08-23 04:42
AI编程工具在行业的应用现状 - 谷歌宣称其50%的代码由AI辅助编写 显示AI编程工具在大型科技公司已得到规模化应用[2] - 完全依赖AI编程的Vibe Coder群体日益壮大 反映AI编程工具正在改变开发者的工作方式[4] Coinbase强制推行AI编程工具的举措 - 公司为所有工程师购买GitHub Copilot和Cursor企业版许可证 并解雇拒绝使用AI编程工具的程序员[6] - 公司CEO通过Slack发布强制使用指令 要求所有工程师在周末前尝试AI工具 并与未使用者召开会议[9] - 尽管只有少数人员被解雇 但该高压手段引发公司内部部分人员不满[10][11] 行业对AI编程工具的分歧 - 部分大型科技公司禁止使用AI编程工具 表明AI编程的普及程度可能存在高估[14] - 互联网社区对强制使用AI工具的做法存在争议 包括开发者分享被解雇经历及表达强烈不满[15][16] 企业AI应用培训计划 - 公司计划每月举办会议 由掌握创造性使用AI方法的团队分享经验 以提升整体AI应用水平[12]
抢天才还是拼算力?前 Llama 推理负责人详解 AI 的真实天花板
机器之心· 2025-08-23 01:30
算力在AI行业中的决定性作用 - 算力指数级增长是决定AI行业天花板的关键因素 组织混乱仅是噪音无法改变宏观趋势[1][5][9] - 行业瓶颈在于算力而非管理 工程上提升模型能力直接等同于扩大GPU/TPU规模[8] - 当算力达到临界点时 不同方法会自然突破性能门槛 历史最终只记录算力成果而非具体方法[8] 研究方向频繁切换的影响 - 前沿实验室普遍存在研究方向频繁切换现象 但整体进展未被拖慢 因组织杂乱仍能产出高质量模型[5] - 组织混乱带来的延迟是线性或次线性的 但算力增长是指数级的 后者对行业更具决定性[9] - 对研究者个人而言 1-2年延误可能对职业轨迹产生重大影响[7] 资本与算力增长关系 - 若资本热潮退去且算力增速放缓 行业可能面临增长乏力危机[10] - 只要AI持续释放实际价值 行业就不会真正崩盘 例如GPT-3.5虽暴露推理不足但展示了创意写作等潜力[10] 人才流动与组织效率 - 社交媒体过度渲染天才研究员天价跳槽 将公众注意力集中在"最聪明大脑"上[11] - 在实验室层面的微观竞争中 组织效率决定谁能更快产出成果[11]
KDD 2025 Best Paper Runner-Up | EI-BERT:超紧凑语言模型压缩框架
机器之心· 2025-08-22 07:55
研究背景与动机 - 移动计算时代在资源受限边缘设备部署高效自然语言处理模型面临巨大挑战 要求严格隐私合规 实时响应能力和多任务处理功能 [4] - 现有BERT模型压缩技术仅实现15-20MB压缩 无法满足移动设备4MB严格内存限制 金融应用场景需确保约300毫秒实时响应 [4] - 本地AI处理对保护用户隐私至关重要 凸显对极致压缩框架迫切需求 [4] 方法框架 - EI-BERT框架通过硬令牌剪枝 智能筛选重要词汇大幅减少存储需求 [6] - 采用交叉蒸馏确保高效知识传递 突破传统方法局限 [6] - 模块化量化采用INT8量化进一步优化存储 [6] - 交叉蒸馏创新性让教师模型站学生模型角度 通过参数集成和师生互动动态适应机制实现精准知识转移 [7] - 最终实现99.5%压缩率 创造1.91MB BERT模型新纪录 [7] 词表剪枝技术 - 传统模型词汇嵌入占据大量参数空间 ALBERT-tiny2达44.7% TinyBERT2达36.6% 严重制约移动端部署 [8] - 基于注意力机制硬令牌剪枝策略 通过精确建模量化每个token重要性 [8] - 利用多头注意力计算token间语义关联概率分布 捕捉词汇间关系强度 [17] - 通过跨层聚合计算每个token全局重要性得分 综合考虑层数 句子数量和注意力头数等多维度识别核心语义关键词汇 [17] 交叉蒸馏机制 - 传统知识蒸馏面临容量鸿沟和适应性缺失两大挑战 极致压缩导致巨大架构差异使知识传递困难 [10] - 参数集成策略将教师模型精调下游任务层直接融入学生模型 教师模型末端层包含丰富任务特定判别信息 直接集成大幅降低学习难度 [10] - 动态互动机制打破传统单向知识传递局限 [11] - 教师模型采用较小学习率微调 持续感知适应学生学习状态 学生模型使用更大学习率深入学习教师输出和中间表征 [18] - 损失函数通过任务特定损失 MSE损失和KL散度损失三维度约束确保知识传递全面性和精确性 [18] 模块化量化方案 - 采用创新模块化量化方案将模型压缩至INT8精度 不同于传统逐矩阵量化 [13] - 从模块整体优化最小化层间累积误差 通过精心设计量化函数和可学习步长参数确保8位整数充分覆盖参数动态范围 [13] - 极大压缩存储空间同时将精度损失降至最低 [13] 实验结果 - 句子任务平均得分63.97 超越所有基线模型 机器阅读理解任务得分50.04 整体性能位居前列 [15] - 具体性能数据:TNEWS任务53.98 IFLY-TEK任务55.98 WSC-2020任务65.58 AFOMC任务69.65 CSL任务71.89 OCNLI任务66.71 CMRC-2018任务47.76 CHID任务55.23 C3任务47.12 [16] 实际应用效果 - 支付宝生态系统大规模部署 服务超10亿用户 [21] - 边缘推荐系统自2024年1月起每日服务840万活跃设备 处理2100万实时请求 PV-Click提升4.23% PV-CTR提升3.3% [21] - 智能助手实现65%延迟降低 响应时间从1秒降至214毫秒 保持98.2%准确率 [21] - 小程序场景实现完全本地化处理 网络负载减少85% 云计算成本降低40% 隐私敏感应用用户留存率提升12.3% [21] 未来研究方向 - 探索将生成式语言模型核心能力通过压缩知识蒸馏迁移到极度受限边缘设备 包括多步推理和上下文学习等 [24] - 研究参数高效适应性方法 通过模块化接口设计实现快速领域迁移 [24]
全球首款AI原生游戏引擎再进化:GTA6再不来,我们就AI一个
机器之心· 2025-08-22 07:55
GTA 6 跳票与 AI 生成游戏世界的进展 - GTA 6 再次跳票至明年 成为行业调侃焦点 尤其与 AI 生成游戏世界的速度形成对比 [1] - 研究者以 GTA 场景为训练数据 并将生成类 GTA 完整世界作为长期目标 [1] - Decart AI 等尝试显示 AI 生成 GTA 可能快于 GTA 6 发布 [1] Mirage 游戏引擎的技术迭代 - Mirage 作为全球首个实时世界模型驱动的 AI 原生 UGC 游戏引擎 仅一个多月即迭代至 Mirage 2 [3][5] - Mirage 2 被定位为生成式世界引擎 适用于任何互动世界 不仅限于游戏 [6] - 从 Mirage 1 到 Mirage 2 仅一个月 公司加速推进技术进化 [8] Mirage 2 的核心功能与性能提升 - 支持上传图片转换为可交互游戏世界 并可通过文本指令实时修改游戏世界 [8] - 生成性能显著进步:更灵敏的提示控制 更低的游戏延迟 通用领域建模支持任何风格 [13] - 交互延迟从 Mirage 1 的 700ms 改善至 200ms 且可在单个消费级 GPU 上运行 [19][20] - 支持 10 分钟以上的交互时间 并具备跑、跳、攻击等动作控制 [17] 多风格场景生成能力 - 提供吉卜力风格、儿童画风格、繁星之夜等多种非传统城市场景 [10][12][15][17] - 生成场景可通过视频分享 且 UI 设计更加精致 [8][10] - 与 DeepMind Genie 3 对比:Mirage 2 已上线可体验 而 Genie 3 尚未开放 [17] 实际测试效果与改进 - 机器之心测试显示 Mirage 2 显著改善物体比例和场景理解 车流模型接近 GTA 4 水平 [19] - 视觉一致性仍存问题:如视角遮挡后角色切换、建筑物细节变化等 [21][24] - 动作控制精度需提升 右转等操作偶尔响应偏慢 [24] 行业竞争与技术前景 - Mirage 2 具备与 Genie 3 叫板的底气 尤其在交互时间和硬件要求上优势明显 [17] - 公司认为技术仍有加速空间 未来进展值得关注 [20] - AI 驱动 UGC 游戏引擎发展迅速 可能与 GTA 6 发布窗口形成有趣对比 [22]
从繁杂技巧到极简方案:ROLL团队带来RL4LLM新实践
机器之心· 2025-08-22 04:58
研究背景与目标 - 强化学习在大语言模型推理优化中存在技术多样性但缺乏统一标准的问题 [8][9][14] - 研究旨在系统评估主流RL技术组件的有效性并探索简化算法方案 [3][9][14] 实验设计 - 基于自研ROLL框架实现统一实验平台确保公平对比 [3][12][15] - 覆盖不同模型规模(4B/8B)、模型类型(Base/Instruct)及任务难度(Easy/Medium/Hard)[15][17] - 在六个数学推理数据集上进行多维度评估 [18] 优势归一化技术分析 - 组内归一化在稀疏/偏斜奖励分布下更稳定 [21][24][25] - 批次归一化对分布偏斜高度敏感易受极端样本影响 [20][24][25] - 混合归一化(组内均值+批次标准差)兼顾语义合理性与统计稳健性 [29][31] 裁剪机制研究 - Clip-Higher技术对已对齐Instruct模型有效但基础模型效果有限 [32][38] - 裁剪阈值需根据模型规模差异化设置(4B持续提升,8B存在拐点)[36][38][46] - 低裁剪阈值会抑制语篇连接词压缩推理路径 [39][41] 损失聚合方式 - 基础模型更适合token-level损失聚合 [44][47][49] - 对齐模型更适合sequence-level损失聚合 [44][47][49] 样本过滤策略 - 过滤超长样本在8k token限制下有效提升训练质量 [50][52][54] - 20k token限制下过滤收益减弱因无效样本占比降低 [52][54] - 过滤操作能增强模型终止建模能力降低重复生成比例 [55][57] Lite PPO创新方案 - 仅包含混合优势归一化和token-level损失聚合两项核心技术 [58][59][60] - 在多个数学推理任务上超越多技巧复杂方案 [59][60] - 具有训练稳定、超参敏感度低、工程简单的优势 [59][60] 研究价值与启示 - 建立首个RL4LLM关键技术系统性对比框架 [63] - 证明精简技术组合比复杂堆叠更具鲁棒性和实用性 [64][67] - 通过开源框架推动领域可复现性与标准化研究 [65][66]
那些让你「活人微死」的工作日,终于有救了
机器之心· 2025-08-22 04:58
核心观点 - 企业微信5.0版本通过AI功能深度整合企业内部协作与外部连接 解决企业信息割裂和低效协同问题 实现从沟通工具向一体化协作平台的转型 [5][8][39] 功能创新与解决方案 - **智能搜索**支持跨聊天、会议、文档、邮件的口语化搜索 直接定位原始信息源并附链接 解决信息碎片化问题 [17][19][21] - **智能总结**自动整合分散信息并同步关键成员 生成动态看板 避免信息传递偏差 节省汇报时间 [23][24] - **智能机器人**通过API对接业务系统 实时处理行政、财务及业务问题(如餐厅下架菜品) 降低学习成本 [26][28][29][31] - **智能表格**与微信无缝打通 自动挖掘聊天记录生成客户跟进总结 提炼关键决策信息并生成跟进话术 提升销售效率 [33][34][35][36] 一体化协同架构 - **内部办公一体化**融合聊天、文档、邮件、会议等应用 消除工具割裂 实现信息无缝流转 [40][43][44] - **内外连接一体化**通过微信互通同步外部市场与客户需求至内部生产链 支持敏捷反应(如索菲亚设计修改实时同步后端) [44] - **数据资产一体化**集中沉淀数据于统一平台 最大化AI效能(如比亚迪百万员工数据转化生产力) 提升决策能力 [45] 企业应用案例 - 比亚迪员工规模从10万增至100万 选择企业微信因其为全局最优解 解决销售与客户匹配难题 [38] - 比优特店长通过智能搜索盘活多年聊天记录 提升历史资产利用率 [21] - 瑞幸咖啡通过内外打通实时掌握销售数据与用户偏好 次日即可调整策略 [44] 平台战略升级 - 提供私有化部署版本 单服务器支持千人员工 满足数据安全需求 [47] - 推出海外版WeCom支持跨国协作 从工具转向社会化协同平台 [47] - 目标从触达广度转向服务深度 提升客户互动价值 [47]
谷歌Gemini一次提示能耗≈看9秒电视,专家:别太信,有误导性
机器之心· 2025-08-22 04:58
谷歌Gemini AI模型能源消耗研究 - 谷歌发布AI模型Gemini能源消耗研究报告 处理单个中位数文本提示消耗约0.26毫升水(约五滴) 0.24瓦时电力(相当于观看电视不到九秒) 产生0.03克二氧化碳排放[1][4] - 采用综合测算方法(Comprehensive Approach) 相比传统方法(Existing Approach)能耗从0.10 Wh/提示增至0.24 Wh/提示 碳排放从0.02 gCO2e/提示增至0.03 gCO2e/提示 水耗从0.12 mL/提示增至0.26 mL/提示[5] - 2024年5月至2025年5月期间 单个文本提示能耗降低33倍 碳足迹减少44倍[5] 全栈式效率优化措施 - 模型架构基于Transformer 效率较此前最先进语言建模架构提升10至100倍 采用MoE和混合推理模式等优化方案[7] - 算法层面采用AQT(Accurate Quantized Training)方法 通过推测性解码和蒸馏技术打造轻量高效服务模型(Gemini Flash与Flash-Lite)[9] - 硬件层面自研TPU实现每瓦性能最大化 最新一代Ironwood TPU较最早公开TPU能效提升30倍 推理任务能效远超通用CPU[9] - 软件层面通过XLA机器学习编译器 Pallas内核及Pathways系统确保模型高效运行于TPU推理硬件[9] 数据中心能效管理 - 谷歌数据中心属行业最高效类别 平台平均PUE(电源使用效率)达1.09[10] - 冷却系统持续优化 在能耗 水耗与碳排间实现本地化平衡 在水资源紧张地区限制用水量[10] 专家质疑与争议点 - 专家指出报告未计算间接用水量 发电厂冷却和驱动涡轮机消耗的水资源远超数据中心直接用水量[13][14] - 碳排放核算仅采用基于市场方法(通过购买可再生能源证书抵消) 未反映对当地电网的实际影响 应同时纳入基于地理位置的碳排放数据[15] - 数据比较被指误导 谷歌仅计算直接用水量却与包含总用水量的研究对比 称结果"低了几个数量级"[15] - 使用中位数而非平均值 且未提供计算中位数的具体数据(如提示词数或token数量) 导致外部难以验证结果代表性[16] 效率提升与总体消耗矛盾 - 存在"杰文斯悖论"风险 效率提升可能刺激更多使用 导致总体资源消耗和污染不降反增[17] - 谷歌可持续发展报告显示 自2019年以来基于雄心的碳排放量增长51% 仅去年一年就增长11%[17]
Cursor为Blackwell从零构建MXFP8内核,MoE层提速3.5倍,端到端训练提速1.5倍
机器之心· 2025-08-22 04:58
硬件升级与性能瓶颈 - 从NVIDIA Hopper H100升级到Blackwell B200后硬件性能翻倍但实际训练速度因MoE层效率问题而下降[2] - Blackwell架构引入TMEM存储导致数据需往返于TMEM-寄存器-CUDA核心产生异步传输气泡拖慢效率[12] - 反量化耗时在Blackwell上达矩阵乘法的1.76倍远高于Hopper的1.03倍[15][16] 量化技术挑战 - 低精度FP8量化导致小数位四舍五入为零信息丢失需通过微缩放技术分块计算独立缩放因子解决[9][11] - MXFP8量化过程在MoE矩阵计算中搬运2.9GB数据耗时0.44毫秒占计算时间近40%反向传播时开销翻倍至0.88毫秒占比76%[17][18] - 现有开源量化内核带宽利用率仅约4.5TB/s且缩放因子布局与Blackwell硬件指令不兼容需额外重塑操作[19][24] 定制化解决方案 - 抛弃现有CUDA库依赖使用纯CUDA和PTX汇编重写MoE层直接针对TMEM特性设计数据流管线避免寄存器搬运开销[2][3][21] - 采用Warp专精分配线程组任务与2-CTA模式协同处理矩阵乘法减少内存流量带来15-20%性能提升[22][23] - 开发自定义MXFP8量化内核实现内存带宽超6.2TB/s输出数据布局与硬件指令完全一致避免重塑步骤[24][25] 性能提升成果 - MoE层在前向和反向传播中实现3.5倍提速端到端训练在Blackwell上比原方案快1.5倍较Hopper方案加速2倍[2] - 使用FP8E4M3元素类型与32块大小MXFP8格式训练损失收敛与BF16几乎无差异保证精度前提下最大化性能[26][27][30] - 专家级超分组算法优化L2缓存将分组矩阵乘法性能下降限制在仅4%远优于标准实现[23]