Workflow
机器之心
icon
搜索文档
全球双榜SOTA!明略科技专有大模型 Mano开启GUI智能操作新时代
机器之心· 2025-09-21 05:26
机器之心原创 编辑:吴昕、冷猫 明略科技的 专有 GUI 大模型 Mano 在行业公认的 Mind2Web 和 OSWorld 两大挑战性基准测试中,均取得了创纪录的 SOTA 成绩。通过在线强化学习 和训练数据自动采集两大核心创新,Mano 为整个 GUI 智能体领域提供了一套可扩展、可持续进化的新范式。 40.1% 成功率 一次即刷新 GUI 智能体新高度 我们正在把越来越多的时间交给屏幕。有人算过,人一生中耗在手机上的时间接近 9 年;如果你的工作离不开电脑,这个数字只会更高。时间碎片化,注意力也 被点击、勾选、复制粘贴这些琐碎操作蚕食。 如果,这些操作都能交给 Agent 呢?点开网页、登录账号、抓取数据、填写表单、提交流程,全程无人值守,你还有理由再手动点鼠标吗? 这背后的市场热度,早已扑面而来。无论是刚落幕的 2025 外滩大会,还是财新亚洲愿景论坛,Agent 都是全场最高频的热词,不少观点认为: 真正有用的 Agen t,必须学会使用手机和电脑,像 人一样读懂并操 作 GUI。 毕竟,你不能靠一句简短的指令就把所有消费记录从大厂数据库里提取出来。 也不能仅凭单一指令完成登录支付宝、微信、淘宝下 ...
Tool-Integrated RL 会是 Agents 应用突破 「基模能力限制」 的关键吗?
机器之心· 2025-09-21 01:30
机器之心PRO · 会员通讯 Week 38 --- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 --- 1. Tool-Integrated RL 会是 Agents 应用突破 「基模能力限制」 的关键吗? 「Agent」的定义和定位衍生了哪些版本?为什么加强 Agent 推理能力需要「求诸外」?基于模仿学习的 TIR 方法为何要被 RL 取代?用 RL 做 TIR 也能「涌现」?基于 RL 的 TIR 离下一代 Agentic AI 还差哪些能力?... 2. 「一人公司」不强求,「Copilots 」更能填平 AI 产业落地的「Massive Delta」? 不止通用模型公司在烧钱,Vertical AI 也在疯狂卷融资?「裁人头」换 「agent 员工」是否是未来 AI 公司发展唯一解?「Copilots」和「AI-enabled Services」模式能否换来「Massive Delta」的新突破?从几百万到上亿美元融资,专注于医疗、金融、法律和客服等专业领域的 AI 初创谁能「笑到最后」?... 3. 从「装应用」到「即用即流」,生成式 AI 正在重塑软件开发? AI 能 ...
集合通信库VCCL释放GPU极致算力,创智、基流、智谱、联通、北航、清华、东南重磅开源
机器之心· 2025-09-21 00:30
AI基础设施发展趋势 - 超大规模智算集群成为AI技术突破的核心基础设施,海外科技巨头如OpenAI与甲骨文和软银推进"星际之门"项目,计划配备数百万GPU并耗资超千亿美元,微软、谷歌、xAI已完成十万卡集群交付 [2] - 国内运营商加速向AI基础底座供应商转型,累计投资超百亿元,建成4个万卡级智能计算中心,智算规模增长超2倍 [3] - 超大规模集群面临硬件投入大、运营维护费用高及系统稳定性挑战,设备故障成为常态,算力利用率和稳定性比纯粹算力更关键 [3] 集合通信库技术重要性 - 集合通信库作为智算集群的"神经系统",是GPU计算芯片与高性能网络交汇的核心组件,例如英伟达NCCL提供高性能拓扑感知运算如P2P Send/Recv、AllReduce等 [4] - 创智、基流、智谱、联通、北航、清华、东南联合开发GPU集合通信库VCCL,具备高效率、高可靠、高可视化特性,已部署于多个生产环境集群 [4] VCCL核心技术突破 - 采用DPDK-like P2P智能调度,将通信任务卸载至CPU,实现SM-Free P2P操作,消除GPU SM资源占用,实测显示在Megatron-LM框架下Dense模型训练算力利用率提升2%-6% [5][11] - 设计Primary-backup QP容错机制,通过备份通信队列对实现网络故障实时切换,集群故障率降低超50%,且备用链路仅引入0.38%算力利用率下降 [5][14][33] - 开发Flow Telemetry微秒级流量观测机制,通过滑动窗口统计平均瞬时带宽,解决传统监控工具粒度粗问题,支持定位慢节点及网络拥塞 [5][19][24] 性能优化成果 - VCCL在1GB消息大小下P2P算法带宽比NCCL提升20.12%,小消息时延降低至少28.5%,且CPU使用率仅比NCCL增加4% [26] - 在千卡Hopper GPU RoCEv2集群测试中,VCCL与NCCL的Loss收敛曲线一致,但端到端算力利用率在不同模型规模下均有2%-6%提升 [31] - 网络故障场景下,VCCL能保持76.6%的AllReduce带宽和58.1%的ReduceScatter带宽,故障恢复后性能完全正常 [33] 技术演进与行业应用 - 集合通信技术演进类似DPDK对Linux内核的优化,VCCL通过用户态零拷贝和轮询机制提升通信效率,适配异构硬件并解决PCIe拓扑差异问题 [8][9][35] - VCCL容错机制为国产化网络组件部署提供冗余空间,未来将支持更多并行工作流、MoE模型及新型硬件架构 [36][37]
Mini-Omni-Reasoner:实时推理,定义下一代端到端对话模型
机器之心· 2025-09-20 04:37
本文第一作者谢之非,共同第一作者马子阳皆是来自于南洋理工大学的博士生。通讯作者为新加坡国立大学特聘教授颜水成和南洋理工大学数据与科学系校长讲 席教授苗春燕。共同作者为腾讯AI首席专家叶德珩和新加坡国立大学博士后研究员廖越。 两千多年前,孔子说过「 三思而后行 」。这句古老箴言,其实点出了人类面对复杂问题的核心智慧:一步步推理,层层拆解,最终做出可靠的决策。 现在,已有诸多模型在复杂推理方面展现出显著进展,如 DeepSeek-R1 和 OpenAI o1,部分多模态系统甚至能够处理跨领域的复杂任务,展现出解决复杂现实问题 的潜力。然而, 在端到端对话模型中,推理能力尚未解锁。 原因并不复杂。深度思考意味着模型往往需要在输出前生成完整推理链,而这直接带来延迟。对于语音对话系统而言,速度与质量同样关键。一旦停顿过长,哪 怕答案再精妙,也会破坏交互的自然感。 设想一个场景:你问语音助手「这份研究报告的结论可靠吗?」。如果模型沉默十秒才给出语音的回复,则完全失去对话的体验;若它立刻回答,但推理缺乏深 度,又容易显得表面化。问题在于: 要么得到一个「强大但反应迟钝」的助手,要么得到一个「迅速但思维简单」的助手。 鱼与熊 ...
陈天桥旗下AI公司MiroMind打造全球顶尖预测型大模型,性能登顶行业基准
机器之心· 2025-09-20 04:37
文章核心观点 - AI预测能力是衡量智能的最佳标准 未来预测将成为AI发展的重要方向 [2][4][5] - MiroMind团队开发的预测大模型在FutureX基准测试中连续夺冠 展示了在实时未来事件预测领域的领先地位 [2][8] - 预测大模型在金融、体育、政治等跨领域应用具有重大价值 能够为投资决策和风险规避提供前瞻性洞察 [2][5][13] FutureX预测基准 - 全球首个动态实时LLM智能体未来预测基准 由字节跳动SEED团队联合斯坦福大学等机构共同推出 [5] - 从200多个高质量网站精选下周才有明确结果的问题 涵盖股票价格、体育比赛、政治选举和科技公司战略走向等领域 [5] - 要求AI基于当前信息进行逻辑推理和趋势分析 推动AI在真实世界复杂场景中的实用能力提升 [5] MiroMind技术成果 - 在FutureX榜单上连续两周蝉联冠军 搭载GPT-5的MiroFlow框架位居榜首 自研模型MiroThinker位列前五 [8] - 成功预测2025年9月9日ATP男子单打排名第4-6位选手 克服网球排名系统复杂变量挑战 [10] - 准确预测2025年9月11日Solana加密货币关键价格档位突破 展现系统建模和风险控制能力 [11] - 在GAIA-Validation基准取得82.4%优异成绩 在HLE、BrowseComp和xBench-DeepSearch等测试中领先国际对手 [12] 预测方法论 - 网球排名预测采用五步策略:制定计划、获取基础数据、理解积分规则、动态信息更新、概率分析与综合判断 [13] - 加密货币预测采用六步策略:构建市场基准线、量化短期波动空间、梳理外部因素、分析市场情绪、挑选价格档位、交叉验证 [13] - 核心能力包括信息洞察力、逻辑推理与趋势感知、概率与不确定性管理、跨领域整合能力 [13] 技术框架与开源 - MiroFlow提供完全开源可复现的框架和配置 致力于建设创新者平台 [12] - 为研究者和开发者提供基础框架、模型和工具链完整支持 支持多Agent协作和多模态理解前沿探索 [12] - 自研旗舰基础智能体模型MiroThinker具备强大推理、决策和多模态理解能力 即将以完全开源形式向全球开放 [15] 行业影响与发展 - AI预测能力将改变投资和规划方式 使决策从盲目试错转向提前洞察趋势和把握机遇 [2] - 预测大模型在金融市场价格波动、体育赛事结果、政治选举等跨领域应用展现巨大潜力 [5][10][11] - 陈天桥旗下MiroMind团队从网络游戏、脑科学研究转向AI预测前沿探索 正在开发长期记忆模块嵌入模型 [17][18]
OpenAI从苹果挖了20多人搞硬件,知情人士:苹果创新缓慢、官僚主义令人厌倦
机器之心· 2025-09-20 04:37
人才流动 - OpenAI从苹果挖走超过20名消费硬件领域员工 包括用户界面设计总监 制造设计专家和Apple Watch硬件团队高层 [5][6] - 挖角涉及硬件工程师和设计师 涵盖用户界面 可穿戴设备 摄像头和音频工程等领域 [5] - 许多苹果员工主动联系OpenAI希望跳槽 主要因对渐进式产品改进感到厌倦且不满官僚主义 [11] 人才吸引因素 - OpenAI提供价值超过100万美元的股票期权作为薪酬 [11] - 承诺提供官僚主义更少且协作更多的工作环境 [11] - 员工被吸引的原因包括有机会与前苹果高管Tang Tan和Jony Ive重聚 [14] 硬件产品规划 - 产品线包括无屏智能音箱 智能眼镜 数字录音笔和可穿戴胸针 [5] - 目标发布时间为2026年底或2027年初 [5] - 产品设计理念强调重现苹果过去高效合作方式并打造更大胆产品 [11] 供应链布局 - 已与苹果主要代工厂商建立合作 立讯精密获得至少一款设备组装合同 [5] - 接触歌尔股份希望其提供扬声器模块等组件 [5] - 利用苹果在中国的供应链网络加速硬件生产 [2] 企业收购与整合 - 以65亿美元收购io Products 获得约50名工程师 设计师和研究人员 [14] - io Products联合创始人Scott Cannon Evans Hankey和Tang Tan加入OpenAI [14] - Jony Ive及其设计工作室LoveFrom保持独立但参与提升OpenAI可信度 [14] 竞争态势与挑战 - 人才挖角可能复杂化双方在Siri整合方面的合作关系 [16] - 苹果取消中国供应链会议以防止更多高管跳槽 [16] - 历史显示挑战苹果硬件主导地位的企业大多失败 如Humane AI Pin被惠普以1.16亿美元收购后停产 [16] 战略影响 - 若AI成为未来设备核心特征 OpenAI在AI领域领先地位可能构成关键优势 [17] - 苹果超70%收入来自设备销售 面临重大竞争风险 [17] - 前苹果工程师指出大公司成功未必能复制到外部环境 [17]
「一人公司」不强求,「Copilots 」更能填平 AI 产业落地的「Massive Delta」?
机器之心· 2025-09-20 01:30
文章核心观点 - Vertical AI成为AI投资新焦点 其价值在于跨越从通用能力到行业落地之间的"Massive Delta"鸿沟 [1] - 决定下一代赢家的关键不完全在于全Agent替代模式 Copilots和AI-enabled Services模式同样可能实现突破 [1][10] - Vertical AI公司已显示出与传统SaaS公司相当的商业指标 年度合同价值达传统SaaS的80% 同比增长率高达400% [6] 资本热度升温 Vertical AI能否成为下一阶段的重点赛道 - 2024年全球AI风险投资总额激增至1100亿美元 实现62%年同比增长 而同期整个科技领域风险投资下降12% [5] - 截至2025年8月15日 全球AI相关公司累计获得1180亿美元融资 其中8家公司共融资730亿美元 占AI融资总额的62% [5] - 2025年Q2美国和加拿大Vertical AI风险融资总额为174亿美元 在784笔交易中占交易总量的57% 但仅获得36%的资金 [6] - 生成式AI每年可能为全球经济增加2.6万亿至4.4万亿美元 银行、高科技和生命科学等行业受益最大 [6] - AI-native公司年度合同价值达传统SaaS公司的80% 同比增长率400% 毛利率保持在65%水平 [6] Copilots vs AI-enabled Services vs Agents 谁能跨越Massive Delta - 从通用模型到最终客户需求之间存在巨大鸿沟 即"Massive Delta" 由技术和商业挑战构成 [7] - 专业领域工作流程复杂 包含非公开、非结构化的"过程知识"和"专门工作流" 需要与领域专家合作精确定义 [7][8] - 通用模型面临数据隐私合规性和遗留系统深度集成等隐形成本 医疗和法律领域要求私有化部署 [9] - Vertical AI发展出三种商业模式:Copilots、Agents和AI-enabled services 代表从辅助到替代的不同价值交付程度 [10] 从Citizen Health到Ramp 哪一Vertical AI公司能实现资本期待 - Y Combinator预测Vertical AI Agent市场规模将是传统垂直SaaS的十倍 不仅能替代软件 更能将软件与人工操作融合 [7] - 专注于医疗、金融、法律和客服等专业领域的AI初创公司获得从几百万到上亿美元融资 [4]
5555被拒稿,AC接收但PC强拒,NeurIPS揭榜引争议
机器之心· 2025-09-19 13:23
NeurIPS 2025会议投稿与接收情况 - NeurIPS 2025主会收到有效论文投稿21,575篇 其中5,290篇被接收 接收率为24.52% [1] - 被接收论文包括4,525篇poster论文 688篇spotlight论文 77篇oral论文 [2] - 部分被接收论文已对AI社区产生重要影响 例如应用于Qwen-next模型 [3] - 接收论文作者包括非常年轻的学者 例如去年的大一新生 [7] 具体论文案例与评审细节 - TIGER-Lab有5篇论文被主会接收 其中3篇为spotlight论文 [10] - 论文VL-Rethinker通过强化学习激励视觉语言模型自我反思 [10] - 论文General-Reasoner推动LLM推理跨领域发展 [11] - 论文Pixel Reasoner通过强化学习激励像素空间推理 [11] - 论文MoCha致力于电影级说话人物生成 [11] - 论文Breaking the Batch Barrier通过智能批量挖掘突破对比学习批量限制 [12] - 部分论文获得高评分 例如平均评分5.00分(满分6分) 平均置信度3.75 [13] - 论文REG训练方法相比REPA实现63倍加速收敛 [17][18] 高分被拒现象与争议 - 加州大学洛杉矶分校研究者4.75分论文被数据集与基准Track拒绝 [22][24] - 多篇"5555"满分论文被拒 包括主会和大模型赛道 [27][29] - 拒绝理由包括物理资源限制(影响500-700篇候选论文) [32] - 拒绝理由包括缺少损失图分析(但审核阶段无法提交) [33] - rebuttal改革导致论文涨分 使接收率超过往年水平 [34] - 部分论文即使获得评审者一致好评仍被拒绝 [35] 行业影响与建议 - AI领域持续火热导致投稿数量激增 产生混乱局面 [41] - 建议NeurIPS参照ACL Findings增设扩展录用渠道 [41][43] - 上海人工智能实验室2026届全球招聘聚焦大模型、多模态、强化学习等方向 [46][48]
华为超节点:用「一台机器」的逻辑,驱动AI万卡集群
机器之心· 2025-09-19 13:23
超节点架构创新 - 华为基于自研灵衢互联协议创新超节点架构 重新定义大规模有效算力新范式[3][12] - 超节点通过多机物理组合实现逻辑单一设备 统一通信协议与内存编址实现全局资源池化[9] - 架构将通信时延降至百纳秒级 解决传统集群因带宽不足和时延大导致的算力利用率下降问题[5][11] 技术突破与性能表现 - 超节点采用UB-Mesh递归直连拓扑 支持8192卡无收敛全互联 总互联带宽达16PB/s(超全球互联网峰值带宽10倍)[20] - FP8算力达8E FLOPS 支持百万卡规模集群 成为全球最强算力集群之一[20] - 在万亿模型训练中减少40%通信等待时间 显著提升集群利用率和系统可靠性[5][11] 产品矩阵覆盖全场景 - Atlas 950/960 SuperPoD支持8192/15488张昇腾卡 采用全液冷和零线缆电互联设计 解决高密度散热和跨柜部署难题[17][19] - Atlas 850为业界首款企业级风冷超节点服务器 支持1024卡集群 降低企业部署门槛[21] - Atlas 350标卡通过4个灵衢端口实现多卡互联 推荐推理性能提升2.5倍[24] - TaiShan 950 SuperPoD将超节点扩展至通用计算领域 支持数据库和大数据等低延迟场景[25] 生态战略与落地进展 - 推行硬件开放与软件开源战略 将NPU模组和昇腾CANN等核心组件开源[27][28] - 基于灵衢的Atlas 900 A3超节点已累计部署300多套 服务20余个行业客户[28] - 生态覆盖互联网、金融、运营商、电力及制造等多行业[28]
超强开源模型Qwen3、DeepSeek-V3.1,都被云计算一哥「收」了
机器之心· 2025-09-19 10:43
亚马逊云科技AI平台模型扩展 - Amazon Bedrock和Amazon SageMaker两大AI平台新增支持OpenAI新开源模型[2] - 两大国产大模型Qwen3和DeepSeek-V3.1被纳入Amazon Bedrock平台[3] - 目前Qwen3和DeepSeek-V3.1已在Amazon Bedrock全球上线 覆盖美国西部(俄勒冈)、亚太地区(孟买、东京)、欧洲(伦敦、斯德哥尔摩)等区域[4] 平台模型生态与战略 - Amazon Bedrock已提供249款大模型 覆盖通用对话、生成、多语言理解与代码助手等多个应用类型[16] - 平台汇聚十四家主流厂商 包括Anthropic、DeepSeek、亚马逊云科技自研Nova模型等[16] - 公司坚持"Choice Matters"战略 强调多模型互补协同 没有一个大模型可以解决所有问题[5] - 客户数据完全由客户控制 亚马逊云科技不会将模型输入输出数据与模型提供商共享或用于改进基础模型[5] Qwen3模型技术特性 - Qwen3是阿里巴巴开源的新一代通义千问模型 在推理、指令遵循、多语言支持和工具调用等方面大幅提升[9] - 部署成本大幅下降 仅需4张H20实现满血版部署 显存占用仅为性能相近模型的三分之一[9] - 采用MoE和密集型架构 MoE模型如Qwen3-Coder-480B-A35B-Instruct和Qwen3-Coder-30B-A3B-Instruct通过动态激活部分参数实现高效推理[10] - 支持256K个token的上下文窗口 使用外推方法可扩展到100万个token[10] - 具备强大的智能体能力 能够执行多步推理和结构化规划 支持与外部环境标准化通信[10] DeepSeek-V3.1模型性能表现 - DeepSeek-V3.1是混合推理模型 同时支持思考模式与非思考模式[14] - 在Browsecomp测试中得分30.0 较DeepSeek-R1-0528的8.9有显著提升[15] - 在Browsecomp_zh测试中得分49.2 较DeepSeek-R1-0528的35.7提升明显[15] - 在SWE-bench Verified测试中得分66.0 较DeepSeek-R1-0528的44.6有大幅提升[15] 模型应用场景优化 - Qwen3-Coder-480B-A35B-Instruct专为复杂软件工程任务设计 擅长高级代码生成和代码库分析[13] - Qwen3-Coder-30B-A3B-Instruct优化代码补全、重构及编程问题解答 支持多种编程语言[13] - Qwen3-235B-A22B-Instruct-2507提供强大的通用推理和指令跟随能力[13] - Qwen3-32B-Dense适用于要求稳定性能、低延迟和成本优化的场景 如移动设备和边缘计算[13] 平台实测性能表现 - DeepSeek-V3.1和Qwen3-235B-A22B-Instruct-2507在简单数学问题上均能在半秒左右给出正确答案[23] - 在多步计算任务中 两个模型都能正确完成并给出完整推理过程[26] - Qwen3-Coder-480B-A35B-Instruct仅用半分钟就完成了"俄罗斯方块+贪吃蛇"游戏的代码编写[28] - Amazon Bedrock提供的服务非常稳定高速 全量模型的性能得到充分保证[31] 开源模型战略价值 - 开源模型在定制化开发和透明性方面具有独特优势 给用户带来更大灵活性和控制权[36] - 用户可通过开源模型直接调用经过优化的托管推理服务 实现快速应用部署[36] - 开放权重特性允许用户根据自身行业数据和需求进行二次开发和定制训练[36] - 高透明性使企业能够清晰了解模型结构、训练数据和算法流程 增强合规性和道德可控性[36] 公司AI发展战略 - 亚马逊云科技CEO将AI描述为"几十年来见过的可能发展最快的技术"[38] - 公司在Amazon Bedrock和SageMaker上构建了拥有超过400款模型的模型库[39] - 开放共赢策略避免与模型提供商正面竞争 专注于成为中立、丰富且可靠的AI基础设施层[40] - 该策略吸引了包括初创公司、大型企业在内的多样化客户生态[40]