Workflow
量子位
icon
搜索文档
宇树180芭蕾机器人,究竟啥水平?
量子位· 2025-08-20 10:21
因为踮起脚尖摆出芭蕾舞者的姿势,还能看到它小腿拟人化的肌肉线条 (跟腱部分还挺长) 。 海报左边隐隐有一列尺子刻度,明示 这位"芭蕾舞者"是妥妥的九!头!身! 和最近红遍网络的成都世运会55岁的拉丁舞裁判"法拉利大叔"可以一比: 衡宇 鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 敏捷、优雅。 宇树用这两个词来形容自家最新人形机器人—— 就在昨天,宇树大晚上搞突袭,发布了下一款人形机器人的预热海报,透露出部分关键信息。 身高180 , 全身31个自由度 ,宽肩窄腰,体形纤长。 虽然只是"coming soon"的预告,但大家已经期待值拉满了。 咱们根据历史来大胆预估一下—— 宇树上一款人形机器人Unitree R1智能伙伴,在5月30日发预告海报, 7月25日正式发售,中间间隔不到2个月。 如果还是按照这个速度,十月底应该就能见到这位"芭蕾舞者"的真面目了吧 (开始原地许愿) 。 (注:为方便阅读,下文皆昵称宇树此款待发布人形机器人为"芭蕾舞者") 宇树第四款人形机器人即将登场 "芭蕾舞者"是宇树继H1、G1、R1之后,公开的 第四款 人形机器人。 虽然具体细节还被藏得比较严实,但我们可以先回顾看看前 ...
突破Agent长程推理效率瓶颈!MIT&新加坡国立联合推出强化学习新训练方法
量子位· 2025-08-20 10:21
文章核心观点 - MEM1框架通过强化学习训练AI Agent自主管理记忆和推理 显著提升处理复杂任务时的效率和性能 [2][3][6][8][9][12][17][22] 技术原理 - 采用基于结果奖励的强化学习训练 使模型学会提取、整合和修剪信息 [12][14] - 引入内部状态<IS>作为工作记忆 实现近似常量级显存开销 [8][9][16] - 通过注意力掩码机制限制关注范围 迫使模型高效压缩历史信息 [12] 性能表现 - 7B参数MEM1模型推理速度达传统14B模型的3.5倍 [2] - 峰值上下文token数量降至传统模型的1/4 [2] - 在16目标任务测试中准确率12.3% 远超对比模型Qwen2.5-14B-Instruct的3.54%和Qwen2.5-7B+外部记忆模块的4.56% [3][17] 应用场景 - 支持多轮复杂任务处理 包括文档检索QA、开放域Web QA和多轮网购决策 [19] - 展现分问题独立存储、自适应搜索策略和任务规划能力 [20] - 在长程环境交互任务中保持上下文稳定 避免线性增长 [16] 行业意义 - 为处理长推理上下文挑战提供新思路 替代传统外部记忆模块方案 [22] - 实现端到端训练 降低工程复杂度并提升效果可控性 [12][22] - 论文已被COLM 2025 RAM workshop收录为口头报告 [3]
黑神话宇宙开启!冯骥杨奇一拍即合不搞DLC,新作《钟馗》预告片直冲热搜第一
量子位· 2025-08-20 07:48
核心观点 - 游戏科学宣布推出黑神话系列第二部作品《黑神话:钟馗》,首支先导预告片在2025科隆游戏展压轴亮相,引发国内外玩家高度关注 [1][3][12] - 预告片发布后迅速登上微博热搜第一,B站播放量超800万,同时在线观看人数达5万+ [10] - 公司明确表示将优先开发新作而非《黑神话:悟空》DLC,计划采用全新英雄、玩法、视觉和技术 [30][32] 产品动态 - 《黑神话:钟馗》基于中国传统志怪传奇,主角钟馗形象融合骑虎等创新设计,预告片展现精细毛发渲染等画面技术 [14][16][21][24] - 开发灵感源于艺术总监杨奇的梦境,团队在4月中旬开始制作CG动画,目前游戏处于早期开发阶段 [24][42] - 官方账号已更名为"黑神话"系列认证,标志IP宇宙正式开启 [7] 公司发展历程 - 创始团队2014年从腾讯离职创立游戏科学,2015年推出首款游戏《百将行》首月新增用户50万 [34][35] - 《黑神话:悟空》项目2018年启动,2020年实机演示获好评,2023年获科隆展最佳视觉效果奖,2024年8月20日正式发售后登顶Steam热玩榜 [36][37][38] - 2025年8月20日同一天在科隆展发布新作预告,延续"820"品牌营销节点 [5][6][40]
实测DeepSeek V3.1,不止拓展上下文长度
量子位· 2025-08-20 07:48
DeepSeek V3 1与V3的差异分析 核心更新 - 上下文长度从65K扩展至128K 支持多种张量格式 [1][7] - 网页端界面将【深度思考(R1)】简化为【深度思考】 手机端仍在同步更新中 [2] - 当前Base版本可通过Hugging Face下载 完整版支持网页 APP和小程序访问 [6] 性能参数对比 - V3 1输入成本0 004元 千Token 输出成本0 016元 千Token Batch调用成本减半 [8] - V3输入成本0 002元 千Token 输出成本0 008元 千Token Batch调用成本同样减半 [8] - V3 1免费额度为各100万Token 有效期180天 V3未明确标注免费额度 [8] 功能测试表现 编程能力 - V3 1在Python代码生成中考虑更全面 提供依赖库安装 命令行使用说明及工作原理 [12][13] - 实测18 3MB GIF文件压缩 V3需二次压缩才能低于10MB V3 1方案更高效 [14][15] 情境写作 - V3输出风格理性平铺直叙 V3 1转为文艺诗意化表达 差异显著 [20] 数学理解 - 双曲线离心率计算题两者均正确 但V3 1推导过程更规范 [22][23][24] 翻译水平 - V3 1对长难句理解更优 但遗漏"several"等简单词翻译 V3偏好括号补充说明 [29] 冷门知识 - 构树果实分类问题两者均判断为核果 与小红书博主实验结论(瘦果)存在分歧 [30][37] 第三方评测与用户反馈 - 在aider测试中以71 6%得分超越Claude Opus 4 成本低68倍 [42] - SVGBench基准显示V3 1表现优于V3 1(思考模式)及R1 0528 [43][44] - 用户发现新增4个特殊token 关闭搜索时仍会自动触发搜索 [45] 物理模拟能力 - V3 1对"旋转六边形内弹跳球"的模拟效果优于V3 [47] 市场热度 - 发布后迅速成为Hugging Face热门话题第四 截至发稿升至第二 [40][41]
DiT突遭怒喷,谢赛宁淡定回应
量子位· 2025-08-20 07:48
文章核心观点 - DiT(Diffusion Transformers)作为扩散模型领域的核心架构受到质疑,但原作者谢赛宁强调科学验证的重要性并回应质疑,同时指出DiT的技术优势及改进方向 [4][5][6][9][27][29][32] DiT的技术地位与影响 - DiT将Transformer与扩散模型融合,在计算效率和生成效果上超越基于U-Net的经典模型ADM和LDM,并将Transformer扩展到图像视频领域 [9] - 若DiT存在根本性错误,大量依赖DiT的生成模型可能需重新评估,对整个领域产生重大影响 [10] 质疑者的核心论点 - 质疑依据来源于论文《TREAD:Token Routing for Efficient Architecture-agnostic Diffusion Training》,提出Tread策略可将早期层token传递至更深层,无需修改架构或引入额外参数 [12][13][14] - DiT架构可能隐含特性导致FID迅速降低,Tread模型比DiT在40万次训练迭代快14倍,在700万次迭代时快37倍 [15][16] - 质疑者认为大幅性能提升可能否定原有方法,并批评训练中禁用部分网络的做法 [17][19] - 指出DiT后置层归一化可能导致动态范围输出问题,需使用对数尺度处理信噪比差异 [23] - 质疑DiT的条件处理仅通过普通MLP流程,未体现Transformer特性 [25][26] 谢赛宁的回应与技术说明 - 强调Tread策略与"DiT是错的"无直接关联,认为Tread类似随机深度,通过正则化提升特征稳健性 [27][28] - 推荐使用经过验证的Lightning DiT版本(含swiglu、rmsnorm、rope等技术),并指出后置层归一化目前无证据表明存在问题 [29][30] - 提出DiT的核心改进集中于内部表征学习,包括REPA方法、tokenizer修正、语义token拼接、解耦架构及正则化方法 [32] - 训练中采用随机插值/流分配提升效果,SiT作为基准评估方法,时间嵌入需使用adaln-zero并共享参数以避免浪费30%参数 [33] - 指出sd-vae是DiT当前症结,处理256×256分辨率图像需445.87 GFlops且非端到端架构,va-vae和repa-e仅能部分解决问题 [34]
00后MIT华人女生辍学创业,已融1.5个亿
量子位· 2025-08-20 04:33
公司融资情况 - 公司完成总计2100万美元融资,折合人民币1.5亿元 [5][19] - 种子轮由Conviction领投350万美元,A轮由a16z领投1750万美元 [19][20] - 融资资金用于扩大工程和产品团队、推进上市战略及发展合作伙伴生态系统 [21] 公司业务与定位 - 公司定位为RPA界的Copilot,通过LLM和计算机视觉帮助客户构建自动化流程 [2][11] - 用户仅需录制操作流程,系统自动生成机器人脚本,支持桌面和浏览器环境的数据抓取及手动归档 [13] - 系统能从文档中提取、验证和构建数据,支持跨团队协作并实时跟踪工作流程 [13] - 系统可根据用户反馈自动调整逻辑和修正错误,无需编程能力即可编辑自动化流程 [14] 公司业绩与客户 - 公司成立仅两年,收入自年初以来增长五倍,工作流程量环比翻倍 [3][16] - 客户包括世界财富100强企业、AmLaw100强公司及医疗保健和物流领域数十亿美元级领军企业 [3][17] - 已应用于金融服务、法律、保险与医疗等多个行业 [17] 创始人背景 - 联合创始人Jessica Wu为00后,MIT辍学,跨界数学、计算机科学和金融 [6][24][25] - 曾在对冲基金(如Citadel Securities)担任最年轻的量化研究员,并创办过服装设计公司 [6][30] - 联合创始人Neil Deshmukh同为00后,MIT计算机科学背景,专注多模态强化学习和计算机视觉研究 [6][32][34] - 二人分工明确:Jessica Wu负责产品设计、用户体验及市场推广,Neil Deshmukh负责技术落地 [37] 行业趋势与竞争优势 - 公司专注于传统企业的AI自动化流程,通过非技术用户可访问的AI原生架构实现差异化 [8][37] - AI软件服务可为传统行业减少20%-40%工作量,节约成本并提高生产力 [37] - 投资者看好其覆盖多行业非技术用户的普适性能力,而非局限于特定行业 [22][23] 00后AI创业现象 - 00后创业者涌现于AI领域,如金融量化AI、具身智能、AI编程及自动招聘等赛道 [38][39][40][42][43] - 多例00后创始团队来自MIT、斯坦福等名校,并通过辍学专注创业 [6][39][42][43] - 部分企业估值显著,如Cursor母公司估值达99亿美元 [42]
国产AI路由系统开源逆袭!仅用19%成本达到Gemini-2.5-Pro同等性能
量子位· 2025-08-20 04:33
文章核心观点 - 顶级大模型性能优越但成本高昂,使预算有限用户难以承受 [1][2] - 上海人工智能实验室推出Avengers-Pro多模型调度路由方案,通过集成和智能调度8个行业领先模型,实现性能与成本的最优平衡 [3][5][14] - 该方案在多个挑战性数据集上表现卓越,最高性能超越GPT-5-medium 7%,超越Gemini-2.5-Pro 19%,且成本显著降低 [5][20][22] 技术方案与机制 - 核心机制包括嵌入、聚类和评分三步骤:将用户请求转换为向量,聚类相似任务,评估模型性能-成本综合评分 [15][25] - 动态调整参数α(0-1范围),在追求极致性能(α=1)与极致性价比(α=0)间灵活切换 [17] - 通过实时路由决策,将任务分配给最合适模型,避免资源浪费并提升回复质量 [10][11][15] 性能与成本优势 - 在6个数据集(GPQA-Diamond、Human's Last Exam等)上,平均正确率达0.66,优于最强单模型GPT-5-medium的0.62 [20] - 与GPT-5-medium性能持平时,成本降低27%;达到其90%性能时,成本仅需37% [5][20][21] - 实现与Gemini-2.5-Pro同等性能时,成本仅需19% [5][22] - 在任何成本水平下提供最高准确率,或任何准确率目标下控制最低成本,达到帕累托最优 [5][23] 模型集成与调度 - 集成8个顶尖模型:OpenAI的GPT-5-chat和GPT-5-medium、Anthropic的Claude-4.1-opus和Claude-4-sonnet、Google的Gemini-2.5-pro和Gemini-2.5-flash、阿里的Qwen3系列 [19][26] - 调度策略灵活:倾向成本时多选低成本模型(如Qwen系列),倾向性能时多选高性能模型(如GPT-5-medium) [28][29][30] - 系统在推理时自动归类请求到相关聚类,并分配得分最高模型 [17] 行业意义与前景 - 智能调度路由方案解决大模型领域性能与成本平衡的关键问题 [9][10] - 推动大模型降本增效,满足多样化应用场景需求 [14][31] - 证明在当前生态下,该方案具有突出表现和巨大潜力,未来可能带来更多突破 [32][33]
厉害了,智谱造了全球首个手机通用Agent!人人免费,APP甚至直接操控云电脑
量子位· 2025-08-20 04:33
产品发布与核心功能 - 智谱发布全球首个手机通用Agent AutoGLM 实现云端执行任务 支持跨APP操作如点外卖、比价等[1][5][9] - 产品免费向公众开放 兼容安卓和iOS系统 并可操控云电脑执行复杂任务[6][9][23] - 提供生活助手和办公助手两类任务 用户通过"接管手机"进入云端界面操作[11][15][17] 技术实现与架构 - 采用云端执行模式 不占用本地设备资源 任务流畅且与用户本地操作互不干扰[9][33][37] - 依托智谱开源模型GLM-4.5和GLM-4.5V 整合推理、编码、多模态等能力于单一模型[50][52] - 为每位用户配备云手机和云电脑 预装应用生态 支持数据持久化存储[31][32] 应用场景与案例 - 生活场景:自主完成外卖订购、跨平台比价(如淘宝、京东、拼多多对比200元保温杯)[19][20][21] - 办公场景:自动生成调研报告(参考近100份源文件、输出数千字)及制作PPT[25][26][29] - 支持多设备集成 包括智能音箱、车载系统等 并通过开放API赋能开发者生态[42] 行业意义与趋势 - 解决Agent落地痛点:云端执行规避本地算力限制和高并发任务宕机问题[36][37][53] - 行业竞相布局云端Agent 如阿里云推出无影AgentBay、PPIO推出Agent沙箱产品[38][39][40] - 推动Agent从"信息辅助"向"直接操作"升级 成为处理复杂场景的全能型工具[31][54][55] 公司战略与AGI路径 - AutoGLM是智谱AGI路线图中L3"自主学习智能体"的关键一步 通过真实应用反馈推动模型自我进化[48][49] - 提出3A原则:全时待命(Around-the-clock)、零干扰(Autonomy)、全域连接(Affinity)[56][57] - 目标是通过技术与应用的正向飞轮 夯实公司在Agent领域的领先地位[48][49]
思维链可无限延伸了,MIT等打破大模型上下文天花板
量子位· 2025-08-20 01:13
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 大模型的记忆墙,被MIT撬开了一道口子。 MIT等机构最新提出了一种新架构, 让推理大模型的思考长度突破物理限制,理论上可以无限延伸 。 这个新架构名叫Thread Inference Model,简称 TIM。 TIM配上专用推理引擎TIMRUN,把推理过程变成类似树状的递归子任务结构,并动态修剪掉不再需要的子任务,就能 让模型在输出窗口有 限的情况下实现几乎无限制的长程推理。 传统解决方案要么是把任务切分给多个模型处理,要么是压缩历史信息,但这两种方法都会损失信息完整性。 TIM团队提出了一个巧妙的洞察: 推理过程并不是线性的,而是像编程时一样具有递归结构。 例如当我们写代码时,通常只关注光标附近的代码、已完成函数的输入输出,以及待办事项,而不会记住每个函数的所有实现细节。 这种"潜意识"的信息过滤机制,正是TIM系统的核心灵感来源。 把推理过程"解剖"成任务树 TIM最大的创新在于将推理轨迹建模为递归的子任务树,而不是传统的线性token序列。 每个任务单元包含四个关键组件: 思考过程 (thought) 工具使用 (tooluse) 子任务列表 ( ...
英伟达最新芯片B30A曝光
量子位· 2025-08-20 01:13
新产品开发 - 公司正在开发代号为B30A的新AI芯片 基于最新Blackwell架构 采用单芯片配置 性能比H20型号更强大 [1][2][3] - 芯片原始算力约为旗舰Blackwell架构B300 GPU双芯片配置的一半 [5] - 芯片采用单芯片设计 将所有主要组件集成在一块硅片上 具备高带宽内存和NVLink技术 支持处理器间快速数据传输 [7][8] - 芯片生产速度相较之前快7到30倍 计划下个月开始交付测试 [6][9] - 公司还开发另一款基于Blackwell架构的RTX6000D芯片 配置较低 采用传统GDDR内存 内存带宽1398GB/秒 主要用于AI推理任务 计划9月交付小批量 [17][18][19] 财务表现与市场预期 - 公司股价今年上涨超30% 期间完成4万亿美元市值的历史性时刻 [13] - 多家投行上调股票目标价 有分析师从200美元上调至240美元 为华尔街最高目标价之一 [14][15] - 分析师预计在AI算力需求激增背景下 Blackwell架构提速将使营收与每股收益超预期 市场共识预期第二季度营收458亿美元 每股收益1美元 [15] - 过去几天内公司CEO通过八笔交易卖出15万股股票 套现2710万美元 [16] 战略规划 - 公司表示会根据产品路线图评估产品 [10] - 新产品开发消息在财报发布前夕曝光 [11]