Workflow
量子位
icon
搜索文档
首款推理具身模型,谷歌DeepMind造!自主理解/规划/执行复杂任务,打破一机一训,还能互相0样本迁移技能
量子位· 2025-09-27 04:46
衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 谷歌DeepMind正式发布 新一代通用机器人基座模型 ——Gemini Robotics 1.5系列。 它不止于对语言、图像进行理解,还结合了视觉、语言与动作 (VLA) ,并通过具身推理 (Embodied Reasoning) 来实现"先思考,再行 动"。 全球首个具备模拟推理能力的具身模型来了! 这一系列由两大模型组成: 其中,ER代表"具身推理"。 这意味着GR-ER 1.5是全球首个具备模拟推理能力的具身模型。 不过, GR-ER 1.5并不执行任何实际操作 ,GR 1.5正是为执行层而生。 两者结合,能让机器人不仅完成"折纸、解袋子"这样的单一动作,还能解决"分拣深浅色衣物"甚至"根据某地天气自动打包行李"这种需要理解 外部信息、分解复杂流程的多步任务。 甚至,它能根据特定地点的特定要求 (比如北京和上海的不同垃圾分类标准) ,自己上网搜索,以帮助人们完成垃圾分类。 而且用上GR 1.5系列的模型,还能够在多种不同的机器人之间进行能力的零样本跨平台迁移。 Gemini Robotics 1.5 (GR 1.5) :负责动作执行的多模态大模型; ...
大模型“精细化”对齐,真实性提升25.8%刷新SOTA!token级精准编辑,无需训练即插即用
量子位· 2025-09-27 04:46
核心观点 - 提出Token-Aware Editing (TAE)方法 一种无需训练的推理时表征编辑技术 通过token级精细化干预显著提升大模型对齐能力 在TruthfulQA任务上真实性指标比基线提升25.8个百分点[1][3][13][15] 方法创新 - 突破传统句子级编辑局限 首次系统性解决token间错位差异问题 包含互信息引导图聚合(MIG)和错位感知自适应干预(MAI)两大核心模块[6][8][10][11] - MIG模块通过构建token关系图和多层次信息聚合 增强激活值表征能力 使对齐方向探测准确率提升[10][11] - MAI模块实现动态强度调整 根据token错位风险自适应计算干预强度 高风险token强干预(如毒性概率从0.41降至0.05) 低风险token弱干预[11][12][16] 性能表现 - 在TruthfulQA数据集上True*Info得分达87.8% 较最优编辑方法SEA(73.2%)提升14.6个百分点 较基线(62.0%)提升25.8个百分点[14][15] - 去毒任务中毒性概率(TP)从基线0.41降至0.05 降幅近90% 显著优于专用去毒方法DESTIN(0.13)[16] - 公平性任务中刻板印象分数从64.8%降至50.3% 接近理想无偏见状态(50%)[16] - 在Llama2系列、Alpaca-7B、Mistral-7B等不同规模模型上均保持性能增益[17] 应用前景 - 可广泛应用于对话系统、内容审核、偏见消除等场景 支持多维度对齐(如真实性与无害性同步优化)[1][5] - 具备即插即用特性 未来可与SFT、RLHF等训练方法结合推动模型安全发展[3][5]
实测Kimi全新Agent模型「OK Computer」,很OK
量子位· 2025-09-27 01:30
产品发布 - Kimi发布全新Agent模型OK Computer 依托Kimi K2技术平台 [1][4] - 模型具备网页制作、PPT生成、数据处理等多项功能 可处理100万行数据并生成交互式仪表板 [4][30] 功能特性 - 设计类任务支持网页自动生成与Python编程 根据单句提示词自主完成模块设计与实现 [9][10][14] - 生成类任务整合文本、图像及音频生成能力 支持儿童故事绘本创作与文艺风格PPT制作 [19][20][22] - 分析类任务实现长文档检索与大数据处理 自动完成数据搜集、分析及可视化呈现 [28][29][30] 技术实现 - 采用像素风界面设计 提供简洁直观的用户交互体验 [7] - 任务执行过程自主生成Todo清单 实时标记进度状态(x表示完成 -表示进行中) [16] - 支持静态部署与动态资源调用 自动完成网页搜索和素材生成等预处理操作 [17] 性能表现 - 网页生成功能实现按钮跳转、等级分类、对比可视化等复杂交互设计 [12] - PPT输出文件支持后期人工编辑 具备完整可修改性 [24][26] - 数据分析模块自动构建评估维度 无需人工设定分析框架 [31]
首个开源实现100%可复现的稳定RL训练框架来了!2次结果完全重合
量子位· 2025-09-27 01:30
SGLang团队 投稿 量子位 | 公众号 QbitAI 开源框架实现100%可复现的稳定RL训练! 下图是基于Qwen3-8B进行的重复实验。 两次运行,一条曲线,实现了结果的完美重合,为需要高精度复现的实验场景提供了可靠保障 。 这就是 SGLang团队联合slime团队 的最新开源成果。 近期,Thinking Machines Lab (由 OpenAI 前 CTO Mira Murati 创立) 发布了一篇文章——《克服LLM推理中的不确定性》,指出问题的 核心在于 缺乏批次不变性 (batch invariance)。 自从这篇博客发布后,业界反响热烈,一直期待开源推理引擎能实现稳定可用的确定性推理,或者更进一步,实现完全可复现的RL训练。而 现在,SGLang和slime一起给出了答案。 SGLang团队在Thinking Machines Lab发布的批次不变算子基础之上,通过定制一系列注意力算子和采样逻辑, 实现了完全确定性推理 。 该实现同时保持与 分块预填充 (chunked prefill)、CUDA Graph、Radix Cache 和非贪婪采样 (non-greedy sampl ...
高通组局,宇树王兴兴说了一堆大实话
量子位· 2025-09-26 09:12
明敏 发自 凹非寺 量子位 | 公众号 QbitAI 王兴兴的大实话,在高通攒的这场局上,全交代了。 所有终端都被AI、Agent赋予新想象,因为足够new,具身智能成为被影响最大的那一个领域。但也因为足够new,具身智能的热闹下必然存 在诸多争议与挑战。 宇树科技,长期站在聚光灯下的明星玩家,此时此刻将行业中的诸多难题直接剖开。 或许不为别的,而是高通攒的这个局太难得。 2025骁龙峰会·中国,聚集了国内外终端领域的核心玩家,覆盖上下游产业链 。在这开诚布公 讨论的问题,或许将马上成为行业最关注的热点,进而能更快得到解决。 而不止王兴兴,来自硬件、模型、操作系统等层级的玩家,也都畅所欲言、应聊尽聊: 目前机器人领域技术路线都不一样,导致看着热闹,但是进展没那么显著; 既然现在大家开发的模型都还不能部署直接用,那还不如开放出来 ,就像OpenAI开源GPT-1/2一样; 宇树前几天开源的世界模型也无法直接在工厂中落地使用; 现在机器人和芯片厂商都忽视了 芯片 对于机器人的重要程度; 手机芯片 等类似芯片用到机器人身上是非常有想象空间的。 理想汽车副总裁、智能空间研发负责人勾晓菲 面壁智能CEO李大海 中科创达 ...
Gemini灵魂人物加盟xAI,马斯克亲自夹道欢迎!
量子位· 2025-09-26 09:12
核心观点 - 前谷歌DeepMind资深研究员Dustin Tran加入xAI 其作为Gemini系列核心开发者将助力xAI技术发展 马斯克亲自欢迎体现其重要性[1][4][6][8] - Tran在谷歌期间主导多项突破性AI项目 包括Gemini系列开发及早期TensorFlow等框架构建 其学术论文引用超2.4万次[11][15][18][25] - Tran加入xAI主要因算力资源(数十万张GB200芯片)、数据策略及马斯克企业理念三大优势 预计将加速Grok系列模型迭代[29][30][31][33][35] 人才流动与行业影响 - 顶级AI研究员从谷歌流向xAI 反映头部科技公司人才竞争加剧 核心人才对技术路线具有决定性影响[4][27] - Tran在谷歌8年期间主导关键项目转型 包括100天内基于LaMDA开发Bard(Gemini前身) 并最终推动Gemini系列实现技术反超[12][13][15][16] - 其早期参与OpenAI Dota 2 AI项目 具备多平台经验 跨公司技术积累可能促进xAI技术融合创新[19][21] 技术成就与里程碑 - Tran团队开发的Gemini 1.5 Pro在LMArena霸榜超一年 帮助谷歌重新确立AI领域竞争力[15] - 其2016年发表的校准度量论文开创深度学习评估基准 论文引用671次 直接影响LLM可信度评估标准[23][24] - 参与构建TensorFlow、Vision Transformer(参数量达220亿)等基础框架 相关论文引用超700次[18] 公司战略与资源对比 - xAI算力优势显著 Tran称人均芯片数量远超谷歌 且数十万张GB200芯片尚未完全部署[29][30] - xAI数据策略聚焦RL与后训练规模化 结合专业数据标注团队扩张 预示训练方法升级[31][32] - 马斯克强调"一阶导数和二阶导数"理念 公司发展加速度被视作核心竞争优势[35] 行业竞争动态 - OpenAI被指曾通过提前发布囤积点子抢占头条 但当前创新储备可能见底[37] - 谷歌在GPT-3.5发布后启动"红色警报" 反映头部企业对技术迭代速度的危机响应机制[12] - Gemini系列成功扭转谷歌市场预期 股价曾因Bard发布单日蒸发近千亿美元[14][15][16]
谁是最强“打工AI”?OpenAI亲自测试,结果第一不是自己
量子位· 2025-09-26 04:56
新基准GDPval的提出与设计 - 提出GDPval基准用于衡量AI模型在真实世界具有经济价值任务上的表现[1] - 基准覆盖对美国GDP贡献最大的9个行业中的44种职业 这些职业年均创收合计达3万亿美元[2] - 任务基于平均拥有14年经验的行业专家的代表性工作设计而成[2][18] 测试方法与数据构建 - 筛选对美国GDP贡献超5%的9个行业 再挑选各行业贡献工资总额最多且以数字任务为主的职业[14] - 通过GPT-4o对任务按数字/非数字分类 若60%以上为数字任务则纳入[14] - 最终筛选44个职业 年创收合计3万亿美元[15] - 每个GDPval任务包含需求和交付成果两部分 行业专家对照O*NET任务分类设计[20] - 通过平均完成时间×时薪计算每个任务的经济价值[23] - 最终包含1320项任务 每个任务获得至少3次平均5次的人工审核[23] 模型性能评估结果 - Claude Opus 4.1成为表现最佳模型 47.6%产出被评定媲美人类专家成果[4] - GPT-5以38.8%的成绩位居第二[6] - GPT-4o与人类相比只有12.4%获胜或平局[6] - OpenAI各代模型在GDPval上的表现大致呈线性提升[32] - GPT-5在准确性方面优势显著 Claude在文件处理上表现更佳[33] 性能提升方法与经济价值 - 增加推理努力 提供更多任务背景 优化提示词与智能体辅助框架能显著提升模型性能[38] - 将AI模型与人类监督结合 在完成任务时有望比单独人类专家更经济高效[35] - 多种使用模式都能帮人类节省成本和时间[36] 开源与自动评分 - 开源包含220项任务的优质子集[9] - 开发实验性自动评分器 与人类专家评分的一致性达66% 仅比人类间评分一致性低5%[27] 局限性与发展计划 - 数据集规模有限仅44种职业 聚焦计算机上完成的知识工作[40] - 任务为精准指定的一次性任务 缺乏交互性 自动评分器存在不足 评估成本高[40] - 计划在未来迭代版本中拓展覆盖范围 增强真实性与交互性 纳入更多场景细节[41]
OpenAI两位首席最新采访信息量好大!终极目标是“自动化研究员”,招人并非寻找“最出圈”的人
量子位· 2025-09-26 04:56
(网友1):深入又有趣! OpenAI首席科学家 Jakub Pachocki 和首席研究官 Mark Chen 开启同台爆料模式: 在a16z的这场最新采访中,二人不仅深入探讨了GPT-5如何引入长远推理、如何在基准饱和后衡量进度,以及为什么强化学习不断让怀疑论 者感到惊讶,还系统性阐述了OpenAI的用人标准、未来路线图以及算力分配这些重要问题。 一句话,凡是你对OpenAI感到好奇的问题,他俩几乎都谈到了~ 一水 发自 凹非寺 量子位 | 公众号 QbitAI 采访时间不到1小时,信息密度却堪称爆炸! 氛围编码的下一步或许是氛围研究(Vibe Researching); OpenAI的最终目标是实现自动化研究员; 现有评估指标正趋近饱和,下一个里程碑将涉及实际的发现和在经济相关事物上取得实际进展; 成功的秘诀在于保护基础研究,避免被短期产品竞争所牵制; …… (网友2):听起来像一支有着清晰愿景的强大团队。 话不多说,访谈重点这就奉上—— GPT-5:将推理与Agentic行为引入主流 采访第一趴主要关于GPT-5。 Mark Chen表示, GPT-5是OpenAI试图将推理能力带入主流的一种尝试 。 ...
超10万亿Tokens的高质量数据集是怎么炼成的?专访中国电信天翼AI阮宜龙
量子位· 2025-09-26 02:08
公司数据资源 - 拥有超过10万亿tokens的通用大模型语料数据及覆盖14个关键行业的专业数据集 总存储量达350TB [1] - 数据经过精心标注和优化 包含多模态内容 可直接用于行业应用 [3] - 高质量数据集通过采集 加工等处理流程 能直接用于AI模型开发训练 提升模型性能 [4] 技术平台架构 - 星辰MaaS平台作为核心 构建"数据-模型-服务"完整闭环 包含四大核心组件 [7] - 数据工具链覆盖"采-存-算-管"链路 支持文本 图片 音视频等多类型数据统一接入与处理 [18] - 模型工具链覆盖"标-训-推-评"链路 支持40多种标注任务 通过AI预标注使效率提升5倍以上 [18] - 智能体作为执行中枢 灵活调度资源并自主完成复杂任务 实现决策智能化与行为自动化 [7] 模型体系与能力 - 建立"三全"星辰大模型体系:全模态 全尺寸 全国产 [8] - 成功研发万亿参数大模型 采用全国产万卡集群和国产深度学习框架训练 [9] - 语音大模型精准识别60种方言 语义大模型参数规模庞大 视觉模型鉴伪技术达国际领先水平 [39] - 完成中央网信办"境内深度合成服务算法备案"和"生成式人工智能服务"双备案 [39] 行业应用案例 - 在纺织行业实现AI验布 瑕疵检测准确率从50%提升至95%以上 生产效率提升50% [9] - 服务物流集团 纳管超500P国产化算力卡 构建多个物流行业高质量数据集 [29] - 在医疗领域与北京三甲医院合作构建医疗质量管理数据集 推动医院运行管理智能化升级 [36] - 在农业领域为雄安新区打造"雄小农"应用 帮助当地农民实现超过15%的增收 [37] - 在政务服务领域基于1200万条工单记录建成520万条高质量语料 支撑25个智能应用场景 [38] 生态建设与产业赋能 - 支撑成都 沈阳等多个国家级数据标注基地建设 扮演产业生态规划者 产能运营者和新职业培育者角色 [34] - 在成都联合打造"蓉数公园・新津数据要素服务站" 引入数十家标注企业及教研机构 [34] - 建立培训认证体系 规模化培养数据标注师 AI训练师等数字化人才 [35] - 形成"政府引导+央企主导+生态协同"可复制模式 构建完整生态链 [35] 战略定位与发展愿景 - 基于国家战略 市场需求 运营商优势禀赋和使命责任四个层面重仓投入数据基础设施建设 [14] - 承载成为国家战略科技力量和领先的通用人工智能服务提供商的愿景 [42] - 持续发力技术领先 应用普惠 生态开放和人才培养四大方向 [43] - 日增数据量达1.6PB 基础数据集超10万亿tokens 服务超10亿公众客户和上千万政企客户 [16]
“零人”搞医学研究:清华AI智能体从灵感到论文全程自主
量子位· 2025-09-26 02:08
清华大学自动化系索津莉课题组 投稿 量子位 | 公众号 QbitAI 医学研究迎来"零人工"时代了?! 清华大学自动化系索津莉课题组,发布首个专为医疗信息学设计的全自主AI研究框架—— OpenLens AI 。 首次实现从文献挖掘→实验设计→数据分析→代码生成→可投稿论文的全链条自动化闭环。 为什么要推出该系统?主要是医疗信息学研究正陷入效率困局——多中心数据融合、知识爆炸、跨学科协作需求,使传统科研模式日益捉襟见 肘。 而OpenLens AI引入医学专属质量控制方法,生成出版级别的高质量科研论文,将科研周期从"月级"压缩至"小时级",宣告医学研究迎来"零人 工"时代。 下面详细来看—— 五大核心模块:AI科研的梦之队 OpenLens AI不仅实现全流程自动化,也在质量控制方面设立新标杆,集成四大保障机制: OpenLens AI采用模块化架构,由五个专门化的智能体协同工作,构建起完整的科研自动化流水线: 主管模块 作为全局协调者,将用户查询分解为结构化子任务,确保整个研究流程的透明度和可解释性。 文献综述者 构建自主知识探索管道,利用基于ReAct的推理框架,检索并综合相关文献,为研究提供坚实的理论基 ...