量子位

搜索文档
人形机器人终于学会洗碗了
量子位· 2025-09-04 04:41
还是用的叠毛巾和分包裹的同款Helix架构,没有新的算法,没有特殊的工程, 只有新的数据 。 时令 发自 凹非寺 量子位 | 公众号 QbitAI 会叠衣服还不够?Figure机器人现在连洗碗都包了。 但前提是你得先拥有一台洗碗机。 网友对此也是突然发现了盲点: 咦?它碰到脏盘子后会主动洗手吗?它会不会用沾满食物残渣的手再去叠衣服? 笑死,关注洗手问题的还不在少数呢。 Figure机器人会洗碗了 言归正传,早在3个月前,Figure机器人就展示了其在物流场景包裹分拣的能力,整个过程长达一小时。 面对各种形态的包裹,它都能进行完成识别、抓取、翻转,并运送到传送带上,其操作灵活性和速度已接近人类水平。 就在上个月,这个Figure 02又精进技艺,学会了叠毛巾和衣服。 现在同样的Helix架构、同样的机器人却在处理一个完全不同的任务——将餐具装入洗碗机。 乍一看,将餐具放入洗碗机的操作或许很简单,只需拿起每个餐具并将其放入洗碗机即可。 然而,这其中还是涉及很多难题的。 这些餐具往往需要从杂乱的堆叠中分离出来、重新调整角度,甚至需要 双臂协同传递 。 不仅如此,光滑或易碎的物品则要求指尖级的精细操作,洗碗机的碗架对 ...
AI搜索引擎,苹果决定自研!代号WKA
量子位· 2025-09-04 01:13
苹果AI搜索引擎计划 - 公司计划于2026年春季推出代号"世界知识问答"的AI搜索引擎 直接与ChatGPT和Perplexity竞争[1][8] - 新系统将集成至Siri 支持全网信息抓取及AI摘要生成 并可能扩展至Safari浏览器和Spotlight搜索[9][10] - 底层技术部分依赖与谷歌的合作 双方已于本周达成正式协议 苹果将评估谷歌AI模型以支持Siri功能[11][12][14] 战略合作与市场反应 - 公司维持与谷歌的长期搜索合作 谷歌搜索作为iOS默认入口每年贡献200亿美元收入[13] - 消息曝光当日公司股价上涨3.8% 创近一个月最大单日涨幅[5] - 网友评论显示需重建用户对Siri的信任 但当前战略被视为公司最优解[6][7] 人才流动与收购策略 - 公司近期面临AI人才流失 数周内10名成员离职 包括基础模型团队负责人及多名研究员加入Meta/OpenAI等竞争对手[18][22] - 虽已停止收购Perplexity的评估 但仍可能通过收购获取AI人才[3][4][16][17] - 项目由多团队协同推进 包括Siri团队、AI部门及服务部门 并涉及Vision Pro负责人等关键人物[15] 行业竞争态势 - 公司通过自研AI搜索工具应对行业竞争滞后问题 核心目标是将Siri升级为AI驱动搜索助手[7][19] - 科技行业陷入AI人才争夺战 公司需解决人才危机以实现技术突破[17][18][19]
世界模型,腾讯混元卷到了榜首
量子位· 2025-09-03 07:30
腾讯混元世界模型Voyager发布 - 腾讯混元发布业界首个支持原生3D重建的超长漫游世界模型HunyuanWorld-Voyager 该模型支持将视频直接导出为3D格式 并能够生成长距离且世界一致的漫游场景 [1][3][4] - 模型在发布后立即开源 距离上一代Lite版发布仅间隔两周 展现出快速迭代能力 [3] 核心功能与技术特性 - 新增"漫游场景"功能 支持通过鼠标和键盘在场景内自由活动 交互性远超360°全景图 用户可通过一句话或一张图生成高质量3D场景 [10][11][13] - 创新性将场景深度预测引入视频生成过程 通过空间与特征结合支持原生3D记忆和场景重建 避免传统后处理的延迟和精度损失 [31] - 采用视频生成与3D建模融合技术 基于相机可控的视频生成技术合成可自由控制视角的RGB-D视频 [32] - 关键组件包括世界一致的视频扩散架构和长距离世界探索机制 后者通过世界缓存机制支持迭代式场景扩展和平滑视频采样 [33] 数据集与训练体系 - 构建超过10万个视频片段的大规模数据集 整合真实世界采集与虚幻引擎渲染资源 通过自动化视频重建流水线实现无需人工标注的大规模数据构建 [33][34] - 训练数据构建引擎可自动估计相机位姿和度量深度 支持多样化训练数据的自动化生成 [33] 性能表现与基准测试 - 在斯坦福大学WorldScore基准测试中以77.62分位居综合能力首位 显著超越WonderWorld(72.69分)和WonderJourney(63.75分)等竞争对手 [36] - 在相机运动控制(85.95分)和风格一致性(84.89分)等细分指标表现突出 较第二名优势明显 [36] - 视频生成质量指标PSNR达18.751 SSIM达0.715 LPIPS为0.277 均优于See3D和FlexWorld等对比模型 [39] - 在场景重建任务中PSNR达18.035 SSIM达0.714 使用深度信息初始化点云后重建效果更佳 [42][43] 技术应用与扩展能力 - 支持视频场景重建 3D物体纹理生成 视频风格定制化生成和视频深度估计等多种3D理解与生成应用 [27] - 与混元世界模型1.0高度适配 可扩展1.0模型的漫游范围并提升复杂场景生成质量 [24] - 生成视频帧实时更新缓存形成闭环系统 支持任意相机轨迹同时维持几何一致性 [35] 模型部署要求 - 模型运行需要60GB GPU峰值内存 支持540p分辨率输出 [47] 腾讯开源生态布局 - 腾讯混元持续加速开源进程 产品矩阵包括MoE架构模型混元large 混合推理模型Hunyuan-A13B以及最小仅0.5B参数的端侧小模型 [48] - 最新开源翻译模型Hunyuan-MT-7B在国际机器翻译比赛中获得30个第一名 同时发布翻译集成模型Hunyuan-MT-Chimera-7B [48] 行业开源动态 - 阿里开源视频生成模型Wan2.2-S2V 美团发布首个开源大模型Longcat-Flash-Chat 显示国内大厂持续加码开源布局 [49][50][51]
GPT-5又帮陶哲轩解决了一个难题
量子位· 2025-09-03 07:30
一水 发自 凹非寺 量子位 | 公众号 QbitAI GPT-5又帮陶哲轩解决了一个难题! 消息来自陶本人最新动态,他衷心提醒大家: AI能够大显身手的场景再+1—— 半自动化文献检索 。 简单来说,陶正在做的事情,其实就是用 AI+数据库比对 来帮忙解决数学里的难题。 结果AI不仅省时省力,成果也十分卓越,正如陶激动所言: 这是Erdos问题/OEIS关联项目的首次概念验证成果。 具体咋回事儿,下面详细来看—— AI在数学难题解决过程中起到"定位器"作用 事情的起因还要追溯到一个关键人物——20世纪著名匈牙利数学家Paul Erdős。 此人一辈子合作了超过500位数学家,毕生发表了约1525篇数学论文,数量之多,至今无人能及。 相应地,他也给后人留下了一大堆至今未解的难题,它们被称为"Erdős问题"。 其中就有一大类问题很"刁钻"—— 它们不是问"算出结果是多少",而是问"这个结果是不是有理数 (能写成分数的那种) "。 一般而言,准确回答这类问题往往面临两个主要困难: 第一重困难:公式写得简单,但算起来超级复杂,手工几乎算不动。 它不是直接"证明"某个数是不是无理数,而是把这个数列算到很高精度的小数, ...
腾讯混元最新开源成“最强翻译”:国际机器翻译比赛获30个语种第一
量子位· 2025-09-03 05:49
国际翻译比赛表现 - 腾讯混元Hunyuan-MT-7B模型在ACL WMT2025比赛中获得31个语种中的30个第一名 处于绝对领先地位[4] - 该模型以7B总参数量击败了众多参数更大的模型 包括Gemini-2.5-Pro、GPT-4.1、Qwen3-235B等大型模型[4][5] - 比赛要求参数规模≤20B 且只能使用公开数据训练 在严格约束下取得优异成绩[5][29] 技术框架创新 - 采用协同增强策略优化(Shy)框架 包含基础模型开发和集成策略两大组成部分[15][19] - 基础模型开发通过持续预训练、监督微调和GRPO强化学习三阶段构建[16][17] - 集成策略采用学习型集成方法 通过生成多个候选翻译并训练专门模型进行智能选择或组合[18][26][27] 算法突破 - 首次在机器翻译领域应用GRPO(组相对策略优化)算法 采用组内相对优势替代全局基线[21][22] - GRPO算法显著降低梯度方差 提升训练稳定性 并提高样本效率加速模型收敛[23][24] - 采用复合奖励函数r=0.2×BLEU+0.4×XCOMET+0.4×DeepSeek 综合评估准确性、语义质量和流畅性[24] 模型性能优势 - 支持33个语种和5种民汉语言/方言互译 包括中文、英语、日语及捷克语、马拉地语等小语种[1][4] - 在Flores200测评数据集上表现卓越 明显领先同尺寸模型 与超大尺寸模型效果相当[6][8][9] - 在英语-简体中文翻译任务中AutoRank达到满分1.0 得分87.2 领先第二名Gemini-2.5-Pro的85.2分[5] 应用与部署优势 - 计算效率高 7B模型推理速度快 经FP8量化压缩后推理性能提升30%[30] - 部署友好 可在从高端服务器到边缘设备的多样化硬件环境中运行[30] - 已接入腾讯会议、企业微信、QQ浏览器、翻译君等多个业务产品[30] 开源生态建设 - 模型完全开源 基于Hunyuan-7B基础模型构建[2][31] - 使用OPUS Collection、ParaCrawl、UN Parallel Corpus等公开数据集训练[16][31] - 提供GitHub和HuggingFace等多个平台访问渠道 降低技术门槛[35] 行业方法论价值 - 为垂直领域专业化优化提供可借鉴模板 涵盖数据、算法、架构等多维度系统性设计[33][34] - 学习型集成方法实现从启发式到学习型的跃升 为模型融合提供新思路[26][34] - GRPO算法证明强化学习在序列生成任务中的潜力 具有行业推广价值[21][34]
Nano Banana官方提示词来了,附完整代码示例
量子位· 2025-09-03 05:49
Nano Banana技术功能概述 - 谷歌推出Nano Banana官方提示词指南 旨在优化AI图像生成效果[1][8] - 工具支持多模态生成能力 包括图像编辑、风格转换及高保真文本渲染[15] - 可生成动画视频及无缝换脸效果 展示技术突破性应用场景[5][6] 核心生成功能分类 - 文本转图像:通过详细场景描述生成高质量图像 如猫猫在星空餐厅的精细化场景[13][14][17] - 图像+文本编辑:通过文本提示添加/删除元素或调整风格色彩[15] - 多图像合成:将多张输入图像组合为新场景或进行风格转换[15] - 迭代细化:通过多次对话微调图像直至达到理想效果[15] - 文本渲染:精准生成带文字图像 适用于logo和海报等商业场景[15] 逼真场景生成方法论 - 采用摄影师思维模式 需指定相机角度、镜头类型及光线细节[19] - 标准提示模板包含镜头类型、主体动作、环境光照及画幅比例等要素[20] - 实际案例生成日本陶艺家特写 使用85mm人像镜头营造柔焦背景效果[21][23] 风格化内容创作应用 - 插画与贴纸生成需明确艺术风格并指定白色背景[24][25] - 文本渲染需描述具体内容、字体风格及整体设计规范[30] - 案例包括卡哇伊风格小熊贴纸和极简咖啡店logo设计[29][32][34] 商业摄影与产品建模 - 支持高分辨率产品摄影 适用电子商务与广告场景[35] - 标准模板包含灯光设置、拍摄角度及产品细节特写[35] - 案例展示哑光黑陶瓷杯在混凝土表面的工作室级拍摄效果[37] 极简设计与叙事创作 - 极简构图擅长创造负空间 适合作为文本覆盖的背景模板[38][39] - 案例呈现右下角红枫叶与灰白背景的简约设计[41] - 连环画生成功能可创建故事板 需定义艺术风格、角色动作及对话文本[44][45][47]
大模型“记性差一点”反而更聪明!金鱼损失随机剔除token,让AI不再死记硬背
量子位· 2025-09-03 05:49
顾名思义,金鱼损失就是让模型 像金鱼一样,不去死记每一个细节 ,而是在损失函数计算时随机剔除一小部分token。 由此,模型不再逐字记住训练集内容,但仍能学会语言规律。 实验显示,LLaMA-2在使用金鱼损失后: 用网友的精辟评论概括就是:dropout,但损失函数! henry 发自 凹非寺 量子位 | 公众号 QbitAI 训练大模型时,有时让它"记性差一点",反而更聪明! 大语言模型如果不加约束,很容易把训练数据原封不动地复刻出来。为解决这个问题,来自马里兰大学、图宾根大学和马普所的研究团队提出 了一个新方法—— 金鱼损失(Goldfish Loss) 。 在梯度计算中随机屏蔽部分token 金鱼损失的核心理念非常简单,就是在模型训练过程中 随机剔除一部分训练文本中的tokens,使其不参与损失计算。 这样一来,当模型在推理阶段遇到这些位置时,就只能"猜测",而不是逐字逐句复现训练数据的完整序列。 此外,为了保证被剔除token的一致性,研究人员设计了一种基于哈希(hashing)的掩码策略。 记忆化内容显著减少: 模型不再复现训练数据 下游任务性能几乎不受影响: 仍然能流畅生成文本 那么,这和同样是防 ...
用“因果规划”解决多智能体协作中的任务依赖难题|港科广&腾讯
量子位· 2025-09-03 05:49
核心观点 - 针对长周期多步骤协作任务中单智能体任务成功率随步骤长度快速衰减、错误级联导致容错率低等问题,研究团队提出CausalMACE方法,通过将因果推理机制系统性地引入开放世界多智能体系统,为复杂任务协同提供可扩展的工程化解决方案 [1][2][3] 方法框架 - 提出全局因果任务图概念,使AI能够理解"如果-那么"的逻辑关系,确保任务执行符合因果依赖 [5][6] - 框架包含判断、规划、执行三个环节:Judger实时验证动作合法性并反馈成败;Planner将复杂任务拆解为小工单并绘制粗线条流程图,再通过因果推理精修任务图;Worker通过深度优先搜索和动态繁忙率指标实现多智能体实时任务分配 [7][11][12][13][14][15][16] - 因果干预模块引入平均处理效应量化依赖边与游戏规则一致性,自动剔除由大模型先验幻觉导致的错误依赖;负载感知调度基于DFS路径搜索与动态繁忙率指标实现多智能体实时任务再分配 [9][16] 实验效能 - 在VillagerBench三项基准任务(建造、烹饪、密室逃脱)中,CausalMACE相较AgentVerse与VillagerAgent基线任务完成率最高提升12%,效率提升最高达1.5倍 [17] - 具体数据表现:在2智能体配置下,建造任务平均得分56.59%(对比AgentVerse无数据/VillagerAgent 36.45%),烹饪任务完成率65.53%(对比AgentVerse 48.64%/VillagerAgent 58.11%);在6智能体配置下,平均完成率达到81.09%(对比VillagerAgent 3智能体68.82%) [17] - 效率指标显著提升:建造任务效率达8.94%/min(2智能体),远超VillagerAgent的3.88%/min;密室逃脱任务效率达276.67%/min(3智能体),对比VillagerAgent 227.4%/min [17]
刚刚,宇树科技IPO时间定了!
量子位· 2025-09-03 05:49
IPO计划与进展 - 公司预计在2025年10月至12月间提交IPO申报文件[2] - 公司于2024年7月18日在浙江证监局完成上市辅导备案 辅导机构为中信证券[11] - 公司选择传统IPO方式而非借壳上市 以更直观检验技术商业化成色和核心资产价值[14] 资本运作与股权结构 - 2024年6月注册资本从288.9万元增至3.64亿元 增幅达125倍[9] - 2024年C轮融资后估值达100亿元 2025年C轮融资后估值升至120亿元[9][34] - 投资方包括中国移动、腾讯、阿里、蚂蚁集团、红杉中国、美团等顶级机构[17][18] 财务表现与盈利状况 - 公司自2020年起连续五年实现盈利[16] - 2024年年度营收突破10亿元人民币[17] - 四足机器人Go1累计出货量突破5万台 占全球消费级足式机器人市场60%份额[26] 产品结构与市场分布 - 2024年收入结构:四足机器人占65% 人形机器人占30% 零部件占5%[4] - 四足机器人80%应用于科研/教育/消费领域 20%用于工业检测及消防[4] - 人形机器人全部应用于科研/教育/消费领域[4] 技术突破与产品里程碑 - 2016年首创电机直驱技术路线 突破液压驱动主流方案[46] - 2017年推出低成本高性能四足机器人Laikago[23] - 2021年发布全球首款消费级伴随仿生四足机器人Go1[25] - 2023年发布通用人形机器人H1 实现高难度后空翻动作[29] - 2024年推出9.9万元级人形机器人G1 打破高端实验室产品定价认知[31] 行业地位与影响力 - 公司为全球消费级足式机器人市场领导者[26] - 与智元机器人并列国内具身智能领域头部企业[35] - 产品多次登陆央视春晚(2021年牛犇犇、2024年H1转手绢)[37][39] - 首届人形机器人运动会获1500米冠军并摘得首金[43]
苹果机器人负责人也被小扎挖走了!浙大校友,任职Meta机器人技术一号位
量子位· 2025-09-03 03:20
核心观点 - 苹果公司近期出现显著的人工智能人才流失潮,特别是在其基础模型和机器人研究团队,多名核心研究员离职并加入竞争对手公司,反映出公司AI项目进展缓慢对团队士气造成负面影响[1][5][6][26] 近期AI研究员离职详情 - 机器人研究小组首席AI研究员Jian Zhang离职并加入Meta,担任机器人技术首席总监,其工作室属于Meta Reality Labs[2][7][11] - Jian Zhang在苹果工作十年,主导机器人智能与人机交互研究,奠定了苹果机器人方向从感知-运动到情感表达的完整技术栈[7][9] - 基础模型团队三名成员离职:John Peebles和Nan Du加入OpenAI,Zhao Meng加入Anthropic[3][11][16][19] - John Peebles是基础模型团队核心成员,直接负责大语言模型的训练与推理基础设施,与OpenAI Sora团队的Bill Peebles是亲兄弟[11][13] - Nan Du离职前是苹果基础模型团队高级研究员,主导3B端侧模型的KV-cache共享、2bit量化训练和PT-MoE服务器模型的并行化设计[17] - Zhao Meng离职前是基础模型团队高级研究员,核心职责是为Apple Intelligence训练与优化大规模语言模型[19] AI团队人才流失规模与背景 - 包括负责人庞若鸣(Ruoming Pang)在内,苹果AI团队在数周时间内已失去10名成员[6] - 自2025年7月起,离职人员包括基础模型团队负责人、多名高级研究员及总监,具体离职时间线显示人才流失持续数月[23] 苹果AI项目进展问题 - 苹果在2024年6月WWDC上高调发布Apple Intelligence,但2025年2月报道称Siri重构版因工程缺陷和大量Bug陷入停滞,原定早期测试被迫延期[24] - 2025年4月调查披露,WWDC2024演示的核心功能从未在内部真正跑通,团队成员在发布会后才看到脚本,该"纸面演示"动摇了外界与员工对项目的信任[24] - 2025年6月12日,苹果内部将"Siri AI升级"目标推迟到2026年春季,正式承认年度量产计划落空[25] - 2025年8月中旬曝光的信息显示,苹果正在评估接入Anthropic或OpenAI等第三方模型,其自研路线已被迫开放备选方案[25]