量子位

搜索文档
谷歌靠Nano Banana超越ChatGPT!登顶苹果App Store第一,玩疯了玩疯了
量子位· 2025-09-15 05:57
核心观点 - Gemini应用程序在多个地区苹果应用商店登顶 超越ChatGPT[1][3] - Nano Banana图像生成工具是推动Gemini增长的关键因素 一个月内新增2300万用户并编辑超过5亿张图片[4][5] - 谷歌通过技术迭代和生态整合实现逆袭 从Gemini 1.5的百万级上下文到Gemini 2.5 Pro的代码推理能力提升[86] 产品功能特性 - Nano Banana支持多维度图像生成:风格转换(美式证件照/漫画COS/破碎感肖像)[9][11][14]、姿势匹配(素描动作迁移/简笔画适配)[22][25]、3D模型生成(手办/漂流瓶/邪恶版角色)[29][34][36] - 高级组合功能支持局部元素修改:服装试穿[44]、家具替换[47]、虚拟场景生成(格斗游戏/撕裂现实效果)[50][54] - 专业级设计能力:真实摄影(85mm人像镜头/黄金光线)[60]、贴纸设计(小熊猫卡通形象)[64]、品牌logo生成(咖啡店极简设计)[68]、产品摄影(三点柔光棚拍)[72]、极简背景(PPT留白设计)[76]、漫画创作(黑色侦探风格)[80] 技术竞争优势 - Gemini系列技术迭代:1.5版本支持百万级上下文长度 2.0版本被评价全面对标GPT-4 2.5 Pro版本在代码和推理能力获好评[86] - 生态整合优势:嵌入搜索/Chrome/YouTube/Gmail/Docs等核心应用 覆盖全球数十亿用户[86] - 用户增长数据:Nano Banana推动Gemini月增2300万用户 图片编辑量超5亿张[5] 行业格局变化 - 谷歌实现从"被迫补课"到App Store反超ChatGPT的逆袭[87] - AI应用登顶App Store被视为行业高峰 标志产品影响力与市场格局变化[90] - 马斯克曾指控苹果操纵榜单偏袒ChatGPT 而Gemini登顶被网友视为打破操控的证据[91][92]
腾讯混元升级AI绘画微调范式,在整个扩散轨迹上优化,人工评估分数提升300%
量子位· 2025-09-15 03:59
技术突破 - 腾讯混元团队提出Direct-Align和SRPO两项创新方法 显著提升AI图像生成质量 人工评估真实感评分从8.2%提升至38.9% 美学评分从9.8%提升至40.5% [2][5][17] - Direct-Align通过预定义噪声先验实现任意时间步图像恢复 在仅5%去噪进度阶段即可恢复图像粗略结构 解决传统方法梯度爆炸问题 [9][10][11] - SRPO将奖励定义为文本条件信号 通过正负面提示词计算相对奖励差值 实现无需额外数据的在线偏好调整 [5][14][16] 性能表现 - SRPO在HPDv2基准测试中全面领先 自动评估指标Aesthetic Score达6.194 PickScore达23.040 显著优于ReFL DRaFT等方法 [17][18] - 仅需10分钟训练即在32块H20上收敛 训练效率远超DanceGRPO(480 GPU小时)和ReFL(16 GPU小时) [1][18][19] - 通过添加"Realistic photo"控制词 模型生成图像真实感提升3.7倍 美学质量提升3.1倍 [16] 技术优势 - 全扩散轨迹优化突破现有方法局限 避免仅在后25%时间步训练导致的奖励黑客问题(如HPSv2偏好红色调 PickScore偏好紫色图像) [8][13] - 控制词效果与训练集频率相关 高频词如"painting"效果最佳 低频词需组合使用 [16] - 相比DanceGRPO方法 SRPO在保持高美学质量的同时避免产生过度光泽感和边缘高光等不良伪影 [18] 行业影响 - 开发者评价SRPO为下一代RLHF(人类反馈强化学习)技术 展现其在对齐人类偏好方面的突破性潜力 [6] - 该方法在FLUX1.dev模型上实现突破 表现超越最新开源版本FLUX.1.Krea [19]
全新开源模型复现o3视觉推理,无需大量训练即可实现深度思考
量子位· 2025-09-15 03:59
OpenAI o3的多轮视觉推理,有开源平替版了。 并且,与先前局限于1-2轮对话的视觉语言模型(VLM)不同,它在训练限制轮数只有6轮的情况下,测试阶段能将思考轮数扩展到 数十轮 。 不圆 发自 凹非寺 量子位 | 公众号 QbitAI 这个模型叫Mini-o3,它无需消耗大量训练周期资源,通过恰当的数据、初始化方法和强化学习微调,即可实现长周期视觉搜索能力。由字 节、香港大学团队联合开发。 跨越数十个步骤的深度推理 最近的多模态大模型虽然能通过"图像工具+强化学习"处理视觉问题,但现有开源方案存在很大的短板: 比如推理方式单调、交互轮次受限、遇到需要反复试错的复杂任务就束手无策。 而Mini-o3突破了上述局限——它能够进行 长达数十个步骤的深度多轮推理 ,在高难度视觉搜索任务中达到了当前最佳水平。 这得益于它的三个关键设计: 第一,研究团队构建了视觉探测数据集VisualProbe,包含数千个专为探索式推理设计的视觉搜索难题; 第二,开发了迭代式数据收集流程,让模型能学会深度优先搜索、试错探索、目标维持等多样化推理策略; 第三,提出超轮次掩码策略,在强化学习中避免对达到最大交互轮次的响应进行惩罚,从而平 ...
昔日王者TensorFlow,已死
量子位· 2025-09-15 00:30
TensorFlow衰落与PyTorch崛起 - TensorFlow社区活跃度已跌至历史最低点,甚至不及初发布时期[3] - PyTorch呈现高歌猛进增长态势,形成鲜明对比[3] - 蚂蚁开源正式将TensorFlow从《大模型开源开发生态全景图2.0》中除名[8] 开源生态快速迭代特征 - 开源项目兴衰计量单位已从"年"缩短为"天"[10] - 全景图1.0到2.0仅隔100天,更新39个项目,替换率达35%[11][12][17] - 60个原有项目被移出,反映AI领域极快迭代周期[17][18] 项目淘汰机制与标准 - 短期热点型项目如OpenManus和OWL因热点消退被移出[19] - 迭代速度落后项目如NextChat被新兴项目取代[20] - 同生态位竞争落后者如MLC-LLM和GPT4All被Ollama取代[21] - 项目准入门槛设定为OpenRank > 50[17] 开源定义与商业模式演变 - Top 10活跃项目中部分未采用OSI标准开源许可证[26] - Dify在Apache 2.0基础上增加多租户使用限制[26][32] - Cherry Studio采用按用户规模双许可模式[27] - n8n采用自定义"Sustainable Use License"[28] - GitHub功能扩展为集产品发布、用户反馈、社区营销一体化平台[31] - 开源运营属性增强,成为重要GTM(Go-to-Market)战略[31] 技术领域竞争焦点转移 - Agent Framework领域整体活跃度呈下降趋势[38] - Model Serving和AI Coding领域呈现显著增长态势[39] - 竞争从功能覆盖转向性能深度优化[45] - vLLM和SGLang通过技术创新提升GPU利用率[44] - NVIDIA TensorRT-LLM提供极致性能优化方案[44] 全球开发贡献格局 - 美国开发者占比24%,贡献度37.4%[46][47] - 中国开发者占比18%,贡献度18.7%[46][47] - 中美两国合计贡献度超过55%[46] - 美国在AI Infra领域贡献度43.39%,显著领先[51] - 中国在AI Agent领域贡献度21.5%,与美国24.62%差距缩小[51] 新兴项目崛起案例 - OpenCode和Gemini CLI在数月内获得极高社区关注度[54] - Browser-use项目由2名研究生9个月开发获得60K星标[55]
一文看尽35万人围观的智博会
量子位· 2025-09-14 07:30
文章核心观点 - 重庆智博会作为全球智能产业年度盛会 集中展示人工智能和智能网联新能源汽车两大核心领域的前沿技术 涵盖智能机器人 低空经济 智能家居 智能驾驶和数字城市五大板块 呈现智能产业现状与未来趋势 [1][3][5][6] 综合展区技术展示 - 华为展示全栈数智化技术 包括鲲鹏处理器提升业务性能10%-30% 昇腾硬件支持AI大模型开发 鸿蒙生态超3万个原生应用 盘古大模型覆盖30+行业500+业务场景 [8][10] - 腾讯推出国内首个模块化具身智能开放平台TAIROS 混元生成模型实现AI绘画和3D打印 AI赋能QQ 微信 腾讯会议等应用 如会议智能总结功能 [12][13][15][17][18] - 科大讯飞聚焦C端产品 搭载星火深度推理模型X1的AI学习机 智能办公本和翻译SaaS服务 [20] - 三大运营商展示AI基建 联通构建空天地一体化5G-A网 与宇树 智元 海康合作机器人控制平台 移动推出智能网联车座舱方案和自研机器人 电信天翼云整合异构算力 量子计算技术超前布局 [22][24][25][27][28][29][31] - 国网展示9款自主芯片 算力覆盖0.1-256TOPS 突破多芯片堆叠互联技术 中石化呈现智能工厂微缩模型与中央控制系统 中石油展示万米科探井模型和昆仑大模型APP 专为能源化工行业打造 [33][35][37][39] 高校产学研成果 - 重庆大学研发煤矿数字孪生系统 实现地质灾害AI预警 钛基合金固体储氢系统提供便携能源保障 [41][43] - 重庆交通大学隧道云智能巡检装备整合机器人传感系统 应用于重庆环山隧道等项目 [45] - 重庆工商大学推出基础设施结构健康监测系统 基于振动 DIC 北斗技术 用于渝黔线等工程 [47] - 重庆师范大学展示非侵入式脑成像和脑机接口技术 实现意念控制智能车 [49] 地区数字产业展示 - 重庆馆重点呈现智能网联新能源汽车产业和数字重庆建设 天津馆汇集多家具身智能企业 伽利略机器人发布四足机器狗C1系列 [51][52] 智能机器人应用 - 宇树G1格斗机器人展现动态平衡算法 机器狗Go2具备娱乐功能 云深处工业机器狗X30负载85公斤 乐聚机器人专注工厂搬运 有鹿机器人AI130实现动态清扫调整 [54][55][57][59][60][62][64] - 川崎机器人展示高精度釉面喷漆机械臂和五子棋机器人 百融云创推出AI服务和数智人一体机 应用于金融领域 中科摇橹船演示AI视觉质检系统 覆盖新能源汽车全链条 博匠机器人专注建筑领域智能化施工 [66][68][70][72][76] 智能家居生态 - 小米展示全屋智能产品和车家互联体验 海尔推出智能客厅 联动门锁和家电 全屋用水监测系统自动更换滤芯 美的呈现厨房生态和全屋气候解决方案 科沃斯展示扫地擦窗机器人 [77][78][79][81][82][84][86][87][90] - AI潮玩如语音交互财神关公和赛博熊猫受青睐 机器人具备咖啡制作 冰淇淋制作功能 宠物智能专区涵盖饮水机 喂食器 健康追踪项圈和线上问诊平台 [92][94][96][98][99][101] 低空经济创新 - 大疆展出运载机DJI FLYCART 100 载重80千克 航程26千米 农业无人机T100配备五目视觉系统 中国航空科技集团推出多功能无人机和智飞航电系统 迅蚁科技构建空中物流网络 合作300+医院 实现无人机-高铁联运 [103][105][107][109][110][112][114][115] - 彩虹-9无人机载荷能力强 应用于航空物探等领域 高层消防系统集成多功能 中国飞机强度研究所展示飞行器零部件产业链 中国通号推出无人机反制系统 覆盖5公里半径 [116][117][119][120] - 广汽高域飞行汽车GOVY AirCab压缩通勤时间至15分钟 预计明年量产 分体式构型AirCar实现陆空转换 万丰航空VoloCity取得EASA认证 大翼航空无人机管理系统融合AI视觉识别 [122][124][125][126] 智能网联新能源汽车 - 特斯拉展示Model Y L续航751公里 能耗12.8kWh/100km Cybertruck采用48V架构和线控转向 擎天柱机器人迁移电动车技术 [132][133][135] - 长安汽车推出人形机器人和助行外骨骼 天枢底盘提升操控精准性 阿维塔搭载华为乾崑ADS 4.0 降低50%时延和30%重刹率 鸿蒙座舱保障交互安全 [137][139][141][142][143] - 赛力斯问界M9采用ADS 3.0 展示无人物流和智能生产线配置2000台机器人 吉利 比亚迪等车企展示AI智驾系统如DiPilot 300 [144][146][147][149][152] - 卡尔动力混合编队方案节约83%人力 未来运输机器人提升25%载货空间 踏歌智行矿区无人驾驶方案适应极端环境 [155][157][158][159][161][162] - 中国汽研展示汽车检测设备和碰撞假人 华烁高科推出直流快充 光伏充电等智慧充电网络 中国芯展区集中展示汽车芯片技术 [164][166][167]
科研学术,现在可以百度AI一下了
量子位· 2025-09-14 07:30
百度学术AI重构升级 - 百度学术在第12届AI Day上宣布全面AI重构 从传统文献检索平台升级为覆盖论文全生命周期的"搜、读、创、编"一站式AI学术平台 [1] - 新平台将上线AI学术搜索 AI文献总结 AI阅读 论文图谱等数十项新能力 成为行业首个一站式AI学术平台 [1] 论文全生命周期AI功能 - AI学术搜索支持关键词检索文献 并通过AI问答实时总结和筛选文献 显著减少用户在不同PDF间切换的时间 [7][8][9] - 论文图谱功能通过可视化方式展示研究领域的经典文献 研究热点和发展脉络 帮助用户快速掌握领域概况 [10] - AI文献总结支持一次性批量上传100个文件 30秒内生成结构化总结 帮助用户在3分钟内掌握文献核心内容 [13] - AI阅读功能可精准还原外语文献版式并自动翻译 提升跨语言文献阅读体验 [15] - 选题推荐功能基于现有文献自动挖掘创新研究方向 并为科研小白构建论文框架并提供可溯源参考文献 [16][17] - 创意对比功能确保文章原创性与真实性 实现用AI做真科研 [19] - 编辑阶段支持一键在线插入表格 图表 复杂公式 并提供AI校对润色功能 [19] 平台集成与数据能力 - 百度学术已与问卷星达成合作 并接入专业数据分析平台SPSSPRO 实现从数据获取 分析到结果展示的全流程覆盖 [22][23] - 平台收录6.9亿文献资源 覆盖超104万学术资源站点 日均更新文献量超42万 中文文献覆盖率达97% 均居国内第一 [31] - 收录内容覆盖教育部学科分类所有专业领域 包含2.1亿可直接获取全文资源及1.6亿免费资源 [33][34] - 与国内外学术数据库 出版社 学会 机构等合作 加强中外学术资源获取能力 [34] 学术生态与用户规模 - 百度学术已为420万学者搭建主页 包括袁隆平 屠呦呦 钟南山等国际级院士 [36] - 中国高等教育在学总规模约4846万人 其中普通本科在校生约2086万人 在学研究生约410万人(博士68万人 硕士342万人) 高等教育专任教师约216万人 [26] - 中国2024年科研产出份额以32122位居世界第一 成为全球最大学术场域之一 [27][28]
啥?陶哲轩18个月没搞定的数学挑战,被这个“AI高斯”三周完成了
量子位· 2025-09-14 05:05
核心观点 - Gauss AI Agent在数学形式化领域取得突破性进展 仅用三周时间完成陶哲轩等人18个月未完成的强素数定理形式化挑战 展现AI在复杂数学验证任务中的巨大潜力 [1][2][8] 技术突破 - 生成约25000行Lean代码 包含上千个定理和定义 此类规模的形式化证明传统需多年完成 [10][11] - 项目规模达历史最大单个形式化项目的十分之一级别(历史最大项目为50万行代码) [12] - 对比Lean标准数学库Mathlib的200万行代码(35万个定理)由600多位贡献者耗时8年完成 Gauss效率显著提升 [13] 基础设施要求 - 与Morph Labs合作开发Trinity环境基础设施 支持数千个并发Agent运行 [14] - 每个Agent需独立Lean运行环境 集群内存消耗达数TB级别 属于复杂系统工程挑战 [14] 发展目标 - 计划未来12个月内将形式化代码总量提升100到1000倍 [16] - 致力于构建"可验证的超级智能"和"通才型机器数学家"新范式 [17] 团队背景 - 母公司Math由Christian Szegedy创立 其为2015年Batch Normalization技术共同发明人 [22][24] - Batch Normalization是深度学习从实验走向大规模实用化的关键技术之一 [26] 行业影响 - AI工具可能改变传统形式化项目中明确目标与隐含目标的实现方式 需重新定义项目目标体系 [18][19] - 陶哲轩指出AI优化算法可能专注于名义目标而忽略隐含目标(如社区建设、知识传承等) [19]
机器人入职洗衣房,开始打工挣钱!苹果前AI高管打造
量子位· 2025-09-14 05:05
公司背景 - 由前苹果技术高管Evan Winelan和Kaan Dogrusoz共同创立 两位创始人曾任职于苹果公司[15][16] - 公司已完成三轮融资 在未正式推出产品前已获得资金支持[4] 技术能力 - 搭载自主训练的视觉-语言-动作模型 可精准识别衣物类型并判断折叠边角位置[18] - 配备高性能网络堆栈 支持人类操作员远程协助处理复杂情况 早期原型实现70%端到端自主折叠[18] - 建立完善数据管道 通过持续学习提升处理不同材质和款式衣物的效率与精准度[18] 产品特性 - 为首个实现付费衣物折叠服务的通用型机器人 已应用于洗衣房Tumble Laundry[3][4] - 折叠标准严格 要求衣物版型均匀 边角整齐 堆叠方向统一且衣领朝上[5][6] - 具备收纳功能 可保持操作台整洁[7] - 设计注重隐私保护 闲置时摄像头自动关闭且躯干降低收纳[14] 应用场景与规划 - 当前专注于洗衣房衣物折叠场景 正在进行数据采集以提升模型鲁棒性[10][11] - 定位为通用型家用机器人 未来计划拓展整理杂物和家庭安防等多样化家务能力[12][14] - 团队核心目标为开发面向家庭场景且能高效完成工作的机器人[19]
兼得快与好!训练新范式TiM,原生支持FSDP+Flash Attention
量子位· 2025-09-14 05:05
文章核心观点 - 生成式AI领域长期面临生成速度与生成质量难以兼得的技术矛盾 现有扩散模型和Few-step模型分别受限于局部动力学监督和全局端点映射 存在固有缺陷[1][2] - Transition Model (TiM) 提出全新训练范式 通过建模任意两时间点间的完整状态转移 实现任意步长采样和多段细化轨迹 从根本上解决速度-质量矛盾[3][4][5] - TiM在数学本质上统一了扩散模型和Meanflow模型 作为更通用的框架可退化为两者的特例 在保持少步生成速度的同时达到更高保真度[16][17] - 实验验证TiM-865M参数模型在多项指标上超越FLUX.1系列12B参数模型 尤其在多分辨率、多横纵比生成场景展现显著优势[20][34] 技术方法创新 - 放弃传统瞬时速度场或端点映射学习 直接建模任意时刻t与r间的状态转移 通过"通用状态转移恒等式"描述任意时间间隔内的具体转移[4][11][12] - 设计多段细化轨迹生成路径 将生成过程转化为任意状态与前状态间的转移动态 实现采样步长的灵活调整[13][14] - 提出差分推导方程(DDE)替代雅可比-向量乘积(JVP) 计算效率提升约2倍(24.14G FLOPs vs 48.29G FLOPs) 且原生兼容FSDP和FlashAttention等分布式训练框架[22][24][25] - 引入正切空间变换的时间重参化加权策略 优先短间隔转移训练 有效控制梯度方差并提升稳定性(加权函数w(t,r)=(σ_data+tan(t)-tan(r))^{-1/2})[29][31] 性能表现 - 在Geneval数据集测试中 TiM-865M在NFE=1时FID达49.91 明显优于基线SiT-B/4的309.5 在NFE=50时FID进一步降至17.99[22][32] - 少步生成能力突出:NFE=8时FID为26.09 超越FLUX.1-Schnell(12B参数) 多步生成上限超过FLUX.1-Dev(12B参数)[20][32] - 架构优化贡献显著:解耦时间嵌入(De-TE)和间隔感知注意力(IA-Attn)使NFE=1的FID从56.22降至48.30 结合时间加权后进一步优化至47.46[32] 行业影响 - 提供可扩展的十亿参数级基础模型训练方案 突破传统JVP方法的内存瓶颈(内存占用从14.89GiB优化至15.23GiB)[22][24] - 原生支持多分辨率与多横纵比生成 适应实际应用场景的多样化输出需求[20][34] - 为生成式AI建立统一框架 将局部解拓展到全局生成路径的解流形 推动生成模型向更通用、稳定方向发展[16][33][35]
AI解数学题只靠最后一个token
量子位· 2025-09-14 05:05
henry 发自 凹非寺 量子位 | 公众号 QbitAI 大语言模型在解心算题时,只依赖最后一个token? 最近,来自加州大学圣克鲁兹分校、乔治·梅森大学和Datadog的研究人员发现:在心算任务中,几乎所有实际的数学计算都集中在序列的 最后一个token 上完成,而不是分散在所有token中。 这意味着,相较于在Transformer和多层感知机(MLP)中常见的 全局信息访问 ——即每个token在预测时都能查询并利用整个上文信息 ——在诸如心算这样的特定任务中,全局访问其实并不是必需的。 这是怎么一回事? 心算只要最后一个token?! 总的来说,研究人员采用了 上下文感知平均消融(Context-Aware Mean Ablation, CAMA) 和 基于注意力的窥视(attention-based peeking) 技术对 Llama-3-8B 等Transformer架构的模型进行了一系列的消融实验。 这些实验通过系统性地移除或改变模型的一部分,探究能让模型依然表现良好的 "最少计算量" 。 在这一过程中,研究人员发现模型内部会形成一个稀疏子图(sparse subgraph)——他们把它称 ...