Workflow
量子位
icon
搜索文档
谷歌认领最强AI版Photoshop!现在人人可用,效果确实强悍
量子位· 2025-08-27 05:49
不圆 时令 发自 凹非寺 量子位 | 公众号 QbitAI 爆火的神秘图像编辑模型 nano-banana ,终于脱掉了"香蕉皮"! 就在今天,谷歌官方认领,并表明这个模型其实是 Gemini 2.5 Flash Image 。 最新一波官方Demo也来了: 还展现出了高超的图像推理能力: 现在该模型可以在Gemini和Google AI Studio上免费使用,同时API以每张图像0.039$(折合人民币0.28¥)的价格开放。 模型的具体表现如何?一起来看~ 出色的图像编辑能力 官方给出了很多有趣的用法。 除了常规的修图方式,它还可以 合并最多三张图片 来创造新事物。 生成超现实艺术,组合不同的照片元素,或无缝融合物体、颜色和纹理。 而在官方实锤之前,网友们也早就被nano-banana的各种私家case吸引,开启疯狂讨论。 比如说精准改变面部表情和天气。 或者让秃头男人重新拥有不同发型。 网友表示:PhotoShop岌岌可危。 或者轻松实现设计想法。 还可以用几张照片生成堪称电影画面的连贯剧情故事。 毕竟这个"香蕉"不仅可以完成平面图像的编辑,甚至还可以进行2D到3D的转换。用户只需提供一张普通的2D图 ...
破解人机协作密码:工作技能拆成两层,AI执行人类决策成功率狂飙 | ICML 2025
量子位· 2025-08-27 05:49
研究框架与核心观点 - 提出将工作技能拆分为决策判断与执行实施两个层次的数学框架 用于分析人类与AI的协作模式 [2][8] - 人类和AI在不同技能层面各具优势 优势互补时整体成功率远高于单独工作 [2][14] - 该框架揭示了人类价值优势所在及AI重塑人类工作的具体路径 已被ICML 2025接收 [4][5][8] 技能解构理论 - 工作被解构为技能单元 每项技能包含决策判断(确立目标 界定问题 权衡取舍)和执行实施(实施计划 运用工具达成结果)两个核心构件 [8][10][19] - 以软件工程师为例 AI工具接管大部分执行环节(如GitHub Copilot和GPT自动化代码编写) 但人类价值不降反升 角色转向监督与方案制定 [9][11] - 决策与执行的分离成为劳动力市场新分水岭 在医生诊断(AI标记异常 医生敲定方案)和分析师(AI草拟报告 人类确定叙事框架)等高技能工作中普遍存在 [13] 数学模型与应用 - 通过量化决策难度与执行难度 建立人类与AI的"能力图谱" 可测算任意劳动力-岗位组合的成功概率(job success probability) [16] - 研究发现成功概率存在相变现象:决策层技能微小进步可能触发成功概率非线性跃升 从几近必然失败转向几近必然成功 [18] - 使用O*NET数据库提取岗位结构 通过Big-bench Lite基准测试获取劳动者能力数据 并借助大语言模型验证理论预测 [23][24] 协同效应与生产力影响 - 强于决策的人类与擅于执行的AI配对时协同效能超越个体能力 为设计高效人机团队提供数学基础 [21] - 生成式AI通过补足低技能劳动者的执行短板 显著提升其成功概率 缩小与高技能劳动者的能力差值(生产力压缩效应) [21] - 技能互补的劳动者组合或人类与AI协作能显著提升岗位成功率 [26] 实践指导意义 - 技能升级路径需聚焦决策层能力(定义问题 权衡目标 调整策略)而非易被淘汰的执行层工具使用 [27][28][29] - 招聘策略应转向识别互补优势(如高决策力但执行欠佳人才) 辅以AI工具稳定产出 而非依赖全能型人才 [30][31] - 需构建识别决策层卓越能力(判断力 验证力 战略推演)的体系 为人类判断而设计工作流程 [32][33]
数字技术工人已到岗!时序大模型+Agent已掌握了工厂生产管控技术,比人类更懂工况
量子位· 2025-08-27 04:15
文章核心观点 - 基于时序大模型和Agent技术的"数字技术工人"已实际应用于化工、环保、新能源等工业场景,能够快速承担生产操作、安全控制等关键任务,解决行业专家稀缺问题 [1][2][3] - 河谷工业智能体平台通过自研时序大模型与创新工艺维度训练方式,实现Agent快速部署(最快1周上岗)和跨行业泛化应用 [18][33][36] - 数字技术工人已在实际案例中替代人类班组(如合成氨控制班组),提升生产效率、稳定性和安全性 [12][13][16] 技术实现方案 - 感知能力:实时获取传感器数据、业务指标及温度/压力/流速等核心生产数据 [5] - 认知决策:通过大语言模型消化工艺文档与专家经验,时序大模型输出控制决策与趋势预测 [5][25][26] - 执行能力:直接操作工业软件系统及硬件设备 [6] - 核心模型:自研工业时序大模型Geegobyte-g1采用改良only-decoder架构,处理强时序关联的噪声数据 [19][20][41] 应用场景与案例 - 合成氨生产:数字工人替代三班倒控制班组,自主管理动态工况并保障生产安全 [12][13] - 垃圾焚烧发电:承担炉排及进风控制任务,人类转为安全监管角色 [14] - 通用岗位覆盖:包括设备操作员、工艺班长、能源管理员、安全员、计划员等11类角色 [11] 行业需求与商业化 - 人才短缺:化工等行业面临优质人才稀缺、培养周期长、人才争夺战激烈 [43][45] - 商业模式:提供一次性采购或按需付费(时薪/月薪+年终奖)两种合作方式 [51] - 部署效率:0样本客户2个月内完成部署,有样本客户仅需1周上线 [36] - 企业接受度:传统保守企业主动寻求合作,反映行业需求迫切 [48][49] 平台优势与创新 - 训练创新:以工艺类型(非行业)划分训练目标,突破跨行业泛化瓶颈 [28][33] - 数据需求:仅需半个月数据即可生成初始版本投入影子陪跑 [36] - 底层技术:Transformer-based时序预测研究结合工业互联网研发经验 [41] - 团队背景:创始人王筱圃为中科大计算机博士,团队具备算法研发与工业落地双重经验 [41]
阿里开源14B电影级视频模型!实测来了:免费可玩,单次生成时长可达分钟级
量子位· 2025-08-27 02:24
产品发布与特性 - 阿里发布音频驱动视频生成模型Wan2.2-S2V 仅需一张图片和一段音频即可生成电影级数字人视频 [1] - 模型支持单次分钟级生成 具备影院级音频生成视频能力和基于指令的高级动作与环境控制 [5] - 模型通过混合并行训练和全参数化训练构建超60万个音视频片段数据集 [19] 技术实现 - 融合文本引导全局运动控制和音频驱动细粒度局部运动 实现复杂场景音频驱动视频生成 [19] - 采用AdaIN+CrossAttention控制机制解决音画同步问题 [20] - 利用层次化帧压缩技术将历史参考帧拓展到73帧 实现稳定长视频生成 [21] - 通过多分辨率训练支持竖屏短视频和横屏影视剧等不同分辨率场景生成需求 [22] 用户体验与效果 - 模型生成视频面部表情自然 口型一致且肢体动作丝滑 [1] - 用户可通过通义万相官网免费体验 每日登录赠送50积分 [11] - 实测显示模型对口型能力出色 唇形与台词基本匹配 [13] - 用户生成内容涵盖动漫人物朗诵 人物贴画唱歌及大段rap演绎等多种场景 [15][16][17] 生态影响与市场表现 - 通义万相视频生成模型家族在开源社区和第三方平台下载量已超2000万 [23] - 模型发布即开源 可通过GitHub Modelscope和HuggingFace等平台获取 [24]
马斯克星舰试验再创历史!3次爆炸3次推迟终成功,顺利完成太空载荷部署
量子位· 2025-08-27 02:24
发射试验概况 - 星舰第十次发射试验于美国中部时间26日19时36分取得圆满成功 S37飞船成功落入印度洋目标海域[1][2][44] - 本次发射采用B16发动机搭配S37飞船的组合体 目标包括扩大助推器运行范围 进行有效载荷部署和多次再入实验[10][12] - 发射过程中虽有一台发动机损失 但未影响整体飞行和着陆过程[17] 发射过程细节 - 点火后1分钟通过最大气动压力点 2分半左右助推器引擎熄火 16秒后完成船箭分离[14][18] - 助推器于6分42秒成功落入墨西哥湾预定海域 高度达2400米时展示喷火画面[20][25] - S37飞船在发射后第9分钟进行熄火准备 19分13秒成功释放首个模拟卫星载荷[24][27] 技术突破与改进 - 本次试验完成首次有效载荷部署 共释放8个载荷 并成功实现太空二次点火[30][34][35] - 第二代星舰采用电力推力矢量控制系统取代液压控制 并测试新一代防热瓦包括主动冷却金属瓦[51][52] - 针对此前燃料扩散器问题 公司重新设计结构并完成严格认证 承受超过预期使用寿命十倍的时长[55][56] 历史试验背景 - 此前三次试飞均未成功 分别因推进剂泄漏 发动机硬件故障及姿控失效等问题导致失败[53][54] - 本次发射原计划6月下旬进行 但因S36飞船静态点火测试爆炸而改用S37飞船 并经历多次天气和技术延误[45][47][49]
DeepSeek“极你太美”bug,官方回应了
量子位· 2025-08-27 02:24
核心观点 - DeepSeek V3 1模型在代码生成输出中随机出现"极"字 导致编译失败等问题 引发开发者社区广泛讨论[1][2][5] - 问题根源被推测为数据清洗不彻底 模型将"极"字作为终止符或语言切换标记学习[19][21][22] - 官方已确认将在近期版本修复该问题[12] 事件表现 - 多个平台包括火山引擎 chutes 腾讯CodeBuddy和DeepSeek官方均出现输出异常[5] - 异常表现为随机输出"extreme" "极" "極"等字符[7][8] - 问题对需要高精度 结构化输出的代码开发场景造成严重影响[11] 临时解决方案 - 通过提示词工程缓解问题 禁止特定符号序列模式[空格][token][占位符]的出现[15][18] - 该方法主要适用于调用API的第三方平台 DeepSeek官方平台暂不需要[18] 技术分析 - 类似问题曾在早期R1模型中出现 表现为枚举素数时输出"极长"作为终止符[21] - 模型在陷入thinking循环时有千分之一概率输出"极"字后终止思考[21] - 问题可能与SFT数据合成和预训练数据清洗不彻底有关[22] - 模型可能通过RAG技术学习到"极"字作为特殊标记[22]
英伟达韩松团队新作:具有后神经架构搜索的高效语言模型
量子位· 2025-08-26 08:11
模型性能表现 - 在生成吞吐量上实现最高53.6倍加速,在预填充阶段达到6.1倍加速[1] - Jet-Nemotron-2B相比Qwen3-1.7B-Base吞吐量提高47倍,缓存大小缩小至1/47[3] - 实现了比DeepSeek-V3-Small和Moonlight(共150亿参数,22亿激活参数)更高的准确率[4] - Jet-Nemotron-2B在数学任务上取得49.6的平均准确率,比Qwen3-1.7B-Base高6.3,同时速度快47倍[26] - 在常识推理任务上,Jet-Nemotron-2B平均准确率达到62.0,超越所有基线模型[30] - 在检索任务上,Jet-Nemotron-4B达到76.2的最佳平均准确率,与Qwen3相比保持21倍速度提升[34] - 在编码任务上,Jet-Nemotron-2B平均准确率59.5高于所有基线模型[37] - 在长上下文任务上,Jet-Nemotron-2B性能堪比拥有更多全注意力层的领先模型[39] 技术架构创新 - 基于后神经架构搜索(PostNAS)构建,继承预训练全注意力模型的多层感知机权重并保持冻结[6][7][9] - 通过4个步骤优化:全注意力层的放置和消除、选择线性注意力模块、设计新型注意力模块、执行硬件感知架构搜索[10][13][16][19] - 引入JetBlock新型线性注意力模块,使用卷积核生成器动态生成因果卷积核[17][18] - 硬件感知架构搜索将KV缓存大小固定为原始设计规格,对key维度、value维度和注意力头数进行网格搜索[21][22] 基准测试对比 - Jet-Nemotron-2B参数2.0B,缓存大小154MB,吞吐量2,885 token/s,MMLU准确率60.8,MMLU-Pro准确率39.0,BBH准确率58.3[5] - Jet-Nemotron-4B参数4.0B,缓存大小258MB,吞吐量1,271 token/s,MMLU准确率65.2,MMLU-Pro准确率44.2,BBH准确率65.0[5] - 在Gated DeltaNet注意力模块中实现最优整体准确率,后续实验均采用该模块[15] - 在多项任务测试中表现与Qwen3-1.7B-Base相当或更优,同时全注意力层显著减少且KV缓存规模更小[42][43] 团队背景 - 研究团队全为华人,包括来自清华大学、麻省理工学院、加州大学伯克利分校等知名院校的研究人员[44][45][49][50][51][52] - 韩松教授为麻省理工学院电子工程学院副教授,提出了深度压缩技术和高效推理机,影响NVIDIA安培GPU架构[53] - 韩松是TinyML研究先驱,创办的OmniML被英伟达收购,其团队成员加入英伟达成为杰出科学家[54] - 蔡涵为NVIDIA研究院研究科学家,拥有麻省理工学院博士学位[55] 开源计划 - 研究团队计划在GitHub上公开代码和模型,目前正等待法律合规审核[23] - 参考链接包括arXiv论文和GitHub项目页面[56]
GPT-5通关《宝可梦水晶》创纪录!9517步击败赤爷,效率碾压o3三倍!
量子位· 2025-08-26 08:11
GPT-5在《宝可梦水晶》中的性能表现 - GPT-5仅用9517步通关《宝可梦水晶》,效率远超o3的27040步(o3步数为GPT-5的2.8倍)[3][4] - 通关时间仅需202小时(约一周),而o3需近一个月,人类玩家通常需5天(每天8小时)[4][5] - 在主线任务中,GPT-5收集16枚徽章仅用9205步,o3需22334步(GPT-5效率为o3的2.4倍)[10] - 从收集徽章到击败最终boss赤爷,GPT-5仅用312步,o3需近5000步(GPT-5加速超16倍)[11] - 在四天王和冠军剧情中,GPT-5用7329步,o3用18115步(GPT-5效率为o3的2.5倍)[14] GPT-5的核心能力优势 - 幻觉显著减少,决策速度更快,成为效率提升的主因[21] - 空间推理能力更强,能规划长行动序列且几乎无错误,避免o3常见的穿墙或迷路问题[21] - 目标规划与执行能力出色,优于其他模型[21] - 通过多层信息整合(游戏截图、内存数据、文本规划)实现接近人类的决策能力[27][28] - 配备自我批评机制(Critic/Guide模型),定期评审并避免常见失败模式[33] 宝可梦游戏作为AI性能测试基准 - 游戏可衡量模型的上下文处理、决策规划及界面控制能力[29] - 需整合系统提示、游戏截图、内存信息及文本规划工具[27] - 专门构建标记地图辅助定位,模拟人类玩家的空间认知方式[32] - 但测试成本极高:通关《宝可梦红》(游戏长度仅为《水晶》一半)消耗约3500美元API费用,单token成本超4元人民币[30][31] 行业竞争与历史背景 - OpenAI联合创始人Greg Brockman公开认可GPT-5表现[18] - 此前Google Gemini 2.5 Pro于2024年5月通关《宝可梦蓝》,而Anthropic Claude仍困于剧情[23][24] - 宝可梦成为多厂商大模型性能测试的共性选择,凸显其作为复杂决策基准的价值[26]
阿里老兵造出会说话的迪迦!AI玩具单品20万销量,红杉等2亿A轮抢投
量子位· 2025-08-26 08:11
公司背景与融资 - 跃然创新(Havivi)是一家基于AIGC技术的玩具公司 由阿里前天猫精灵高管创立 专注于AI毛绒玩具赛道 [6][34] - 公司完成2亿元A轮系列融资 由中金资本旗下基金、红杉中国种子基金、华山资本等领投 资金用于新品研发、人才建设及市场拓展 [8] 产品迭代与技术升级 - 首代产品BubblePal为挂件型AI玩具 售价399元 需长按对话且仅支持2.4G WiFi 退货率较高 [9][17][26] - 第二代产品CocoMate奥特曼联名款(迪迦/赛罗)为全球首款端到端AI玩具 售价699元(较上代涨价300元) [11][17] - 技术升级包括:端到端语音模型(响应速度800ms)、4G联网、3000mAh电池(上代800mAh)、NFC卡牌系统、多音轨混音及深度思考模型 [27][33][45] - 新增遗忘机制 通过函数模型动态筛选记忆内容 避免信息过载 [47][48][49] IP战略与用户定位 - 采用"头部IP授权+艺术家签约"双模式 IP被视为玩具灵魂 首批选择迪迦/赛罗因知名度与衍生品销量最高 [14][15][16] - 目标用户为3-8岁儿童 产品通过全球安全认证 面料及电子模组均采用高规格标准 [30][31] - 未来规划两条产品线:儿童线(高知名度IP)和成人线(情绪陪伴型设备) 后者预计今年上市 [60][61][62] 市场表现与竞争壁垒 - 首代产品BubblePal销量达20万台 成为全球销售最快的AI硬件产品 [40][55] - 公司认为短期壁垒在于IP与技术体验 长期壁垒在于用户与AI建立的情感记忆 [56] - 目前同量级对手较少 但计划在出货量达100万台后推动行业生态扩张 [58] 技术细节与用户体验 - 与字节联合调试端到端语音模型 支持防噪音打断、故事不中断及古诗词专模调用 [27][28] - 通过RAG实现长期记忆 同时依据时间、频率、关联度及情绪浓度动态遗忘非关键信息 [47][48] - 角色设定强绑定世界观 确保迪迦/赛罗等IP的回答符合原生角色逻辑 [42][43]
大模型开发生态还有哪些新机遇?9月13日来外滩找答案 | 报名开启
量子位· 2025-08-26 05:46
论坛概况 - 论坛主题为AI开源时代构建全球生态与可持续增长 由蚂蚁开源与魔搭社区联合主办 将于2025年9月13日亮相上海外滩大会[1][5] - 活动设置三场主题演讲与两场圆桌讨论 聚焦大模型开源生态 Vibe Coding及AI Agent等前沿方向[1][2] - 专业观众限350个席位 目前已开放报名通道[2] 主题演讲内容 - 蚂蚁集团开源技术委员会副主席王旭将基于社区数据分析全球大模型开源生态全景与趋势 为技术决策提供中立参考[1][5] - 魔搭社区产研负责人陈颖达将分享社区汇聚9万+优质模型的实践 阐释模型即服务(MaaS)理念如何驱动开源生态螺旋式进化[1][8] - 硅基流动联合创始人杨攀将从基础设施提供商视角 解析全球开源模型生态的竞争协作格局及产业实践[1][9] 圆桌讨论方向 - 首场圆桌聚焦Vibe Coding 探讨AI如何重构软件开发全流程 包括代码生成 调试优化及架构设计等环节[11] - 次场圆桌聚焦AI Agent技术演进与AGI路径 涵盖多模态理解 长期记忆构建及动态环境适应等核心能力突破[13] - 圆桌嘉宾来自蚂蚁集团 字节跳动 光年之外 ClackyAI等机构 涵盖技术专家 产品负责人及创业者[11][13][15] 行业参与机构 - 参与机构包括蚂蚁集团 字节跳动 粤港澳大湾区数字经济研究院 光年之外 ClackyAI CAMEL-AI.org及Fellou等[2] - 论坛汇聚开源技术专家 AI行业领袖及社区先锋 旨在推动跨国界跨领域协作生态构建[5]