Workflow
量子位
icon
搜索文档
英伟达自毁CUDA门槛!15行Python写GPU内核,性能匹敌200行C++
量子位· 2025-12-08 04:00
文章核心观点 - 英伟达发布CUDA 13.1,推出全新的CUDA Tile编程模型,这是CUDA自2006年诞生以来最大的进步,旨在彻底改变并大幅降低GPU编程的门槛[1][2] - 新模型让开发者可以用Python编写GPU内核,15行Python代码性能即可媲美200行手动优化的CUDA C++代码,使得更多数据科学家和AI研究者能直接上手高性能GPU编程[3][22] - 行业专家Jim Keller认为,这种提高抽象层次、降低硬件依赖的编程范式,可能削弱英伟达以CUDA生态构建的护城河,使得AI内核更容易移植到其他厂商的硬件平台[5][15][17][18] CUDA Tile编程模型的革新 - 传统CUDA采用SIMT(单指令多线程)模型,开发者需手动管理线程索引、线程块、共享内存布局和线程同步等复杂细节,对开发者经验要求极高[6][7] - CUDA Tile模型彻底改变玩法:开发者将数据组织成Tile(瓦片),并定义在Tile上的运算,而如何将运算映射到GPU的线程、Warp和Tensor Core等硬件细节则由编译器和运行时自动处理[8] - 新模型类比NumPy之于Python,通过提高抽象层次简化了编程[9] 新模型的核心技术组件 - **CUDA Tile IR**:一套全新的虚拟指令集,在高级语言和硬件之间增加抽象层,确保基于Tile编写的代码能在不同代际的GPU上运行,包括当前的Blackwell及未来架构,提供跨代兼容性[11][18] - **cuTile Python**:面向开发者的接口,允许直接用Python编写GPU内核,将编程门槛从“HPC专家”大幅降低至“会写Python的数据科学家”[12] 性能优化与当前支持范围 - 目前CUDA Tile仅支持Blackwell架构(计算能力10.x和12.x),开发重点集中在AI算法上,公司表示未来会扩展到更多架构并推出C++实现[14] - 更新带来一系列面向Blackwell的性能优化:cuBLAS引入FP64和FP32精度在Tensor Core上的仿真功能;新增的Grouped GEMM API在MoE(混合专家模型)场景下能实现高达4倍加速;cuSOLVER的批处理特征分解在Blackwell RTX PRO 6000上相比L40S实现了约2倍的性能提升[16] - 开发者工具Nsight Compute新增对CUDA Tile内核的性能分析支持,可将性能指标直接映射回cuTile Python源代码[16] 对行业竞争格局的潜在影响 - Tile编程模型并非英伟达独有,AMD、Intel及其他AI芯片厂商的硬件在底层架构上同样可以支持基于Tile的编程抽象[15] - 过去CUDA的SIMT模型与英伟达硬件深度绑定,代码难以移植到其他硬件。而Tile模型的高抽象层次使得同一套算法逻辑理论上更容易适配到其他支持Tile编程的硬件上,可能降低CUDA生态的锁定效应[15][17] - 专家Jim Keller指出,这可能导致“AI内核将更容易移植”[18] - 然而,英伟达的CUDA Tile IR提供的跨代兼容性主要服务于其自身平台,开发者代码更容易在英伟达不同代GPU(如从Blackwell到下一代)间迁移,但要移植到AMD或Intel平台仍需重写[19][20] 对开发者生态的影响 - GPU编程门槛大幅降低,从需要稀缺的、能熟练驾驭CUDA并优化至跑满Tensor Core的专家,扩展到广大会写Python的数据科学家和AI研究者[21][22][23] - 公司表示,一个15行的Python内核性能可以媲美200行手动优化的CUDA C++代码,打通了高性能计算与更广泛开发者群体之间的瓶颈[22]
打工15年,被大厂裁4次了
量子位· 2025-12-07 11:00
文章核心观点 - AI技术引发的结构性失业正在重塑科技行业就业格局,企业倾向于用技术或懂AI的员工替代传统劳动力,导致大量岗位永久消失[30][31][38][39][40][41][51][57][59] - 面对行业剧变,科技从业者需转变观念并积极学习AI技能以适应新环境,部分人通过转型为“超级个体”或加入非传统科技公司找到了新的职业路径[69][70][74][76][78][82][83] 科技行业裁员现状与规模 - 2025年开年以来,已有超过200家科技公司宣布裁员,约11万名科技从业人员失去工作[31] - 具体案例包括:亚马逊在2025年10月裁员1.4万人[32];英特尔在2025年7月宣布裁员2.4万人,约占其员工总数的22%[33];微软在2025年5月和7月共裁员1.5万人[34] AI驱动裁员的经济学逻辑 - 当前失业主要是由技术变革引起的“结构性失业”,岗位需求因新技术发生根本性变化,难以挽回[38][39][40] - 企业决策依据是单位产出成本:当AI的单位技术成本远低于人类劳动的单位成本时,企业会选择技术替代[41][45][46] - AI具备主体性特征,能独立完成整段工作流程,企业在投入技术时无需按以往比例投入劳动力,导致工作岗位永久消失[49][50][51] 企业业绩与裁员并存的矛盾现象 - 亚马逊2025年第二季度销售额同比增长13%,达到1677亿美元,业绩超出预期,但仍在10月执行裁员计划[53][54] - 企业裁员并非因为暂时雇不起员工,而是根本不再需要那么多员工,AI被用于提高效率并减少员工总数[55][56][57] 从业者的应对与转型路径 - 短期应对策略是“团队重组”,用懂AI的员工替换不懂AI的员工[59] - 长期趋势催生了“超级个体”与“一人公司”的兴起,2024年美国新注册的初创企业中,有35%由单一创始人独立创立,该比例是2017年的两倍多[69][70] - 具体转型案例包括:前大厂员工开设24小时棋牌室并运营社群[67]、转型为旅游陪玩兼摄影师[67]、产品经理开设融合文创与社交的包子铺[68] - 主人公老李(Lee Givens)在失业半年后,通过恶补AI知识(如学习PyTorch等框架),最终在丰田子公司Woven by Toyota找到产品经理工作,年收入达六位数美元,高于其在Meta和苹果时期的收入[76][78][80]
实测完豆包Seedream 4.5,替我设计师朋友哭了
量子位· 2025-12-07 09:00
嘻疯 发自 凹非寺 量子位 | 公众号 QbitAI 豆包升级上新,火山引擎带着 图 像创作模型 Doubao-Seedream-4.5 来了。 新模型有三个主打点。 一是强化了 原 图保持能 力 ,最大化保持原图的人脸、光影与色调、画面细节,可以用来P图。 例如"只保留绿线中的人物,将其他角色都删掉": 再复杂一些,将白天变为黑夜: 二是重点强化了 多图组合生成能力 。 在官方展示中,输入8张参考图,并指定画面布局后,让它生成图画故事书封面: 童话故事书封面:小女孩与小狐狸站在发光森林小屋前,月亮巨大而梦幻,星尘在他们周围飘浮;萤火虫的光点点亮草地;小白花细致 点缀;雾气营造柔和深度;古铜色童话边框华丽包围整个场景;色调是蓝紫与暖金对撞;角色面部特征保持原图一致;整体梦幻、温 柔、魔法感强烈,适合作为儿童绘本封面。 把图片中的英文转成手写体中文: Seedream-4.5 能 精准执 行复杂指令,将多种元素精准识别提取出来 ,并自然融合: 同样地,让多个角色"拍"一张大合照: 模型也能生成无违和感的群像画面: 反过来,根据一张参考图,一次性生成6张海报,比例分别改成1:1、2:3、4:3、16:9、1:2、 ...
他们让万亿参数RL学会了「省着跑」,顺便砍掉九成算力
量子位· 2025-12-07 09:00
AI大模型竞争焦点转移 - 行业竞争焦点正从预训练和数据红利,转向强化学习(RL),RL正从“锦上添花”变为大模型进化的主战场 [1][2][3] - 证据包括:DeepSeek V3.2的RL训练算力投入已超过预训练的10%,且性能曲线仍在上升;OpenAI的o系列、Claude的推理能力及Gemini的多模态表现背后均有大规模RL支撑 [2][10] 万亿参数RL训练的成本挑战与突破 - 在万亿参数模型上进行全参数RL训练成本极高,需要上千张顶级GPU、训练周期数周,形成资源垄断,绝大多数团队无法负担 [4][11] - Mind Lab团队取得突破,实现了全球首个在1T参数模型上的LoRA高效强化学习训练,将GPU消耗降低90% [5] - 该方案并非简单的工程优化,而是训练范式的根本性转变,相关代码已由NVIDIA Megatron-Bridge和Seed verl官方合并并开源 [6] 技术方案:LoRA RL在万亿参数MoE模型上的实现 - 核心解法:采用LoRA进行参数高效适配,配合专为万亿参数MoE模型设计的混合并行引擎,将RL计算量降至十分之一且性能不打折 [13] - 在Kimi K2模型上的验证显示,仅使用64张NVIDIA H800 GPU即可完成万亿参数RL训练 [14] - 验证取得三项关键成果:1) GPU消耗仅为传统全参数RL的10%左右;2) 训练稳定收敛;3) 在提升特定任务表现的同时,保留了基座模型的通用能力 [18][19][20] 克服MoE架构下的技术难题 - 在MoE架构上应用LoRA RL面临三大挑战:路由不均衡、通信压力爆炸、并行布局复杂 [21][22] - Mind Lab的解决方案是设计了一套混合协同并行引擎,统一调度Tensor、Pipeline、Expert、Sequence四种并行方式,并将并行视为可调度资源 [26] - 针对训练与推理使用不同后端导致的策略不匹配问题,引入了截断重要性采样比率进行显式修正,以控制梯度方差 [29][30] “大先验+小LoRA”策略的经济性优势 - 实验对比了不同规模模型采用全参数RL与LoRA RL的效果,为公平比较,控制了总RL FLOPs、环境交互次数及奖励模型等变量 [36][40] - 使用“headroom-normalized”指标评估,结论显示:32B参数模型配合rank=8的LoRA,在相同RL计算预算下,获得的性能提升比例最大 [37] - 在域外任务GPQA上,32B+LoRA的迁移效果也最好,表明“大先验+小LoRA”策略比“小模型全参数RL”更划算,因为大模型已编码丰富先验知识,RL可在此基础上精修 [38][39] 配套技术创新:Memory Diffusion记忆机制 - Mind Lab提出名为“Memory Diffusion”的新记忆机制,灵感源于人类“智慧地遗忘”,通过“遮蔽-分配-重填”三步动态压缩轨迹记忆 [45][46][47] - 该方法时间复杂度为O(1),不改变模型架构,严格遵守上下文预算 [48] - 在Locomo基准测试上,该机制达到了93%的准确率,刷新了SOTA记录 [49] 研产共设理念与产品化成果 - Mind Lab提出“研产共设”理念,认为真实产品是天然的RL环境,能提供持续、接地气的奖励信号,如用户使用模式、任务完成率等,有助于避免奖励模型被“破解” [50][51][54] - 在前端代码生成任务实验中,使用真实人类反馈训练的奖励模型显著优于仅预训练的模型,基于此的RL也显著优于监督微调 [56] - 技术已落地于Macaron AI产品,使其Mini-app生成速度从20分钟提升至2分钟,速度提升10倍,并上线了新功能 [57] 行业展望与Mind Lab定位 - 行业观点认为,以“算力规模化”为核心的预训练时代正在走向终结,下一个时代将是“经验智能”时代,智能需在真实世界中成长 [58][59][61] - Mind Lab定位为全球首个专门为“后预训练时代”而生的研究实验室,其核心命题是“智能如何在真实世界中成长”,主张下一个时代属于能通过交互不断更新的“心智” [60][61] - 团队核心研究方向包括:1) 基础设施;2) 超越预训练;3) 开放与可复现 [65]
下周三!量子位的这件大事就要来了|MEET2026
量子位· 2025-12-07 04:35
大会概览 - 会议名称为MEET2026智能未来大会,主题为“共生无界,智启未来”,关注AI技术如何穿透产业、学科与场景边界 [39] - 大会将于2025年12月10日在北京金茂万丽酒店举办,线下报名通道已开启 [24][37][39] - 大会是业界最具代表性的年度智能商业峰会之一,每年获数千万媒体曝光,吸引千位线下观众与超300万名在线观众 [36] 核心议题与亮点 - 大会将深入探讨生成式AI与智能体等年度最热议题,包括大语言模型、多模态、具身智能、自动驾驶、云计算等主流AI相关领域 [3][5] - 设置两场高浓度对话:一场是文远知行创始人韩旭与量子位总编辑李根关于“第一批自动驾驶创业者的第二个八年”的GenAI Talk [7][8][11] - 另一场是题为“距离AI Agent革新千行百业还有多久”的圆桌讨论,汇聚小宿科技、联汇科技、蚂蚁百宝箱等平台方、技术方与应用方嘉宾 [13][16] - 大会将发布《2025年度AI十大趋势报告》与《2025人工智能年度榜单》,前者梳理年度进展与预见趋势,后者从企业、人物、产品三大维度筛选行业领军者 [35][47] 嘉宾阵容 - 大会累计邀请近三十位重量级嘉宾,覆盖学术界、产业界与前沿创业一线 [17] - 学术界嘉宾包括清华大学张亚勤院士、孙茂松教授,智源研究院王仲远院长,交大高金朱宁教授等 [1][17] - 产业界阵容覆盖芯片、云、模型到终端的全栈力量,包括百度、小米、商汤、蚂蚁、谷歌云、亚马逊云科技、高通、昆仑万维、潞晨科技、PPIO、中关村科金等代表性企业 [1][21] - 新生力量包括卓世科技、太初元碁、RockAI、自变量机器人、光轮智能、云徙科技、灵心巧手等前沿创业公司 [28] 会议议程要点 - 上午议程包括张亚勤院士谈“人工智能+”趋势、百度王颖谈AI打造超级智能体、智源王仲远谈AI从数字世界迈向物理世界、高通谈混合AI、亚马逊云科技谈Agentic AI等 [41] - 上午议程还包括中关村科金谈企业智能体、Google Cloud谈赋能初创企业出海、交大高金朱宁教授进行AI时代的经济学思考、卓世科技谈行业大模型破局等 [42] - 上午以文远知行韩旭的GenAI Talk对话及“2025人工智能年度榜单”发布收尾 [42] - 下午议程聚焦多模态与智能体,包括昆仑万维、商汤、小米、PPIO、潞晨科技、太初元碁、RockAI、百度智能云、自变量机器人、光轮智能、灵心巧手等公司的技术分享与应用探讨 [43][44][45] - 下午压轴环节为孙茂松教授谈生成式AI前沿态势,以及“距离AI Agent革新千行百业还有多久”的前沿圆桌讨论,最后发布《2025年度AI十大趋势报告》 [45]
苹果芯片主管也要跑路!库克被曝出现健康问题
量子位· 2025-12-07 04:35
苹果高管持续动荡 - 苹果硬件技术高级副总裁、自研芯片项目架构师Johny Srouji已向CEO库克表达去意,若离开将加入其他公司[1][3] - 这是本月内第四位处于动荡状态的高管,此前苹果AI负责人John Giannandrea和首席UI设计师Alan Dye已先后离任,后者立刻转投Meta[3] - 一系列人事变动使苹果陷入数十年以来最大规模的高管变动,领导结构正在重塑[10][17] 关键人物Johny Srouji的背景与影响 - Johny Srouji于2008年加入苹果,已工作17年,加入之初即领导开发苹果第一颗自研系统芯片A4[4][5] - 其一直担任苹果芯片负责人,领导了从移动端A系列到桌面级M系列芯片的自研进程,职位升至硬件技术高级副总裁[5] - 最近还启动了苹果自研调制解调器项目,旨在进一步替代高通芯片[6] - 为挽留他,公司内部不仅考虑提高薪酬,甚至有人提出让其担任CTO,负责硬件工程和芯片技术,成为CEO之下的二号人物[8] 高管离职去向与公司应对 - 多位离职高管流向Meta,包括首席UI设计师Alan Dye,其被视作Jony Ive之后苹果美学的定义人,将在Meta牵头硬件、软件和AI界面整合[11][12] - 10月,刚接手Siri AI能力开发的高管Ke Yang同样离职加盟Meta[14] - 作为应对,苹果挖走了Meta的首席法务官Jennifer Newstead,以接替将于2026年底退休的总法律顾问Kate Adams[15] 其他高管变动与权力集中 - 负责环境、政策和社会倡议的苹果副总裁Lisa Jackson也将退休[16] - 公司权力正向四位关键高管集中:热门CEO接班人选John Ternus、服务主管Eddy Cue、软件主管Craig Federighi以及新任COO Sabih Khan[18] 关于CEO库克的状况与继任问题 - 65岁的库克本人备受关注,除年龄外,被曝在内部会议和大型集会上双手会时不时发抖,但接近其人士否认了健康问题传闻[19][20][21] - 短期内库克不会退休卸任,但其状况引发了对“谁会是苹果下一任CEO”的热烈讨论[22]
跨境电商的疑难杂症,被1688这个AI全包了...
量子位· 2025-12-07 04:35
文章核心观点 - AI正从辅助工具转变为能创造真实商业价值的生产力,特别是在B2B领域[1] - 阿里巴巴旗下1688平台正全力押注AI,以重塑跨境电商行业,其新推出的AI智能体“遨虾”旨在通过提升选品、采购、上架等核心环节的效率,降低跨境贸易门槛[2][3][54] - AI通过解决信息不对称和规模效应两大难题,有望将分散的海外市场“拼接”成一个可规模化运营的大市场,使跨境电商变得像内贸一样简单[66][78][80] 1688平台与AI战略布局 - 1688是中国最大的B2B供应链平台,连接了超100万家产业带源头工厂与上亿B端买家[5] - 平台年交易额已超8000亿元,其中跨境交易额超过2000亿元[6] - 公司以“梭哈”的决心布局AI,已推出1688 AI版App、诚信通AI版及跨境电商AI智能体“遨虾”等一系列AI原生产品[2][3] 跨境电商的传统痛点与AI解决方案 选品环节 - 选品是跨境电商成功的关键,选对爆品可带来3~5个月的持续进账,选错则导致亏损[11][12] - 传统选品高度依赖人力,一家200人规模的跨境电商公司需约30多名买手,耗时一周进行信息搜集,且结果往往依赖“直觉”[12] - 跨境选品面临巨大挑战:需提前数月预测海外流行趋势(如2月需决定5月在美国销售的T恤款式),且需应对不同国家、族裔在文化、审美、尺寸上的巨大差异[14][15][20] - AI解决方案:以“遨虾”为例,其具备选品规划和工具调用能力,能在几十秒内完成海量商品筛选和多线程分析,自动计算垄断系数、平均得分、中国商家占比等指标,并生成量化的商业分析报告[22][24][26] - 示例:针对“flare leggings”的选品分析显示,AI在不到一分钟内完成了原本需一周的工作,并给出“推荐进入”的市场评级,报告包含详细供给(商品垄断系数0.13,中国卖家占比88.8%)、需求(Amazon近30天销量12,880,环比增17.38%)分析[27] 采购环节 - 采购需寻找匹配的供应商,需确认工厂外贸能力、改版、起订量(MOQ)、账期、交期、质检等多项信息,单位信息密度大,耗时耗力[31][35] - 传统流程中,仅凭关键词或图片找工厂效率低下,从看到商品到找到工厂可能耗费一上午,且向每家供应商询盘需重复相同流程[33][34][35] - AI解决方案:用户只需上传商品图片,AI便能识别款式、材料,并从1688供应链数据库中匹配相似款式的工厂,整个过程仅需几十秒[36][37] - AI能根据供应商销量、服务分、跨境经验等维度筛选,并支持批量向多家供应商发起询盘,自动生成结构化的比较报告,极大提升效率[38][39] 上架环节 - 上架涉及为商品创建多语言标题、描述、关键词、图片等,以适应不同平台规则[41] - 跨境电商需适配十几种语言和十几家平台(如俄罗斯Wildberries、中东Noon、拉美Mercado),若靠人工,运营人力成本呈十倍增长[43][44][45] - AI解决方案:利用多模态生成能力,可一次性完成多语言、多平台、多素材的适配,将内容生成变为可复制、规模化的工程[46][47][49] - AI将摄影棚、相机、灯光等生产资料“打包”成基础设施,使不懂拍照、文案的工厂也能轻松完成跨境店铺装修[51][52] AI带来的效率与商业价值提升 - AI未改变跨境电商运作逻辑,但使整条链路在效率与成本上发生翻天覆地变化[54] - 实测显示,许多原本月盈利三四十万元的客户,嵌入“遨虾”后,月利润一度增长至四五十万元[55] - AI通过解决信息不对称(实时汇聚趋势数据、结构化供应商信息)和规模效应(一键多语言翻译、多版本素材生成)两大核心难题,降低了跨境门槛[66][67][77][78] - 当进入海外市场的成本趋近于零,跨境贸易与内贸将无本质区别,跨境电商有望迎来迅猛扩张[80][81] “遨虾”AI智能体的技术基础与竞争优势 - “遨虾”基于阿里“通义千问”系列模型,并为选品、询盘等模块进行了定制化训练,引入了人工专家标注以强化电商垂直领域Agentic Model能力[82] - 其独特优势在于能调用阿里巴巴过去26年在B2B电商链路中沉淀的真实、私域业务数据,构建了壁垒极高的供应链知识库[83] - 这些私域供给端数据(如供应商资质、成本信息)纯净且不易受AIGC“污染”,对于训练模型理解真实商业逻辑(如利润率计算)至关重要,是公开数据无法替代的[84][85][86] - 依托数据护城河,该AI助手能更有效地完成微调与强化学习,成为一个真正懂跨境生意且值得信任的助手[87] 对行业竞争格局的潜在影响 - 国内电商内卷严重,跨境电商被视为更蓝海的市场,在“中国供应链”加持下,“出海”成为新战略方向[56][57] - 但海外市场“肉多狼少”,中国约一千多万内贸电商卖家中,成功出海者不到十分之一,主要因跨境环节复杂度高[59][60] - AI平台遵循“无差别利他”逻辑,不偏袒大卖家,将原本专属大团队的运营能力下放给个人与小微商户[88][90] - 这将使市场竞争的胜负手重新回到商品本身,可能改变行业竞争格局,促进更广泛的参与[90]
Agent微调复活?英伟达开源8B新模型带飞GPT-5:在HLE狂卷37分,还把成本打下来
量子位· 2025-12-07 04:35
核心观点 - 提出一种新的AI任务解决范式:使用一个经过强化学习微调的8B参数小模型作为“指挥家”,智能编排和调用包括代码解释器、网络搜索、数学模型及更强的大模型在内的多种工具,在保证任务正确性的同时,显著优化成本和效率,并能够对齐用户偏好 [1][13] - 在多项基准测试中,该Orchestrator-8B模型在性能上超越了GPT-5等顶级大模型,同时计算成本大幅降低,展示了“小模型指挥大工具/模型”系统的优越性 [1][9] 技术架构与训练方法 - 系统核心名为ToolOrchestra,其将各类工具(网页/本地检索、代码执行、数学与通用LLM等)统一封装为JSON接口,使指挥家模型能够在多轮交互中执行“思考-调用-反馈”的循环直至问题解决 [4] - 采用GRPO强化学习方法进行训练,通过最大化三重奖励来优化指挥家:1) 任务解决的正确性;2) 效率(货币/时延惩罚);3) 用户偏好(如更爱本地检索还是云搜索,更看重速度还是成本) [4][5] - 为支持强化学习训练,研究团队构建了一个名为ToolScale的合成数据集,该数据集覆盖金融、医疗、出行、教育等10个领域,通过LLM生成领域数据库、API及“任务-黄金动作序列”,并经过可验证标准筛选,为训练提供了真实丰富的环境 [7] 性能与成本优势 - 在Humanity's Last Exam (HLE)基准测试中,Orchestrator-8B取得了37.1%的成绩,超过GPT-5的35.1% [1][9] - 在FRAMES(事实推理)基准上,Orchestrator-8B得分为76.3,高于GPT-5的74.0 [9] - 在τ²-Bench(复杂工具调用)基准上,Orchestrator-8B得分为80.2,高于GPT-5的77.7 [9] - 在取得上述性能领先的同时,Orchestrator-8B平均成本仅为9.2美分,时延8.2分钟,显著低于GPT-5的30.2美分成本和19.8分钟时延,计算成本约为对手的三成 [9][10] - 成本-效果曲线显示,在同等预算下,Orchestrator-8B的准确率曲线始终在GPT-5、Claude等之上;在达到相当准确率时花费更少 [11] 解决的问题与系统特性 - 解决了仅靠提示词构建多智能体系统时存在的两大偏见:1) 自增强偏见,即模型倾向于调用同家族模型(如GPT-5调用GPT-5-mini)导致性能下降;2) 他增强偏见,即无脑调用最强模型导致成本爆表(如Qwen3-8B大量调用GPT-5) [3][4] - 系统具备良好的泛化能力,即使面对训练时未见过的新工具或模型组合,指挥家也能从模型描述中推断其能力与擅长领域,维持最优性价比 [15] - 系统能够有效对齐用户偏好,对于“更私密的本地检索”、“更快速度”或“更低成本”等要求,指挥家比强大的基座模型更能遵从指令执行 [15] 应用场景与行业意义 - 为企业客户提供了稳定、可控、可落地的解决方案,将昂贵的大模型资源仅用于真正的难点,其余工作交由便宜高效的工具链完成 [13] - 具体应用场景包括:1) 企业内部问答/报表分析,默认用本地索引和代码沙盒完成80%工作,仅在遇到歧义或复杂推理时短暂调用强模型;2) 研发检索/调研,可设定时间/成本上限及来源偏好,由指挥家动态权衡;3) Agent工作流,将各种函数/工具纳入统一接口,由指挥家进行端到端智能编排,替代写死的if-else逻辑 [16] - 该范式标志着从依赖“单一强大模型”到构建“小模型+工具+专家模型的复合系统”的转变,在智能体从单体走向复合系统的趋势下,此类“协调者”角色至关重要 [13] 资源开放情况 - 论文、全部代码、模型与数据均已公开,方便学术界与产业界跟进研究与应用 [14][17]
量子位编辑作者招聘
量子位· 2025-12-07 04:35
公司概况与市场地位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年行业积累[1] - 公司在微信公众号平台拥有超过240万订阅用户,全网用户超过700万,日均阅读量超过200万[12] - 公司在新榜和清博等第三方数据平台被评为AI及前沿科技行业TOP1新媒体[12] 招聘岗位总览 - 公司开放三大方向的全职岗位招聘,工作地点位于北京中关村[2] - 招聘岗位面向社招和校招,社招覆盖编辑、主笔、主编各个层级,校招面向应届毕业生并接受实习转正[6] - 所有岗位的不同能力层级职位均在开放,应聘者可根据个人履历和经验申请[4] AI产业方向岗位详情 - 岗位职责聚焦于AI基建层创新,包括芯片、AI Infra、云计算领域的新进展及核心玩家动态[6] - 职责包括对前沿论文、开源社区及技术大会(如Hot Chips、NeurIPS、MLSys)的技术报告进行大众化解读[6] - 职责还包括参与核心采访,对话产业专家、技术大牛,并撰写AI云落地案例[7] - 任职要求应聘者对芯片、GPU、NPU、服务器、模型训练架构、云计算有基本理解[11] - 要求熟悉AI行业的供应链与生态,包括训练-推理、算力-成本、云-芯片关系[11] - 要求具备将复杂技术内容结构化表达的能力,有技术背景、理工或CS/EE方向者优先[11] AI财经商业方向岗位详情 - 岗位职责聚焦于AI领域的创投、财报、产业链资本动向,关注创投、AI创业公司、上市公司、商业模式[11] - 职责包括产出创投融资、招股书财报解析、公司战略分析等稿件[11] - 职责包括访谈对话投资人、创业者、产业分析人士[11] - 任职要求应聘者对数据敏感,对财报、股权结构、战略规划感兴趣[11] - 要求具备强逻辑结构,对商业叙事敏感,并热爱对话采访,具有社交型人格[11] AI产品方向岗位详情 - 岗位职责关注AI在应用和硬件终端方向的进展,包括软件应用产品和硬件方向落地[6][11] - 职责包括撰写AI应用产品深度评测,跟踪多终端新品发布(如手机、PC、XR、车机等)[11] - 职责包括对话访谈AI应用创业者、产品专家、终端技术专家[11] - 任职要求应聘者对智能硬件、AI终端趋势敏锐,是重度AI产品体验人士[11] - 要求熟悉各大终端厂商业态和体验方法论,并具备强逻辑、体验表达和结构化能力[11] 加入公司的潜在收益 - 员工可站在AI浪潮之巅,第一时间接触和了解AI领域最新技术和产品,构建完整的AI认知体系[6] - 员工可将各种AI新技术、新工具应用于工作,提升工作效率和创造力[6] - 员工可通过撰写独家原创内容,建立个人知名度,成为AI领域的意见领袖[6] - 员工可与AI领域大咖零距离接触,参与重要科技活动和发布会,拓展行业视野[6] - 应届新人会由主编级编辑出任mentor,提供一对一指导,以帮助更快成长[6] - 员工可加入扁平、简单、开放、多劳多得能者上位的活力团队[6] - 员工可获得行业TOP薪资待遇,以及五险一金、餐补、项目绩效、商务绩效、加班补助等福利[6] 岗位通用能力要求 - 主编岗位需具备选题和带队能力及经验[6] - 主笔岗位需具备原创深度稿件能力[6] - 编辑岗位需热爱表达,喜欢挖掘信息,能够用通俗语言让所有人看懂AI新进展[6] 应聘方式 - 应聘者需将个人简历发送至指定邮箱zhaopin@qbitai.com,邮件主题需注明应聘方向及姓名[11] - 随简历需附上科技行业代表作品,或能展现个人写作水平和风格的作品[11]
英伟达巧用8B模型秒掉GPT-5,开源了
量子位· 2025-12-06 05:40
文章核心观点 - 英伟达与香港大学合作开源的Orchestrator-8B模型,通过扮演“工具主理人”角色协调调用各类工具,在多项关键性能测试中超越了GPT-5等顶级大模型,同时实现了更低的成本和更快的运行速度,展示了小模型驱动复合系统的巨大潜力[1][2][23] 模型性能与优势 - **性能超越**:在人类终极考试HLE测试中,Orchestrator-8B得分达37.1%,超过了GPT-5的35.1%[16] - **成本优势**:Orchestrator-8B的成本仅为GPT-5的1/2.5,具体成本为9.2(单位未明确),而GPT-5为30.2[16] - **速度优势**:运行速度比GPT-5快一倍多,具体延迟为8.2(单位未明确),而GPT-5为19.8[16][18] - **综合领先**:在FRAMES、τ²-Bench测试中也取得了SOTA(State-of-the-Art)成绩[18] - **社区热度**:模型在HuggingFace平台受到高度关注,冲到了热门模型前五[4] 技术原理与架构 - **核心功能**:模型自身不直接解题,而是作为“工具主理人”,负责判断、协调并控制调用外部工具的顺序和次数,兼顾效果、成本与用户偏好[6][9][14] - **工具团队**:其协调的工具库包括GPT-5、Claude Opus 4.1等顶级大模型,Qwen2.5-Math等专业数学工具,以及网页搜索、本地检索、代码解释器等实用工具[7] - **训练方法**:采用名为ToolOrchestra的训练方法,核心包括有奖有罚的强化学习以及量身定制的ToolScale数据集[11][12] - **奖励规则**:训练时设立三条强化学习规则:1) 效果奖(解题正确加分);2) 效率奖(花费少、耗时短加分);3) 偏好奖(遵循用户指令如隐私保护、节省成本加分)[15] 行业背景与趋势 - **研究脉络**:行业内在探索让小模型学会调用工具的赛道上已有先例,如谷歌DeepMind的Toolformer(2023年)、MIT与CMU的ToolRL,以及香港大学与微软的Optimal Tool Calls(OCT)[19][20] - **领域关注**:越来越多的研究团队关注并投入该领域,旨在解决大模型成本高、速度慢的落地难题[21][22] - **未来方向**:该模型的成功表明,AI的未来可能并非依赖参数庞大的单一模型,而是通过低成本、高效率的小模型协调专业工具系统来实现高智能[23]