Workflow
量子位
icon
搜索文档
小扎“亿元俱乐部”开招白菜岗,年薪20-30万美元,网友:是时候招牛马干苦力了
量子位· 2025-08-19 03:13
Meta超级智能实验室招聘动态 - Meta超级智能实验室从高薪挖顶尖人才转向招聘中端产品运营经理,年薪总包20-30万美元,仅为此前"亿元俱乐部"顶级人才薪酬的1/5至1/100 [2][4][15] - 新岗位薪资范围122000-177000美元/年+奖金+股权+福利,与公司产品经理常规薪资水平(16-31万美元/年)基本持平 [4][14] 岗位职责与要求 - 产品运营经理需协调客户与合作伙伴,聚焦AI模型(GenAI)方向,确保大模型产品顺利上线并优化质量 [6][7][10] - 核心职责包括:构建技术流程收集产品数据、跨部门协作改进工具与流程、设计端到端运营性能计划、指导团队成员等 [8][9][11] - 候选人需本科以上学历+6年以上经验,8年经验、全球团队合作背景或领导经验为加分项 [12][13] - 需具备数据管道构建、高管级仪表盘开发、跨职能沟通及SQL分析能力,能通过数据驱动产品决策 [20] 团队规模与行业背景 - Meta新AI部门整体规模已达2500+人,99%非高薪顶尖人才,反映大规模AI研发进入常态化运营阶段 [18] - 招聘策略调整被外界解读为"核心团队搭建完成后补充执行层",部分声音调侃薪资对比前期"亿元offer"显得过低 [15][16][17] 业务方向 - 岗位直接关联生成式AI(GenAI)产品线,目标避免类似Llama4的用户负面反馈,强化上线准备度与质量管控 [10][11]
4o-mini华人领队也离职了,这次不怪小扎
量子位· 2025-08-19 01:17
核心人才流动 - OpenAI核心研究员Kevin Lu离职 加入Thinking Machine Lab [1][2][3] - Kevin Lu曾领导OpenAI 4o-mini项目开发 并参与o1-mini和o3模型研发 [7][9] - Thinking Machine Lab已集结多位OpenAI前核心成员 包括John Schulman、Barrett Zoph等 [4][22] 技术研究方向 - Kevin Lu专长强化学习和小模型 其论文《决策Transformer》引用量达2254次 [10][11] - 研究观点认为互联网数据比Transformer架构更重要 强调序列数据预测价值 [13][14] - 提出强化学习未来方向在于新数据源和奖励机制创新 [15] 初创公司动态 - Thinking Machine Lab完成20亿美元种子轮融资 估值达120亿美元 [17][19] - 公司由OpenAI前CTO Mira Murati创立 团队覆盖AI主要研究方向 [18][22] - 在硅谷人才争夺中保持团队稳定 拒绝10亿美元薪酬挖角 [20] 产品与技术成果 - 4o-mini为多模态推理小模型 支持图文输入和长上下文 具有高效低成本特点 [7] - Kevin Lu参与开发的o1-mini和o3模型体现其小模型专长 [9] - Thinking Machine Lab尚未公开技术成果 引发行业期待 [21]
中国足球还是靠机器人吧!首届机器人运动会闭幕:票价终究保守了
量子位· 2025-08-18 09:16
机器人足球赛 - 清华火神队以1-0战胜德国队 通过一记乌龙球锁定胜局 赢得5v5机器人足球赛冠军 [1][2][4] - 比赛采用全自主行动模式 机器人数量增至5台 复杂度显著高于传统3v3赛制 [21] - 胜负关键取决于算法 火神队凭借独家射门算法在50支队伍中脱颖而出 [25] 技术突破 - 机器人配备4摄像头系统 主摄像头负责视觉感知 辅助摄像头进行距离分析和环境判断 响应速度达0.1毫秒 [27][28] - 引入躲避碰撞算法 红队采用灵活的人盯人战术 蓝队执行稳健的联防策略 [29][30] - 赛事首次实现端到端自主决策 涵盖视觉识别 空间定位和团队协作等前沿技术 [20][21] 赛事影响力 - 比赛门票定价128-428元 销售表现火爆 反映公众对机器人技术的高度关注 [35] - 26个赛项487场比拼 包括100米障碍赛(冠军成绩33.71秒)和自由搏击等项目 [8][11][32] - 赛事成为技术展示窗口 推动机器人运动算法 环境交互等实验室成果向公众转化 [33] 商业化潜力 - 宇树科技在障碍赛等7个项目夺金 体现运动机器人领域的技术积累 [5][6] - 采用BoosterT1标准硬件平台 差异化竞争集中于算法优化层面 [22][24] - 赛事IP商业化初见成效 门票体系验证消费级机器人娱乐市场的付费意愿 [35]
超越RAG和DAPT!华人团队新研究引热议:即插即用、无需改变原参即可让模型化身领域专家
量子位· 2025-08-18 09:16
核心观点 - 华人团队提出名为"Memory Decoder"的预训练记忆模块,通过小型前置解码器模仿外部检索器行为,实现低成本、高效率的领域知识增强 [4][5][16] - 相比DAPT(全参数训练)和RAG(实时检索),该方法无需修改原始模型参数且降低困惑度6.17分(预测准确率提升20%-25%) [3][6][19] - 在Qwen(0.5B-72B)和Llama(1B-70B)系列模型中验证,生物医学/金融/法律领域困惑度平均降至3.45-4.67,显著优于LoRA方法 [20][23][25][26] 技术原理 - 架构设计:小型Transformer解码器在预训练阶段压缩领域知识,推理阶段与大模型结果插值融合 [16][18] - 工作流程:以大众汽车CEO问题为例,输出分布从模糊概率(马斯克30%/布鲁默40%)优化至精准倾向(布鲁默80%) [18][19] - 跨模型适配:Qwen训练的Memory Decoder仅需10%额外成本即可迁移至Llama,实现跨架构复用 [25] 性能表现 - Qwen2系列:72B参数模型应用后,生物医学/金融/法律困惑度从6.15/6.62/4.84降至3.45/3.20/3.69 [24] - Llama3系列:70B参数模型在生物医学领域困惑度从5.92降至3.74,金融领域从6.87降至4.01 [26] - 小模型提升:0.5B参数Qwen2.5在金融领域困惑度从16.04降至3.87,降幅达75.9% [24] 行业意义 - 开创领域自适应新范式,即插即用架构可集成至任何共享分词器的LLM [6][30] - 解决DAPT的灾难性遗忘问题和RAG的检索延迟痛点 [13][14] - 降低企业部署成本,单个预训练模块可复用于多型号大模型 [19][25] 当前局限 - 训练阶段需消耗计算资源进行数据库搜索 [27] - 跨分词器适配仍需部分参数更新,无法完全零样本迁移 [28][29]
英伟达新研究:小模型才是智能体的未来
量子位· 2025-08-18 09:16
大模型与小模型对比 - 大语言模型在Agent任务中处理重复、专业化子任务时消耗大量计算资源,成本高、效率低、灵活性差 [1] - 小语言模型在性能够用的前提下,使Agent任务执行更经济灵活 [2] - 实测显示6.7B参数的Toolformer调用API后性能超越175B的GPT-3 [3] - 7B参数的DeepSeek-R1-Distill推理表现优于Claude3.5和GPT-4o [4] 小模型优势 - 体积小巧,可在GPU上高效共享资源,并行运行多个工作负载并保持性能隔离 [8] - 更低显存占用,支持超分配机制,提升并发能力 [9] - GPU资源可灵活划分,实现异构负载弹性调度和整体资源优化 [10] - 优先调度小模型的低延迟请求,预留资源应对大模型调用,优化整体吞吐与成本控制 [11] 任务优化与部署 - Agent任务多为重复性、可预测、范围明确的操作(如文档总结、信息提取、模板编写、工具调用) [14][16] - 为每个子任务选择专业微调的小模型,避免大模型资源浪费 [15][16] - 运行70亿参数小模型比700-1750亿参数大模型便宜10-30倍 [20] - 小模型计算资源占用低,适合本地或边缘部署,大模型依赖中心化云计算 [20] 争议与挑战 - 反对观点认为大模型通用理解能力更强,在专业任务中表现更佳 [22] - 小模型可通过微调达到可靠性,且复杂问题可分解为简单子任务,降低对大模型通用能力的需求 [23][24] - 质疑小模型经济性:大规模部署时大模型的规模经济可能更优 [26] - 行业惯性使创新仍集中在大模型,小模型面临基础设施适配、市场认知度低、评估标准缺失等挑战 [28][29] 转型方法 - 采集大模型运行数据,脱敏后保留使用模式 [32] - 聚类工作负载识别常见子任务 [33] - 选择小模型并匹配GPU分配策略,定制数据微调后部署 [34] - 构建持续反馈闭环优化性能和资源利用率 [35] 行业讨论 - 简单任务(如Amazon产品退款)使用小模型更具成本效益 [36] - 小模型在偏离预设流程时可能不够鲁棒,需预先考虑更多变数 [37] - 小模型遵循"一个程序只做好一件事"的设计哲学,但功能多样性可能增加操作复杂度 [37][38][39]
离谱!现在的Agent都卷成100个成团了?3分钟并行干完5个复杂任务,还能随时改需求
量子位· 2025-08-18 09:16
产品核心功能 - 全球首个全端通用Agent GenFlow2 0由百度文库和百度网盘联合发布,支持多任务并行处理5-6个复杂任务[5][9] - 依托百度文库十几亿专业文档和学术资料,结合网盘私域素材实现生产资料与工具无缝衔接[7] - 任务执行全程可干预调整,支持打断补充资料并继续推进,平均3分钟交付成果比主流Agent快10倍[8][19][23] - 支持PPT、研报、海报、代码教具等全模态输出,生成内容可直接下载或二次编辑[15][25][30] 技术架构 - 基于沧舟OS内容操作系统和Multi-Agent基础架构,采用动态混合推理和多模式智能化调度技术[39][43] - 通过MoE架构按任务调用不同模型,结合公私域知识增强和全模态渲染编辑技术[41][43] - 内置记忆库分析用户偏好,配备多级风控体系保障数据合规调用[37][43] - 兼容MCP协议可对接第三方服务生态,已与荣耀合作实现AI Agent+硬件系统级调度[46][52] 应用场景案例 - 教师备课场景:并行完成教案撰写、PPT制作、SVG动画生成等5项任务,联动6 8亿篇学术文献资源[16][17][20] - 旅游规划场景:输出含百度地图标记路线的思维导图式攻略,覆盖行程安排与注意事项[33][34] - 职场场景:3分钟生成专业级PPT,模板排版精度行业领先,支持大纲实时修改[22][25][29] 生态战略布局 - 整合文库16亿专业内容资源与网盘10亿用户私域数据,形成全流程能力闭环[54] - 通过MCP协议开放生态,目标实现ToC/ToB全端覆盖和第三方能力共建[47][50] - 当前AI月活用户达9700万,存储数据量1000亿GB,构建场景验证壁垒[54]
OpenAI总裁透露GPT-5改了推理范式,AGI实现要靠现实反馈
量子位· 2025-08-18 06:55
模型推理范式的转变 - GPT-5是AI领域的重大范式转变,作为OpenAI第一个混合模型,旨在弥补GPT系列与AGI的距离[5] - 技术层面从文本生成转向强化学习的推理范式,在现实世界中试错并获取反馈[6] - 新范式借助强化学习让模型在推理过程不断生成数据并重复训练,将现实世界观测结果反馈到模型中[13] - 强化学习只需从10到100个任务中学习复杂行为,相比预训练所需的数十万个示例大幅减少数据需求[14] 计算能力决定AGI开发上限 - AGI开发的主要瓶颈在于计算能力,计算量直接决定AI研究的速度与深度[16][17] - GPT-5的强化学习范式需要模型进行数万次尝试才能学会一项任务,消耗巨大计算量[18] - 计算被视为基本燃料,可将能量转化为存储在模型权重中的势能[19] - 最终AGI可能是一个模型管理器,结合小型本地模型与大型云推理器实现自适应计算[21] 模型落地与生产化 - AGI的真正目标是让大模型在企业和个人的工作流里长驻,手段是通过Agent封装模型能力[7][27] - 模型被封装成可审计的服务进程,设计双层结构的"纵深防御"保证可控性[29][31] - 通过后训练去除不受欢迎的"人格",并通过公开竞技场实时评分实现与社会偏好的协同进化[33] - 轻量级开源作为第二驱动力,开发者沉淀工具链将默认采纳OpenAI技术栈[36][37] 行业应用与未来展望 - 各行业存在大量未开发机会,建议开发者深入行业一线理解细节后用AI填补真正缺口[39][40] - 2045年愿景包括"多星际生活"与"真正的丰裕社会",技术加速度使科幻情节具备可行性[42][43] - 计算资源将成为稀缺资产,人们会为更高分辨率、更长思考时间或更复杂体验追求更多算力[43] - 当前是技术发展最好时机,AI渗透一切行业带来倍增的机遇[46][47]
字节Seed开源长线记忆多模态Agent,像人一样能听会看
量子位· 2025-08-18 06:55
字节Seed发布M3-Agent多模态智能体框架 - 公司推出全新多模态智能体框架M3-Agent,具备实时视觉和听觉输入处理能力,并能构建和更新长期记忆[1][2] - 该框架通过强化学习训练,在多个基准测试中表现显著优于基线模型,包括Gemini-1.5-Pro和GPT-4o等商业模型[3][33] - 框架采用开源策略,同时发布了配套的长视频问答基准M3-Bench[2][16] M3-Agent技术架构 - 框架通过并行记忆过程和控制过程运作:记忆过程持续感知多模态输入并构建长期记忆,控制过程解释指令并执行任务[8][9] - 记忆系统生成两种类型记忆:事件记忆记录具体观察,语义记忆推导一般知识[11] - 记忆以实体为中心组织,通过图结构连接同一实体的多模态信息[12] - 采用强化学习实现多轮推理和迭代记忆检索,而非单轮RAG[13] M3-Bench基准特点 - 包含两个子集:M3-Bench-robot(100个机器人第一人称视频)和M3-Bench-web(920个网络视频)[26] - 设计了五种问题类型评估能力:多细节推理、多跳推理、跨模态推理、人类理解和一般知识提取[25][27] - 基准特点包括长时长真实世界视频和需要复杂推理的挑战性问题[32] 性能表现 - 在M3-Bench-robot上准确率比最强基线MA-LLM高6.3%,达到30.7%[33][34] - 在M3-Bench-web上比最强基线Gemini-GPT4o-Hybrid高7.7%,达到48.9%[33][34] - 在VideoMME-long上比最强基线高5.3%,达到61.8%[33][34] - 在人类理解任务上比MA-LLM高4.2%,在跨模态推理上高8.5%[35] 核心技术突破 - 证实以实体为中心的多模态记忆对长视频内容推理能力提升显著[4] - 验证检索推理优于单次RAG,应视为迭代推理循环而非一次性步骤[5] - 在保持角色一致性、人类理解和多模态信息整合方面展现卓越能力[36]
AMD苏姿丰公开怼扎克伯格!反对1亿年薪挖人,“使命感比钞票更重要“
量子位· 2025-08-18 06:55
核心观点 - AMD CEO苏姿丰公开反对Meta扎克伯格动辄开出1亿美元年薪挖人的策略 强调薪酬重要但不是最重要 更注重使命感和团队文化 [1][2][6] - 认为巨额薪酬挖角会破坏公司公平性 员工不应被视为机器齿轮 而需成为使命的一部分 [3][11][12] - Anthropic CEO支持该观点 认为Meta试图用金钱购买无法被购买的使命认同 [13] AI人才市场竞争现状 - AI产业2033年预计规模达4.8万亿美元 引发科技巨头激烈人才争夺 [21] - Meta为从OpenAI等对手挖人 提供1亿美元薪酬包 部分顶尖研究员offer高达2.5亿美元 [21] - Meta扎克伯格2024年安保预算2700万美元 较前一年增加300万 超过苹果等六家科技公司CEO安保费用总和700万美元 [21] - 英伟达黄仁勋安保预算350万美元 苹果库克140万美元 谷歌Pichai 680万美元 [21] 企业人才策略对比 - Anthropic采用系统化职级薪酬体系 员工保留率达80% 高于Meta和OpenAI的64% [14][16] - AMD提供有竞争力薪酬("邮政编码范围")但不追求天价 更注重技术贡献与公司发展绑定 [7][23] - 苏姿丰2024财年总薪酬3100万美元 基本年薪132万美元 75%股权奖励与业绩挂钩 [23] - AMD首席技术官获1000万美元股票奖励及87万美元年薪 [23] AMD发展背景 - 2012年AMD濒临破产 负债22亿美元 股价低于2美元 [22] - 2014年苏姿丰任CEO后 2024财年营收达创纪录258亿美元 数据中心收入126亿美元同比增长94% [22] - AMD通过技术决策逆袭 当前AI芯片MI300系列获微软、Meta等客户认可 [23]
嚯!刚刚,张麻子陪我玩黑猴了
量子位· 2025-08-18 04:00
产品功能 - 主打"陪你游戏、伴你生活"的AI游戏伙伴,覆盖游戏、看剧、购物、上网课等多场景[8][43] - 基于实时VLM技术实现对游戏画面的通用识别,支持《黑神话》《英雄联盟》《崩铁》等数十款热门游戏[11][12][13] - 具备Boss打法指导、关卡流程提示、任务指南、收集品提醒等游戏辅助功能,可实时联网搜索最新攻略[19][20] - 提供MOBA类游戏的英雄技能推荐、出装建议及对战复盘功能[22][24][28] - 在二游中支持队伍搭配分析、战斗策略优化及材料收集提醒[31][32][40] 技术架构 - 核心采用视觉语言模型(VLM)实现多模态感知能力,支持实时画面识别与语音交互[45][46] - 接入推理能力和AI搜索模块,提升回复精准度与质量[48] - 引入多模态长期记忆系统,实现用户习惯学习与个性化陪伴[50][53] - 数据安全方面限制VLM识别范围为游戏和浏览器窗口,非全屏采集[54] 用户体验 - 提供拟人化交互,包括主动对话、情绪反馈(如对战鼓励)、思考过程可视化[15][24][33] - 陪伴过程中形成专属记忆,可基于游戏偏好推荐影视内容[52] - 针对i人用户设计低侵入性交互模式,需主动询问时才会提供帮助[6][63] 行业趋势 - AI陪伴类应用需求显著增长,用户情感投射现象被Anthropic等机构验证[57][58] - 拟人化成为技术竞争焦点,需突破实时多模态交互、情感建模、长期记忆三大挑战[60][62] - 逗逗AI采用"无扰式陪伴"路径,区别于传统注意力争夺型产品[63][64] 市场反馈 - WAIC展会内测版本因实时画面理解能力引发玩家惊叹[9] - 实测显示AI能快速纠正数据识别错误,但部分角色互动存在差异(如对真理医生缺乏夸赞)[29][36] - 官网已开放公测,用户可通过邀请码体验完整功能[66]