Workflow
Coconut
icon
搜索文档
太疯狂了!Meta裁员裁到田渊栋头上,连组员一锅端
量子位· 2025-10-23 03:52
Meta AI裁员事件概述 - Meta AI研究院(FAIR)进行大规模裁员,波及资深研究科学家总监田渊栋及其领导的整个团队[1] - 此次裁员由新任首席AI官亚历山大王主导,涉及整组裁撤[6] 田渊栋的专业背景 - 拥有上海交通大学计算机系本科和硕士学位,卡内基梅隆大学机器人研究所博士学位[7] - 职业生涯始于谷歌无人驾驶汽车项目组软件工程师[8] - 2014年加入Facebook(现Meta)人工智能研究院(FAIR),任职近十年[9] - 现任FAIR研究科学家总监,领导规模约10人的规划与推理团队[3][14] 主要技术贡献 - 2015年主导开发围棋AI"Dark Forest",早于DeepMind的AlphaGo达到顶尖业余棋手水平[3][12] - 完成开源复现项目ELF OpenGo,仅靠单GPU就能战胜世界顶级人类选手[12] - 开发内存高效训练方法GaLore,将预训练7B模型所需内存压缩至24GB以内,实现单张消费级显卡预训练[16] - 推出快慢思考整合的Dualformer模型,使模型能动态切换简单问题直接回答和复杂问题深入推理[3][16] - 开创连续思维链(Coconut)范式,将推理轨迹压缩保留在连续隐空间中[3][16] - 2024年9月发表独作论文,从梯度动力学第一性原理揭示超参数在"顿悟"中的关键作用[15] 行业影响与市场反应 - 田渊栋被裁后,OpenAI及多家初创公司迅速在社交媒体评论区展开人才争夺[4] - 包括Dar Mehta所在公司、JimZ所在的东海岸公司以及Nuance AI等企业均公开表示招聘意向[6] - 2019年OpenAI联合创始人Ilya Sutskever曾邀请其加入共同研发语言模型,但被拒绝[13]
首篇潜空间推理综述!模型思考不必依赖Token,带宽暴增2700+倍
量子位· 2025-07-16 01:49
潜空间推理综述核心观点 - 潜空间推理是一种新兴范式,通过内部连续表示推理过程,带宽比显式思维链(CoT)提升2700多倍(显式CoT每token约15bits,潜式CoT每步约40960bits)[15] - 提出统一框架整合循环、递归、连续思维等潜空间推理形式,该框架基于机械可解释性原理,与模型内部运作直接关联[2][3] - 框架为未来研究方向提供基础,包括通过扩散模型实现无限深度推理等高级范式[4] 潜空间推理技术实现 基本概念 - 核心区别在于使用潜式思维链(Latent Chain-of-Thought),以高维隐藏状态替代离散自然语言token,突破词汇表限制[13][14][16] - 理论基础可追溯至2019年《Universal Transformers》提出的自适应计算时间(ACT)机制[7][8] 处理模式 **垂直循环模式** - 通过重复处理同一组层扩展计算深度,实现"反复思考"[20][21] - 优势:动态分配计算资源处理复杂任务[23] - 局限:长推理链可能引发梯度消失/爆炸[24] - 实现变体包括: - Universal Transformer的架构层实现[25] - Coconut训练层插入连续思维向量[25] - CoTFormer隐藏激活回输机制[25] **水平循环模式** - 沿时间维度扩展记忆能力,维护压缩隐藏状态聚合跨时空信息[28][29] - 实现方式: - 线性状态循环(隐藏状态更新/衰减规则)[30] - 梯度状态循环(隐藏状态作为在线学习参数)[30] 机械可解释性验证 - 层深度与推理能力呈线性关系,构成推理容量瓶颈(需2-3层支持两步推理)[34][39][45] - 分层功能特化: - 浅层:基础信息处理/事实存储[49] - 中层:核心推理引擎[49] - 深层:决策制定/逻辑整合[49] - 信息流动机制: - 注意力机制关键作用:跨层传输计算信息[48] - 存在双向流动(反向注意力)增强推理能力[51][52] 前沿发展方向 无限深度推理 **空间无限推理** - 文本扩散模型实现路径: - 遮蔽扩散模型:并行预测/渐进解遮蔽[55] - 嵌入扩散模型:连续空间高斯去噪[55] - 混合AR-扩散模型:结合自回归稳定性[55] **时间无限推理** - 时间-深度交换原理:序列长度等价于优化迭代[57] - 具体方法: - 无限注意力机制[59] - 测试时训练(SGD优化)[59] - 隐式不动点RNN[59] 学术贡献与影响 - 首篇系统性综述,由字节SEED实习生等四位共同一作完成[5] - 整合Meta Coconut等顶会研究成果[9][12] - 建立理论基础:从清华层数限制研究到谷歌研究院的线性关系定理[34][45]
“椰子很甜,和三亚一样甜!”
海南日报· 2025-05-02 00:30
旅游行业营销活动 - 三亚在"五一"假期期间全城开启"椰子派送模式",免费发放5 1万颗椰子,覆盖机场、车站、景区、夜市等热门点位 [1] - 多家酒店推出入住即送椰子福利,景区为游客准备免费椰子水,增强游客体验 [1] - 活动吸引酒店、景区、民宿、餐饮等100多家旅游企业自愿参与,形成行业联动效应 [4] 游客体验与互动 - 大东海景区举办椰趣嘉年华活动,设置椰子保龄球、椰子套圈等游戏,吸引中外游客参与互动 [2] - 俄罗斯游客对赶椰子游戏表示高度赞赏,体现活动的国际吸引力 [2] - 志愿者在机场、景区等点位主动派送椰子,游客反馈积极,如重庆游客秦女士对免费椰子表示惊喜 [1][2] 创新服务与品牌推广 - 三亚携程车队自发组建"甜椰"车队,100辆车提供免费接送服务,车辆以青椰、红椰标识区分状态,打造移动的"椰香名片" [4] - 两辆椰子闪送车按9条线路穿梭三亚,覆盖景区、餐饮区、商业综合体等人流密集区域,提升品牌曝光 [1] - 活动通过免费派送椰子传递三亚的诚意与温暖,强化"椰子很甜,和三亚一样甜"的城市形象 [1][4]