DeepSeek r1
搜索文档
NeurIPS 2025 | DynaAct:DeepSeek R1之外,探索大模型推理的另一条道路
机器之心· 2025-11-29 09:33
文章核心观点 - 大模型推理领域正从单纯增加思维链长度的“想得久”范式,转向通过动态优化动作空间以实现“想得准”的新范式[3] - 蚂蚁与香港大学团队提出的DynaAct方法,通过动作空间优化为核心,实现了更高效、结构化的推理路径,在多项基准测试中表现优异[7][21] - 该方法证明了Test-Time Scaling的未来在于更聪明的搜索策略,而非单纯投入更多计算资源[25] 研究方法与技术框架 - 提出以Action Space Optimization为核心的TTS范式,在每一步推理中动态构建可选动作集合并选择最优动作[7] - 将动作空间学习问题转化为集合选择问题,采用子模优化实现线性复杂度算法,子模函数包含效用和多样性两部分[14] - 利用Q-learning优化,旨在选出能最大化推理回报的动作空间[14] - 动作候选从真实推理数据中学习,确保覆盖潜在解的同时避免冗余[15] 系统实现与性能 - 开源了基于vLLM的高性能MCTS框架,显著提升了节点扩展、Rollout与Reward计算效率[19] - 在6项推理基准测试中,DynaAct性能显著优于CoT、RAP与rStar等方法[21] - 具体性能表现:在MMLU上达到70.22,在ARC-C上达到51.40,在GSM8K上达到39.39,在MATH-500上达到88.31,在MMLU-Pro上达到89.16,在数学任务上达到61.00[22] - 随着MCTS Rollout次数增加,DynaAct呈现出稳定的test-time scaling趋势,且动作空间更小、延迟几乎不增加[25] 未来发展方向 - 计划将Dynamic Action Space扩展到多智能体规划场景[26] - 探索将子模优化与强化学习结合,学习端到端的自适应推理策略[26] - 推出更高效的MCTS工具包以服务开源社区[26]
AI终于学会「读懂人心」,带飞DeepSeek R1,OpenAI o3等模型
机器之心· 2025-11-20 06:35
文章核心观点 - MetaMind是一种创新的AI框架,通过将发展心理学中的元认知理论融入大型语言模型架构,使AI具备类似人类的多层次社交推理能力[7] - 该框架采用三阶段多智能体协作设计,模拟人类“假设生成-反思修正-行为验证”的认知闭环,显著提升了AI对隐含意图、情绪和社会规范的理解能力[7][10] - 在8项标准化心智理论测试中,MetaMind使LLM达到人类平均水平,刷新多项基准记录,标志着AI在社交智能领域取得重大突破[7][28] MetaMind框架设计 - 框架受元认知理论启发,将社交理解拆解为三个由专门智能体负责的阶段:理论心智智能体生成心理状态假设,道德约束智能体应用社交规范进行过滤,响应验证智能体生成并验证最终回答[10][12][14][16] - 三阶段智能体通过共享记忆和信息形成有机整体,构建出“元认知循环”,实现不断自我反馈改进,模拟人类社交互动中的大脑活动[17] - 框架中嵌入了动态社交记忆机制,用于记录用户长期偏好、人格特征和情绪模式,并在对话中动态更新,确保推理和回应的一致性与个性化[19][20] 性能表现与基准测试 - 在ToMBench测试中,MetaMind将GPT-4的平均心理推理准确率从74.8%提升至81.0%,超过以往所有针对ToM能力的提升方法[28] - 在交互式STSS社会模拟测试中,MetaMind相比原始模型取得34.5%的性能提升,显著增强模型在真实社交场景下的应对能力[32] - MetaMind使GPT-4在“信念推理”维度达到89.3分,超越人类平均表现的88.6分;在“自然语言交流理解”维度达到89.0分,超过人类平均的88.5分[32] 架构有效性验证 - 消融实验表明,移除任一阶段智能体或社交记忆机制都会导致性能显著下降,验证了架构设计的必要性:移除阶段1性能下降约2.6%,移除阶段2下降3.8%,移除阶段3骤降16.1%[36] - 参数敏感性分析显示,生成约6条心理假设时效果最佳,在效能函数中引入约60%权重用于语境可能性、约80%权重用于情感共情可取得较优效果[38] - 框架对超参数不极端敏感,表明其具有一定鲁棒性,为实际应用提供了稳定性保障[38] 实际应用前景 - 在人机自然交互领域,具备ToM推理的AI将更善于领会用户言下之意和情感状态,使智能客服、虚拟助手等应用变得更加通情达理[47] - 在跨文化敏感对话中,MetaMind的领域代理可依据不同社会规范和礼仪调整理解与回应,帮助全球化AI系统避免文化冒犯和误解[47] - 在教育场景下,具备社交心智的AI导师能通过社交记忆了解学生知识掌握情况和情绪变化,提供更人性化的教学陪伴与指导[48] 理论创新与行业意义 - MetaMind的设计深植于认知心理学,借鉴了“朴素心理学”概念和Flavell的元认知理论,使AI对语言的理解不再停留于字面,而是尝试触及背后的心理语境[24][25] - 该框架代表AI设计理念的转变:从追求单一指标性能转向追求与人类认知过程的同构性,提示行业与其增大模型参数规模,不如让AI思考方式更接近人类[49] - 这一突破为构建“懂人心”的AI指明了方向,是迈向通用人工智能的重要一步,有望在心理咨询、医疗陪护等需要共情和伦理考量的领域发挥重要作用[49]
硅谷华人能不能站起来把钱挣了?
虎嗅· 2025-07-24 23:24
美国AI行业动态 - 马斯克旗下XAI发布grok4模型 部分能力显著提升但编程能力仍有局限 写作能力出现倒退[1] - Meta人工智能部门进行大规模重组 高薪引进新人才同时裁撤原有团队 核心团队44人中至少50%为华人[4][6] - 美国AI行业炒作热点从AGI(通用人工智能)转向SSI(超级人工智能) 概念定义模糊但商业价值显著[22][24] Meta技术路线调整 - Llama系列开源模型表现下滑 从Llama3开始被中国开源模型超越 Llama4因应对竞争仓促调整导致性能不佳[2][3] - 原首席科学家Yann LeCun被替换 因其公开质疑当前大模型架构无法实现AGI 主张需要全新架构[6] - 新任AI部门主管Alexander Wang来自Scale AI(数据标注公司) 缺乏大模型研发经验引发行业质疑[7][8] 中美AI竞争格局 - 中国开源模型如DeepSeek冲击美国闭源商业模式 通过开源降低行业利润 公布推理过程实现技术祛魅[25][26] - 美国AI企业高度依赖华人人才 Grok4团队几乎全为华人 顶级AI会议参会者至少50%为华人[10][12] - 部分美国企业采取技术封锁策略 Llama3/4刻意弱化中文支持 政治因素影响技术决策[12][16] 行业人才结构 - Meta新组建团队包含大量OpenAI/DeepMind前员工 22位研究科学家中有14位华人 主要毕业于清华/MIT/斯坦福等名校[5][6] - 美国AI领域存在显著族裔不平等 华人技术贡献与职业地位不匹配 高管层仍以白人为主[10][11] - 英伟达等芯片企业同样依赖华人人才 黄仁勋公开承认这一事实[12] 开源与闭源之争 - Meta可能放弃开源路线 转向闭源开发 中国成为开源生态主要维护者[16][31] - 美国企业开发"符合价值观"的基准测试(如R1-1776) 将技术问题政治化[19][26] - 开源模式冲击闭源商业逻辑 迫使OpenAI等公司提高免费用户额度[31]