机器之心

搜索文档
链式思维是幻象吗?从数据分布视角重新审视大模型推理,马斯克回复,Grok破防
机器之心· 2025-08-14 09:11
思维链(CoT)提示技术的本质 - 核心观点:CoT提示技术生成的推理链条可能并非真正的逻辑推理,而是对训练数据分布内模式的复现,当输入任务与训练数据分布存在差异时,推理链条会迅速失效[2][10] - 典型例证:模型回答「美国建国年是否为闰年」时,推理步骤正确但结论自相矛盾,显示其仅复述逻辑规则而非实际应用[10] - 性能提升来源:CoT效果主要依赖表层语义匹配,问题改写或引入无关内容会导致表现显著下降[11] 数据分布视角的理论框架 - 结构性归纳偏差:CoT有效性源于模型对训练数据中常见模式的复现,而非真实逻辑推演[13] - 理论公式:通过分布差异指标量化推理性能受分布偏移的影响,公式显示测试风险与训练风险、分布差异及样本量相关[15] - 实验验证:分布偏移时模型准确率从100%骤降至0.01%,全新变换下性能几乎完全丧失[23] 可控实验平台与泛化性测试 - 数据炼金术框架:从零训练语言模型,通过字母原子序列和ROT/循环平移变换构建可控任务,精确生成标准推理链以评估差异[18][19][21] - 任务泛化:变换顺序重组或新字母组合导致准确率暴跌,监督微调仅扩展分布边界而非提升抽象能力[23][24] - 长度泛化:输入序列长度或推理步数微小变化即引发表现显著下降,模型通过增减词元凑长度[26] - 格式泛化:提示格式扰动(如元素/变换部分修改)即使逻辑不变也可导致推理失败[28] 普遍性与现实意义 - 普遍脆弱性:不同采样温度和模型规模下CoT对分布偏移的敏感性一致,表明此为普遍现象而非个别特性[31] - 应用警示:高风险领域(医疗/金融/法律)需警惕流畅但逻辑错误的推理链误导性,评测需引入严格分布外测试[34][35] - 发展建议:需正视CoT泛化瓶颈,平衡分布内优势与评测部署的谨慎性[37][38]
LeetCode刷够100小时,学会找人内推,OpenAI员工下场教你拿Offer
机器之心· 2025-08-14 09:11
核心观点 - OpenAI作为全球顶尖AI公司,其面试流程严格且注重多维度评估,包括技术能力、心理素质、团队匹配度等 [1][6] - 面试成功的关键在于充分准备(100小时LeetCode练习+同等时间论文阅读)、心理调适及细节把控 [9][12] - 行业招聘趋势显示内部推荐成功率显著高于公开申请,且持续产出高质量公开成果(GitHub项目、论文等)能提升被猎头关注概率 [14][15] 面试准备策略 - **时间投入**:建议投入100小时LeetCode编程练习+100小时论文阅读/知识复习,模拟面试获取反馈 [9] - **技术工具**:提前熟悉不同视频会议平台(Zoom/Google Meet等)及编程环境(CoderPad/纯文本模式),Meta计划允许面试使用AI工具 [13] - **设备优化**:配置专业线上面试设备(Yeti麦克风/C922摄像头)、双屏设置优化眼神交流,保持环境光线充足 [12] 面试心理与技巧 - **心态调整**:面试官与候选人目标一致(通过面试),需避免对抗性思维,亲友团支持至关重要 [7] - **细节管理**:提前30分钟到场、保持基础需求(饮食/休息)、准备止痛药应对长时间面试 [12] - **非正式交流**:所有与公司代表的互动均为评估环节,需全程展示专业度 [10] 技术面试要点 - **编程考核**:重点练习白板编程、Python/PyTorch应用及经典算法(二分查找/Dijkstra等),禁用AI辅助工具 [11][22] - **机器学习专项**:需掌握基础概念(监督学习vs无监督学习)及前沿技术(GSPO与PPO区别、Transformer调试等) [24][27] - **成果展示**:准备项目演讲幻灯片,清晰阐述目标、方法及产品化路径 [26] 职业发展建议 - **机会获取**:通过内推(成功率更高)、维护LinkedIn/个人主页(标注AI研究方向吸引主动邀约)及参与行业活动扩大曝光 [14][15] - **薪酬谈判**:通过阶段避免仅关注薪资,需综合评估团队文化、公司使命等非货币因素 [29] - **长期策略**:持续发布研究成果(GitHub/会议论文)、积累行业声誉(引用数/黑客马拉松奖项)以建立人才吸引力 [14]
冗长响应缩减80%,DeepSeek GRPO获得颠覆性改进,微软GFPO问世
机器之心· 2025-08-14 04:57
核心观点 - 微软研究员提出了一种名为 Group Filtered Policy Optimization (GFPO) 的新型强化学习算法,旨在解决推理模型中因强化学习导致的冗长响应问题,同时保持准确度 [2][3] - GFPO 通过采样更大的候选响应组并显式过滤所需属性(如简洁性),可在推理阶段将多余 token 长度削减多达 80% [3][11] - 该算法无需复杂奖励工程即可同时优化多个响应属性(如长度和准确度),且与现有 GRPO 变体兼容 [11][14] 技术背景 - GFPO 基于 DeepSeek 提出的组相对策略优化(GRPO),后者简化了近端策略优化(PPO)算法,但依赖单一标量奖励信号导致响应长度膨胀 [7][8] - GRPO 的局限性在于难以联合优化多个响应属性,例如准确度提升伴随长度增加 [8] GFPO 实现机制 - 核心方法:为每个问题采样更大响应组(G),按指标(如长度)过滤出前 k 个响应子集(S),仅用 S 计算策略梯度 [12] - 优势归一化:使用子集 S 的奖励均值(μ_S)和标准差(σ_S)归一化优势,优先奖励过滤后高奖励响应 [13] - 训练成本:采样更多响应增加训练开销,但推理阶段更短响应可抵消成本 [15] 自适应难度 GFPO - 动态调整留存响应数量(k):根据问题难度(奖励均值)分配 k 值(简单 4/中等 6/困难 8),聚焦计算资源于难题 [21] - 效果:减少简单问题冗长,同时通过保留更多推理链维持难题准确度 [21] 实验发现 长度缩减效果 - token 效率优化实现最大幅度缩减:在 AIME 24、GPQA、OmniMATH 等数据集上分别减少 84.6%、79.7%、82.6% 多余长度 [31] - 极端冗长响应(≥20k token)比例从 32% 降至 22% [39] 准确度表现 - 自适应难度 GFPO 在中等和极难问题上准确度超越 GRPO,同时缩短 47%-60% 长度 [40] - 更大分组规模(如 8/24)通过更多采样维持难题准确度 [40] 关键参数影响 - 留存响应比例(k/G)25-33% 为最佳平衡点,保留比例越小长度增益递减 [28] - 分组规模(G)扩大可提升难题准确度,如 Shortest 8/24 与 GRPO 准确度相当 [40] 应用场景扩展 - GFPO 可集成事实性、多样性等指标优化其他属性,适用于推理解答验证(AIME 25 解答步骤冗长减少 94.4%)[16][44]
千支队伍争锋!首届「启智杯」算法大赛圆满落幕,助推AI应用落地
机器之心· 2025-08-14 04:57
赛事概况 - 启元实验室于2025年5月20日启动「启智杯」算法创新应用挑战赛,7月25日结束,吸引1022支队伍参赛,覆盖高校、科研院所及科技企业 [1][2] - 三大赛道冠军分别由华南理工大学、陕西师范大学与西北农林科技大学联合团队、中山大学团队获得,技术方案聚焦Transformer架构优化与多模态融合 [2][10][14] 赛道技术亮点 卫星遥感图像鲁棒实例分割 - 赛题聚焦高分辨率遥感图像中复杂目标的像素级分割,挑战包括视角畸变、遮挡干扰和分布外样本(OOD) [6] - 冠军团队「AlexZou14」改进Co-DETR模型,引入多辅助检测头(ATSS Head、RPN Head等)协同训练,结合SAM大模型伪标签提升零样本分割能力,复赛阶段泛化表现突出 [8] 嵌入式平台无人机目标检测 - 赛题需在昇腾310B等端侧平台平衡检测精度与推理效率,复赛评估增加部署稳定性测试 [9] - 冠军团队「断雁无凭」从YOLOv11转向Co-DETR模型,采用RFLA标签分配策略和ATSS采样方法优化小目标检测,梯度检查点技术降低显存占用 [12][13] 多模态大模型对抗挑战 - 赛题围绕视觉问答等任务考察模型抗干扰性,设置20GB模型体积上限与单卡推理限制,复赛转化率达68% [14] - 冠军团队「爱吃猪脚饭」基于Qwen2.5-VL-7B模型,采用课程学习式多任务微调与自适应图像增强预处理,显著提升遥感场景鲁棒性 [16][17] 产业应用价值 - 赛事设计紧贴真实场景:遥感分割应用于地理信息提取与环境监测,无人机检测方案为边缘计算提供参考路径 [20][21] - 技术方案体现工程化潜力:多检测头协同训练、伪监督学习、动态显存调度等策略推动算法落地 [8][12][17] 生态与人才培养 - 赛事促进产学研联动:企业获取前沿研究动向,科研团队验证技术可行性,加速成果转化 [23] - 高强度实战训练提升选手工程化能力,为行业输送复合型AI人才 [22][23]
ICCV 2025 | HERMES:首个统一3D场景理解与生成的世界模型
机器之心· 2025-08-14 04:57
研究背景与动机 - 自动驾驶技术需要两大核心能力:对当前环境的深刻理解(识别交通参与者、理解交通规则)和未来场景的准确预测(预测行人、车辆运动)[7] - 当前主流方案将"理解"和"生成"分开处理,但实际决策需要两种能力深度融合[8][10] - 构建统一模型面临挑战:高分辨率环视图像输入LLM的token限制、理解与生成任务相互促进机制、世界知识与场景预测的集成[11] HERMES框架设计 - 采用共享LLM同时驱动理解与生成任务,通过BEV(鸟瞰图)作为统一场景表达[13][18] - BEV Tokenizer将六路环视图像编码为紧凑俯视视角表征,保留空间几何关系和语义细节[18] - 引入世界查询机制:通过自适应采样提取场景核心信息Token,实现知识注入与传递[19] - 联合训练优化:语言建模损失(Next Token Prediction)和点云生成损失(L1损失)[21][22] 技术优势与性能 - 未来生成任务:3秒未来点云误差降低32.4%,Chamfer Distance显著优于ViDAR[31] - 场景理解任务:CIDEr指标提升8%,超越OmniDrive等专用模型[31] - 统一建模效果:生成精度显著提升且理解能力无损,验证框架有效性[31] - 无需历史序列即可实现高效推理,展现强泛化能力[31] 应用表现 - 能准确预测未来三秒车辆与环境动态(如货车轨迹),同时深度理解当前场景(识别"星巴克"并描述路况)[4] - 生成时序连贯且几何精确的未来点云,精准描述驾驶场景细节(动态物体移动预测、路边商家识别)[27]
刚刚,全网最懂图文调研的智能体模型震撼上线,看完我直接卸了浏览器
机器之心· 2025-08-14 04:57
国产大模型开源趋势 - 7月国产大模型开源数量达33款,昆仑万维、阿里、智谱、月之暗面、腾讯、阶跃星辰等厂商密集发布开源模型 [1] - 8月延续技术发布热潮,昆仑万维启动"Skywork AI技术发布周",连续5天推出视频生成、世界模型、生图一体化等多模态模型 [1] 昆仑万维Agent技术突破 - 发布全球首款Office智能体"天工超级智能体",支持文档、PPT、Excel等多任务一站式生成 [3] - 升级Skywork Deep Research Agent至V2版本,在BrowseComp评测中常规模式正确率27.8%,并行思考模式跃升至38.7%刷新SOTA [4] - 在GAIA基准测试中超越所有竞品,平均得分83.39分,Level 1至Level 3得分分别为93.55/83.02/65.31 [6][9] 多模态深度调研创新 - 业界首创多模态深度调研Agent,突破纯文本检索局限,支持图片/图表信息识别与融合 [12] - 实测生成特斯拉中国销量报告时,分析180个网页/54个信源,自动整合折线图、柱状图、饼图等可视化数据 [20][21] - 采用四大核心技术:多模态爬取、长距离信息收集、异步并行Multi-Agent架构、多模态结果呈现 [27] 浏览器智能体技术革新 - Skywork Browser Agent突破传统瓶颈,支持社交媒体图文/视频/评论分析,实现65%冗余图片流量削减 [29][30] - 演示案例中自动生成《戏台》电影分析网页,完成豆瓣数据采集、HTML框架搭建、CSS设计及JS交互功能实现 [33][34] - 关键技术包括多模态推理模型优化、DOM解析增强、平台动作适配与并行搜索机制 [36] 智能基座构建策略 - 建立端到端深度信息问题合成流程,数据质量标准涵盖多样性/正确性/唯一性/可验证性/挑战性五大维度 [40] - 创新非对称验证强化学习,采用GRPO算法与动态课程学习机制,结合生成式密集奖励提升训练效率 [41] - 自研并行推理框架实现三大突破:并行思考模式、生成式评估方案、熵自适应剪枝技术 [42][43] - 多智能体演进系统通过MCP工具自动创建与协同框架,整合规划/调研/浏览器/数据分析等Agent能力 [44] 行业竞争格局演变 - AI行业重心从单一通用大模型转向开源生态与应用落地,Agent成为加速商业化部署的核心途径 [47][49] - 昆仑万维通过全栈式布局(基座模型+多模态系统+Agent产品矩阵)强化AGI/AIGC战略优势 [50]
港大联手月之暗面等开源OpenCUA:人人可造专属电脑智能体
机器之心· 2025-08-14 01:26
核心观点 - 香港大学XLANG Lab与月之暗面等机构联合推出完全开源的计算机使用智能体(CUA)框架OpenCUA,包含数据收集工具、大规模数据集和训练流程 [1][3][6] - 基于该框架训练的旗舰模型OpenCUA-32B在OSWorld-Verified基准测试中达到34.8%成功率,创开源模型新纪录并超越GPT-4o [1][37] - 项目完整公开代码、数据和模型,涵盖3个操作系统及200多个应用/网站的大规模多模态数据集 [2][6][20] 技术框架 - 开发跨平台标注工具AgentNet Tool,支持Windows/macOS/Ubuntu系统的屏幕视频录制和交互信号采集 [6][13] - 提出动作约简技术将原始高频操作压缩为高阶动作序列,与pyautogui动作空间对齐 [16][17][21] - 采用状态-动作匹配方法提取关键帧作为系统状态表征,避免未来信息泄露 [19] 数据集构建 - AgentNet数据集包含22,625条人工标注任务,其中Windows 12,000条、macOS 5,000条、Ubuntu 5,000条 [23] - 任务平均步骤18.6步,覆盖140+应用和190+网站,支持720p至4K分辨率 [20][23] - 构建AgentNetBench离线评估基准,包含100个经人工审查的多平台代表性任务 [25][27] 模型训练 - 基于KimiVL-A3B和Qwen2.5-VL系列模型进行监督微调,得到OpenCUA-7B/32B等变体 [32][35] - 采用生成器-反思器迭代流程生成反思式长思维链推理,增强任务步骤处理能力 [30] - 模型结合多图像历史与跨领域数据,支持真实桌面环境操作 [29] 性能表现 - OpenCUA-32B在OSWorld-Verified在线评估中达成34.8%平均成功率,超越OpenAI CUA的31.4% [37] - 在AgentNetBench离线评估中取得79.1%平均成功率,高于OpenAI CUA的73.1% [40] - GUI定位任务中OpenCUA-72B在ScreenSpot-Pro和OSWorld-G分别达到55.3%和59.6%准确率 [42] 行业意义 - 首个具备真实性、复杂性和多模态特征的桌面端轨迹级开源数据集 [24] - 完整开源工具链为CUA研究提供基础设施,加速透明化与可验证研究进程 [50] - 展现出明确的数据规模效应和跨领域泛化能力 [45][50]
破解「长程智能体」RL训练难题,腾讯提出RLVMR框架,让7B模型「思考」比肩GPT-4o
机器之心· 2025-08-14 01:26
腾讯混元AI数字人团队RLVMR框架研究 核心观点 - 提出RLVMR框架解决长程智能体存在的低效探索和泛化脆弱难题,通过奖励"思考过程"而非仅结果,实现端到端强化学习[4][6][26] - 7B模型在ALFWorld和ScienceWorld的L2任务中成功率高达83.6%,超越GPT-40等SOTA模型[11][12] - 智能体动作效率提升28.1%,训练收敛速度更快[13][14] 技术突破 - **元推理状态机制**:要求智能体行动前标记认知阶段(规划/探索/反思),使思考过程可追踪[7][15] - **可验证过程奖励**:轻量级验证规则实时评估思考质量,杜绝"瞎蒙"行为[8][15] - **双阶段训练**:冷启动SFT学习基础推理概念+强化学习RL内化能力,形成成长曲线[22][23][25] 实验数据 - **成功率对比**: - ALFWorld L2:RLVMR 83.6% vs GPT-40 68.8% vs DeepSeek-V3 53.9% [12] - ScienceWorld L2:RLVMR 32.2% vs GPT-40 41.0% vs GiGPO 25.8% [12] - **效率提升**: - ALFWorld L2动作数从28.9降至15.4(降幅46.7%)[14] - ScienceWorld L1动作数从27.9降至18.8(降幅32.6%)[14] 认知科学应用 - **反思机制**:使智能体主动识别问题而非盲目重试,重复动作率显著降低[18][19] - **元问题解决框架**:建立跨任务的通用思维方法论(规划-探索-反思),L2任务表现提升56.3%[20][21] - **过程奖励必要性**:移除元推理奖励(AMC)导致ALFWorld L2性能下降45.3%→12.5%[23] 行业意义 - 实现从结果导向到过程导向的范式革新,推动AGI向可解释、鲁棒性方向发展[26][27] - 验证"思维模式强化"路径的有效性,为构建具备真正推理能力的智能体提供方法论[21][26]
美国计算机就业炸了:名校毕业投5000家无人问,不如生物、艺术史,麦当劳打工也不要
机器之心· 2025-08-13 09:29
核心观点 - AI技术快速发展导致计算机专业应届毕业生面临严峻就业形势,失业率高达6.1%(计算机科学)和7.5%(计算机工程),是生物学和艺术史专业(3%)的两倍以上[1][2][3] - AI编程工具的普及和科技公司裁员潮大幅减少了对初级软件工程师的需求,颠覆了计算机专业高薪好就业的传统认知[11][12][20] - 计算机专业毕业生求职竞争激烈,投递上千份简历仅获得个位数面试机会的现象普遍存在[15][16] 就业市场数据 - **失业率最高专业**:计算机工程(7.5%)、物理学(7.8%)、计算机科学(6.1%)[5][6][7] - **薪资水平**:计算机工程和计算机科学早期职业中位数薪资均为8万美元,中期分别达12.2万和11.5万美元[5][6] - **对比数据**:会计(1.9%失业率)、航空航天工程(1.4%)、土木工程(1.0%)等传统理工科就业形势显著优于计算机专业[5][6] 行业趋势 - 科技公司采用AI编程助手替代初级工程师工作,亚马逊、英特尔、Meta和微软等巨头裁员加剧就业压力[11][20] - AI工具被双向使用:求职者用Simplify等AI工具海投简历,企业用AI系统自动筛选,导致简历通过率暴跌[18] - 计算研究协会数据显示,2023年美国计算机专业本科生人数突破17万,较2014年翻倍,但岗位需求反向收缩[20] 典型案例 - 普渡大学计算机科学毕业生Manasi Mishra求职一年未获录用,唯一面试来自墨西哥快餐连锁店[14] - 俄勒冈州立大学Zach Taylor投递5,762份科技工作仅获13次面试,最终靠失业救济金度日[15][16] - 克拉克大学Audrey Roller手动撰写简历仍遭遇3分钟极速拒信,反映AI筛选系统的残酷性[20] 教育投资回报变化 - 2010年代计算机专业起薪超10万美元是行业标配,2023年同等资历毕业生难以获得普通企业岗位[15][20] - 计算机专业研究生学历占比32.8%(计算机科学)和40.0%(计算机工程),但学历溢价效应显著减弱[5][6] - Geoffrey Hinton等专家建议年轻人转向水管工等AI难以替代的蓝领职业[12]
告别Transformer,重塑机器学习范式:上海交大首个「类人脑」大模型诞生
机器之心· 2025-08-13 09:29
模型架构创新 - 提出BriLLM模型,突破传统Transformer架构限制,采用基于有向图的神经网络设计,模拟人脑全局工作机制[3][9] - 引入信号全连接流动(SiFu)机制,以动态信号传播替代注意力机制,实现节点间信号传递[9][13] - 支持无限上下文处理,模型参数完全独立于序列长度,长上下文无需增加参数量[15][16] 性能优势 - 模型计算复杂度低,摆脱Transformer的平方级复杂度限制,提升处理效率[7] - 通过低频词元边共享技术大幅降低参数规模,中文版参数从16.90B缩减至2.19B(缩减率87%),英文版从16.90B缩减至0.96B(缩减率94.3%)[21] - 全模型具备100%可解释性,所有节点及决策流程透明,突破传统黑箱困境[9][19][25] 技术突破 - 首次在宏观尺度模拟人脑语义编码机制,静态语义映射与动态电信号传导双路径创新[8][9] - 支持多模态天然融合,节点可扩展至视觉、听觉、具身交互等模态,无需重新训练模型[25][26] - 模型规模可扩展至千亿参数级别,词表扩展至4万时预期参数量100-200B,与SOTA模型相当但无上下文扩展限制[22] 应用前景 - 为多模态AGI及具身智能提供通用框架,直接支持感知-运动整合[26][27] - 获上海交通大学"交大2030"计划2025年度重点项目资助,额度500万,聚焦颠覆性基础研究[27]