Workflow
机器之心
icon
搜索文档
DeepSeek、GPT-5带头转向混合推理,一个token也不能浪费
机器之心· 2025-08-30 10:06
混合推理模式行业趋势 - AI行业面临过度思考导致的算力浪费问题 推动自适应计算技术发展 [2][3] - 2024年多家头部公司推出混合推理方案 通过动态调整计算资源实现50-80%的token节省 [3][7][10] - 混合推理成为大模型领域新常态 成本与性能平衡成为核心竞争力新基准 [11][48] 技术实现路径对比 - 路由方案:OpenAI的GPT-5采用多模型路由系统 根据问题复杂度自动选择gpt-5-main或gpt-5-thinking等模型 [36][37] - 单模型双模式:DeepSeek v3.1通过</think>/<think>标记实现思考模式切换 在基准测试中减少25-50% token消耗 [3][10][46] - 显式控制方案:阿里Qwen3采用/think和/no_think标记 谷歌Gemini 2.5 Flash支持0-24576 token的思考预算调节 [19][23] 头部公司技术布局 - Anthropic的Claude 3.7 Sonnet首创混合推理 支持API端精细控制思考时长 [18] - 腾讯Hunyuan-A13B采用双模式思维链框架 通过后训练统一优化快慢思考两种模式 [34] - 智谱GLM-4.5通过专家训练+自蒸馏技术整合推理能力 实现反思与即时响应模式切换 [35] - 字节Seed 1.6采用Adaptive CoT技术 通过强化学习实现帕累托最优的推理链触发机制 [31][32] - 快手KwaiCoder-AutoThink采用两步式训练 增加pre-think阶段预判问题难度 [27][28] 性能与成本数据 - GPT-5思考模式比前代减少50-80%输出token [7] - DeepSeek v3.1在AIME 2025等测试中保持性能同时减少25-50% token消耗 [10] - Gemini 2.5 Flash启用推理功能后输出成本相差6倍 [23] - 当前20分钟深度研究调用成本约1美元 预计2027年单用户单日Agent调用成本达72美元 [14][15] 技术挑战与演进方向 - 阿里Qwen3混合推理因基准测试表现不佳暂停 转向分模型训练方案 [21] - OpenAI路由方案遭遇专业用户质疑 存在路由不透明和低质量模型分配问题 [38] - 研究领域聚焦无需训练(提示词/路由/解码操纵)和基于训练(微调/强化学习)两大技术路径 [50][51] - 多模态领域出现R-4B等自适应思考模型 自动化程度持续提升 [52] 商业模式创新 - 路由模式使OpenAI可从免费用户提问中识别商业意图 导向高算力模型并实现成交抽成 [43] - 企业级应用更关注成本精确控制 Gemini 2.5 Pro的思考预算机制支持像调节水龙头一样调节AI思考成本 [24] - 深度研究等长任务模式导致token消耗每6个月翻倍 订阅费上涨压力持续存在 [14][16] 未来发展方向 - 行业竞争重点从"是否能思考"转向"能否以最低代价在恰当时刻思考" [56][57] - 技术目标聚焦更智能的自我调节 减少对人类指示的依赖 [57] - 开源模型如DeepSeek v3.1提供高性价比选择 企业级部署成本控制需求持续强化 [46][24]
CodeAgent 2.0 时代开启|GitTaskBench,颠覆性定义代码智能体实战交付新标准
机器之心· 2025-08-30 10:06
GitTaskBench评测框架创新 - 突破现有AI编码评测局限,首次提出仓库级测评新范式,考察从仓库理解到项目交付的全链路能力[2] - 联合中科院、北大、港科大等顶尖机构共同开发,引入"经济收益"作为核心评测指标[2] - 覆盖7大模态×7个领域×24个子领域的54个真实任务,包含18个后端仓库[3] 评测体系构建方法论 - 采用四阶段构建流程:仓库遴选(Stars≥50+近五年活跃)、完备性验证(100%人类可复现)、执行框架设计、自动化评测[10] - 每个任务配备完整GitHub仓库+自然语言指令+明确输入输出格式+自动化评测系统[4] - 仓库平均包含204个文件、1,274.78个函数、52.63k行代码,文件间引用依赖达1,242.72次[3] 三维能力评估体系 - 整体编码掌控:读文档、解依赖、生成/修改/调试代码[9] - 任务导向执行:多轮推理与工具使用,利用代码仓库但不局限于仓库[9] - 自主环境配置:独立安装环境/解决依赖,不借助预置镜像[8] 经济可行性量化模型 - 首创α值指标:α=1/n×∑[(T×MV×Q)-C],量化任务自动化带来的净收益[12][13] - T为任务成功二元标记(与ECR一致),MV为人工完成市场价值,Q为质量系数(0-1),C为API成本[15] - 该模型评估Agent方案在各领域的经济可行性,量化成本节省与效率提升[13] 主流框架性能表现 - OpenHands+Claude 3.7获得最佳成绩:ECR 72.22%/TPR 48.15%[15] - GPT-4.1成本效益突出:成功率次优的同时,成本仅为Claude的1/10-1/30[15] - 开源模型表现:Qwen3-32B以更少token达到Claude 3.5约60%水平[15] 跨领域经济价值分析 - 高价值领域:视频类(VideoPose3D)、语音类(FunASR)、生理信号类(NeuroKit)任务可获得最大正向alpha收益[18] - 低价值领域:图像处理任务(MV≈$5-10)当执行成本超过$1-2时alpha为负[19][20] - 市场价值分布:视频动作分析$150,语音识别$100-200,生理信号分析$60,而图像增强仅$5-10[22] 实际应用指导价值 - 框架选择需三元权衡:效果、成本、API调用[24] - 可作为Agent基础设施的回归测试场,支持基座对比和工作流改进[27] - 提供企业级应用落地评审标准,通过ECR/TPR/α三维指标支持上线决策[27]
23岁小哥被OpenAI开除,成立对冲基金收益爆表,165页论文传遍硅谷
机器之心· 2025-08-30 04:12
文章核心观点 - 前OpenAI员工Leopold Aschenbrenner被解雇后创立对冲基金 通过押注AI相关领域实现47%回报率 远超市场平均水平[1][14] - Aschenbrenner预测2027年将实现通用人工智能 其依据是AI能力的指数级增长和算力扩展定律[29][38] - AI发展将引发各行业变革 需关注算力基础设施 国家安全和治理结构等关键因素[31][36][38] Leopold Aschenbrenner背景 - 23岁 拥有哥伦比亚大学数学 统计学和经济学三个学位 GPA年级第一[16] - 曾任职OpenAI超级对齐团队 参与Weak-to-Strong Generalization研究 后因泄露内部信息被解雇[7][18] - 在FTX Future Fund工作期间专注于AI安全和全球风险管理[17] 对冲基金表现 - 基金规模达15亿美元 投资策略为做多半导体 基础设施 电力公司及Anthropic等AI企业 同时做空可能被淘汰行业[10][11] - 2024年上半年回报率47% 同期标普500指数回报6% 技术对冲基金指数回报7%[14] - 获得Stripe创始人 Collison兄弟 Meta的AI团队领导及著名投资者Graham Duncan支持[11] AI技术发展预测 - 从GPT-2到GPT-4代表多个数量级(OOM)进步 即指标十倍增长[26] - AI进步依赖三大因素:扩展定律 算法创新及海量数据集 性能提升接近指数级[27][29] - AGI系统将具备并行研究能力 可同时进行多项测试 解决复杂科学技术难题[35] 行业影响与基础设施 - AGI将改变材料科学 能源和健康领域 显著提高经济生产力和人类福祉[35] - 构建AGI需大规模计算基础设施 包括设备效率 能源利用和信息处理能力提升[36] - 科技巨头正投入重金建设大规模AI算力基础设施[38]
在美国,打工人越老越吃香,22-25岁新人最先被AI淘汰
机器之心· 2025-08-30 04:12
AI对劳动力市场的影响 - AI能力快速提升,在SWEBench编码基准测试中的解决率从2023年的4.4%大幅提升至2024年的71.7% [2] - 美国18岁以上受访者使用大型语言模型(LLM)的比例在2025年6月达到46% [2] - AI暴露度最高的职业(如软件开发、客户服务)中,22-25岁年轻劳动者就业率显著下降,而经验丰富的年长劳动者群体保持稳定或增长 [4] 不同年龄层就业分化 - 2022年底至2025年7月期间,高AI暴露职业中22-25岁劳动者就业率下降6%,同期35-49岁年长劳动者群体就业增长6%-9% [5] - 低AI暴露职业(如护理助理)中各年龄段劳动者就业趋势保持稳定或持续增长 [4] - 截至2025年7月,22-25岁软件开发人员就业相比2022年底峰值下降近20% [9] AI应用类型的差异化影响 - 自动化型AI应用导致初级岗位就业下降,而增强型AI应用未出现类似就业萎缩 [5][23] - 在AI自动化程度最高的职业中,最年轻劳动者群体就业率呈现下降趋势 [23] - 增强型AI应用职业中,年轻劳动者就业反而实现增长 [5] 影响机制分析 - AI主要替代构成正规教育核心的程式化知识(书本知识),而难以替代通过经验积累形成的默会知识(场景特定技巧) [6] - 年轻劳动者因提供更多程式化知识而面临更高替代风险,年长劳动者凭借默会知识获得保护效应 [6] - 经验回报率较低的职业中,非大学学历劳动者从默会知识中获得的保护效应较弱 [6] 行业专家预测 - Anthropic首席执行官预测AI将在1-5年内消灭一半入门级白领工作,可能导致失业率飙升至10-20% [7] - AI教父辛顿认为呼叫中心、初级律师、常规程序员等程式化工作面临高风险,而与人类灵巧性相关的工作(如水管工)短期内不会被替代 [6]
你能永远陪我聊天吗?复旦&微软提出StableAvatar: 首个端到端无限时长音频驱动的人类视频生成新框架!
机器之心· 2025-08-30 04:12
在《流浪地球 2》中图恒宇将 AI 永生数字生命变为可能,旨为将人类意识进行数字化备份并进行意识上传,以实现人类文明的完全数字化。 如今随着扩散模型的兴起极大,涌现出大量基于音频驱动的数字人生成工作。具体而言,语音驱动人类视频生成旨在基于参考图像与音频,合成面部表情与身体 动作与音频高度同步的自然人像视频,在电影制作、游戏制作、虚拟现实、直播带货等领域具有广泛的应用前景。 但是,现有方法仅能生成时长不足 15 秒的短视频,一旦模型尝试生成超过 15 秒的视频,就会出现明显的身体变形与外观不一致现象,尤其集中在面部区域,这 使目前数字人技术还无法达到《流浪地球 2》中图恒宇所创造的 AI 永生数字生命那样的程度,严重限制了其实际应用价值。 为了解决这一问题,一些方法尝试在音频驱动人类视频生成中引入一致性保持机制,但很少有工作深入探讨问题的根本原因。现有策略——无论是利用运动帧 (Motion Frame),还是在推理过程中采用多种滑动窗口机制——都只能在一定程度上提升长视频的平滑性,却无法从根本上缓解无限时长头像视频的质量退化问 题。 另一种可行方案是将长音频切分为多个片段,分别处理后再拼接成连续的视频。然而, ...
合成数据的「毒」与「药」,模型崩溃有何新解?
机器之心· 2025-08-30 01:30
合成数据毒性研究新发现 - 合成数据在迭代训练中会导致逐代污染训练集 模型逐步丧失对真实数据分布的认识 输出同质化[2][5] - 早期崩溃阶段模型开始丢失分布尾部低概率事件的信息[5] - 晚期崩溃阶段模型收敛到与原始分布几乎无相似之处[6] - 崩溃发生与模型设计 学习过程及数据质量相关[7] - 崩溃现象发生于语言模型 变分自编码器VAE和高斯混合模型GMM等多种生成模型[8] - 斯坦福和哈佛研究认为模型崩溃风险被夸大 大多数崩溃实验基于非现实假设条件[8] - 现实应用中保持真实数据比例并采取正常训练流程可缓解崩溃问题[8] 合成数据在训练流程中的角色 - 业界建立系统化合成数据生成与应用框架 在风险与效用间寻求平衡[9] - 合成数据在预训练 微调 后训练 评估各阶段发挥功能[3] - 存在降低模型性能的情况需特别注意[3] 模型崩溃化解策略 - 提出Token-Level Editing 黄金比例混合和递归训练样本控制等方法解决崩溃问题[4] - 需量化合成数据带来的信息增益以保证模型泛化能力[4]
清华崔鹏团队开源LimiX:首个结构化数据通用大模型,性能超越SOTA专用模型
机器之心· 2025-08-30 01:18
由于专用模型难泛化、不通用,面对不同场景需要训练多个专用模型,成本高、效果差,且难以发挥数据要素聚集的乘数效应,严重制约了 AI 在工业场景的落地 路径。 结构化数据通用大模型(Large Data Model, LDM)则针对性解决这一痛点:不同于 LLM 聚焦文本,LDM 融合结构因果推断与预训练大模型技术,既能捕捉结构 化数据的内在关联,又具备强泛化能力,可跨行业适配多类任务。 「极数」大模型可以支持分类、回归、高维表征抽取、因果推断等多达 10 类任务,在工业时序预测、异常数据监测、材料性能预测等场景中,性能达到甚至超越 最优专用模型,实现单一模型适配多场景、多任务的通用性突破,为人工智能赋能工业提供了 One-For-All 解决方案。 2025 年 8 月 29 日,由清华大学计算机系崔鹏教授团队联合稳准智能共同研发的结构化数据通用大模型「极数」(LimiX)正式宣布开源。 此次发布标志着我国在结构化数据智能处理领域的技术突破与生态开放迈出关键一步,将显著降低千行百业应用结构化数据 AI 技术的门槛,特别是在结构化数据 占主导的泛工业领域,「极数」大模型将助力 AI 深度融入工业生产全流程,破解工 ...
AI应用:浮现中的AI经济
机器之心· 2025-08-30 01:18
人类经济活动数字化进程 - 计算机发明标志着人类进入数字化时代 经济活动开始被先后顺序数字化[4][5] - 数字化使算法驱动经济活动成为可能 实现智能化[5] - 尼葛洛庞帝《数字化生存》提出"Move bits, not atoms"理念 指出比特世界效率千万倍于物理世界[8] - 数字化进程分为两个阶段:第一阶段互联网/移动互联网完成物理世界数字化 第二阶段算法开始具备交付工作能力[9] 互联网/移动互联网经济特征 - 最大特点是匹配效率极大提高 通过桌面PC和手机硬件实现主流生活需求数字化[11][12] - 三大核心赛道:搜索(信息与人匹配)、社交(人与人匹配)、电商(商品与人匹配)[12] - 匹配方式演进:前互联网阶段就近获得→互联网阶段全局搜索→移动互联网阶段个性化推荐[13] - 个性化推荐解决"知识不足导致选择低效"问题 将经验证的最佳选择推荐给共性用户[14] - 当前数字化程度:个人消费行为数字化较高 企业经济活动数字化仍有提升空间[15] AI经济系统特征 - 2017年后AI进入新阶段 具备泛化交付工作能力[18] - 计算机首次能完整参与"收集信息-决策-行动"全链条[19] - 2025年成为重要时间点 AI智商超过人类平均水平100 达到110以上[22][23] - OpenAI o3达"天才级"水平 字节豆包模型可达清华北大录取成绩[23] - 行动能力分两阶段:第一阶段完成数字世界工作(编程/文案/设计) 第二阶段具身智能完成物理世界工作(清洁/制造/护理)[21] 全天候自动运行系统 - 经济系统可自动运行直至工作完成[26] - 在同等能力下 AI每日工作量达人类3倍 每周4.2倍 每年约4.32倍[26] - Anthropic Claude 4模型可自主运行7小时 年底将实现全天候软件工程智能体[28] - 应用案例:Lovart自动生成logo及全套VI Sema4.ai实现7×24小时发票整理[29] 无劳动力供给限制 - 计算能力成为新劳动力供给 可无限复制且边际成本低[33] - 对比生物性劳动(时间/数量约束)和机械性劳动(研发成本高) AI突破传统限制[33][34] - 凯恩斯曾预测百年后生活水平提高4-8倍 但未预料到计算机带来的新阶段[40] - 发展经济学中刘易斯"二元经济"模型若成立 将是全球消费者福音[36] 非稀缺经济形态 - 数字世界先实现N倍产出能力 服务业总供给大幅提升[38] - 具身机器人成熟后拓展至物理世界 成本低于人类劳动力[38] - 凯恩斯预言"非稀缺经济":单位时间总产出可能超过总需求[39] - 实际增长超预期:1950-2000年增长率2.9% 收入水平达1930年17倍[40] 交易成本降低 - 数字技术降低五类成本:搜寻/复制/交通/追踪/验证成本[45] - AI阶段将出现"数字层" 由个人AI助理和垂类Agent组成 全面了解经济主体和物理世界[46] - "数字层"实现更精准匹配 企业内外部交易成本进一步降低[47] - 匹配方式进阶:大模型个性化推荐使商品颗粒度更细 社交推荐从"打标签"变为"全方位了解"[48] 决策理性化提升 - 计算机首次参与决策 仅从成本收益角度分析 不受心理因素影响[53] - 行为经济学发现的非理性行为(前景理论/禀赋效应/心理账户等)可能大幅减少[52][53] - 投机行为驱动因素(非理性心理/从众心理)被抑制 降低经济损耗[53] 历史数据价值释放 - 计算机突破当世人类经验限制 纳入历史事实与观点[56] - 人类可同时向当世和历史求解 寻求"时空最优解"[57] - 稀有体验可能成为历史大数据中的可归纳经典[56] 人的全面发展 - 非稀缺经济下个人拥有充足时间用于自我实现[59] - "数字层"作为普惠贴身导师 帮助每个人成为更优秀的自己[61] - 需完成两大任务:确保AI系统受人类控制 保证生产力成果为全人类共享[62] - 当前可能进入"数字轴心时代" 重新定义核心价值[62]
谢赛宁回忆七年前OpenAI面试:白板编程、五小时会议,面完天都黑了
机器之心· 2025-08-29 09:53
AI大厂面试特点分析 - Meta研究者Lucas Beyer发起关于AI大厂面试体验的投票 选项包括Google/Meta/MS、OpenAI/Anthropic、xAI和Old DeepMind [1] - 投票结果显示Old DeepMind以32.1%的得票率被评为最佳面试体验 [20] 顶尖研究人员职业轨迹 - Lucas Beyer拥有超过94,000次学术引用 h-index达40 2020年以来引用量达93,147次 [2][4] - 2024年6月与Alexander Kolesnikov和Xiaohua Zhai三位研究者共同从OpenAI转入Meta [2] 各公司面试模式比较 - Old DeepMind采用两小时高强度面试 包含100多个数学统计和机器学习问题 [6] - Meta FAIR面试侧重学术讨论和编码 曾由Piotr Dollar、Ross Girshick和何恺明担任面试官 [6] - Google面试采用"教职面试"模式 包含编程题和研究讨论 知名AI学者Noam Shazeer曾参与面试 [7] - OpenAI面试采用5小时白板编程和研究报告形式 由联合创始人John Schulman亲自设计强化学习问题 [7] 面试过程典型案例 - 谢赛宁在OpenAI面试时讨论强化学习中的方差崩溃问题 尽管当时对该领域了解有限但仍需现场研究解决 [7] - Omar Shams回忆DeepMind面试涵盖代码数学统计和机器学习 面试官Jacob Menick给予满分评价 [12] - Rishabh Agarwal被Christian Szegedy面试时 需解决概率分布相关的飞镖游戏问题 并在餐巾纸上完成数学计算 [18] - Felipe Mello在谷歌面试中被要求编写单元测试并分享最难解决的bug [14] - Ashwinee Panda在xAI联合创始人张国栋的面试中获得研究灵感 最终扩展为正式研究成果 [16] 行业人才流动趋势 - 知名研究人员频繁在顶级AI机构间流动 包括OpenAI、DeepMind、谷歌大脑和Meta等 [2][6] - 行业顶尖人才如Ross Girshick(超过60万引用)和何恺明已从企业转向学术或创业领域 [6]
具身智能下一站在哪?来外滩大会这场论坛带你拨云见日!
机器之心· 2025-08-29 09:01
在生成式 AI 席卷全球的浪潮中,具身智能正成为将数字智慧融入物理世界的关键路径。它赋予 AI 感知、决策与执行能力,使其从屏幕与云端走向物理现 实,实现真正的智能体。 然而,在爆发式进展背后,行业正面临挑战:如何破解"通用泛化"瓶颈,让智能体在开放环境中创造价值?如何协同产业链上下游,将技术突破转化为商业 回报? 2025 Inclusion·外滩大会将于 2025 年 9 月 10 日至 13 日在上海黄浦世博园区召开。作为大会见解论坛之一, 「具身智能:从泛化到行动,重塑产业 未来」论坛将于 9 月 11 日下午在【C2】馆举办 ,论坛由机器之心、张江具身智能机器人有限公司出品,以"从泛化到行动"为主线,通过 主旨报告 、 主 题演讲 、 思辨 、 圆桌对话 等多种环节,邀请来自具身智能领域的学术领袖、技术企业代表、本土创新先锋以及产业场景方等嘉宾,共议具身智能泛化之 道。 大咖云集:覆盖全领域,拆解具身智能核心热点 汇集清华大学、国地共建人形机器人创新中心、星海图、灵心巧手、NVIDIA、银河通用等顶尖高校/明星机构专家,从技术研发、平台支撑、商业化落地等 多维度,直击具身智能当前热点与未来趋势。 高 ...