机器之心

搜索文档
从Debugger到Developer : 低代码时代新基准NoCode-bench,SWE-Bench作者力荐
机器之心· 2025-08-08 07:53
研究背景与核心观点 - 论文由浙江大学研究员刘忠鑫团队联合香港科技大学、德国斯图加特大学等机构共同完成,聚焦代码智能与AI在软件工程中的应用 [2] - 核心观点:当前LLM在「自然语言驱动功能添加」任务上的成功率仅20%,远低于Bug修复任务(SWE-bench成功率70%+),揭示AI在真实软件开发中的能力短板 [3][26] - 提出全新基准NoCode-bench,填补现有评测体系空白,推动AI从「修理工」向「开发工程师」转型 [6][27] NoCode-bench基准设计 - 数据来源:从开源项目的发行说明(Release Notes)提取开发者确认的功能添加条目,确保高质量与真实性 [8] - 构建流程: - 阶段1:筛选文档齐全且明确标记功能更新的开源项目 [10] - 阶段2:收集关联PR,要求必须包含文档修改以提供自然语言输入 [10] - 阶段3:采用Docker镜像+虚拟环境构建可扩展的测试环境 [16] - 阶段4:通过测试用例状态转变验证功能有效性,保留开发过程中的错误实例以反映真实场景 [16] - 阶段5:静态分析提取「标识符提示」减少评估偏差,屏蔽PR编号防数据泄露 [16] - 子集NoCode-bench Verified包含114个经人工验证的高质量实例,提升评估信度 [11] 基准任务挑战性分析 - 输入复杂度:文档变更平均长度为Bug报告的2倍,需更强文本理解能力 [12] - 定位难度:需修改的文件数和代码块数量远超Bug修复任务,涉及大量文件增删 [13] - 编辑量:平均修改代码行数为SWE-bench数倍,20%任务修改量超200行 [14] 模型性能评估结果 - 测试模型:涵盖Claude-4-Sonnet、GPT-4o、Gemini-2.5-Pro等6种SOTA模型 [18] - 最佳表现:Claude-4-Sonnet在NoCode-bench Verified上成功率仅15.79%,Agent框架下提升至15.79%但仍远低于Bug修复任务 [18][26] - 开源模型对比:DeepSeek-v3表现最优(14.91%),闭源模型中Claude-4-Sonnet领先 [18] 失败原因与改进方向 - 跨文件编辑能力缺失:模型倾向单文件修改,无法处理多文件协同编辑 [20] - 代码库理解不足:直接修改核心代码破坏软件架构,导致回归测试失败 [21] - 工具调用缺陷:Agent框架下无法稳定生成正确指令格式 [22] - 未来方向:需重点突破跨文件编辑、代码库整体理解和工具调用三大瓶颈 [27] 行业影响与开源贡献 - 行业价值:软件维护成本60%用于功能增强,NoCode-bench直击核心需求 [6] - 开源资源:完整数据集、构建流程和评估代码已开源,推动社区协作 [25] - 研究意义:首次系统评估LLM在无代码功能添加任务的能力,为AI软件工程师发展提供路线图 [27]
GPT-5真的拉胯吗?机器之心一手实测,网友:还我4o、还我4.5
机器之心· 2025-08-08 07:53
GPT-5发布与市场反应 - OpenAI发布GPT-5,CEO奥特曼称其为迄今为止最智能的模型,性能覆盖文本、网页开发、视觉、编程、数学等全领域[2][4] - LMArena基准测试显示GPT-5在8个核心领域均排名第一,包括创意表达和长查询处理[4] - 首批20%付费用户已获得访问权限,界面整合为GPT-5、GPT-5 Thinking和GPT-5 Pro三个版本[19][20] 性能优势与用户正面反馈 - 用户体验报告显示GPT-5在科学推理、事实准确性和创意表达有显著提升,免费与企业用户均感知明显改进[6][10] - 编程能力案例:6秒生成SVG图像(鹈鹕骑自行车)、13秒完成音乐节拍生成(BeatBot工具),动态太阳系轨迹代码实现完整[31][41][45] - 中文理解能力通过复杂绕口令测试(亲属关系推理),准确识别直接行为人[28] 功能局限性与负面评价 - 编程任务表现不稳定:生成《Flappy Bird》游戏链接失效、p5.js动画输出黑屏、水桶流体模拟罢工[12][34][58] - 写作与幽默感缺陷:林黛玉风格模仿生硬,笑话生成未能达到预期效果[25][26] - 物理模拟部分失败:布料材质模拟首次运行错误,功德箱界面简陋[54][56] 技术不透明性与体验差异 - 沃顿商学院教授指出GPT-5为集成模型,底层模型选择逻辑未公开导致用户体验差异[15] - 同一任务对比:Gemini 2.5 Pro在水桶模拟任务中生成基础可视化效果,而GPT-5无输出[60] - 经典推理题「木棍过城门」仍无法解决,反映逻辑能力短板[30] 多模态能力与行业应用潜力 - 图像生成效果获认可,如桃树工笔画达到较高还原度[63] - 复杂交互功能实现:俄罗斯方块游戏完整开发(含计分、控件和暂停功能)[52] - 物理引擎应用案例:旋转六边形内小球弹跳模拟支持参数实时调整(重力、摩擦系数等)[53]
刚刚,奥特曼发布GPT-5!人人免费用「博士级」智能,基准图错误遭全网吐槽
机器之心· 2025-08-07 20:48
GPT-5发布核心亮点 - GPT-5为集成模型系统,包含高效应答模型、深度推理模型及实时router,可自动分配最优处理方式[6][29][30] - 在数学、编程、多模态及健康领域表现突出:AIME 2025测试达94.6%,SWE-bench编程74.9%,MMMU多模态84.2%,HealthBench Hard健康领域46.2%[9][33] - 推出三档商业化版本:免费版含基础推理功能,Plus版减少频率限制,Pro版提供最高性能[7][76][77] 技术性能突破 - 推理效率显著提升,输出token量减少50-80%,在视觉推理、科学问题解决中优于前代o3模型[68][69][70] - 三大关键改进:降低幻觉生成、提升指令遵循精度、减少迎合性回答,文本创作、编程开发、健康咨询场景全面优化[32] - 多模态能力增强,可精准解析图像、视频及科学图表,支持跨工具协同操作[53][47] 商业化与API定价 - 开发者API定价分层:标准版输入/输出Token分别为1.25美元/百万和10美元/百万,mini/nano版更低价[8] - 与微软深度合作,基于Azure AI超级计算机训练并首发上线微软平台[73][74] - GPT-5 Pro专攻高复杂度任务,在GPQA钻石级科学问题测试中达88.4% SOTA成绩[40][77] 实际应用场景 - 教育领域可快速生成代码(如法语学习网页)及互动教学内容(伯努利效应演示)[11][12] - 健康功能优化,现场展示癌症病情解释能力,自称"迄今最佳健康模型"[16] - 语音模式升级,支持自然语调调节,适用于语言学习[14] 争议与不足 - 现场演示出现跑分图表错误,CEO承认技术失误[18] - 在ARC-AGI-2基准测试中未击败竞品Grok 4,引发性能质疑[22] - 部分用户认为整体表现未达预期,存在数据源争议[25][26] 模型架构演进 - 前代模型对应升级路径明确:GPT-4o对应gpt-5-main,o3对应gpt-5-thinking系列[81] - 计划未来将多模型能力融合为单一终极模型[31] - 系统卡披露完整技术细节,包含与历史版本的关联图谱[80]
北大、字节跳动联手发布SWE-Swiss:一把修复代码Bug的「瑞士军刀」,完整配方直指开源SOTA
机器之心· 2025-08-07 20:48
核心观点 - 北京大学、字节跳动Seed团队及香港大学联合提出「SWE-Swiss」配方,通过精巧方法论设计使32B参数模型SWE-Swiss-32B在SWE-bench Verified基准上取得60.2%准确率,与更大模型性能相当,体现卓越训练效率 [1][2] - 该研究将软件工程问题解决流程解构为代码定位、修复和单元测试生成三项核心技能,并通过验证性拒绝采样构建高质量数据集,采用两阶段训练方法(多任务SFT+两阶段RL)显著提升模型性能 [5][8][10][11] - 测试时扩展阶段引入「增强自我一致性」方法,结合多补丁生成与相似度度量,使模型在生成120个补丁时达到60.2%准确率,较传统方法优化显著 [14][15][18] - 团队宣布将开源32B模型及全部训练数据,推动社区研究发展 [9][21] 模型性能 - SWE-Swiss-32B在SWE-bench Verified基准上取得60.2%顶级分数,与Kimi-Dev、DeepSeek-R1-0528等更大模型同属SOTA梯队 [1][2] - 两阶段训练使性能阶梯式提升:SFT后达36.0%,RL阶段跃升至45.0%,最终测试时扩展达60.2% [11][12][18][20] - 两阶段RL课程中,第一阶段200步训练后剪枝简单样本(准确率>90%),第二阶段90步专注难题,带来额外性能增益 [11][16] 方法论创新 - 验证性拒绝采样构建数据集:生成候选数据后通过基于测试的自动化验证筛选,仅保留成功样本用于微调 [8] - 两阶段训练架构:第一阶段混合10,254个样本进行多任务SFT,第二阶段通过POLARIS启发式RL课程强化修复能力 [11] - 增强自我一致性算法:在传统完全匹配基础上引入相似度度量,奖励相似解决方案密集区域的候选补丁 [14][15] 技术实现 - 基于Qwen2.5-32B模型进行改造,三项核心技能显式建模(代码定位/修复/单元测试生成) [10][11] - 修复模块利用定位和检索文件生成补丁,测试生成模块验证补丁有效性,形成闭环工作流 [7] - GitHub和Hugging Face已公开模型及数据集资源 [9]
云计算一哥首度牵手OpenAI,大模型「选择」自由,才是终极胜利
机器之心· 2025-08-07 10:30
亚马逊云科技与OpenAI合作 - 亚马逊云科技首次通过Amazon Bedrock和Amazon SageMaker两大平台支持OpenAI新开源模型gpt-oss(120b和20b)[1] - 此举打破微软独家转售OpenAI服务的局面,标志着AI行业格局变化[3] - 合作填补了亚马逊云科技模型库的关键空白,使其模型托管厂商增至13家[13][15] 亚马逊云科技AI生态系统战略 - 公司提出"Choice Matters"战略,强调多模型协同而非单一模型主导[6][9] - Amazon Bedrock和Amazon SageMaker两大平台已汇聚400+款商业及开源模型[10] - Bedrock专注于商业API调用,SageMaker侧重开源模型部署和定制化[9] 技术优势与性能表现 - gpt-oss-120b在Bedrock上的性价比是Google Gemini的3倍、DeepSeek-R1的5倍[14] - 平台安全功能可阻止88%有害内容,支持定制模型导入和知识库[13] - Claude Opus 4.1支持混合推理模式,在多步骤工作流中表现突出[17] 行业影响与未来展望 - 合作使OpenAI技术触达亚马逊数百万客户,扩大商业化渠道[15] - 公司角色从云服务商升级为AI能力聚合平台[19] - 多模型自由组合可能催生下一代颠覆性AI应用[31] 模型选择与应用场景 - 不同场景需特定模型组合:翻译用DeepSeek R1+Claude 3.7,研究用DeepSeek R1+Claude 4[9] - 开发者可按需选择模型,如Claude Opus 4.1适合编程,gpt-oss-20b适合日常任务[23] - 企业可通过统一API实现安全合规的规模化部署[24]
颠覆互联网的下一波浪潮:Agentic Web来了!
机器之心· 2025-08-07 10:30
互联网范式演变 - PC Web时代以静态网页和关键词搜索为核心,用户需主动点击浏览,商业模式依赖搜索广告如Google AdWords [11] - Mobile Web时代推荐系统主导信息分发,用户从搜索者变为消费者,商业模式转向信息流广告和精准推荐 [12] - Agentic Web时代AI智能体成为主角,Web从信息展示转向任务执行,商业模型变为服务调用和智能体竞价 [13][15] Agentic Web定义与特点 - 由大语言模型驱动的智能体组成分布式互联网生态系统,智能体可自主规划、协调和执行任务 [17] - 用户通过自然语言委托任务,智能体自动完成多步骤操作并与其他智能体协作 [21] - 智能体具备双重身份:作为用户模拟人类操作,作为接口接收指令并整合服务 [22][23] 核心维度 - 智能维度:智能体需具备上下文理解、长程规划、适应性学习和多模态整合能力 [26][27] - 交互维度:智能体间通过协商和协同执行任务,采用MCP和A2A协议实现协作 [28] - 经济维度:商业竞争重心从争夺用户注意力转向智能体调用频次和效率 [29] 应用场景 - 事务型:智能体自动完成订票、预订等流程,无需用户逐步操作 [33] - 信息型:智能体作为研究助理持续追踪领域动态,构建进化知识网络 [38] - 交流型:智能体间可沟通协作,形成类似数字组织的多体系统 [39][41] 技术挑战 - 智能体基础能力需提升推理规划、记忆管理和工具使用安全性 [44][45] - 持续学习中存在奖励设计难题和灾难性遗忘问题 [46][49] - 多代理协作需解决结构设计、通信协议和去中心化信任问题 [51] 社会经济影响 - 广告经济模式受冲击,新型商业模式如按结果收费正在崛起 [56] - 智能体普及将冲击劳动市场,需平衡AI与人类就业关系 [56] - 互联网从信息空间转向行动空间,重构人机关系和经济模式 [57][58]
让AI读懂「言外之意」:AI4SG团队发布首个心理健康污名语料库,破解隐性偏见识别难题
机器之心· 2025-08-07 09:42
研究背景与核心观点 - 心理健康污名化现象在全球范围内普遍存在,患者常因社会歧视延迟或拒绝治疗,世界卫生组织数据显示这一问题严重影响数亿人生活[2] - 现有自然语言处理技术对心理健康污名的识别存在局限,缺乏真实对话场景数据和社会文化背景考量[3] - 新加坡国立大学AI4SG实验室构建首个专家标注的心理健康污名访谈语料库MHStigmaInterview,获ACL 2025 Oral论文及高级领域主席奖[3][6] 研究方法与框架 - 采用心理学归因理论构建七维度标注体系:责任归因(9.51%)、社交距离(9.15%)、愤怒(7.20%)、恐惧(8.86%)、怜悯、拒绝帮助、强制隔离[10][11][19] - 通过三阶段聊天机器人访谈系统(Nova)收集数据:破冰阶段→情境植入(虚构抑郁症患者Avery故事)→深度访谈[14][15] - 最终语料库包含4,141个访谈片段,684名参与者,17万字符,专家标注一致性Cohen's kappa=0.71[19] 数据特征与发现 - 53.9%回答无污名化表现,责任归因和社交距离是最常见污名类型[19] - 识别出六类隐性污名表达:距离化语言(如第三人称视角)、术语滥用(如随意使用"偏执")、强制性措辞、差别化支持、家长制态度、轻视化倾向[27][29] - 社会文化分析显示性别、年龄、国家背景显著影响污名表达,有心理健康接触史者污名倾向更低[32][33] 技术验证与应用 - GPT-4o在零样本设置下F1分数0.456,提供标注指南后提升至0.757[23][24] - LLaMA-3-70B和Mixtral 8x7B模型表现优于基线,但普遍存在高召回率低精确率问题[24] - 潜在应用包括内容审核工具开发、AI辅助心理干预、医疗培训支持及跨文化研究[35] 资源与成果 - 论文及数据集已开源,论文标题《What is Stigma Attributed to? A Theory-Grounded, Expert-Annotated Interview Corpus for Demystifying Mental-Health Stigma》[8] - 研究团队涵盖心理学、人机交互、计算传播学等多学科专家[2][6] - 语料库设计强调伦理审查,采用虚构角色故事减少社会期望偏差[14][18]
DeepSeek的GRPO会导致模型崩溃?看下Qwen3新范式GSPO
机器之心· 2025-08-07 09:42
大型语言模型训练技术演进 - 大型语言模型训练分为两个阶段:预训练阶段通过大规模文本数据集训练模型预测下一个词,后训练阶段旨在提升模型理解和执行人类指令的能力[1] - 后训练阶段采用强化学习技术,OpenAI首创基于人类反馈的强化学习(RLHF),依赖人工标注但成本高效率低[2] - DeepSeek创新性地用自动化RL技术替代人工评估,通过奖励信号自主学习,显著降低成本并提高效率[2] 强化学习算法对比 - OpenAI在ChatGPT中采用近端策略优化(PPO)算法[3] - DeepSeek提出组相对策略优化(GRPO)算法,通过组样本价值估计提升效率,成为DeepSeek-R1核心技术[3] - Qwen团队指出GRPO存在稳定性问题,提出组序列策略优化(GSPO)算法,在Qwen3系列模型中实现更稳定训练[10][22] GRPO的技术缺陷 - GRPO采用逐token重要性采样,导致长序列训练中方差累积和梯度不稳定[11][16] - 在MoE模型中问题加剧,10%的专家网络激活变化导致训练低效[25] - 实验显示GRPO在CodeForces任务中得分收敛于2000分以下,而GSPO持续提升展现更强可扩展性[20] GSPO的创新优势 - 将重要性采样提升至序列级别并通过长度归一化,显著降低方差[23] - 无需Routing Replay等辅助策略即可稳定训练MoE模型,保留架构潜力[27] - 在48层Qwen3-30B-A3B-Base模型训练中,消除10%专家网络激活差异问题[25] 行业技术发展趋势 - Qwen3系列模型通过GSPO在知识数学、编程等测评中超越Kimi-K2、Claude-Opus4等顶级模型[5] - 实验证明GSPO训练效率显著高于GRPO,可能成为后训练强化学习新标准[31] - 行业共识认为强化学习在后训练阶段对提升大语言模型推理能力至关重要[31]
硬核拆解大模型,从 DeepSeek-V3 到 Kimi K2 ,一文看懂 LLM 主流架构
机器之心· 2025-08-07 09:42
大语言模型架构演进 - 自2019年GPT-2至2024-2025年DeepSeek-V3/LLaMA 4,主流大语言模型架构保持高度一致性,核心改进集中在位置编码、注意力机制和激活函数等细节优化[1] - 位置编码从绝对位置编码发展为旋转位置编码(RoPE),注意力机制从多头注意力(MHA)过渡到分组查询注意力(GQA),激活函数从GELU替换为SwiGLU[1] - 过去七年大语言模型更多是框架内精雕细琢,而非颠覆性创新[2] DeepSeek V3/R1关键技术 - 采用多头潜在注意力机制(MLA),通过将key/value张量压缩至低维潜在空间节省KV缓存内存,相比传统MHA内存占用更低[12][18][21] - 引入专家混合(MoE)架构,每个模块含256个专家但仅激活9个(1共享+8路由选择),总参数量达6710亿但推理计算量可控[23][27][30] - MLA技术最早由DeepSeek V2提出,并非V3首创[22] OLMo 2架构特点 - 采用传统MHA而非GQA或MLA,核心创新在于归一化层设计:使用RMSNorm且置于注意力/前馈模块后(Post-Norm变体)[35][38][39] - 在注意力模块内部引入QK-Norm,对Query/Key进行额外归一化,与Post-Norm结合显著提升训练稳定性[46][47] - 整体架构接近Llama 3,主要差异在于注意力机制和归一化策略[48][52] Gemma 3创新设计 - 采用滑动窗口注意力机制,将全局注意力转为局部注意力,大幅降低KV缓存内存需求[54][56][59] - 在GQA模块同时使用Pre-Norm和Post-Norm,结合两种归一化策略优势,形成独特双重归一化结构[62][64][67] - 滑动窗口注意力可与GQA协同使用,实现计算效率与模型性能平衡[60] Mistral Small 3.1特性 - 24B参数规模下性能超越Gemma 3 27B,归因于定制分词器、更小KV缓存和更少层数[73][75] - 放弃早期滑动窗口注意力设计,改用标准GQA机制[76] Llama 4架构对比 - 采用MoE架构但设计不同于DeepSeek-V3:总参数4000亿(比DeepSeek少68%),每token仅激活2个专家[80][82][84] - 使用GQA而非MLA,MoE层与密集层交替排列(非连续部署),专家隐藏维度达8192[84] Qwen3系列差异化 - 同时提供Dense和MoE版本:0.6B致密模型适合轻量部署,235B MoE模型取消共享专家机制[88][91][94] - MoE架构与DeepSeek-V3高度相似,但专家数量增至8个且移除共享专家[94][95] SmolLM3技术亮点 - 30亿参数规模表现优异,采用无位置嵌入(NoPE)机制,完全移除显式位置编码[101][104][109] - 通过因果注意力掩码隐式学习位置信息,在序列长度泛化方面优于传统位置编码方案[108][109] Kimi K2突破性设计 - 1万亿参数规模为当前最大开源LLM,首次在生产级模型应用Muon优化器替代AdamW[112] - 基于DeepSeek-V3架构扩展,MoE模块专家数更多但MLA注意力头更少[112][116]
三重激励+全周期扶持,即梦升级这个计划,让AI创作者的成长有迹可循
机器之心· 2025-08-07 09:42
AI内容创作行业趋势 - AI技术显著降低创作门槛,个人创作者仅需一台设备和提示词即可生成专业级视频、图像,打破传统专业团队垄断 [9] - AI驱动的内容革命重新定义创作效率,内容形式、风格与成本结构发生根本性变化 [9] - 娱乐化AI视频(如动物拟人、抽象场景)凭借百万级播放量迅速出圈,但行业正探索更深度内容创作边界 [8][9] 即梦AI创作者成长计划核心机制 - 分层扶持体系覆盖潜力新星、进阶创作者、超级创作者三阶段,提供积分奖励(单条短片最高20000积分)、流量分发、商单对接(人均6万元)、国际电影节资源等 [11][13][14][16] - 累计扶持3802位创作者,发放超2800万积分,百位创作者获商单,部分作品登陆戛纳电影节及UCCA美术馆 [11] - 超级创作者可获每月10000积分、50万元项目资助及全球推广资源,进阶创作者周榜TOP3奖励2000元现金 [14][16] 平台技术能力与生态建设 - 集成文生视频、首尾帧控制、多方言对口型等功能,实现零门槛短剧分镜生成与专业级视频制作 [20][21] - 与剪映、抖音无缝协同,支持内容一键编辑分发,构建去中心化创作者社区,含技术测试者、视觉艺术家等多类型人才 [22][23] - 通过线上工作坊、创意挑战赛激活社区,强化原创价值导向 [23][24] 行业痛点与解决方案 - 当前AI创作面临优质内容淹没、变现渠道有限、生态支持不足等挑战 [9][10] - 即梦通过系统性扶持机制(如商单接入、美术馆合作)解决创作者成长路径问题,推动技术落地转化为商业价值 [11][17]