机器之心

搜索文档
拒稿警告,靠大模型「偷摸水论文」被堵死,ICLR最严新规来了
机器之心· 2025-08-27 08:36
ICLR 2026大语言模型使用政策 - ICLR 2026出台LLM使用政策 规范论文作者与审稿人在研究和审稿过程中使用LLM的行为[2] - 政策以ICLR《道德准则》为基础 旨在确保学术诚信 规避事实幻觉/剽窃/数据失实等风险[4] - 违反政策将面临直接拒稿等处罚[7] 核心政策要求 - 政策1: 任何对LLM的使用都必须如实披露 遵循贡献认可原则[6] - 政策2: 论文作者和审稿人最终需为自己的贡献负责 禁止虚假声明或数据伪造[6] - 禁止"提示词注入"等操纵审稿流程的行为 被视为严重学术不端[12] 具体应用场景规范 - 辅助论文写作: 使用LLM润色语法/调整措辞/草拟章节必须披露 作者对全部内容承担责任[9] - 辅助研究: 使用LLM提出思路/生成代码/分析结果需披露 人类作者必须验证有效性和准确性[9] - 审稿过程: 使用LLM撰写审稿意见必须披露 需确保不泄露投稿论文机密信息[11] 其他顶会类似规定 - NeurIPS 2025: 允许LLM作为工具 但作为核心方法需详细描述 审稿人严禁输入机密信息[15] - NeurIPS禁止提交完全由LLM生成的论文文本 允许用于编辑润色作者自写文本[16] - IEEE会议: 需在致谢声明AI工具及用途 人类对科学诚信与保密性负全责 禁止AI伪造数据[17] - ACM会议: 使用LLM生成文本/表格/代码需明确披露 仅语言润色可免披露[20] 行业背景与趋势 - 顶会投稿数量以每年数千规模递增 ICLR 2025接收11565份投稿 录用率32.08%[2][14] - LLM使用提升论文撰写与审稿效率 但引发虚假引用/抄袭拼接/责任模糊等担忧[14] - 清晰LLM使用细则将促进AI工具透明合理使用 形成更系统学术规范[21]
「开发者私下更喜欢用GPT-5写代码」,Claude还坐得稳编程王座吗?
机器之心· 2025-08-27 03:18
编程模型性能比较 - Anthropic的Claude Opus 4.1在软件编程权威基准SWE-bench Verified测试中表现优异 尤其在多文件代码重构方面有显著进步[1] - OpenAI的GPT-5在编程赛道获得更多青睐 用户反馈其编程能力优于Claude 可处理复杂编程任务和大规模代码重构[3][5][6] - 用户实际使用中 GPT-5在指令遵循方面表现突出 能够处理"把这个改得更像那个"等复杂重构指令[6] 模型适用场景差异 - Claude被部分用户认为是"偏科型选手" 在编程领域表现出色但其他领域幻觉率较高 尤其在健康医疗类问题上存在严重幻觉风险[9][10] - GPT-5在多领域表现均衡 幻觉率显著低于Claude 在商品搜索等实际应用中能提供准确结果[9][10] - Claude在代码补全速度方面优于GPT-5 在VIM编辑器中使用Opus进行代码补全速度更快[4] 用户使用偏好变化 - 开发者开始转向使用GPT-5进行编程工作 有人表示已基本完全不用Claude Opus[3] - 用户同时使用多个模型 Claude Code与GPT-5 reasoning high组合使用获得更多信任[4] - 根据旧金山"小道消息" 很多人私下更偏好使用GPT-5写代码 这与"Claude更擅长编程"的流行叙事相反[7] 模型特性对比 - GPT-5的幻觉率和通用实用性显著优于Claude 在各个领域表现都不错[8][11] - Claude在写作方面"温度感"更强 作为学习伙伴能引导用户逐步接近答案而非直接给出答案[9] - GPT-5具备强大的搜索功能 能处理具体尺寸、颜色等要求的商品搜索任务[9]
打磨7年,李航新书《机器学习方法(第2版)》发布,有了强化学习,赠书20本
机器之心· 2025-08-27 03:18
机器之心报道 机器之心编辑部 每个领域的发展,都离不开几本奠定基础的经典书籍,人工智能亦是如此。 此前,李航老师的《统计学习方法》《统计学习方法(第 2 版)》可以说是机器学习宝典,很多学生、老师都将此书奉为必读书籍。 然而,随着 AI 技术的快速发展,特别是深度学习的飞跃式进展,一本仅覆盖传统机器学习的教材,已无法全面反映当前机器学习技术的全貌。 因此,李航老师在前两版的基础上,又推出了《机器学习方法》,新增深度学习内容。 而近期,AI 圈对于强化学习的关注也在迅速升温。从大模型与智能体的融合尝试,到强化学习在游戏、机器人控制、决策优化中的广泛应用,这一方向再次成为 焦点。然而,此前许多教材对此涉及较少,甚至完全缺席,导致很多人无法系统学习。 现在这个问题也解决了。 李航老师全新上线新书《机器学习方法(第 2 版)》 ,将强化学习独立成篇,系统介绍了强化学习的基本框架与代表算法,包括马尔可 夫决策过程、多臂老虎机问题、深度 Q 网络等。 全书共分为 4 篇( 或 4 册) ,对应 监督学习、无监督学习、深度学习和强化学习 4 个主要分支。 至此,《机器学习方法(第 2 版)》构建起了一个覆盖监督学习、无监督 ...
谷歌nano banana正式上线:单图成本不到3毛钱,比OpenAI便宜95%
机器之心· 2025-08-27 00:46
产品发布与定位 - 谷歌正式推出图像生成与编辑模型Gemini-2.5-Flash-Image-Preview,具备SOTA图像生成与编辑能力、角色一致性和高速性能 [2][3] - 该模型在Google AI Studio和Gemini API中提供免费预览,支持32k上下文长度及温度等高级参数控制 [5][9] - 模型暂不支持中文输入图像生成与编辑功能,仅返回文本响应 [6] 技术能力与创新 - 核心突破在于跨图像的人物形象一致性保持,支持对人物、宠物等主体进行换装、换场景编辑而不改变特征 [16][17] - 支持多轮迭代编辑(如从空房间逐步添加家具)、多图合成新场景、风格迁移(如将花瓣纹理应用于雨靴) [21][22][23] - 集成Gemini原生世界知识,可结合教育场景实现交互式应用(如画布生成教育内容) [24] 商业化与成本 - 定价为文本输入/输出每百万token 0.3/2.5美元,图像输入/输出每百万token 0.3/30美元 [10] - 单张图像生成成本约0.039美元(约0.28元),显著低于OpenAI同类服务成本 [11] - 所有生成图像均附带可见水印及隐形SynthID数字水印以标识AI生成属性 [26] 市场表现与竞争地位 - 在Artificial Analysis图像编辑排行榜以1212 ELO分数位列第一,超越GPT-4o(1101分)和FLUX.1 Kontext(1092分) [37][38] - 在文生图榜单中位列第三(1161分),仅次于字节跳动Seedream 3.0(1166分)和GPT-4o(1164分) [39] - 在LM Arena榜单中同时获得文生图(1147分)和图像编辑(1362分)双料冠军,投票量超220万次 [40] 应用生态与案例 - 谷歌提供定制化演示模板(如“Past Forward”展示年代变换效果、“CoDrawing”教育工具) [19][24] - 公司高层及行业专家(如Jeff Dean、Demis Hassabis)公开测试并展示足球运动员卡牌、个人形象编辑等用例 [27][28] - 用户可基于单张照片生成视频内容,或通过多轮编辑实现渐进式场景构建 [16][22]
手把手教机器人:斯坦福大学提出RTR框架,让机械臂助力人形机器人真机训练
机器之心· 2025-08-27 00:46
核心观点 - 人形机器人运动控制领域正成为强化学习算法应用的热点 采用仿真到现实范式训练通用控制模型 但该方案牺牲了特定真实环境中的性能上限[2] - 提出创新的RTR系统 使用教师机械臂在现实世界指导学生人形机器人进行在线强化学习 突破真机训练障碍[4][6] - RTR系统通过硬件协同和算法创新实现三阶段高效微调 在行走和荡秋千任务中展现卓越性能 仅需20分钟真实训练即可将仿真预训练速度提升一倍[6][15][19] 技术方案 - 硬件系统由教师UR5六轴机械臂与学生ToddlerBot人形机器人组成 通过四根弹性缆绳柔性连接 配备力传感器和可编程跑步机[8] - 教师机械臂扮演多重角色:安全保护装置 自动重置帮手 训练数据信号源 以及通过课程学习设置进度和施加扰动的智慧教练[5] - 算法采用三阶段Sim-to-Real流程:先在仿真环境训练适应不同物理参数的策略 再优化通用初始隐变量 最后在真实世界仅在线优化低维隐变量z[9][10][11] 性能表现 - 在行走任务中 主动顺应机器人运动的柔性机械臂比固定吊架显著提升学习效果 课程学习策略优于固定辅助策略[15] - 微调隐变量方法在数据效率和最终性能上均优于微调整个策略网络或残差网络基线 真机微调效果强于RMA等在线参数识别基准[6][18] - 在纯真实环境荡秋千任务中 有教师主动参与的课程学习效率高于固定吊架方案 20分钟内学会幅度明显的周期性摆荡动作[19] 应用前景 - RTR框架为解决当前人形机器人真机部署与训练瓶颈提供可行方案 引入主动力辅助新范式[17] - 该框架具有高度扩展性 可通过更强工业机械臂或力传感龙门吊系统推广至全尺寸人形机器人及其他复杂机器人系统[17] - 项目代码已全部开放 被CoRL 2025会议接收 由清华大学和斯坦福大学研究人员共同完成[22]
将数据优势发挥到极致:「杭州六小龙」开源搭建空间智能的第一步
机器之心· 2025-08-26 09:38
三维空间数据与大模型发展 - 高质量三维空间数据是AI发展的关键支撑 直接决定领域发展上限 [1] - 视频生成模型如可灵即梦依托UGC平台海量数据实现技术进步 [3] - 数据-模型-工具形成飞轮循环 三维领域数据短缺长期制约空间理解能力 [4] 空间智能技术突破 - 空间语言模型SpatialLM 1.5基于Qwen3底模构建 具备3D空间描述语言能力 [13] - 模型支持端到端场景生成:输入文本生成结构化场景脚本 智能匹配家具模型并布局 [16] - 生成场景含物理正确结构化信息 支持批量输出多样化场景 适用于机器人路径规划与具身智能训练 [17] 空间生成模型SpatialGen - 基于扩散模型架构生成多视角图像 确保物体在不同镜头下空间属性一致 [19][21] - 数据集规模达12,328个合成场景 包含100万物体 使用全景视频训练 [22] - 通过AnySplat算法重建高斯点云 实现无伪影、无失真的时空一致性漫游视频 [18][25] 技术优势与挑战 - 三大技术优势:大规模高质量数据集、灵活视角选择、参数化布局可控生成 [28] - 多视角一致性依赖数据规模优势 通过Scaling Law持续优化但存在根本性限制 [26][29] - 文本直接生成3D存在视觉效果与空间一致性的权衡 当前以多视角图像为中间环节效果更优 [31] 开源生态与行业合作 - SpatialLM参数规模6亿至80亿 数据规模约10GB 保持无需微调的多任务处理能力 [34] - SpatialGen已面向全球开源 支持对接任意资产库 模型与资产库解耦设计 [33] - 开源平台包括Hugging Face、Github及魔搭社区 推动行业协同创新 [36]
FlashAttention-4震撼来袭,原生支持Blackwell GPU,英伟达的护城河更深了?
机器之心· 2025-08-26 09:38
FlashAttention-4性能提升 - 在Blackwell上比英伟达cuDNN库中的注意力核实现快可达22% [2] - 使用新的在线softmax算法跳过了90%的输出rescaling [4] - 通过软件模拟指数(MUFU.EX2)提高吞吐量 实现softmax计算与张量核计算的重叠 [5] 算法与硬件适配优化 - 使用CUTLASS CuTe Python DSL 但移植到ROCm HIP的难度比CUDA C++高10倍 [6] - 对Blackwell GPU提供原生支持 此前开源仓库存在编译错误和性能未优化问题 [23] - 执行A@B+C计算时 在归约维度K较小的场景中比cuBLAS 13.0库更快 标准矩阵算法A@B则性能相当 [7] 开发者生态与行业影响 - 通过双累积缓冲区重叠epilogue技术击败cuBLAS [10] - Tri Dao等开发者专注于英伟达GPU并开源核心代码 被视为CUDA生态的核心优势 [10] - AMD需提供资金支持(如5000万美元)才能吸引开发者转向ROCm生态系统 [10] FlashAttention技术演进历程 - 初代(2022年)通过IO-aware和tiling技术将内存复杂度从O(N²)降至O(N) 在GPT-2上速度提升7.6倍 [12][14] - FlashAttention-2(2023年)速度提高2-4倍 在A100上达230 TFLOPs/s 为PyTorch实现的9倍 [19][21] - FlashAttention-3(2024年)针对Hopper架构优化 速度达FlashAttention-2的1.5-2.0倍 FP8精度下接近1.2 PFLOPS [23] - GitHub仓库累计获得超过1.91万星 但FlashAttention-4尚未发布技术报告 [25][26]
英伟达再出手!新型混合架构模型问世,两大创新实现53.6倍吞吐提速
机器之心· 2025-08-26 09:38
模型架构创新 - 英伟达提出新型混合架构语言模型Jet-Nemotron系列,在达到全注意力模型SOTA精度的同时实现卓越效率 [2][4] - 2B版本模型性能超越Qwen3、Qwen2.5、Gemma3和Llama3.2等开源全注意力模型 [2][8] - 在H100 GPU上实现256K上下文长度下最高53.6倍生成吞吐量加速 [2][8] 技术突破 - 采用后神经架构搜索(PostNAS)技术,可在预训练Transformer模型中灵活尝试不同注意力模块设计,大幅降低开发成本和风险 [6][12] - 提出新型线性注意力模块JetBlock,结合动态卷积与硬件感知架构搜索,精度显著优于Mamba2等现有设计 [6][20][21] - PostNAS通过束搜索确定全注意力层最优位置,在MMLU基准上精度显著优于均匀放置策略 [15][16] 性能表现 - Jet-Nemotron-2B在MMLU-Pro准确率达39.0%,高于Qwen3-1.7B-Base的37.8% [5][24] - 在64K上下文长度下,H100 GPU生成吞吐量达2,885 token/s,是Qwen3-1.7B-Base(61 token/s)的47倍 [5][24] - 4B版本在GSM8K数学基准达78.7%准确率,显著超越Qwen3-1.7B-Base的62.8% [24] 效率优势 - KV缓存大小仅154MB(64K上下文),远低于Qwen3-1.7B-Base的7,168MB [24] - 硬件感知搜索实现参数量1.62B-1.98B范围内保持154MB缓存大小,吞吐量稳定在2,952-2,986 token/s [19] - 在保持相似生成吞吐量前提下,更高参数模型可获得更高精度(检索准确率67.6%-70.1%,数学准确率31.3%-34.8%) [19] 基准测试结果 - 通用知识测试:MMLU达60.8%(2B)/65.2%(4B),超越Qwen3-1.7B-Base的60.3% [24] - 数学能力:GSM8K达76.2%(2B)/78.7%(4B),显著领先同类模型 [24] - 代码生成:EvalPlus基准达60.8%(2B)/65.6%(4B),优于多数对比模型 [24]
谷歌偷偷搞了个神秘模型Nano-Banana?实测:强到离谱,但有3大硬伤
机器之心· 2025-08-26 08:53
模型背景与推测 - 神秘AI模型Nano-Banana在LMArena平台Battle模式中被发现 但未公开列出且无官方开发者认领[2][3] - 社区推测其可能为谷歌研究模型 依据包括谷歌AI Studio产品负责人发布香蕉表情符号及DeepMind产品经理发布相关艺术作品[4][5][6][7] - 其他佐证包括谷歌曾将较小模型称为"Nano" 且生成图像质感与Imagen或Gemini系列相似[10] 技术能力与表现 - 模型在文本编辑、风格融合和场景理解方面表现优异 支持上传两张图片并输入提示词融合元素[8] - 能精准理解复杂文本提示 例如将横放书籍立起并添加书挡摆放到柜子上[9] - 在商业场景如产品照片、广告中表现稳定 能保留复杂细节如刺绣图案并保持光线视角一致性[13][15] - 存在局限性:可能产生反射、光照逻辑或物体位置不一致问题 人物手指偶现畸形 书籍文字可能出现乱码[20] 使用体验与比较 - 目前仅能通过LMArena平台随机体验 无官方API或正式官网链接 导致体验不稳定[22][23] - 文生图测试中生成图像更符合提示词细节(如化妆师背景道具) 人物动作服装更自然且手部无瑕疵 对比ChatGPT生成效果更优[29][30] - 图片编辑功能可无缝添加元素 如将类人机器人融入公园环境且毫无违和感[33][34] - 支持复杂指令如逆向工程描绘摄影创作过程 生成场景搭建图像[36] - 在人物融合任务中表现优于Gemini 2.0 flash 但细节处理仍有瑕疵(如手指变形)[43][44][45] 创新应用案例 - 与谷歌Veo3结合可制作长视频 例如提取视频帧后生成下一场景并用Veo3动画化[47][48][49] - 可将插画转化为手办模型 生成图像保留五官细节且真实感强 再通过Veo3制作展示视频[51][55][56] - 谷歌Veo3近期免费开放体验 普通用户每日可生成3个8秒视频片段 Pro和Ultra订阅用户分别有3个和10个配额[61][62]
一天之内,Meta痛失两员大将,小扎钞能力失效?
机器之心· 2025-08-26 08:53
Meta AI人才流失现象 - Meta内部出现资深AI研究员离职潮 包括强化学习专家Rishabh Agarwal(去向未定)和12年元老级员工Bert Maher(加入Anthropic)[1][3][24] - 扎克伯格以上亿美元薪资组建超级智能团队的同时 遭遇核心人才持续流失 被嘲讽"钱买不到顶级研究员"[1][4] 人才流失原因分析 - 内部待遇差距引发争议 非超级智能研究者被指遭受"次等待遇" 如同"巨型社会实验"[6][7] - 员工保留率仅64%远低于Anthropic的80% 反映深层管理文化问题[30] - 存在强制5%末位淘汰制 导致工作动机异化为"避免被解雇" 引发内斗行为[34] - CTO与首席产品官各自为政 FAIR实验室因长期导向被边缘化且GPU资源匮乏[34] - 新老派系冲突加剧 天价挖人导致资源倾斜 老员工士气崩塌[34] 典型案例分析 - Rishabh Agarwal被引量破万 h指数34 曾领导Llama团队强化学习研究[13][17][18] - 其贡献包括将8B参数模型性能提升至接近Deepseek-R1水平 开发强化学习热启动技术[19] - Bert Maher参与HHVM虚拟机、ReDex安卓优化工具、PyTorch框架等核心项目开发[25][27] 公司结构性风险 - 管理模式被类比"90年代微软" 权力集中创始人主导吞噬公司资源的宏大项目[10] - 缺乏强力CTO分担制衡 管理失衡可能导致明星CEO被压垮[11] - VR大神John Carmack曾指控公司资源利用率极低 整体效率仅预期50%[33] 人才拒绝加入原因 - 顶尖研究者拒绝Meta因愿景分歧 公司注重盈利与竞赛 研究者强调安全与长期主义[38][39] - 价值观冲突使金钱无法弥补妥协 如Sutskever等追求更道德AI方法的人士[39] - 使命感缺失成为关键因素 特斯拉工程师明确表示"金钱买不到使命感"[40] - AI人才含金量普遍提升 在其他公司长期未必获得更低报酬[41] 具体拒绝案例 - Ilya Sutskever拒绝出售Safe Superintelligence给Meta[44] - Mira团队全员拒绝被Meta招募和收购[44] - Perplexity AI收购谈判破裂 CEO招募被拒[44] - OpenAI的Noam Brown和Markchen均拒绝邀约[44] - Google AI架构师Koray Kavukcuoglu拒绝加入[44]