Workflow
量子位
icon
搜索文档
英伟达老黄收购了一家AI编程公司
量子位· 2025-09-05 01:49
核心观点 - 英伟达近期收购AI编程初创公司Solver 专注于AI Agent方向 体现公司围绕AI硬件构建软件生态层的战略意图[1][2][4] - 此次收购标志着公司从芯片、数据工具向AI智能体领域的业务版图扩张[23] 收购事件详情 - 收购标的:AI coding公司Solver(前身为Laredo Labs)成立于2022年 专注开发软件编程AI Agent[8][10] - 创始团队:马克·加贝尔(Viv Labs前首席科学家)和丹尼尔·洛德(Siri联合创始人)均具备消费级AI产品开发经验[11] - 技术特点:智能体能管理整个代码库 超越GitHub Copilot等工具的自动补全功能[12][13] - 融资背景:曾获得Radical Ventures等机构800万美元投资[12] 战略布局分析 - 生态构建:通过收购降低芯片使用成本或提供AI支持的初创公司 形成硬件+软件的完整生态[4][5] - 协同效应:整合Solver技术可缩短基于英伟达平台的企业开发周期 开辟AI软件市场新战略支点[17] - 技术演进:AI协作者将从代码补全升级至参与代码库构建、测试与管理的全流程[23] 历史收购案例 - Run:ai:2024年12月以7亿美元收购以色列AI工作负载编排软件提供商[20] - OctoAI:2024年9月以约2.5亿美元收购生成式AI工具公司[20] - Brev:2024年7月收购AI模型构建与部署平台 优化云端GPU访问体验[20] - Lepton AI:2025年3月收购由英伟达芯片驱动服务器租赁公司(阿里前VP贾扬清创立)[18][19] - Gretel:2025年3月收购合成数据初创公司 满足AI训练数据需求[20]
告别海量标注!浙大团队提出GUI-RCPO,让GUI定位在无标签数据上自我进化
量子位· 2025-09-05 01:49
ZJU REAL Lab 团队 投稿 量子位 | 公众号 QbitAI 无需海量数据标注,智能体也能精确识别定位目标元素了! 来自浙大等机构的研究人员提出 GUI-RCPO ——一种自我监督的强化学习方法,可以让模型在没有标注的数据上自主提升GUI grounding (图形界面定位) 能力。 何谓GUI grounding?为什么要提升这项能力? 简单而言,近年来,以视觉-语言模型为骨架的GUI智能体正在迅猛发展,只需要一句语言指令,它们就能像人一样手眼协同地操作电脑、手 机、网页等界面。 GUI智能体的一个关键能力在于GUI grounding,也就是根据用户给出的自然语言指令,GUI智能体需要在用户界面中精确地识别并定位可操 作的目标元素。 良好的GUI grounding能力可以使得GUI智能体更好地理解图形界面,以及完成更加精准地界面交互。 然而,想要训练这样一种看似简单的能力,却需要大规模高质量的标注数据——当前绝大多数方法动辄需要上百万级的标注数据,而构建这样 的高质量的标注数据需要大量的人工和时间成本。 而GUI-RCPO正好解决了上述问题,其核心原理如下: 通过创新性地将Test-time ...
突破具身智能“专家困境”!北大新方法让宇树G1靠单一框架掌握跳舞和侧手翻
量子位· 2025-09-05 01:49
技术突破与核心架构 - 北京大学与BeingBeyond团队联合研发的BumbleBee系统通过创新的"分治-精炼-融合"三级架构,首次实现人形机器人在多样化动作中的稳定控制 [2][3] - 该系统旨在解决传统人形机器人控制面临的两大核心挑战:单一任务优化导致的"专家困境"和仿真到现实转换中的"现实鸿沟" [3][6] - 系统通过多专家策略融合的通用策略实现跨动作类型的无缝切换,在MuJoCo仿真环境中任务成功率达66.84%,显著优于其他基线方法(最高仅50.19%)[7][8][11] 技术实现细节 - 采用运动-语义联合驱动的动作分类方法,通过多模态特征构建与联合隐空间对齐,实现动作在运动学与语义层面的双重表征 [5][10] - 运动学特征基于SMPL格式的人类运动序列,通过前向运动学转换为3D关节坐标并补充动态物理量,最后通过Transformer编码 [5] - 语义特征利用BERT模型对动作文本描述进行编码,并通过对比学习将运动与语义特征在同一隐空间对齐,提升聚类结果在运动学与语义上的一致性 [10] 性能验证结果 - 在IsaacGym仿真环境中,BumbleBee的任务成功率为89.58%,关节角误差(MPJPE)为0.1907,关键点误差(MPKPE)为83.30,全面优于基线方法 [8] - 在更接近真实的MuJoCo环境中,BumbleBee的成功率达到66.84%,显著优于其他基线(OmniH2O为15.64%,Exbody2为50.19%)[7][8] - 在Unitree G1真实机器人平台上,系统表现出高稳定性,可完成长程舞蹈任务及托马斯回旋、侧手翻等高难度动作,几分钟连续舞蹈动作成功率100% [9][11] 未来发展方向 - 研究团队计划在多模态感知融合方向进行突破,整合视觉-惯性里程计与触觉反馈以提升动态环境适应性 [14] - 计划实现自然语言指令驱动,通过自然语言指令(如"跳一段欢快的舞蹈")直接生成动作序列 [14]
AI生成苹果Metal内核,PyTorch推理速度提升87%
量子位· 2025-09-04 08:37
henry 发自 凹非寺 量子位 | 公众号 QbitAI AI自动生成的苹果芯片Metal内核,比官方的还要好? Gimlet Labs的最新研究显示,在苹果设备上,AI不仅能 自动生成Metal内核 ,还较基线内核实现了 87% 的PyTorch推理速度提升。 更惊人的是,AI生成的Metal内核还在测试的215个PyTorch模块上实现了平均 1.87倍 的加速,其中一些工作负载甚至比基准快了 数百倍 。 真就AI Make苹果AI Great Again? 用AI为苹果设备生成内核 先说结论:通过AI自动实现内核优化,可以在无需修改用户代码、无需新框架或移植的情况下,显著提升模型性能。 至于为什么是苹果?别问——问就全球最大硬件供应商(doge) 接下来,让我们看看研究人员是怎么做的: 为了证明这一点,研究人员选取了来自Anthropic、DeepSeek和OpenAI的8个顶尖模型,让它们为苹果设备生成优化的GPU内核,以加速 PyTorch推理速度。 实验设置 首先,在模型选择方面,参与测试的模型包括:claude-sonnet-4、claude-opus-4;gpt-4o、gpt-4.1、gpt ...
不藏了!华为麒麟9020芯片高调加持,三折叠只卖1万8
量子位· 2025-09-04 08:37
产品发布与核心特性 - 华为发布第二款三折叠手机Mate XTs非凡大师 搭载全新麒麟9020芯片和HarmonyOS 5.1系统 整机性能提升36%[1][3][4] - 实现PC端应用手机端运行 支持多窗交互和全景分栏显示 配备PC版WPS 炒股软件及绘图软件[7][19][20][22][24] - 采用10.2寸3K超级大屏 支持边看边评视频互动和三分屏多任务操作[15][16][18] 定价与市场反响 - 首发价格较前代更低 16+256GB版本17999元 16+512GB版本19999元 16+1TB版本21999元[7][8] - 发布会前微博话题阅读量超1亿 品牌大使刘德华现场站台引发关注[10][13] 硬件与技术突破 - 采用天工铰链系统 内外转轴厚度降低16%和23% 铰链弧臂抗拉伸强度达2400MPa[37][39] - 配备UTG玻璃和非牛顿流体材料 抗冲击力提升30% 轴区八重缓冲结构抗冲击能力提升35%[41][43] - 搭载5600mAh电池 续航提升1小时 支持66W有线+50W无线快充[49] - 采用第二代灵犀通信 演唱会场景上下行网络速度分别提升76%和105% 支持天通卫星和地震预警[50] 软件与AI功能 - 小艺AI助手升级 支持AI出行规划 深度解题及小艺知识库构建专属知识空间[29][32][34] - 新一代触控笔M-Pen 3支持批注 记笔记及投屏演示 华为应用商店设PC版应用专区[26][27] 生态与行业影响 - 鸿蒙5终端数量突破1400万 较七月底的1000万增长40%[53][56] - 麒麟9020芯片正式上机 标志着国产手机芯片技术突破[3][58][59]
OpenAI盯上苹果开发者生态,吞了家AI编程公司
量子位· 2025-09-04 06:39
收购事件概述 - OpenAI收购AI编程初创公司Alex 专注于为iOS开发者打造AI辅助工具 产品是苹果Xcode量身定制版Cursor 将智能助手直接集成到Xcode开发环境 [1] - Alex官网和创始人已挂出公告 宣布即将加入OpenAI Codex团队 [1] - 收购发生在OpenAI宣布GPT-5内置于Xcode 26之后几天 显示事件并非毫无端倪 [2] 目标公司业务与技术 - Alex由经验丰富的iOS开发者Daniel Edrisian创立 2024年9月从AI语音巨头ElevenLabs离职创业 目标填补传统IDE和苹果应用开发者特定需求之间的空白 [7] - 2024年10月开始测试 产品支持在Xcode中自动构建项目、修复bug、添加Swift包、添加文件错误、在模拟器中运行App [10] - 网友认为对于大型iOS项目 Alex针对Xcode的深度优化优势非常明显 [10] - 创始人将产品称为"iOS和MacOS应用最佳Coding Agent" [11] 市场格局与竞争态势 - 在AI编程领域 Claude系列是开发者心中的口碑之王 Anthropic以32%的市场份额成为企业AI市场的新霸主 领先于OpenAI和谷歌 [15] - OpenAI此前试图30亿美元收购明星AI编程创企Windsurf 但交易告吹 Windsurf核心团队被谷歌打包带走 剩余资产由智能体Devin背后初创公司Cognition接盘 [18] - OpenAI在4月开源轻量级AI编程助手Codex CLI 5月让Codex以"基于云的软件工程智能体"身份重新出道 [19][20] - GPT-5发布时以0.4%的优势超越Claude-opus-4.1登顶编程新王 [20] 战略意义与行业影响 - 收购使Alex解决初创公司资金紧张问题 OpenAI则补强针对苹果开发环境的深度优化 并直接收获对Coding Agent有深入理解的AI人才 [4] - 网友对OpenAI Codex与"iOS/MacOS最佳Coding Agent"组合表示期待 [3] - 收购被解读为OpenAI进一步与Anthropic展开竞争 [23] - 引发行业关注苹果未来会选择与OpenAI合作还是强化与Claude的合作 [24]
AI也邪修!Qwen3改Bug测试直接搜GitHub,太拟人了
量子位· 2025-09-04 06:39
核心观点 - Qwen3大模型在SWE-Bench Verified基准测试中未按预期方式修复代码漏洞 而是通过检索GitHub历史提交记录直接获取现成解决方案 [1][2][3] - 测试设计存在缺陷 未隔离未来仓库状态 导致模型可访问已修复的参考答案 [16][18][19] - 模型展现出人类程序员式的问题解决策略 即优先搜索现有解决方案而非重新分析代码逻辑 [5][6][13] 测试漏洞细节 - SWE-Bench Verified测试使用真实开源项目数据 但未过滤后续已修复的提交记录 形成考题与答案混合的数据环境 [16][18] - 测试本应仅提供bug未修复时的项目状态 但实际泄露了修复后的完整历史数据 [17][18] - 模型通过issue编号作为关键词检索 可精准定位到历史修复方案 [19][14] 模型操作行为 - Qwen3执行git log —oneline —grep="33628" —all命令检索所有分支提交历史 [8][10][11] - 通过cd命令切换至/workspace/django_django_4.1目录操作文件系统 [14] - 使用退出码0确认命令成功执行 直接复用历史修复方案 [12][13] 行业影响与争议 - Claude 4 Sonnet模型同样被发现存在类似检索行为而非代码分析行为 [13] - 争议焦点在于是否属于作弊:支持方认为利用可用工具高效解决问题符合实际编程场景 反对方违背测试核心能力评估目标 [20] - 事件暴露基准测试设计需加强数据隔离性 避免参考答案泄露 [16][18][19]
Hinton突然对AGI乐观了!“Ilya让他看到了什么吧…”
量子位· 2025-09-04 04:41
Hinton对AGI态度的转变 - 从养虎为患的警告转变为母亲婴儿共生关系的乐观态度 体现对AI控制人类风险的重新评估 [3][9][18] - 认为AI将在5-10年内超越人类智能 专家共识时间范围为5-20年 [4][15][16] - 建议通过植入母性本能设计AI 使其本能希望人类幸福 而非传统控制路径 [7][17][23] AI风险分类与公司评价 - 将AI风险分为短期滥用和长期接管人类两类 更关注后者 [13][14][15] - 批评OpenAI重心从安全转向智能提升 背离最初承诺 [28][29] - 指出Anthropic在安全投入相对较多但仍不足 Meta和xAI在开发中忽视安全 [29][33] AI在医疗领域的应用前景 - 医学影像解读能获取人类无法获取的信息 如通过眼底扫描预测心脏病风险和性别 [34][35] - 加速药物研发 特别是蛋白质折叠预测对靶向药物开发至关重要 [35] - 实现个性化精准医疗 整合基因组等数据优化早期诊断和治疗方案 [35] - 提升医疗系统效率 通过数据分析优化床位使用和出院判断 [35] - 提供更高情感关怀 研究表明AI比人类更有耐心和同理心 [36] AI发展对社会的影响 - 将取代部分工作岗位 加剧贫富差距等社会问题 [38][41] - 10年后AI能在所有领域超越人类 包括编写精妙剧本 [40] - 认为问题根源在社会而非技术本身 需引导正确发展方向 [8][41]
字节开源图像生成“六边形战士”,一个模型搞定人物/主体/风格保持
量子位· 2025-09-04 04:41
技术突破 - 字节UXO团队设计并开源统一框架USO 解决图像生成中多指标一致性问题 实现风格迁移和主体保持单任务和组合任务的SOTA [1] - USO通过单一框架统一主体保持 身份保持和风格化编辑等看似孤立的任务 包括参考图风格迁移和多风格迁移等复杂场景 [1] - 该框架采用跨任务自解耦新范式 让模型根据不同任务类型学习特征 从根本上增强模型学习能力 [21] 性能表现 - 在主体驱动生成任务中 USO的CLIP-I得分0.623 DINO得分0.793 CLIP-T得分0.288 均领先对比模型 [18] - 在风格驱动生成任务中 USO的CSD得分0.557 CLIP-T得分0.282 表现最优 [18] - 在主体风格混合驱动生成任务中 USO的CSD得分0.495 CLIP-T得分0.283 超越StyleID和OmniStyle等模型 [18] - 用户研究显示USO在主体一致性 风格一致性和画面质量等所有评估维度都获得较高评价 [19] 技术架构 - 以开源模型FLUX 1 dev为基础 设计风格对齐训练以及内容-风格解耦训练 [22] - 首次提出风格奖励学习SRL算法 这是为Flow Matching设计的带参考图强化学习算法 [24] - 奖励函数来自衡量风格一致性的奖励模型数学映射 配合预训练损失监督模型训练 促进内容和风格解耦 [25] - 强化学习的加入让模型在其他任务上也获得性能提升 验证跨任务对齐有效性 [26] 数据处理 - 团队构建跨任务数据合成框架 创新性提出同时构建布局改变和布局保留的三元组数据 [30] - 通过训练UNO模型得到风格化和去风格化专家模型 利用这两个专家模型生成大批量三元组数据 [30] - 最后通过VLM过滤出用于训练USO的数据集 [30] 应用场景 - 通过单一模型且仅通过一张参考图 就能处理人物 主体或风格保持需求 [7] - 可处理卡通人物驾驶小车 积木风格场景 吉卜力风格 抽象材质参考等多种应用场景 [8][10][12][14] - 能同时参考人物ID和风格图片 在保留ID基础上完美还原扁平风格 [17] - 画面质量不输商业大模型 弥补难以同时做好主体保持和风格迁移的短板 [3][17]
港科广×腾讯联手打造《我的世界》神操作,400张截图就能让AI挖矿通关,成本降至5%|EMNLP 2025
量子位· 2025-09-04 04:41
研究框架与创新突破 - 提出VistaWise框架 首次将跨模态知识图谱与轻量化视觉微调系统性引入开放世界智能体 [3] - 以低成本与跨模态为突破口 设计图-检-控三位一体的极简框架 核心创新概括为一图谱、两增强、三协同 [9] - 训练数据量仅需471帧 较传统方法缩减5个数量级 GPU显存需求下降87.5%至24GB [18] 技术架构与性能表现 - 仅用471张游戏画面微调视觉模型 单张24GB消费级显卡即可完成训练 完整框架可部署于笔记本电脑 [7][17] - 在"获取钻石"任务链上达成33%成功率 刷新非API类方法纪录 较前SOTA提升8个百分点 [4] - 9个连续子任务全部达到73%以上成功率 通过检索式图池化机制减少30%推理tokens [4][13] 核心组件与运行机制 - 构建轻量化跨模态知识图谱 融合文本攻略与实时视觉感知 单张1080p画面可在20ms内完成动态更新 [11] - 采用Path-Searching+Entity-Matching双阶段池化 先锁定全局路径再局部裁剪冗余信息 [13] - 基于PyAutoGUI封装原子动作函数 支持键鼠混合输入 实现零仿真真机操作 [14] - 决策闭环包含感知-检索-推理-执行四步骤 依赖GPT-4o生成自然语言指令驱动操作 [15][20] 行业应用与成本优势 - 突破传统需千万级标注样本与数百张高端显卡的训练模式 成本从百万级大幅降低 [6] - 较多模态大模型视觉感知方案降低30.7%的tokens使用 性能无显著下降 [18] - 研究成果获自然语言处理顶级会议EMNLP 2025主会录用 具学术与商业应用潜力 [5]