FLUX.1
搜索文档
黄仁勋:家用 240W,这才是交给马斯克的“第一台 AI”
36氪· 2025-10-17 00:24
产品发布与核心特性 - 英伟达CEO黄仁勋于2025年10月15日在SpaceX星舰基地向埃隆·马斯克交付了名为DGX Spark的AI设备[1][3][17] - 该设备体积小巧如书本,重量仅为1.2公斤,功耗为240瓦,可直接接入普通插座运行[7][11][45] - DGX Spark能在本地运行2000亿参数的大模型,无需连接云端,支持在办公桌上训练、微调和部署AI应用[5][11] - 设备内部搭载英伟达最新GB10 Grace Blackwell芯片,配备128GB统一内存,支持图像生成、语音识别、编程推理等复杂任务[13] - 产品已获得戴尔、联想、惠普等传统PC厂商的全线接入,支持Ollama、Roboflow、LM Studio等工具运行私有模型[5][14][31] 战略意义与行业影响 - 此次交付象征AI能力从云端数据中心向个人桌面设备的重大转移,标志着AI民主化的开端[6][9][23] - 公司战略从单纯交付芯片转变为交付开箱即用的完整AI能力,将芯片、编程语言、预训练模型整套打包集成[13][26][32] - 设备将AI部署成本从“千万级”拉低至“万级”甚至更低,显著降低了行业应用门槛[27][33][40] - 该产品推动了“AI主权”概念从国家层面向企业和个人延伸,使私有数据训练和部署专属AI助手成为可能[36][37][38][41] - 此次发布可能引发AI应用生态重排,竞争焦点从模型大小转向谁最先占据用户本地桌面体验的入口[42][43][44] 技术突破与效率提升 - 设备功耗从传统数据中心所需的吉瓦(GW)级别大幅降低至240瓦,实现了三个数量级的能效提升[24][29][33] - 能效提升源于芯片到组网技术的全面优化,使单位能耗的AI任务产出更高,客户利润可提升3倍[28][29] - 高度集成化设计简化了AI部署流程,用户无需自行组装环境,插电即可使用,几乎不需要额外冷却系统[26][29][32] - 与NetApp合作的AFX架构使企业能将自有数据(如PDF合同、设计图纸)直接转化为AI可理解的语义素材,全过程在内部完成[39]
让多模态大模型「想明白再画」!港大等开源GoT-R1:强化学习解锁视觉生成推理新范式
机器之心· 2025-06-25 06:50
多模态大模型技术进展 - 当前多模态大模型在复杂文本提示生成高保真图像方面取得进展,但在处理精确空间关系、多对象属性及复杂组合指令时仍面临挑战[1] - 香港大学MMLab、香港中文大学MMLab和商汤科技团队推出GoT-R1框架,通过强化学习增强语义-空间推理能力,超越预定义模板限制[2][3] - GoT框架通过显式语言推理过程规划语义内容和空间布局,提升图像生成准确性和可控性,但依赖人工定义模板限制了自主推理潜力[4] GoT-R1技术创新 - GoT-R1创新性应用强化学习于视觉生成,赋予模型自主学习和优化推理路径能力[5] - 构建双阶段多维度奖励框架:推理过程评估奖励(RPR)、推理至图像对齐奖励(RRI)、语义对齐奖励(Rsem)、空间对齐奖励(Rspa)、文本提示至图像对齐奖励(RPI)[14][15][16][17] - 采用组相对策略优化(GRPO)强化学习算法,使模型主动探索更优质推理策略,突破训练数据固定模式限制[18] 性能评估与行业对比 - GoT-R1-7B在T2I-CompBench六个评估类别中五个(色彩、形状、纹理、非空间属性、复杂组合)取得最高分,确立新SOTA性能[22][23] - 相比监督微调基线模型(Janus-Pro-7B-GoT),GoT-R1-7B指标提升达15%,纹理和形状保真度显著进步[24] - GPT-4o评估显示GoT-R1在空间关系理解类别以84:16压倒性优势胜出,证明其从根本上优化了模型推理能力[25] 技术实现细节 - GoT依赖840万图像生成样本和92万图像编辑样本构建的大规模推理链图文对数据集,结合Qwen2.5-VL等多模态大模型[10] - 独创语义-空间指导模块(SSGM)增强扩散模型遵循推理链能力[10] - 空间对齐奖励创新性将文本坐标转换为可视化布局供MLLM评估,显著提升空间关系判断准确性[16]