Workflow
Mac Studio M3 Ultra
icon
搜索文档
黄仁勋送马斯克的3万块个人超算,要借Mac Studio才能流畅运行?首批真实体验来了
搜狐财经· 2025-11-22 07:19
产品定位与目标用户 - 产品为NVIDIA DGX Spark,定位为个人AI超级计算机,目标用户是科研人员、数据科学家和学生等群体,旨在提供高性能桌面级AI计算能力以支持AI模型开发和创新[8] - 售价为3万元人民币,被称作“全球最小超算”,具备2000亿参数处理能力和128GB内存[1][5] 核心性能表现 - 设备AI核心能力定位在RTX 5070和RTX 5070 Ti之间,能处理1200亿参数的大模型,总体性能优于Mac Mini M4 Pro(10999元版本)[11][15][21] - 在Prefill(预填充)阶段表现出色,批量大小为1时Prefill TPS达7,991,但Decode(解码)阶段性能受限,同条件下Decode TPS仅20.52,显示出算力强但数据传输慢的特点[11][23][24] - 最大短板为内存带宽仅273 GB/s(使用LPDDR5X内存),而对比产品如RTX 5090带宽达1800 GB/s,这导致Decode阶段性能成为瓶颈[13][31] 应用场景与玩法 - 官方提供超过20种开箱即用玩法,包括生成视频、搭建多智能体助手等AI全家桶功能[13][47] - 实际应用案例包括本地AI视频生成(使用ComfyUI框架和阿里Wan 2.2 14B模型)、并行运行多个LLMs和VLMs实现智能体交互等[37][45][47] - 典型用户玩法包括本地运行大模型确保数据安全、不受限制生成图片视频、打造私人助理等[8][9] 性能优化方案 - 有团队采用PD分离方案,将Decode阶段交给带宽更高的Mac Studio M3 Ultra(带宽819 GB/s),使整体推理速度提升2.8倍,但成本增至近10万元[32][33][34] - 通过流水线式分层计算与传输实现计算和传输时间重叠,优化了DGX Spark带宽限制问题[33] 生态与兼容性 - 设备获得LM Studio等桌面工具支持,社区有Reddit用户开展AMA活动分享测试结果[44][53] - 兼容性方面,有用户尝试运行nanochat项目但面临兼容性问题和长时间训练挑战(对比8xH100芯片训练需4小时,RTX 4090需约100小时)[56][57][58]
时隔 9 年,黄仁勋再次给马斯克送货上门,跳票大半年的 AI 个人超算终于来了
搜狐财经· 2025-10-14 04:38
产品发布与历史意义 - NVIDIA首席执行官黄仁勋在SpaceX星舰第十一飞现场,向特斯拉首席执行官马斯克交付了DGX Spark个人AI超级计算机[2] - 此次交付场景与2016年类似,当时黄仁勋将全球第一台DGX-1超级计算机送至OpenAI办公室,该设备被戏称为造价20亿美元的单一产品,并开启了大模型时代[4][6] - 此次交付标志着AI超算从大型设备转向个人桌面级产品,宣告“属于每个人的AI超算时代”开始[6] 产品开发与市场定位 - DGX Spark原计划于今年1月CES以“Project Digits”之名亮相,但错过了原定5月和夏季发布日期,延迟原因被行业猜测为其核心Grace Blackwell GB10芯片中,由联发科共同开发的Grace CPU部分生产延迟[8] - 产品最终定价为4000美元,比最初传闻的3000美元贵了1000美元,与顶配Mac Studio M3 Ultra价格相近,但定位为纯粹的AI开发工具,预装基于Ubuntu的DGXOS,不支持Windows或macOS[17] - 该产品目标用户是需要本地处理敏感数据、追求极致性能或希望完全掌控AI工作流的专业人士和硬核玩家[17] 核心技术规格 - 整机核心是Grace Blackwell GB10超级芯片,将20核ARM架构Grace CPU与Blackwell GPU封装在一起,提供高达1 Petaflop的AI计算性能[11] - CPU和GPU通过NVIDIA NVLink™-C2C技术连接,共享128 GB统一内存池,该连接技术带宽是传统第五代PCIe的5倍,确保数据高速低延迟流转[11] - Blackwell GPU配备第五代张量核心,支持FP4/FP8超低精度格式,FP8性能相比上一代提升5倍[13] 产品性能与应用 - 巨大内存容量战略价值超越带宽数字,允许在桌面直接流畅运行高达2000亿参数的超大语言模型,无需复杂模型切分[13] - 设备内置NVIDIA ConnectX®-7 200 Gb/s网络接口,可轻松连接两台设备组成拥有256 GB共享内存的微型集群,处理高达4000亿参数的巨型模型[14][15] - 产品预装完整NVIDIA AI软件栈,包括CUDA库、TensorRT和各种NVIDIA NIM™微服务,所有集成在定制DGXOS上,开箱即可使用,为开发者节省大量时间成本[15]