RTX 4090
搜索文档
单卡训练1亿高斯点,重建25平方公里城市:3DGS内存墙被CPU「外挂」打破了
具身智能之心· 2025-12-24 00:25
文章核心观点 - 纽约大学研究团队提出名为CLM的系统,通过将3D高斯泼溅训练中占用显存最多的参数转移到CPU内存,使单张消费级显卡也能训练上亿规模的高斯点模型,显著降低了城市级3D重建的硬件门槛[3] 3DGS的规模应用瓶颈 - 3D高斯泼溅在应用于城市街区等复杂场景时,GPU显存成为最直接且难解决的瓶颈[5] - 一个高精度3DGS模型通常包含数千万乃至上亿个高斯点,每个点包含数十个参数,训练还需保存梯度和优化器状态[5] - 即便是24GB显存的RTX 4090,也只能容纳约一两千万个高斯点的完整训练状态,远不足以覆盖城市级场景[5] - 此前扩展规模的方法不理想:多GPU并行训练成本高昂,或通过压缩等方式减少高斯数量但牺牲重建质量[6] CLM系统的设计原理 - 研究发现,在3DGS训练的每一次视角渲染中,真正参与计算的高斯点只占整个场景的极小一部分,单帧图像通常只会访问不到1%的高斯点[7] - 设计思路是不再将所有高斯参数常驻显存,而是在需要时按视角动态加载[8] - 系统通过三项关键机制实现CPU-GPU协同[9] - **机制一:属性分割**:将每个高斯点的59个参数分为两类,用于视锥剔除的“关键属性”(位置、旋转、缩放,共10个浮点数)永久保存在GPU显存,仅占单个高斯内存占用的不到20%;其余约80%的“非关键属性”卸载到CPU内存,需要时才加载[10][11] - **机制二:预渲染视锥剔除与选择性加载**:在渲染前显式计算当前视角中可见的高斯点索引,仅从CPU内存加载这些可见点的完整参数,减少了GPU对不可见高斯的无效计算和内存占用[12] - **机制三:优化数据传输**:通过微批次流水线将参数加载与GPU计算重叠以隐藏通信延迟;利用缓存机制避免反复加载相同数据;通过智能调度(建模为旅行商问题)寻找高斯点重用率最高的视角排列以最大化缓存命中[15][16][17] CLM系统的性能与效果 - **规模突破**:在“MatrixCity BigCity”数据集上,传统GPU-only方法在RTX 4090上最多训练1530万个高斯点,而CLM成功训练了1.022亿个高斯点,模型规模扩大了6.7倍,比仅使用卸载功能时大2.2倍[18] - **速度可控**:凭借重叠计算设计,CLM在RTX 4090上的训练吞吐量能达到增强型基线吞吐量的55%至90%;在RTX 2080 Ti上,吞吐量甚至能达到基线的86%至97%[23] - **通用性强**:该方案与具体后端渲染引擎无关,并可扩展至其他splatting算法[21] 产业意义与应用前景 - CLM是一项直接面向真实部署瓶颈的系统工程研究,核心贡献在于首次系统性地将CPU内存和计算资源纳入了3DGS训练的资源分配体系[22] - 为学术界和工业界进行超大规模场景重建提供了一种不依赖多GPU集群的高性价比可行路径[22] - 随着数字孪生、大规模地图重建等应用需求增长,能在现实硬件条件下稳定扩展规模对相关工作开展非常有利[22] - 展示了通过软硬件协同、重新组织既有计算资源,在不增加专用硬件投入的情况下推进3DGS实用化的可能方向[22]
单卡训练1亿高斯点,重建25平方公里城市:3DGS内存墙被CPU「外挂」打破了
36氪· 2025-12-23 07:27
文章核心观点 - 纽约大学研究团队提出名为CLM的系统,通过将3D高斯泼溅训练中占用显存最多的参数转移到CPU内存中,使单张消费级显卡也能训练上亿规模的高斯点模型,显著降低了城市级3D重建的硬件门槛 [1] 3D高斯泼溅技术瓶颈 - 3D高斯泼溅在应用于城市街区等复杂场景时,GPU显存成为最直接且难解决的瓶颈 [2] - 一个高精度3DGS模型通常包含数千万乃至上亿个高斯点,每个点包含数十个参数,训练时还需保存梯度和优化器状态 [2] - 即便是拥有24GB显存的RTX 4090显卡,也只能容纳约一两千万个高斯点的完整训练状态,远不足以覆盖城市级场景 [2] - 此前扩展规模的方法要么成本高昂(多GPU并行),要么以牺牲重建质量为代价(压缩、裁剪等) [2] CLM系统的设计原理 - 设计出发点基于对训练过程的观察:在每次视角渲染中,真正参与计算的高斯点只占整个场景的极小一部分,单帧图像通常只会访问不到1%的高斯点 [3] - 核心设计思路是不再将所有高斯参数常驻显存,而是在需要时按视角动态加载 [3] - 该系统是一套围绕CPU-GPU协同设计的系统方案,并非简单地将数据从GPU搬到CPU [4] CLM系统的三项关键机制 - **属性分割**:将每个高斯点的59个可学习参数分为两类,用于视锥剔除和可见性判断的“关键属性”(位置、旋转、缩放,共10个浮点数)永久保存在GPU显存中,这部分数据仅占单个高斯内存占用的不到20% [5] - **属性分割**:其余约80%的“非关键属性”(如球谐系数、不透明度及其优化器状态)则被卸载到容量更大的CPU内存中,仅在需要时才被加载到GPU [6] - **预渲染视锥剔除与选择性加载**:系统首先利用GPU中常驻的关键属性完成快速视锥裁剪,然后只从CPU内存中加载这些可见高斯点的完整参数,再交由GPU执行渲染与反向传播,这减少了GPU对不可见高斯的无效计算和内存占用 [7] - **预渲染视锥剔除与选择性加载**:这一“预渲染视锥剔除”技术本身也是一个独立优化,可减少GPU计算量和内存占用,同样可以应用于无卸载的GPU-only训练 [8] - **优化CPU-GPU通信**:通过微批次流水线设计,将一个训练批次拆分为多个微批次,通过双缓冲和异步执行重叠通信与计算,有效隐藏通信延迟 [10] - **优化CPU-GPU通信**:利用缓存机制,根据连续视角间的空间局部性缓存重复使用的高斯点,避免反复从CPU加载相同数据 [11] - **优化CPU-GPU通信**:通过智能调度,将渲染顺序建模为“旅行商问题”,寻找高斯点重用率最高的视角排列,从而最大化缓存命中、最小化数据搬运 [11] - 通过上述设计,使CPU成为可以与GPU高效协同的计算资源,而不仅仅是辅助性的“慢速仓库” [12] CLM系统的实测效果 - **规模突破**:在“MatrixCity BigCity”这个面积达25.3平方公里的城市级航拍数据集上,传统GPU-only方法在RTX 4090上最多只能训练1530万个高斯点,而CLM成功训练了1.022亿个高斯点,模型规模扩大了6.7倍,比仅使用卸载功能时大2.2倍 [13][14] - **速度可控**:凭借精心设计的重叠计算,CLM在RTX 4090上的训练吞吐量能达到增强型基线吞吐量的55%至90%,在RTX 2080 Ti上甚至能达到基线的86%至97% [16] - **质量提升**:1.022亿高斯点模型的渲染PSNR达到25.15dB,显著优于1530万点模型的23.93dB [18] - **通用性强**:该方案与具体后端渲染引擎无关,并可扩展至其他splatting算法微调方式 [19] 产业意义与应用前景 - CLM是一项直接面向真实部署瓶颈的系统工程研究,其核心贡献在于首次系统性地将CPU内存和计算资源纳入了3DGS训练的资源分配体系中 [20] - 该研究为学术界和工业界进行超大规模场景重建提供了一种不依赖多GPU集群的高性价比可行路径 [20] - 随着数字孪生、大规模地图重建等应用需求增长,能在现实硬件条件下稳定扩展规模对相关工作的开展非常有利 [20] - CLM展示了通过软硬件协同、重新组织既有计算资源,在不增加专用硬件投入的情况下推进3DGS实用化的可能方向 [20]
单卡训练1亿高斯点,重建25平方公里城市:3DGS内存墙被CPU「外挂」打破了
量子位· 2025-12-23 04:16
文章核心观点 - 纽约大学研究团队提出的CLM系统,通过将3D高斯泼溅训练中占用显存最多的参数转移到CPU内存,使单张消费级显卡也能训练上亿规模的高斯点模型,显著降低了城市级3D重建的硬件门槛 [1] 3DGS的规模应用瓶颈 - 3D高斯泼溅技术面临GPU显存瓶颈,高精度模型包含数千万至上亿个高斯点,单张RTX 4090仅能容纳约一两千万个高斯点的完整训练状态,不足以覆盖城市级场景 [2] - 此前扩展规模的方法成本高昂或会牺牲重建质量 [2] CLM系统的设计原理 - 基于训练过程中单帧图像通常只会访问不到1%的高斯点这一观察,CLM不再将所有高斯参数常驻显存,而是在需要时按视角动态加载 [3][4] - CLM是一套围绕CPU-GPU协同设计的系统方案 [5] CLM系统的三项关键机制 - **属性分割**:将每个高斯点的59个参数分为关键与非关键属性,仅将用于视锥剔除的位置、旋转和缩放等关键属性(占内存不到20%)永久保存在GPU显存,其余约80%的非关键属性卸载到CPU内存 [6][7] - **预渲染视锥剔除与选择性加载**:在渲染前利用GPU中的关键属性快速完成视锥裁剪,仅从CPU内存加载可见高斯点的完整参数,减少了GPU的无效计算和内存占用 [8][9][10] - **优化数据传输以降低延迟**:通过微批次流水线将数据加载与GPU计算重叠、缓存机制利用空间局部性、以及将渲染顺序建模为旅行商问题以最大化缓存命中,来缓解CPU参与训练可能带来的速度拖慢问题 [12][13][14][15] CLM系统的实测效果 - **规模突破**:在MatrixCity BigCity数据集上,传统GPU-only方法在RTX 4090上最多训练1530万个高斯点,而CLM成功训练了1.022亿个高斯点,模型规模扩大了6.7倍 [16] - **质量提升**:1.022亿高斯点模型的渲染PSNR达到25.15dB,显著优于1530万点模型的23.93dB [18] - **速度可控**:在RTX 4090上,CLM的训练吞吐量能达到增强型基线吞吐量的55%至90% [19] - **通用性强**:该方案与具体后端渲染引擎无关,并可扩展至其他splatting算法 [20] 产业意义与影响 - CLM首次系统性地将CPU内存和计算资源纳入了3DGS训练的资源分配体系,为超大规模场景重建提供了一种高性价比的可行路径 [21] - 该研究通过软硬件协同重新组织既有计算资源,展示了在不增加专用硬件投入的情况下推进3DGS实用化的可能方向,对数字孪生、大规模地图重建等应用需求增长非常有利 [21]
最大游戏up主也玩本地AI?让笔记本都能跑大模型的Parallax来了
机器之心· 2025-11-20 09:35
本地AI部署趋势兴起 - 全球知名游戏博主PewDiePie投入2万美元组装包含10块英伟达GPU的本地AI系统,支持700亿至2450亿参数的大模型运行,全程无需依赖云计算[4] - 该视频浏览量超过300万,引发全网对本地部署AI大模型的广泛讨论[1][6] - PewDiePie作为Youtube粉丝超1.1亿的顶流博主,其下场部署本地AI具有重要行业影响力[5] 本地AI系统的核心价值 - 本地AI提供隐私保护、性能全掌控和模型可组合性三大黄金价值[12] - 用户完全掌控模型、数据与AI记忆,避免敏感数据上传第三方[18][26] - 本地推理减少复杂外在环境的不可控性,避免网络错误问题[18] - 支持自由选用开源模型,几乎每周都有新模型推出,选择范围广泛[18] Parallax技术特性 - Parallax是全球首个全自主AI操作系统,支持在Mac、Windows等异构设备上跨平台部署大模型[24][26] - 系统内置网络感知分片与动态任务路由机制,可根据推理负载实现智能调度[26] - 支持单机、本地多设备和广域集群三种部署模式,实现无缝扩容[28][29] - 已兼容Qwen3、Kimi K2、DeepSeek R1等40余种开源大模型[26] Parallax性能表现 - 在M3 Ultra + RTX 4080组合下,推理Llama-3.8B相对llama.cpp速度提升40%以上[31] - LAN集群场景中相对Exo减少一半的time-to-first-token[31] - GPU池任务调度相对HexGen总Throughput提升3.2倍[31] - 支持在GPU和Apple Silicon上无缝运行40+模型,兼容三大操作系统[31] 行业发展动态 - Parallax在Product Hunt冲上日榜第一,AI产品周榜第四,获得行业广泛关注[23] - 阿里千问、Kimi、智谱Z.ai、MiniMax等业内公司均对该项目表示支持[16] - 项目团队持续更新,近期支持了Kimi K2 Thinking等热门大模型[36] - 类似Linux挑战Windows的格局,Parallax正在挑战"AI必须上云"的传统逻辑[25]
恐慌又来了!欧美一起跌,道指重挫超500点,苹果英伟达低迷
搜狐财经· 2025-11-18 18:39
美股市场整体表现 - 道琼斯工业平均指数暴跌55724点,跌幅达118%,创下近一个月来最差表现 [1][3] - 标普500指数下跌092%,自4月以来首次跌破50日均线关键技术支撑位 [3] - 纳斯达克指数下跌084%,美股市场遭遇近期最严重的集体抛售 [3] - 市场恐慌指数VIX飙升1297%,报2239,显示投资者恐慌情绪大幅升温 [3] - 衡量市场情绪的花旗莱斯科维奇恐慌与亢奋指数达到072,显著高于038的“亢奋”标准,显示市场情绪已极度亢奋 [4] 主要科技股及AI概念股表现 - 英伟达股价下跌18%,自2022年11月以来已暴涨约1000%,并于上月底成为全球首家市值突破5万亿美元的公司 [14][8] - 谷歌逆势上涨31%,因巴菲特旗下伯克希尔哈撒韦披露第三季度买入其股份 [13] - 苹果下跌18%,Meta下跌12%,微软下跌05%,亚马逊下跌08% [14] - 戴尔科技跌超8%,此前摩根士丹利将其评级从“增持”下调至“减持” [14] - 在与人工智能相关的大型股票中,英伟达股价下跌36%,博通股价下跌43%,Palantir股价下跌65% [16] - 美国银行动量指数篮子中与人工智能相关的股票大幅下跌,Sandisk股价下跌14%,Astera Labs股价下跌84% [14] 知名投资者动向与市场观点 - “硅谷风投教父”彼得·蒂尔旗下宏观基金在第三季度清仓英伟达全部约5377万股股份,价值接近1亿美元,并减持特斯拉2076万股,减持比例高达76% [3][6] - 蒂尔宏观基金三季度末持仓总市值仅为7440万美元,相比二季度的212亿美元大幅下降65%,同时新建仓苹果和微软 [6] - 软银集团在三季度清仓英伟达,套现583亿美元 [6] - 全球最大对冲基金桥水对英伟达进行了大幅减持,减持比例高达653% [6] - 电影《大空头》原型迈克尔·伯里持有超过10亿美元的英伟达和Palantir看跌头寸 [8] - 高盛集团首席执行官戴维·所罗门表示,未来12个月至24个月内的某一时间点,股市很可能出现10%至20%的跌幅 [8] - 摩根大通首席执行官杰米·戴蒙警告称,“我们看到很多资产正看起来进入泡沫区间” [8] - 安联首席经济顾问穆罕默德·埃尔-埃利安对AI热潮发出警告:“投资者应该为AI领域出现重大个人损失做好准备” [6] 行业板块与资金流向 - 对利率敏感的高成长型股票和散户青睐的热门股首当其冲,跌幅达到自4月以来的最大值 [4] - 市场资金正从高Beta板块如银行和小盘股,外流至低Beta防御板块如电信,区域银行ETF跌超37%,而标普电信板块则逆势上涨超过11% [14] - 以“七巨头”为代表的美国科技公司总市值已超过20万亿美元,占标普500指数权重超30%,市场集中度创历史新高 [8] - 美国家庭资产中股票投资的比例也升至历史高位,显示市场情绪极度亢奋,风险偏好空前高涨 [16] 宏观经济与政策环境 - 美联储降息前景的不确定性令市场整体情绪承压,交易员对12月降息的预期已从一个月前的94%暴跌至目前的约40% [8] - 美联储副主席杰斐逊表示,美国央行若要进一步降息,需“循序渐进”,堪萨斯城联储主席施密德暗示12月会议上可能再次投下否决票 [10] - 美国政府长达43天的停摆制造了经济“数据真空”,尽管停摆结束,但积压的经济数据正集中发布,增加了市场不确定性 [10] 全球市场联动 - 全球风险资产齐现抛售潮,从美股到欧股,从加密货币到大宗商品,市场波动性全面上升 [4] - 欧洲三大股指全线走弱,德国DAX30指数跌120%,法国CAC40指数跌064% [10] - 亚洲市场早盘亦呈现疲软态势,本月迄今外国投资者已从韩国股市撤资近46亿美元,截至11月7日,外国投资者净卖出价值23亿美元的日本本土股票 [10] - 加密货币市场同步崩盘,比特币创下去年4月新低 [12] - 黄金价格跌幅扩大至近2%,下探4010美元支撑位 [4] - 日元贬值加剧全球联动恐慌,美元兑日元回升至155上方,20年期日本国债收益率飙至1999年来新高 [10]
疯了,游戏本逆天改装:一颗电阻4090反杀5090
36氪· 2025-11-12 03:47
文章核心观点 - 通过在主板上加装一颗1欧姆电阻的硬件改装,可将笔记本电脑的RTX 4090显卡功耗限制解除,使其性能在多项测试中超越或比肩下一代RTX 5090移动显卡 [1][9][10] - 笔记本电脑的性能与整机功耗释放直接相关,高功耗对散热和主板供电设计提出更高要求,是厂商技术实力的体现 [3][5] - 移动显卡的功耗上限主要由英伟达设定,厂商自行解锁功耗可能面临暂停芯片供应的风险,这限制了笔记本电脑性能的完全释放 [13][15] 笔记本电脑功耗与性能关系 - 高端游戏本整机功耗通常超过200W,部分极高端型号可达260W,功耗直接决定了CPU和GPU的性能表现 [3][5] - 同型号CPU+GPU在140W总功耗下的性能比200W功耗下低20%以上,历史上英伟达的Max-Q低功耗版显卡性能与正常版本有显著区别 [5] - 轻薄游戏本为控制厚度和重量(如1.49cm厚、1.95kg重),其整机功耗往往限制在125-145W,显卡功耗仅为满血版的60%-70% [5][6][8] 硬件改装实现性能提升 - 改装通过在原有5欧姆电阻上并联1欧姆电阻,将电路总电阻降至0.83毫欧,使功耗控制软件误判显卡功耗仅为45W,从而解除125W的功耗限制,实际供电支持接近240W [9] - 改装后RTX 4090在3DMark的SpeedWay测试中得分6911,比平均RTX 5090笔记本电脑的6307分领先9.6%,仅在Steel Nomad项目以6137分略低于平均5090的6159分(落后0.4%) [10][11] - 相比改装前,性能普遍提升超20%,其中Solar Bay Extreme项目提升幅度达35.5%,平均提升为19.2% [11] - 成功改装依赖于原机强大的硬件基础,如供电模块设计留有近两倍余量,并辅以液态金属、PTM7950相变硅脂等高效率散热材料对散热系统进行优化 [12] 行业功耗限制与厂商策略 - 移动显卡的功耗标准由英伟达制定,曾有国产PC品牌因解除限制遭英伟达警告,威胁暂停供货,最终被迫恢复限制 [13] - 英伟达的限制旨在确保不同型号显卡间的性能差距,限制在越高端的型号上越明显 [15] - 在常规散热条件下,240W显卡功耗难以长时间维持,游戏本体积下仅水冷系统可支持200W以上单芯片散热,但不利于移动使用 [15] - 有传闻称英伟达或将在下一代显卡放开功耗限制,允许高端机型解锁更多功耗,使厂商能通过超频吸引硬核玩家,英伟达亦可借此以“特挑超频芯片”名义卖出更高价格,实现双赢 [15][16]
打破显存墙:谢赛宁团队提出CLM,单卡RTX 4090「撬动」1亿高斯点
机器之心· 2025-11-11 08:40
3D Gaussian Splatting (3DGS) 技术概述 - 3DGS是一种新视角合成方法,通过迭代训练由大量各向异性3D高斯体组成的场景表示,以捕捉场景的外观和几何形状 [2] - 与其他方法相比,3DGS具有更快的渲染速度,同时能保持相当的图像质量,因此在3D建模、数字孪生、影视制作、VR/AR和机器人视觉重建等领域展现出革命性应用潜力 [4][5] - 3DGS渲染的图像质量取决于场景表示的保真度,处理大面积或复杂场景需要更多高斯体,导致内存占用随场景大小、复杂性或输出图像分辨率增加而增长 [5] CLM系统的技术创新 - CLM系统由谢赛宁团队提出,旨在解决3DGS在扩展应用时GPU显存容量不足的障碍,允许使用单块消费级GPU(如RTX 4090)渲染大型场景 [6][8] - 系统的设计基于3DGS计算本质上是稀疏的洞察,即每次训练迭代只访问场景高斯体的一个小子集,因此只需将该子集加载到GPU内存,而将其余高斯体卸载到CPU内存 [8][11] - 评估表明,该实现可以在单个RTX 4090上渲染需要1.02亿个高斯体的大型场景,并达到顶尖水平的重建质量,与没有卸载的基线系统相比仅产生适度的性能开销 [8][9] 基于稀疏性的卸载策略 - 3DGS的计算过程具有高度稀疏性,在渲染时只有位于相机视锥体内的高斯点才对最终图像产生贡献,在大场景中单个视角访问的高斯点数量占比通常不到1% [12][14] - 团队利用这种稀疏性,通过视锥剔除逻辑提前识别每个视角所需的高斯点子集,并仅将这些必要的高斯点传输至GPU,从而显著降低内存占用与数据传输量 [12][15] - 在最大的数据集上,每个视角平均只访问了0.39%的高斯点,单个视角访问的高斯点数量上限为1.06% [23] 空间局部性优化 - 不同视角的稀疏模式虽不同但存在重叠,其交集的高斯点数与视角之间的空间位置和角度相似度密切相关 [16] - 团队利用这种空间局部性来优化CPU与GPU之间的数据传输,通过合理安排训练迭代顺序以最大化重叠访问并最小化总体通信量 [13][17] - 通过microbatch调度优化,提前计算每个微批次的稀疏模式并合理安排处理顺序,使得相邻批次之间的访问模式尽可能重叠,从而提高缓存命中率 [24] 系统设计与性能 - CLM的核心思路是通过将高斯参数和部分优化器计算卸载到CPU端来扩展有效的GPU显存容量,同时基于3DGS稀疏性和空间局部性观察结果最大限度减少通信开销 [20][25] - 系统采用流水线执行,使得通信与计算能够重叠进行,例如加载微批次i的视锥高斯时与微批次i-1的GPU反向计算重叠,传输微批次i的梯度时与微批次i+1的GPU前向计算重叠 [25][28] - CLM使得3DGS的可训练模型规模相比纯GPU训练基线提升了最高6.1倍,能够训练更大模型从而提升场景重建精度,并实现更低的通信与卸载开销 [27]
Advanced Micro Devices, Inc. (AMD): A Bull Case Theory
Yahoo Finance· 2025-09-28 23:43
投资机会与目标 - 公司呈现一个引人注目的12-18个月投资机会 目标基准回报率为12-18% 股价目标为168-177美元 [2] - 若英伟达执行问题持续 公司股价上行空间可达20-25% 目标股价为180-187美元 [2] 财务表现与增长 - 公司2025年第二季度业绩强劲 营收同比增长32%至77亿美元 [3] - 游戏业务营收增长73%至11亿美元 数据中心营收增长14%至32亿美元 显示GPU多元化成功 [3] - 华尔街预测支持公司每股收益复合年增长率在2027年前达到15-20% [3] 竞争优势与市场定位 - 公司正转型为多元化的GPU巨头 这一转变未被市场充分认识 [2] - 英伟达面临的结构性GPU可靠性问题 为公司创造了罕见的竞争窗口 [4] - 公司的RX 9070 XT显卡展现出强大的1440p性能和更高的能效 [4] - 公司的开源ROCm平台增强了其在数据中心的定位 [4] 潜在市场与增长驱动 - 公司在价值1200亿美元的独立GPU细分市场中 潜在的市场份额增益可能带来36亿至60亿美元的增量营收 [5] - CPU业务继续提供稳定性 贡献约50%的营收 并支撑消费级和企业级市场的增长 [4] 历史表现与观点确认 - 公司股价自2025年5月被覆盖以来已上涨约39% [6] - 当前观点与之前看涨论点一致 强调公司多元化的CPU和GPU业务支撑增长 [6]
BluSky AI Inc. and Lilac Sign Letter of Intent to Launch Strategic GPU Marketplace Partnership
Globenewswire· 2025-08-26 13:42
核心观点 - BluSky AI与Lilac签署意向书 建立战略合作 通过GPU资源共享提升AI生态计算资源利用效率并实现闲置容量货币化 [1][2][3] 合作内容 - BluSky AI将提供GPU云计算资源网络 包括未分配库存和客户选择加入的容量 通过Lilac平台出租 [2] - 合作涵盖工程集成 联合营销和客户获取框架 最终协议预计未来数月内达成 [3] - Lilac将转售BluSky AI及其客户网络的闲置GPU容量 为终端用户提供更高投资回报率和灵活租赁选项 [6] - BluSky AI将Lilac指定为"首选市场合作伙伴"并向其生态圈积极推广该平台 [6] - 双方将合作开展营销活动 包括联合新闻稿 社交媒体激活 白皮书 视频演示和活动合作 [6] - BluSky AI将提供季度GPU库存透明度报告 以指导市场策略和绩效跟踪 [6] 技术资源 - BluSky AI提供企业级高性能GPU型号 包括NVIDIA B200 H200 H100 A100 L40 RTX 5090和RTX 4090 [2] 公司背景 - BluSky AI总部位于犹他州盐湖城 是专为人工智能构建的Neocloud 通过快速部署的SkyMod数据中心提供可扩展的AI工厂 [1][4] - Lilac总部位于旧金山湾区 正在构建权威的GPU计算现货市场 通过动态价格驱动平台连接全球GPU供应与AI开发者 初创企业和企业 [5] 战略意义 - 合作旨在提高BluSky AI计算资产利用率 同时扩大Lilac的高性能GPU供应商基础 [2] - 通过整合闲置容量到Lilac平台 优化资源效率并使客户能够从未充分利用资产产生新收入流 [3] - 合作代表计算资源供应 货币化和扩展方式的重大进步 降低AI采用门槛并构建更高效公平的云经济 [3]
叫板英伟达RTX 5090,GPU初创公司做出13倍路径追踪性能的怪兽显卡
36氪· 2025-08-06 02:50
核心观点 - 芯片初创公司Bolt Graphics的首款GPU模组Zeus 4C在路径追踪场景中性能达到RTX 5090的13倍 [1] - Zeus GPU并非针对游戏场景设计,而是专注于高精度图形渲染领域 [4][6] - Bolt Graphics的市场定位更偏向设计硬件公司而非游戏/AI硬件公司 [16] 产品性能对比 - Zeus 4C在4K分辨率每秒120帧的路径追踪任务中性能是RTX 5090的13倍 [4] - Zeus GPU板卡功耗为250W,远低于RTX 4090的450W和RTX 5090的575W [5] - Zeus GPU在FP64/FP32/FP16浮点运算性能上远逊于RTX 4090和RTX 5090 [5] - Zeus GPU路径追踪性能达154 gigarays,远超RTX 5090的32 gigarays [5] - Zeus GPU使用LPDDR5X内存,带宽比RTX 5090的GDDR7低3倍以上 [6] 产品定位与技术特点 - Zeus GPU专注于电影视觉特效、游戏渲染、高性能计算等需要高精度图形渲染的场景 [6] - 产品主打路径追踪技术,可模拟光线与环境互动,创造逼真渲染效果 [7] - 支持FP64双精度浮点运算,适合电影特效、高精度仿真等对细节要求高的领域 [9] - 采用类似AMD的chiplet架构,包含计算芯片和IO芯片 [13] - 提供2/4/8个SODIMM插槽以弥补内存带宽不足 [13] 市场现状与挑战 - 显卡市场长期由NVIDIA和AMD主导,Bolt属于针对特定场景的边缘突破 [20] - 公司暂未公布基准测试方法和性能对比细节 [20] - 开发者套件预计2026年推出,2027年实现量产 [20] - 产品定价尚未公布 [21][22]