DeepSeek-OCR实现光学压缩 光计算可为大模型“减负”
Seek .Seek .(US:SKLTY) 36氪·2025-11-27 08:49

文章核心观点 - 注意力机制是大语言模型成功的基石,但长上下文窗口导致算力需求指数级增长,例如上下文窗口长度达到1000K时,存储注意力矩阵需要约2TB显存[2] - DeepSeek提出的上下文光学压缩方法利用视觉token压缩文本token,其DeepSeek-OCR论文验证了可行性,并启发业内探索类似人脑的遗忘机制[2] - 光本位科技认为上下文光学压缩的验证说明光计算将成为大语言模型的未来,公司正积极推进光计算与大模型接轨[2] 视觉Token压缩文本技术 - DeepSeek-OCR方法在10倍压缩率下仍能保持96.5%的精度,展示了视觉压缩的可行性[3] - 当文本Token为600-700时,64个视觉Token可实现96.5%精度和10.5倍压缩,100个视觉Token可实现98.5%精度和6.7倍压缩[4] - DeepEncoder模块是实现压缩的核心引擎,包含SAM、两层卷积块和CLIP三个模块[5] - SAM模块通过窗口注意力机制分割图像,ViT模型关联局部窗口,关联性高的区域融合特征,空白区域因关联性差保持低特征值并被卷积块丢弃[5] - 压缩后的视觉token输入CLIP,利用全局注意力机制捕捉图像整体语义和上下文,最终将1000文本token压缩成100个视觉token[5] 光计算技术优势 - DeepSeek-OCR用到的ViT和CNN结构本质是信息聚合计算,需要高效硬件载体,光计算的并行架构天然适合此类计算[7] - 光计算芯片处理信息压缩的速度和能耗远优于电芯片,灵活性更高,计算逻辑可根据需求调整[7] - 光本位科技的全域可编程存算一体光计算引擎加速DeepEncoder后,计算效率提升100倍,能效比提升10倍[7] - 光计算简化计算过程,图像信息通过光学方式处理,卷积、缩放等计算在传播过程中完成,无需额外功耗[9] - 特有存算一体架构使光计算引擎在处理批量任务时保持"零静态维持功耗"[9] - 光计算芯片可扩展性更强,阵列规模扩大和参数刷新频率提升比电子芯片上限更高、能耗更少[11] 光计算硬件与大模型融合前景 - DeepSeek-OCR为光计算芯片通用化设计提供新思路,可能成为连接光计算硬件与大模型的突破点[13] - 光本位科技计划利用相变材料的非易失性模拟人脑神经元,实现高效计算和类脑信息编码存储[13] - 公司未来将推出上下文压缩专用硬件、AI任务专用硬件及配套软件栈,与大模型实现接轨[13] - 光计算可在大模型上提升近百倍算力和超过十倍能效比,为未来新计算范式提供高效计算基座[13] - 传统GPU受限于内存墙和功耗密度,光计算利用其大算力、高带宽、低功耗优势改变大模型现状[15] - 光本位科技计划构建全光大规模AI计算的下一代颠覆式平台系统,提供全场景覆盖的全栈光计算解决方案[15]