Workflow
记忆遗忘机制
icon
搜索文档
DeepSeek开源新模型:单张A100日处理可超20万页数据
第一财经· 2025-10-20 14:58
模型发布与技术概览 - DeepSeek于10月20日在Github开源了名为DeepSeek-OCR的新模型,并发布了相关技术论文[2] - 该模型旨在解决大语言模型处理长文本时面临的计算挑战,通过将文本压缩成视觉模态来减少Token消耗[5] - 模型的核心思路是利用“一图胜千言”的特性,实现文本信息的“光学压缩”[6] 技术原理与性能表现 - DeepSeek-OCR由两个核心组件构成:负责图像特征提取和压缩的DeepEncoder编码器,以及负责从压缩后的视觉Token中重建文本的DeepSeek3B-MoE解码器[7] - 解码器采用混合专家设计,虽然总参数为30亿,但实际激活参数约为5.7亿,使其在保持30亿参数模型表达能力的同时,仅需5亿参数模型的推理效率[7] - 测试显示,该模型可实现近10倍无损上下文压缩,OCR准确率保持在97%以上;在压缩率达到20倍的情况下,准确率仍保持在约60%[6][7] - 在实际应用中,单张A100-40G显卡可支持每日20万页以上的大语言模型/视觉语言模型训练数据生成[7] 创新应用与未来潜力 - 团队提出了用光学压缩模拟人类遗忘机制的未来研究方向,通过逐步缩小渲染图像的大小来减少token消耗,实现类似人类记忆衰退的“文本遗忘”效果[8] - 这一方法被认为对于平衡理论上无限的上下文信息具有潜力,可能成为处理超长上下文的突破性技术[8] - 有观点认为,统一语言和视觉可能通向超级智能,该模型在Github发布后迅速获得超过1400颗星星,显示出行业关注度[9] 公司战略与市场观点 - 尽管DeepSeek在OCR领域取得进展,但市场有声音认为公司在发布像R2这样的新模型方面进展缓慢,可能存在落后风险[10] - 同时也有观点认为,DeepSeek目前是在修炼“内功”,为下一代模型进行技术储备[10]