Workflow
光学压缩
icon
搜索文档
两周复刻DeepSeek-OCR!两人小团队还原低token高压缩核心,换完解码器更实用
量子位· 2025-11-07 05:32
技术突破与核心优势 - 提出“视觉压缩一切”的设计思想,通过将文字渲染成图片,用视觉模态作为压缩媒介,解决大模型处理长文本时的算力爆炸难题[4] - 实现7-20倍的压缩比,在10倍压缩下准确率仍能保持97%,仅需约250个视觉tokens即可承载原本需要3949个文本tokens的内容[7][22] - 复刻版DeepOCR严格遵循原版三阶段串联结构(局部处理-压缩-全局理解),采用SAM-base处理图像、16×卷积压缩器削减token数量、CLIP-large抓取文档语义,有效控制内存占用[10] 技术实现与架构 - 编码器采用“局部处理-压缩-全局理解”三阶段设计:第一步用SAM-base将1024×1024图像切成16×16补丁生成4096个初始token;第二步用卷积压缩器将token从4096个削减至256个;第三步由CLIP-large处理压缩后的tokens进行全局理解[10] - 模型将CLIP的补丁特征和展平后的SAM特征拼接,输出2048维的融合特征[11] - 使用Qwen2-7B-Instruct作为大语言模型替代原版选择,因与VILA训练框架兼容性更好且完全开源,在保持核心能力的同时降低了落地门槛[16][17] 训练效率与资源需求 - 采用两阶段训练流程并全程冻结DeepEncoder,大幅降低显存需求:第一阶段仅训练多模态投影仪,采用512全局batch size和1e-3学习率;第二阶段进行全模型预训练,batch size降至32,学习率调整为5e-5[20] - 整套训练方案可在2张H200 GPU上完成,体现出显著的低算力友好特性,适配中小团队资源条件[19][21] 性能表现与基准测试 - 在基础任务中表现突出,英文文本识别和表格解析能力优秀,表格解析甚至优于原版,得益于对原版2D空间编码的精准还原[24] - 在olmOCR基准测试中,简单文档的基础OCR能力扎实,与原版表现接近[26] - 与现有模型对比,DeepOCR在关键指标上展现出竞争力,如在特定任务中超越部分基线模型[26][27] 团队背景与项目进展 - 开发团队由两名成员组成:Ming Liu(北京大学物理硕士,爱荷华州立大学计算机博士在读,曾任亚马逊应用科学家实习生)和刘世隆(清华大学博士,普林斯顿大学博士后,曾任字节Seed团队科研人员)[29][31][32] - 项目完全开源,代码和项目主页已公开,当前版本与原版的差距主要源于训练数据限制而非架构问题[27][33] - 团队计划通过补充公式、多语言、旧扫描件等训练数据,并应用动态温度缩放、RLVR等技术进一步缩小复杂任务上的性能差距[28]
AI 又进化了,DeepSeek 再推 “ 王炸 ” 新功能
36氪· 2025-10-24 11:48
核心技术原理 - 提出光学压缩概念,用视觉模态作为文本压缩介质,以“视觉token”取代“文本token”[2] - 核心思路是将文本转换为图像,再让模型通过看图方式读取信息,以解决大语言模型处理长文本时算力消耗过大的痛点[4] - 模型由DeepEncoder和DeepSeek3B-MoE两部分组成,前者作为压缩引擎,整合了SAM-base和CLIP-large,并包含一个16倍卷积压缩模块用于削减token[8] 性能与效率 - 实现10倍压缩率时,仅用100个视觉token即可表达原本需要1000个文本token的内容,并保留97%的OCR准确率;20倍压缩率下仍可保留约60%的准确率[5] - 一张1024×1024的图片经处理后可从4096块压缩至几百个token,在保留清晰度的同时显著降低显存消耗[9] - 解码器采用MoE架构,64个专家中每次仅激活6个,实际算力仅动用约5.7亿参数,但性能可媲美30亿参数模型[11] 模型能力与训练数据 - 支持多档分辨率模式,包括Tiny、Small、Base、Large以及动态模式Gundam[10] - 训练数据规模庞大,包含3000万页PDF文档,涵盖100种语言,其中中英文文档达2500万页[11] - 额外使用300万条Word文档训练公式识别、表格提取等能力,并从中英文开源数据集各抓取1000万张场景图进行标注[14] 应用效果与测试表现 - 在OmniDocBench测试中,以100个视觉token超越GOT-OCR2.0,用不到800个视觉token超越MinerU2.0,实现性能更强、输入更短、推理更快[14] - 技术可扩展至模拟人类记忆机制,通过将历史对话内容渲染成图像并逐步压缩,实现类似“选择性遗忘”的效果[16][17] - 该范式重新定义了上下文概念,强调记忆的精而非多,为处理超长对话提供了新思路[18] 行业影响与创新意义 - DeepSeek-OCR探索了一种新范式,即用视觉模态高效承载语言信息,在行业追求“更大、更长、更贵”的背景下,提供了“更小、更快、更巧”的发展思路[19][21] - 该模型虽为30亿参数的小模型,但在长文本压缩方面提出了创新思路,并触及了AI记忆与遗忘的边界[22] - 此举标志着行业焦点可能从“记忆更多”转向“更聪明地遗忘”,公司在技术路径创新上处于领先地位[23]
DeepSeek-OCR技术深度剖析:长文本处理的光学压缩路径与产业应用前瞻
海通国际证券· 2025-10-23 13:35
报告投资评级 - 报告未明确给出具体的行业或公司投资评级 [1] 报告核心观点 - DeepSeek-OCR技术通过将长文本映射为高分辨率二维图像并进行压缩,实现长上下文处理,在10倍压缩倍率下解码准确率约97%,20倍压缩下仍保持约60%准确率 [1] - 该技术代表从“扩展上下文窗口”到“压缩存储”的根本性转变,与当前大窗口模型形成有效互补 [2] - 技术路径与“像素统一输入”范式高度契合,为多模态混合架构工程化落地提供实践样板 [1] - 中国AI团队在模型效率优化与系统架构设计方面形成具备全球借鉴价值的解决方案,竞争焦点从算力规模转向垂直场景架构洞察 [6] 技术架构与性能 - DeepSeek-OCR采用DeepEncoder将图像压缩为少量视觉token,使用参数量约570亿的DeepSeek-3B-MoE-A570M模型实现文本重构 [1] - 对表格、图表及复杂版面等结构化信息处理具有显著优势,有效降低长文档场景计算与显存消耗 [1] - 技术方案已在arXiv和Hugging Face社区开源,具备可验证性 [1] 技术路径对比 - DeepSeek-OCR采用“压缩-再解码”架构,实现高密度、低成本冷存储,适用于历史语境保留场景 [4] - ChatGPT/Gemini延续“扩大上下文窗口+系统级检索”路径,构建可即时访问的热内存环境,适用于原位细粒度推理任务 [4] - 两种技术路径构成互补关系,分别满足不同应用场景需求 [2][4] 工程应用与边界 - 低于10倍压缩率下97%的还原精度满足多数信息检索与文档归档需求,20倍高压缩率适用于容错性较高场景 [3] - 建议对关键段落采用低压缩率保留细节,背景内容采用高压缩率提升效率 [3] - 可与RAG系统结合形成“先检索后解码”工作流程,对高价值字段建立原文抽检机制 [3] - 不建议直接应用于代码、法律文书等对字符准确性要求极高领域 [3] 产业应用前景 - 预计在金融报表、科研文献等大版面、多元素文档处理场景中率先实现规模化落地 [3] - 为需要低成本保留超长历史语境(如多轮对话记忆、跨周期项目日志)的场景提供显著效率优势 [4]
DeepSeek的终极野心:把大语言模型的基本语言都改造成图像
36氪· 2025-10-21 12:52
核心观点 - DeepSeek开源了名为DeepSeek-OCR的模型,该模型在权威基准上取得了业界顶尖的成绩 [1] - 该研究的核心是解决大语言模型面临的长上下文处理算力瓶颈,通过将文本信息渲染成图像进行高效压缩,从而减少所需的视觉token数量 [4] - 这一方法可能改变未来大语言模型的输入范式,实现用图像作为更高效的输入媒介 [6][37] 技术原理与创新 - 当前大语言模型对更长上下文的追求受限于Transformer注意力机制的计算复杂度,其随序列长度呈二次方增长 [7] - DeepSeek-OCR提出通过光学压缩来减少token数量本身,而非优化注意力计算 [7] - 视觉token是视觉模型处理图像的基本信息单元,一张1024*1024的图像可被划分为4096个视觉token [8] - 大小为其一半的图像能容纳约10000个文本token,表明视觉模态是文本信息的高效压缩媒介 [9] - DeepSeek-OCR实现了10倍压缩几乎无损,20倍压缩基本可用的效果 [10] - 团队设计了名为DeepEncoder的创新视觉编码器,这是一个约3.8亿参数的串联三级架构,完美解决了高分辨率处理和低计算成本之间的矛盾 [11][12][14][16] 性能表现与效率 - 在10倍压缩率下(用64个视觉token解码600-700个文本token),OCR精度高达96.5% [17] - 在20倍压缩率下(用64个token解码1200+token),模型精度保持在约60%的可用水平 [17] - 在OmniDocBench基准测试中,DeepSeek-OCR(Small模式)仅用100个视觉token,性能就超过了使用256个token的GOT-OCR2.0 [19] - DeepSeek-OCR(Gundam模式)使用不到800个视觉token,性能全面超越了需要近7000个token的MinerU2.0 [19] - 单颗英伟达A100 GPU即可每日处理超过20万页文档 [20] - 配备20台服务器(每台搭载8颗A100 GPU)时,系统日处理能力可提升至约3300万页 [20] - 模型支持约100种语言,能识别处理纯文本、图表、化学式与几何图形等多种文档类型 [20] 行业影响与未来愿景 - 该方法不需要额外的基础设施成本,因为在现有的多模态系统上即可实现 [22] - 该方法模拟人类的遗忘机制,通过多分辨率设计实现分层记忆管理,为理论上无限上下文提供了可能路径 [25][27][28][29][31][32] - 当前压缩是无选择性的均匀压缩,未来的方向是让压缩变得有选择性,更符合人类记忆机制 [33][34][35] - 该方法可能实现输入上的统一,因为图像模态更合乎人类认知,所有给LLM的输入都可能被先渲染成图像 [37] - 这被视为一条模拟人类认知和遗忘、通向AGI记忆和输入系统的新路径 [38]
DeepSeek开源新模型:单张A100日处理可超20万页数据
第一财经· 2025-10-20 14:58
模型发布与技术概览 - DeepSeek于10月20日在Github开源了名为DeepSeek-OCR的新模型,并发布了相关技术论文[2] - 该模型旨在解决大语言模型处理长文本时面临的计算挑战,通过将文本压缩成视觉模态来减少Token消耗[5] - 模型的核心思路是利用“一图胜千言”的特性,实现文本信息的“光学压缩”[6] 技术原理与性能表现 - DeepSeek-OCR由两个核心组件构成:负责图像特征提取和压缩的DeepEncoder编码器,以及负责从压缩后的视觉Token中重建文本的DeepSeek3B-MoE解码器[7] - 解码器采用混合专家设计,虽然总参数为30亿,但实际激活参数约为5.7亿,使其在保持30亿参数模型表达能力的同时,仅需5亿参数模型的推理效率[7] - 测试显示,该模型可实现近10倍无损上下文压缩,OCR准确率保持在97%以上;在压缩率达到20倍的情况下,准确率仍保持在约60%[6][7] - 在实际应用中,单张A100-40G显卡可支持每日20万页以上的大语言模型/视觉语言模型训练数据生成[7] 创新应用与未来潜力 - 团队提出了用光学压缩模拟人类遗忘机制的未来研究方向,通过逐步缩小渲染图像的大小来减少token消耗,实现类似人类记忆衰退的“文本遗忘”效果[8] - 这一方法被认为对于平衡理论上无限的上下文信息具有潜力,可能成为处理超长上下文的突破性技术[8] - 有观点认为,统一语言和视觉可能通向超级智能,该模型在Github发布后迅速获得超过1400颗星星,显示出行业关注度[9] 公司战略与市场观点 - 尽管DeepSeek在OCR领域取得进展,但市场有声音认为公司在发布像R2这样的新模型方面进展缓慢,可能存在落后风险[10] - 同时也有观点认为,DeepSeek目前是在修炼“内功”,为下一代模型进行技术储备[10]