Seek .(SKLTY)
搜索文档
DeepSeek-OCR:大模型技术,正站在一个新的十字路口
36氪· 2025-10-22 23:15
技术突破与核心观点 - DeepSeek开源了名为“DeepSeek-OCR”的模型,首次提出“上下文光学压缩”概念,将文字视为图像处理,通过视觉编码将整页内容压缩成少量“视觉标记” [1] - 该技术使文档处理效率提升十倍,准确率高达97%,模型可轻松应对超长文档而无需担忧计算资源 [1][2] - 技术探索意义在于重绘文档处理边界,挑战上下文限制,优化成本结构,革新企业流程 [7] 技术架构与性能 - 系统分为两个模块:强大的DeepEncoder负责捕捉页面信息,轻量级文本生成器将视觉标记转化为可读输出 [3] - 编码器融合SAM的局部分析能力和CLIP的全局理解,通过16倍压缩器将初始4096个标记精简到仅256个 [3] - 解码器采用混合专家架构,拥有约30亿参数(激活时约57亿),能快速生成文本、Markdown或结构化数据 [3] - 单台A100显卡每日可处理超过20万页文档,20台八卡服务器日处理量可达3300万页 [3] 效率优势与比较 - 处理千字文章时,传统方法需上千个标记,而DeepSeek仅需约100个视觉标记即以97%保真度还原 [2] - 相比GOT-OCR 2.0(需256个标记)和MinerU 2.0(每页6000+标记),DeepSeek标记量减少90% [3] - 处理3503×1668像素图像时,基础文本提取需24秒,结构化Markdown需39秒,带坐标框完整解析需58秒 [10] 应用前景与影响 - 技术将改变“标记经济”,长文档不再受上下文窗口限制,处理成本大幅降低 [6] - 提升信息提取能力,财务图表、技术图纸能直接转为结构化数据 [6] - 改善聊天机器人长对话记忆,通过“视觉衰减”将旧对话转为低分辨率图像存储,扩展上下文而不增加标记消耗 [6][11]
AI赛道又卷起来了!DeepSeek开源新模型,OpenAl推出AI浏览器!科创人工智能ETF随市回调,逢跌布局时刻到?
新浪基金· 2025-10-22 03:32
行业技术进展 - 国产AI公司DeepSeek于10月20日开源新模型DeepSeek-OCR,该模型采用视觉-文本压缩范式,通过少量视觉token表示大量文本token以降低计算开销 [1] - DeepSeek-OCR将一页文档图像信息高度压缩,可将1000字文章压缩至100个视觉tokens,实现十倍压缩,识别准确率达96.5% [1] - 海外方面,OpenAI于10月21日推出AI浏览器Atlas,允许用户在任何网页直接调用ChatGPT进行内容总结、提问或执行任务,与谷歌Chrome竞争 [1] 政策与行业趋势 - 工信部正就《算力标准体系建设指南(2025版)》征求意见,提出到2027年制修订50项以上标准,以推动算力标准体系建设 [2] - 人工智能行业处于政策、技术、需求三维共振阶段,“人工智能+”行动带来政策赋能及资金支撑,国产芯片及云计算龙头业绩逐步验证 [2] - 大厂资本支出持续投入推高行业发展确定性,行业景气度仍有上行空间,在科技投资领域的主线地位较难撼动 [2] 市场表现与预期 - 10月22日,科创人工智能ETF(589520)场内价格盘整回调,下跌0.50% [2] - 成份股中石头科技、奥普特领涨超2%,合合信息、寒武纪涨逾1%,部分个股逆市飘红;中科星图跌超3%,海天瑞声、金山办公等跌逾2%拖累指数 [3] - 预计四季度仍有科技引领行情,2026年春季可能是阶段性高点但非全年高点,牛市仍有纵深 [2] 特定投资产品分析 - 科创人工智能ETF(589520)及其联接基金具备三大亮点:政策驱动AI成为行情引领板块,端云融合是核心趋势 [4] - 该ETF聚焦国产AI产业链,具备较强国产替代及自主可控特点 [5] - 标的指数前十大重仓股权重占比71.90%,第一大重仓行业半导体权重占比52.6%,集中度高,具备较强进攻性 [6]
AI赛道又卷起来了!DeepSeek开源新模型,OpenAl推出AI浏览器!科创人工智能ETF随市回调,逢跌布局时刻已到
新浪基金· 2025-10-22 03:32
行业技术进展 - 国产AI公司DeepSeek于10月20日开源最新大模型DeepSeek-OCR,该模型采用视觉-文本压缩范式,通过少量视觉token表示大量文本token以降低计算开销 [1] - DeepSeek-OCR将一页文档图像信息高度压缩,可将1000字文章压缩成100个视觉tokens,实现十倍压缩,识别准确率达到96.5% [1] - 海外方面,OpenAI于10月21日推出AI浏览器Atlas,与谷歌Chrome竞争,用户可在网页直接调用ChatGPT进行内容总结、提问或执行任务 [1] 政策与行业趋势 - 工信部公开征求对《算力标准体系建设指南(2025版)》意见,提出到2027年制修订50项以上标准,推动算力标准体系建设 [2] - 人工智能行业处于政策、技术、需求三维共振阶段,“人工智能+”行动带来政策赋能及资金支撑,国产芯片及云计算龙头业绩逐步验证 [2] - 大厂资本支出持续投入推高行业发展确定性,行业景气度仍有上行空间,科技投资主线地位较难撼动 [2] 市场表现与预期 - 10月22日科创人工智能ETF(589520)场内价格下跌0.50%,随市盘整回调 [2] - 成份股中石头科技、奥普特领涨超2%,合合信息、寒武纪涨逾1%,部分个股逆市飘红;中科星图跌超3%,海天瑞声、金山办公、晶晨股份跌逾2% [3] - 预计四季度有科技引领行情,2026年春季可能是阶段性高点但非全年高点,全面牛市还有纵深 [2] 特定投资产品亮点 - 科创人工智能ETF(589520)及联接基金具备政策点火、国产替代、高弹性三大亮点,成份股为细分环节收入最大或卡位最好公司 [4][5] - 标的指数重点布局国产AI产业链,具备较强国产替代特点,前十大重仓股权重占比71.90% [5][6] - 半导体为第一大重仓行业,权重占比52.6%,指数集中度高具备较强进攻性 [6]
DeepSeek昨天开源的新模型,有点邪门
36氪· 2025-10-22 01:00
技术突破与核心优势 - 发布新模型DeepSeek-OCR,其核心创新在于使用图像作为信息的“记忆载体”,而非传统的文字token [5][9] - 该技术实现了极高的信息压缩比,仅用原本十分之一的token即可存储几乎相同的文字信息,在测试中能以100个视觉token超越需要256个token的GOT-OCR 2.0,用不到800个视觉token超越平均需6000+ token的MinerU 2.0 [1][14] - 模型支持多种分辨率和压缩模式以适应不同复杂度的文档,包括Tiny(64 token)、Small(100 token)、Base(256 token)、Large(400 token)以及可动态调整的Gundam模式 [17] 数据处理与应用能力 - DeepSeek-OCR不仅能识别和存储文字,还能处理二维信息,例如将论文中的柱状图自动识别为Excel格式,将有机化合物的分子结构图片转化为SMILES格式存储 [18][20] - 该技术能捕获图片位置及其附近文字等过去被忽略的二维信息,为模型训练提供了新的高质量数据来源,在一张A100显卡上一天可采集超过20万页训练数据 [23][24][26][29] - 通过将大量文字转化为图片进行存储,模型能够用更少的计算资源取得更好的表达效果,解决了长上下文对话中计算量随对话长度平方级增长的成本问题 [29][31] 性能表现与效率提升 - 在性能测试中,DeepSeek-OCR使用十分之一的token数量即可达到原模型96.5%的准确率,即使压缩20倍,准确率仍能保持在60%左右 [31] - 模型引入了类似人类记忆的渐进式存储概念,可根据信息重要性动态调整存储清晰度,从高清晰的“Gundam模式”到低清晰的“Tiny模式”,实现资源的优化配置 [33][35][36] - 这种创新的存储方式有望增强大模型的上下文处理能力,通过“主动遗忘”机制区分信息优先级,但该设想尚未有明确结论 [37] 行业影响与开源生态 - 该技术突破解决了行业面临的高质量训练数据匮乏问题,使得过去未被充分利用的二维信息(如论文图表)得以成为新的数据来源 [24][26] - DeepSeek-OCR是一个开源项目,其成果融合了全球开源社区的贡献,包括华为的Wukong数据集、百度的PaddleOCR、Meta的SAM以及OpenAI的CLIP模型 [38] - 该模型的开源特性预计将推动相关技术成为行业研究热点,催生更多创新应用 [38]
10倍压缩率、97%解码精度!DeepSeek开源新模型 为何赢得海内外关注
新浪财经· 2025-10-21 23:26
模型发布与核心创新 - DeepSeek于10月20日开源最新大模型DeepSeek-OCR,这是一种通过光学2D映射压缩长上下文的视觉-文本压缩范式[1] - 模型核心创新在于用少量视觉token表示大量文本内容,旨在降低大模型计算开销,例如将1000字文章压缩成100个视觉tokens[1][7][8] - 该项目由DeepSeek三位研究员Haoran Wei、Yaofeng Sun、Yukun Li共同完成,其中一作作者Haoran Wei曾主导开发GOT-OCR2.0系统[1] 技术架构与性能 - DeepSeek-OCR架构分为两部分:专为高压缩、高分辨率文档处理的DeepEncoder视觉编码器和轻量级混合专家语言解码器DeepSeek3B-MoE[3] - DeepEncoder融合SAM和CLIP两种成熟视觉模型架构,前者擅长局部细节处理,后者能捕获整体知识信息[4] - 实验表明,当压缩比<10×时模型可达97% OCR精度,即使在20×压缩比下精度仍保持约60%,在十倍压缩下识别准确率达96.5%[6][8] 行业影响与专家评价 - 模型发布后获海外科技媒体广泛赞美,被评价为"AI的JPEG时刻",前特斯拉AI总监Andrej Karpathy高度评价该论文[3] - 知名科技媒体《麻省理工科技评论》指出模型具备较强"深度解析"能力,能处理图表、化学分子式等复杂元素,拓展了在金融、科研等专业领域的应用空间[6] - 特斯拉创始人Elon Musk评论认为从长远看,AI模型超过99%的输入和输出都将是光子,没有其他东西可以规模化[4] 应用潜力与生产效率 - 模型初步验证上下文光学压缩可行性,可从少量视觉tokens有效解码超过10倍数量文本tokens,具备大规模生产预训练数据能力[7] - 单张A100-40G GPU每天可生成超过20万页训练数据,为大型语言模型和视觉-语言模型开发提供支持[7] - 模型不仅能识别标准文本,还能将图表转换为表格数据、分子式输出为SMILES格式,展示出在历史长上下文压缩和LLM记忆遗忘机制研究领域的应用前景[6][7]
DeepSeek的终极野心:把大语言模型的基本语言都改造成图像
36氪· 2025-10-21 12:52
核心观点 - DeepSeek开源了名为DeepSeek-OCR的模型,该模型在权威基准上取得了业界顶尖的成绩 [1] - 该研究的核心是解决大语言模型面临的长上下文处理算力瓶颈,通过将文本信息渲染成图像进行高效压缩,从而减少所需的视觉token数量 [4] - 这一方法可能改变未来大语言模型的输入范式,实现用图像作为更高效的输入媒介 [6][37] 技术原理与创新 - 当前大语言模型对更长上下文的追求受限于Transformer注意力机制的计算复杂度,其随序列长度呈二次方增长 [7] - DeepSeek-OCR提出通过光学压缩来减少token数量本身,而非优化注意力计算 [7] - 视觉token是视觉模型处理图像的基本信息单元,一张1024*1024的图像可被划分为4096个视觉token [8] - 大小为其一半的图像能容纳约10000个文本token,表明视觉模态是文本信息的高效压缩媒介 [9] - DeepSeek-OCR实现了10倍压缩几乎无损,20倍压缩基本可用的效果 [10] - 团队设计了名为DeepEncoder的创新视觉编码器,这是一个约3.8亿参数的串联三级架构,完美解决了高分辨率处理和低计算成本之间的矛盾 [11][12][14][16] 性能表现与效率 - 在10倍压缩率下(用64个视觉token解码600-700个文本token),OCR精度高达96.5% [17] - 在20倍压缩率下(用64个token解码1200+token),模型精度保持在约60%的可用水平 [17] - 在OmniDocBench基准测试中,DeepSeek-OCR(Small模式)仅用100个视觉token,性能就超过了使用256个token的GOT-OCR2.0 [19] - DeepSeek-OCR(Gundam模式)使用不到800个视觉token,性能全面超越了需要近7000个token的MinerU2.0 [19] - 单颗英伟达A100 GPU即可每日处理超过20万页文档 [20] - 配备20台服务器(每台搭载8颗A100 GPU)时,系统日处理能力可提升至约3300万页 [20] - 模型支持约100种语言,能识别处理纯文本、图表、化学式与几何图形等多种文档类型 [20] 行业影响与未来愿景 - 该方法不需要额外的基础设施成本,因为在现有的多模态系统上即可实现 [22] - 该方法模拟人类的遗忘机制,通过多分辨率设计实现分层记忆管理,为理论上无限上下文提供了可能路径 [25][27][28][29][31][32] - 当前压缩是无选择性的均匀压缩,未来的方向是让压缩变得有选择性,更符合人类记忆机制 [33][34][35] - 该方法可能实现输入上的统一,因为图像模态更合乎人类认知,所有给LLM的输入都可能被先渲染成图像 [37] - 这被视为一条模拟人类认知和遗忘、通向AGI记忆和输入系统的新路径 [38]
谁家AI用一万美元赚翻了?DeepSeek第一 GPT 5垫底
第一财经· 2025-10-21 12:33
比赛概况 - 初创公司Nof1发起名为"Alpha Arena"的真实数字货币投资基准测试[3] - 测试使用真实市场环境,为每个AI模型账户提供1万美元启动资金进行自主交易[3] - 比赛于美东时间10月18日开始,持续两周至11月3日结束[4] - 整个过程实时直播,展示模型交易思路和实时收益排名[3] 参赛模型及当前表现 - 参赛模型包括DeepSeek chat v3.1、Claude Sonnet 4.5、Grok 4、Qwen3 Max、Gemini 2.5 pro、GPT 5六家[4] - 经过4天交易,DeepSeek收益率稳定在10%左右排名第一,其收益率曾一度接近40%,盈利超过4000美元[4] - Claude从第三天第三位上升至第二位,收益水平紧跟DeepSeek[6] - GPT 5目前亏损超过40%,亏损金额超过5900美元[6] - Gemini 2.5亏损超过30%,Qwen3 Max亏损超过13%[6] - Grok 4收益在盈亏线徘徊,交易风格激进波动较大[6] 模型交易风格分析 - DeepSeek交易稳定,策略简单直接,18日开盘即全仓持有,采用10-15倍做多,不换手不止损不止盈[8] - Gemini 2.5被形容交易风格神似散户,策略反复更改,交易次数远高于前几名模型,交易费更高[10] - Grok 4交易风格激进,满仓多个标的,高频跟踪趋势,波动较大不稳定[12] - Claude非常善于分析但下手犹豫,经常调仓失败反复止损[12] - Qwen3 Max每天全仓一个标的,使用20倍杠杆,方向错误便损失惨重[12] AI投资价值评估 - AI最大价值在于克服人类情绪化弱点,给出逻辑清晰方案,具备快速整合分析能力[13] - AI能够快速阅读所有报告并理清关系,但无法预测未来,也不了解市场动态信息和未公开信息[13] - 理性的AI工具与人的智慧结合被认为是最佳组合[13] - 有用户通过专业提示词让AI荐股获得可观收益,前提是用户自身具备筛选标准[12]
深度|DeepSeek-OCR引爆“语言vs像素”之争,Karpathy、马斯克站台“一切终归像素”,视觉派迎来爆发前夜
搜狐财经· 2025-10-21 12:25
技术核心:视觉编码与多分辨率机制 - 通过多分辨率视觉编码机制实现极高信息压缩效率,例如512×512图像仅需64个token,1024×1024图像对应256个token [2] - 采用“粗到细”路径处理复杂版面:整页用1024×1024块全局编码,重点区域再以640×640高分辨率单独处理 [2] - 底层逻辑是将文本渲染成图片后压缩为视觉token,替代传统“按字词切片→文本token”流程,实现从“读”到“看”的转变 [2] - 视觉压缩可将10万token文档折叠至几百个视觉token,显著改善延迟、显存和计算成本 [4] 工程优势与性能表现 - 视觉压缩带来三层直接收益:保全排版/层级结构等文本化易损失的信息、降低Transformer的N²计算复杂度、统一现实世界的混合输入格式 [4] - 项目探索视觉-文本压缩边界,实现10倍近无损压缩,20倍压缩下仍保持约60%准确度 [5] - 社区验证显示A100单卡可日处理约20万页,在吞吐/延迟/成本三角关系中打开新优化空间 [14] 创新概念:光学遗忘曲线 - 首次将“遗忘”引入模型设计逻辑,通过分辨率递减模拟人类记忆衰减:最近信息高分辨率保存,久远信息低分辨率压缩成模糊背景层 [7] - 该机制使上下文从平铺token变为立体时间空间结构,实现分层保留信息,更符合信息洪流时代的记忆方式 [7] - 多分辨率机制与NeurIPS最佳论文《Visual Autoregressive Modeling》的“由粗到细”多尺度预测方式高度相似 [11] 行业范式转变与定位 - 标志从“算力奥运会”向“更聪明喂法”的转变,不再单纯追求参数规模,而是优化输入效率 [3] - 视觉化输入将成为与文本并行的“第二轨”,最佳实践可能是“文-视双通道融合+任务自适应路由” [16] - 产品化贡献值得肯定,将分散研究成果整合为完整工程链路,刺激生态发展但非彻底技术突破 [12] 应用场景与特定优势 - 在复杂混排版面(合同、财报、图表)、跨语言字符体系、安全越狱防护及跨模态迁移场景具备天然优势 [17] - 统一输入为视觉可省去OCR+结构化的中间件环节,优化RAG、会话长期记忆及代码库理解等现实业务 [14] - 像素化输入绕过分词器词表瓶颈,对多语言任务更鲁棒,且字符级绕行在像素域难度更高 [17] 发展挑战与待解决问题 - 面临渲染差异、截图工况、抗压缩噪声等鲁棒性挑战,以及训练数据构建与标注成本问题 [15] - 需配套“任务自适应压缩率”和“局部校对回读”机制,防止有损压缩导致关键信息错误 [19] - 评测体系需从CER/WER升级至“版面-语义-逻辑一致性”指标,并量化“视觉遗忘”的副作用 [19] - 当前仅跑通“输入统一为视觉”半程,“输出视觉化”的终局实现依赖后续工具链与评测体系发展 [16]
谁家AI用一万美元赚翻了?DeepSeek第一,GPT 5垫底
第一财经· 2025-10-21 11:24
活动概览 - 初创公司Nof1发起名为"Alpha Arena"的真实数字货币投资基准测试 让AI模型用真实资金进行自主交易[5] - 活动为每个模型账户提供一万美元启动资金 全程直播交易过程及实时收益排名 并可查看每个模型的交易思路[5] - 活动于美东时间10月18日开始 持续两周 于11月3日结束 参与模型包括DeepSeek chat v3 1 Claude Sonnet 4 5 Grok 4 Qwen3 Max Gemini 2 5 pro GPT 5共六个[5] 初期交易表现 - 截至10月21日(活动第4天) DeepSeek收益率稳定在10%左右 排名第一 其收益率曾一度接近40% 盈利超过4000美元[5][7] - Claude从最初的第3位上升至第2位 收益水平紧跟DeepSeek[7] - Grok 4收益曾一度接近DeepSeek排名第2 但其交易风格激进 随大盘下跌后收益在盈亏线徘徊[7] - Gemini 2 5 pro亏损曾超过30% GPT 5当前亏损已超过40% 亏损金额超过5900美元 Qwen3 Max亏损超过13% 大部分时间在盈亏线以下[7] 模型交易风格分析 - DeepSeek交易稳定 策略简单直接 在18日开盘时即全仓持有 使用10-15倍做多杠杆 不换手 不止损 不止盈 其稳定表现被归因于母公司幻方是量化机构[9] - Gemini 2 5 pro被调侃交易风格神似散户 策略反复更改 交易次数远高于前几名模型 交易费更高[11] - Grok 4交易风格激进 满仓多个标的 高频跟踪趋势 导致波动较大[13] - Claude非常善于分析但下手犹豫 经常调仓失败 反复止损[13] - Qwen3 Max每天"All in"一个标的 使用20倍杠杆 方向错误便损失惨重[13] 行业观点 - AI在投资中的最大价值在于克服人类情绪化弱点 提供逻辑清晰的方案 并具备快速整合分析能力 如快速读完所有报告并理清理关系[14] - AI的底层逻辑是归纳 总结和复现人类社会中已有信息 并不涉及任何对未来的预测 也不了解当下市场的动态信息及未公开信息[13][14] - 市场并非单纯的数字游戏 理性的工具与人的智慧结合被认为是最佳组合[14]
DeepSeek-OCR横空出世,3B参数量开启OCR新“视界”!科创人工智能ETF华夏(589010) 早盘活跃,AI主题热度延续
每日经济新闻· 2025-10-21 07:36
科创人工智能ETF市场表现 - 截至9:47,科创人工智能ETF(589010)早盘报1.389元,较昨日收盘上涨0.94% [1] - ETF开盘报1.392元后快速回落,在1.38元附近获得支撑,呈现“V”形反弹格局 [1] - 开盘不到20分钟成交额已达1.9亿元,市场交投活跃 [1] - 持仓股中上涨家数达26只,占比超八成,威胜信息、合合信息、恒玄科技领涨 [1] - 近五日ETF持续净流入,反映科创AI主题持续受到市场关注 [1] DeepSeek-OCR技术创新 - DeepSeek-AI团队发布新论文,提出利用视觉模态压缩长文本上下文的新方法 [2] - 开源模型DeepSeek-OCR参数量为3B,由核心编码器DeepEncoder和解码器DeepSeek3B-MoE-A570M组成 [2] - DeepEncoder专为在高分辨率输入下保持低计算激活而设计,同时实现高压缩比 [2] - 当文本token数量不超过视觉token的10倍时,模型OCR精度可达97% [2] - 即便压缩比提高到20倍,准确率仍保持约60%,在历史文档压缩和LLM记忆机制研究中展现潜力 [2] 人工智能行业前景与投资价值 - 本轮人工智能浪潮由DeepSeek等技术创新驱动,具备坚实产业价值基础 [3] - DeepSeek具备高性能、低成本、蒸馏有效、开源等核心优势 [3] - DeepSeek提出多项算法创新,打破了海外算力堆砌的传统大模型提升路径 [3] - 中国在AI领域已具备与全球顶尖水平竞争的实力,可能引发全球投资者对中国科技资产重新估值 [3] - 科创人工智能ETF紧密跟踪上证科创板人工智能指数,覆盖全产业链优质企业,兼具高研发投入与政策红利支持 [3]