Workflow
Seek .(SKLTY)
icon
搜索文档
文本已死,视觉当立,Karpathy狂赞DeepSeek新模型,终结分词器时代
36氪· 2025-10-21 07:22
技术突破 - DeepSeek-OCR模型从根本上改变文本处理范式,将视觉输入作为核心,文本不再作为通用输入方式[1] - 模型在单卡A100-40G上实现每秒约2500 Token的处理速度,在保持97% OCR准确率前提下将视觉上下文压缩至原来的1/20,常规使用下压缩比小于1/10[3] - 在OmniDocBench基准测试中超越GOT-OCR2.0和MinerU2.0表现,实现最多60倍压缩,整页文本仅需100个视觉Token[5] 性能优势 - 模型具有参数少、压缩率高、速度快的特点,支持100种语言,兼具理论价值和实用性强[7] - 通过像素处理文本实现更高信息压缩率,带来更短上下文窗口和更高效率,同时增强信息流通用性,可处理粗体、彩色文本及任意图像[15] - 输入可采用双向注意力机制处理,相比自回归注意力更强大,实现光学文字识别的工程学突破[3][15] 行业影响 - GitHub开源项目一夜收获4.4k星,证明实体页面(如缩微胶片、书籍)是训练AI模型的更优数据源,而非低质量互联网文本[10][11] - 特斯拉前AI总监Karpathy力挺该技术,认为像素输入优于文本输入,可能动摇文本在AI中的核心地位,视觉或再次成为主流[12][14] - 技术展望显示OCR只是视觉到文本应用的一种,文本到文本任务可改造为视觉到文本任务,用户输入可以是图像而解码器响应保持文本[17] 技术前景 - Karpathy提出可能所有大语言模型输入都应该是图像,即使纯文本也应先渲染成图像再处理,这将带来输入方式的根本性变革[15] - 马斯克预测长期来看AI模型超过99%的输入和输出将是光子,基于可观测宇宙中光子总数达1.5×10⁸⁹的规模优势[25][27] - 该技术被视为光学认知的开端,网友呼吁开发仅使用图像输入的nanochat,认为像素时代关乎感知而不仅是压缩[19][20] 研发团队 - 论文作者包括Haoran Wei、Yaofeng Sun、Yukun Li,其中一作Haoran Wei曾是GitHub 7.9k星项目GOT-OCR2.0的一作[28][30] - 团队成员参与过DeepSeek-r1、DeepSeek-v3、DeepSeek-vl2、DeepSeek-v2等多个重要模型研发,具有丰富经验[35][43] - 团队成员学术背景强劲,Haoran Wei本科毕业于北京大学图灵班,曾获得ACM-ICPC亚洲区域赛金牌和全国信息学奥林匹克竞赛金牌[41]
DeepSeek的新模型很疯狂:整个AI圈都在研究视觉路线,Karpathy不装了
36氪· 2025-10-21 04:12
模型技术突破 - 新模型采用视觉方式处理文本输入,将1000字文章压缩为100个视觉token,实现10倍压缩比且精度达97% [1] - 单块英伟达A100每天可处理20万页数据,显著提升长上下文处理效率 [1] - 视觉token压缩效率比文本token高出10倍,原本需10000单词的文本现仅需约1500个视觉token即可完整表示 [8] 行业范式转变潜力 - 技术路径从“读”文本转变为“看”文本,可能引发大模型基础范式的重大转变 [1] - 该方法使双向注意力处理输入成为可能,功能比自回归注意力更强大 [6] - 移除输入端的分词器,解决分词器带来的Unicode编码历史包袱及安全越狱风险 [6] 社区反响与应用前景 - 项目在GitHub上一晚收获超过4000个Star,受到AI社区广泛关注 [1] - 研究者认为该技术可与稀疏注意力机制结合,极大扩展模型有效上下文长度至千万token级别 [9][10] - 潜在应用包括将公司全部内部文档或整个代码库存入提示词前缀,实现快速经济查询 [10][11] 技术渊源与对比 - 类似思想早在2022年哥本哈根大学论文《Language Modelling with Pixels》中就已提出 [14] - 研究者推测谷歌Gemini模型巨大上下文窗口及优异OCR表现可能源于类似技术 [10] - 与传统多模态模型相比,新方法使视觉token从“外挂”功能转变为更基础的表示形式 [7]
DeepSeek开源新模型;苹果iPhone 17销售火热
21世纪经济报道· 2025-10-21 03:22
AI技术发展 - DeepSeek团队开源OCR模型DeepSeek-OCR,可在单块A100-40G显卡上每天生成超过20万页训练数据[2] - 阿里夸克秘密开展"C计划"布局对话式AI应用,近日将有首个成果落地[6] - IBM与美国AI公司Groq合作,为客户提供高速AI推理功能[7] 消费电子与电商表现 - iPhone 17系列在中国和美国市场早期销售强劲,销量比iPhone 16系列高出14%,iPhone 17基本款在中国销量几乎翻了一番,苹果股价创历史新高,总市值达3.89万亿美元[3] - 京东"双11"阶段性战报显示超5.2万个品牌成交额同比增长超300%,超3300个品类成交额同比增长超100%,AI相关产品成交额同比增速近200%[4] - 抖音电商"双11"第一阶段超4.1万商家直播销售额同比增长500%,店播销售额破亿元商家数量同比增长900%[5] 半导体与硬件进展 - 三星加紧推进HBM4研发,计划于10月27日至31日发布第六代12层HBM4[9] - 美光科技首席商务官预计到2026年DRAM市场仍将保持极度紧张[9] - 微软下一代AI芯片Maia 2或由英特尔代工,计划采用18A或18A-P制程[10] 企业财报表现 - 宁德时代第三季度净利润185.5亿元,同比增长41.21%[11] - 中国移动前三季度净利润1154亿元,同比增长4%,移动客户数10.09亿户,其中5G网络客户数6.22亿户[12] - 科大讯飞第三季度净利润1.72亿元,同比增长202.40%[13] 机器人与智能设备 - 宇树科技发布H2仿生人形机器人,身高180cm,重70kg[15] - 百度将在下月正式推出小度AI眼镜,计划于今年年内开售[16] - 前三季度规模以上高技术制造业中,智能无人机飞行器制造增加值增长59.9%,智能车载设备制造增加值增长25.1%[8] 数字经济发展 - 前三季度规模以上数字产品制造业增加值同比增长9.7%,信息传输软件和信息技术服务业增加值增长11.2%[8] - 服务器产量同比增长11.5%,大模型应用带动企业算力需求增加[8] - 蚂蚁未来(海南)信息技术有限公司注册资本由1000万人民币增至35亿人民币,增幅34900%[14]
突破新领域 深度求索发布文字识别模型DeepSeek-OCR
新京报· 2025-10-21 03:11
公司动态 - DeepSeek于北京时间10月20日在开源社区Hugging Face上发布了新模型DeepSeek-OCR [1] - OCR模型是一种用来从图像中提取文本的技术 [1] - 公司还上传了与该模型相关的论文 [3] 技术性能 - 当文本标记数量在视觉标记数量的10倍以内时,模型可以达到97%的解码精度 [3] - 在20倍的压缩比下,OCR准确率仍能保持在约60%的水平 [3] 研究意义 - 该模型被描述为一项关于通过光学二维映射来压缩长上下文可行性的初步研究 [3] - 实验结果表明,该技术对于长上下文压缩、大语言模型中的记忆遗忘机制等研究领域展现了相当大的潜力 [3]
智能早报丨美国一实验室测试AI炒币,DeepSeek暂列榜首;荷兰寻求与中方化解安世僵局
观察者网· 2025-10-21 02:14
AI模型交易能力测试 - 美国nof1ai实验室举办Alpha Arena活动给予6个顶级AI模型各1万美元实盘交易加密货币DeepSeek大部分时间排名第一收益率约40%持仓总市值接近14万美元最高时一度接近15万美元[1][3] - Grok 4凭借激进风格偶尔能反超DeepSeek咬得很近Claude分析到位但有拖延症Gemini 25 Pro深度套牢一路向下[1] - 测试环境完全公平每个模型独立交易面对相同提示词一致市场条件和时间戳非模拟盘[1] 半导体行业动态 - 荷兰寻求与中方会面商讨解决安世半导体僵局事件已上升至最高层级讨论荷兰外交官正积极斡旋经济事务大臣几日内将与中方主管官员会面[4][5] - 荷兰政府表示此次行动是为防止安世前中国籍CEO将业务及知识产权转移出欧洲中国汽车制造商同样需要安世半导体芯片[5] - 僵局源于美国9月29日发布穿透规则荷兰以行政手段直接介入安世内部业务全球架构受冲击中国区员工被停薪系统权限中断[5] 科技公司AI业务进展 - 阿里夸克内部秘密推进C计划AI业务与对话式AI应用布局相关由夸克核心团队主导通义实验室高级别成员参与即将有首成果落地[6] - C计划代号可能代表Chat即全新对话形态或取自吃豆人寓意目标直指字节跳动豆包产品[6] - DeepSeekAI团队开源DeepSeekOCR模型参数量3B利用视觉模态压缩长文本上下文压缩比20×时OCR精度仍保持约60%[7] 上市公司业绩与表现 - 苹果股价涨近4%创历史新高总市值升至389万亿美元成为美国第二大市值公司仅次于英伟达[8] - 科大讯飞第三季度净利润172亿元同比增长20240%营业收入6078亿元同比增长1002%前三季度营业收入16989亿元同比增长1441%[9] - 热门中概股集体走强爱奇艺涨超8%蔚来涨超4%阿里巴巴网易涨超3%京东拼多多涨超2%哔哩哔哩百度涨超1%[8] 医疗科技突破 - 脑机接口公司Science Corporation通过视网膜下微芯片植入物PRIMA使失明患者产生人工视觉可阅读文本和做填字游戏[10] - 芯片利用眼镜上摄像头信号发射脉冲电流绕过因黄斑变性受损的感光细胞黄斑变性是老年人视力下降主要原因研究成果发表于《新英格兰医学杂志》[10]
智能早报丨DeepSeek暂列AI炒币之王;荷兰寻求与中方化解安世僵局
观察者网· 2025-10-21 02:02
AI模型实盘交易测试 - 美国nof1ai实验室举办Alpha Arena活动让六个顶级AI模型使用1万美元实盘自主交易加密货币[1] - 参赛模型包括GPT-5 Claude Sonnet 45 DeepSeek Chat V31 Gemini 25 Pro Grok 4 Qwen3 Max在相同条件下进行公平竞争[1] - DeepSeek表现最佳持仓总市值接近14万美元收益率约40%最高时一度接近15万美元[4] - 几天内各模型拉开差距DeepSeek大部分时间排名第一Grok 4凭借激进风格偶尔反超Claude分析理性但行动迟缓Gemini 25 Pro深度套牢表现最差[2] 半导体行业动态 - 荷兰寻求与中方会面商讨解决安世半导体僵局事件已上升至最高层级讨论[5] - 荷兰经济事务大臣表示行动目的是防止安世前中国籍CEO将业务及知识产权转移出欧洲[5] - 僵局源于美国9月29日发布的穿透规则荷兰政府以行政手段介入安世半导体内部事务导致中国区员工被停薪系统权限中断[5] 中国企业AI布局 - 阿里夸克内部秘密推进C计划与对话式AI应用布局相关通义实验室高级别成员参与近日将有首个成果落地[6] - C计划可能代表Chat或取自吃豆人游戏寓意对标字节跳动豆包产品[6] - DeepSeek团队开源新模型DeepSeek-OCR参数量3B利用视觉模态压缩长文本上下文压缩比20×时OCR准确率仍保持约60%[7] 科技公司业绩与市值 - 苹果股价创历史新高涨近4%总市值升至389万亿美元成为美国第二大市值公司仅次于英伟达[8] - 美股大型科技股普涨奈飞涨超3%英特尔Meta涨超2%特斯拉谷歌亚马逊涨超1%英伟达小幅下跌[8] - 热门中概股集体走强爱奇艺涨超8%蔚来涨超4%阿里巴巴网易涨超3%京东拼多多涨超2%[8] - 科大讯飞第三季度净利润172亿元同比增长20240%营业收入6078亿元同比增长1002%[9] 医疗科技突破 - 脑机接口公司Science Corporation通过视网膜下微芯片植入物PRIMA使失明患者恢复视力可阅读文本和做填字游戏[10] - 该芯片利用眼镜上摄像头发出的信号发射脉冲电流绕过因黄斑变性而受损的感光细胞研究成果发表于《新英格兰医学杂志》[10]
赚钱,DeepSeek果然第一,全球六大顶级AI实盘厮杀,人手1万刀开局
36氪· 2025-10-21 01:35
实验概述 - 由nof1ai发起的Alpha Arena实验旨在将顶级大语言模型置于真实金融市场进行交易能力测试 [1] - 实验为每个模型提供10000美元初始资金在相同市场数据和交易指令下进行实盘交易 [4] - 参与模型包括OpenAI GPT-5、谷歌Gemini 25 Pro、Anthropic Claude 45 Sonnet、xAI Grok 4、阿里Qwen3 Max和DeepSeek V31 Chat [3] 最终排名与业绩 - DeepSeek V31以账户价值13677美元排名第一实现3677美元盈利回报率达3677% [6] - Grok 4以账户价值13168美元排名第二实现3168美元盈利回报率达3168% [6] - Claude Sonnet 45以账户价值11861美元排名第三实现1861美元盈利回报率达1861% [6] - Qwen3 Max以账户价值10749美元排名第四实现74922美元盈利回报率达749% [6] - GPT-5以账户价值7491美元排名第五亏损2509美元回报率为-2509% [6] - Gemini 25 Pro以账户价值6787美元排名第六亏损3213美元回报率为-3213% [6] 交易行为分析 - Gemini 25 Pro交易次数达45次远高于其他模型但亏损最为严重 [6][43] - GPT-5交易次数为10次Qwen3 Max交易6次DeepSeek交易5次Claude交易3次Grok仅交易1次 [41][42] - 高交易频率并未带来更好业绩显示过度交易可能导致亏损 [43] 持仓策略分析 - DeepSeek V31采用多元化持仓策略同时持有XRP、DOGE、BTC、ETH、SOL、BNB等多种加密货币杠杆倍数在10-15倍之间 [15] - Grok 4持仓结构与DeepSeek类似但包含空头XRP仓位显示不同风险偏好 [15] - Qwen3 Max专注于BTC单币种持仓采用5倍杠杆可用现金仅11699美元 [19] 市场表现动态 - DeepSeek V31和Grok-4初期出现亏损后迅速反弹并持续上涨 [32] - Claude Sonnet 45前期稳定19日晚出现小高峰但20日清晨回落 [34] - GPT-5和Gemini 25 Pro初期上涨后持续下跌GPT-5在20日凌晨企稳而Gemini继续下跌 [36][37] - 20日中午除GPT-5外所有模型均迎来上涨DeepSeek和Grok创历史新高 [39][40] 行业意义 - 金融市场被视为智能的终极试金石相比传统静态基准更能体现实时决策能力 [44][45] - 该实验代表从游戏环境测试向真实世界应用的重要转变类似DeepMind通过游戏推动AI发展的理念 [46] - 市场作为由信息和情感构成的生命系统为AI提供了近乎无限的训练数据环境 [46]
重磅,DeepSeek再开源:视觉即压缩,100个token干翻7000个
36氪· 2025-10-21 01:35
模型核心创新 - 提出“上下文光学压缩”新范式,通过少量视觉token解码出超过其数量10倍的文本信息,实现高比例信息压缩 [1] - 采用端到端视觉语言模型架构,在OCR任务上建立视觉与文本表征间的压缩-解压缩映射关系 [2] - 该技术为解决大语言模型的长上下文问题提供了高效方案,在不同历史上下文阶段可减少7–20倍token使用量 [16] 模型架构设计 - 编码器采用创新的DeepEncoder架构,参数量约3.8亿,由8000万参数的SAM-base和3亿参数的CLIP-large串联构成 [23][24] - 编码器通过2层卷积模块实现16倍下采样,将4096个patch token压缩至256个视觉token [26][27] - 解码器使用DeepSeek-3B-MoE,推理时激活6个路由专家和2个共享专家,总计激活约5.7亿参数 [34][36] - 支持多种分辨率输入模式,包括Tiny(512)、Small(640)、Base(1024)、Large(1280)及动态分辨率组合 [29][33] 性能表现与基准测试 - 在Fox基准测试中,使用64个视觉token可实现10.5倍压缩比且精度达96.5%,使用100个视觉token可实现6.7倍压缩比且精度达98.5% [37] - 在OmniDocBench基准上,仅用100个视觉token即超越GOT-OCR2.0,用不到800个视觉token表现优于需要6000+token的MinerU2.0 [2][44] - 对于书籍和报告类文档,仅需100个视觉token即可达到良好性能,因这类文档文本token数量通常在1000以内 [42] - 模型还具备解析图表、化学方程式、几何图形和自然图像的能力,支持近100种语言处理 [43][46] 实际应用价值 - 单张A100-40G显卡可支持每日20万页以上的大语言模型训练数据生成 [4] - 在实际部署中,使用20个计算节点每日可为LLM/VLM生成3300万页训练数据 [39] - 该技术可直接利用现有VLM基础设施,不带来额外计算开销,具备天然支持条件 [39] - 模型在GitHub上已开源,获得400星和8个分支,采用MIT许可证 [18]
DeepSeek新模型被硅谷夸疯了!用二维视觉压缩一维文字,单GPU能跑,“谷歌核心机密被开源”
华尔街见闻· 2025-10-21 00:27
模型核心创新与技术突破 - 提出“上下文光学压缩”方法,通过将文本信息压缩到图像中以视觉token表示,用少量视觉token替代大量文本token,显著降低大模型处理长文本时的计算开销[4] - 模型参数规模为3B,但在主流文档解析基准OmniDocBench上取得新SOTA,实现“以小博大”[4] - 当压缩率小于10倍时,模型OCR解码准确率高达97%,即使压缩率高达20倍,准确率仍能保持在60%左右[1] 模型性能与效率优势 - 仅用100个视觉token,性能即超过每页使用256个token的GOT-OCR2 0模型[7] - 当使用400个视觉token时,性能与之前的SOTA模型相当;使用不到800个视觉token,性能便大幅超越平均每页近7000个视觉token的MinerU2 0模型[7] - 数据生成效率极高,仅凭一块A100-40G GPU,每天就能生成超过20万页的优质LLM/VLM训练数据[2] 核心架构与关键技术 - 编码器DeepEncoder采用“先局部处理,再压缩,后全局理解”的串行设计,处理高分辨率图像时能产出数量极少但信息密度极高的视觉token[10][13] - 解码器DeepSeek3B-MoE-A570M负责从压缩的视觉token里重建文字[8] - 编码器支持从“Tiny”到“Gundam”等多种输入模式,可根据任务需要动态调整压缩强度,Tiny模式使用64个token,Gundam模式使用近800个token[11][12] 行业影响与社区反响 - 研究在GitHub上迅速斩获3 3K star,HuggingFace热榜第二,X上好评如潮[2] - 被业内专家评价为“AI的JPEG时刻”,认为图像比文字更适合作为LLM输入,为AI记忆架构打开了新路径[2] - 该统一视觉与语言的方法被认为是通往AGI的潜在路径之一[4] 潜在应用与未来方向 - 模型支持对金融报表、化学分子式、数学几何图、100多种语言等复杂图像进行深度解析[12] - 提出将光学压缩类比人类记忆衰退过程的新思路,可为不同时期的上下文动态分配计算资源,有望构建无限长上下文架构[19][20][22] - 该研究方向旨在让AI记忆机制更接近人类智能,为处理超长上下文提供新思路[21]
10月21日早餐 | 苹果创历史新高;DeepSeek发布新论文
选股宝· 2025-10-21 00:04
海外市场表现 - 美股三大指数均上涨超1%,标普500涨1.07%,道指涨1.12%,纳指涨1.37% [1] - 苹果股价涨近4%,创年内历史新高;英伟达回落0.3%,为科技七巨头中唯一下跌个股 [1] - 中概股指数涨超2%,阿里巴巴涨近4%,库客音乐涨49%,玖富涨超43% [2] - 黄金期货连续六日创盘中历史新高,一度涨超4%逼近4400美元;白银期货曾涨超3% [3] - 原油价格回落,美油盘中跌超2%后抹平多数跌幅;十年期美债收益率回落,靠近半年低位 [4] 行业与主题动态 - 高铁轨交领域,CR450动车组试验跑出单列时速453公里、相对交会时速896公里的纪录,预计2026年底投入商用 [9] - DeepSeek发布OCR论文,通过将文本渲染成图片进行压缩,10倍压缩时精度达97%,20倍压缩时精度为60% [10] - 工信部召开水泥行业稳增长座谈会,强调严禁新增产能、规范现有产能、淘汰落后产能,要求骨干企业在2025年底前对超备案产能制定置换方案 [11] - 湖北省生态环境权益交易平台上线,整合五大核心功能,碳市场累计成交额突破100亿元,居全国首位 [11] 公司公告与业绩 - 宁德时代第三季度净利润185.5亿元,同比增长41.21%;前三季度净利润490.3亿元,同比增长36.20% [15] - 均胜电子子公司新获客户项目定点,全生命周期订单总金额约50亿元,计划2026年底开始量产 [14] - 丰元股份子公司与楚能新能源签订协议,未来三年供应磷酸铁锂正极材料产品10万吨 [15] - 科大讯飞第三季度净利润1.7亿元,同比增长202.40%;第三季度营收60.78亿元,同比增长10.02% [16] - 多家公司发布三季度业绩预增:永和股份净利同比增485.77%,中国船舶预增104.30%至126.39%,金力永磁净利同比增172.65% [16] 技术创新与产品发布 - 通研院通智大脑“力位混合控制算法的统一理论”获机器人学习大会CoRL杰出论文奖 [13] - 可重复使用火箭朱雀三号首飞箭完成加注合练及静态点火试验,进入首飞关键准备阶段 [13] - 宇树发布H2人形机器人,身高180cm,自由度跃升至31个 [13] - DeepSeek团队开源新模型DeepSeek-OCR,实现用少量视觉token完成海量文本压缩 [13] 市场数据与交易信息 - 部分个股表现突出:博苑股份涨10.32%,三联锻造涨10%,法狮龙涨10% [18] - 10月21日、22日多家公司面临解禁,恒帅股份解禁市值88亿元,解禁比例71.45%;欧圣电气解禁市值47.76亿元,解禁比例73.99% [19]