Workflow
Seek .(SKLTY)
icon
搜索文档
DeepSeek公司要上市了?知情人士回应
快讯· 2025-08-01 11:15
《辟谣财知道》注意到,近期一则关于DeepSeek(深度求索)公司上市的消息出现在诸多权威的新闻网 站。据南方日报报道,知情人士表示,该消息不实。 ...
DeepSeek上市的假新闻正被权威网站批量刊载
南方都市报· 2025-08-01 09:47
近期,一则关于DeepSeek(深度求索)公司上市的消息出现在诸多权威的新闻网站。知情人士告诉南 都N视频记者,该消息不实。虚假信源也使得DeepSeek的AI应用成了"受害者"。 这则DeepSeek的IPO假新闻有两个版本:版本一是DeepSeek准备科创板上市,于7月18日发布。该版本 的消息中写道:"DeepSeek今日(7月15日)正式宣布,公司已递交科创板上市申请,计划于2025年11月 正式挂牌交易,此次IPO旨在进一步扩大算力租赁业务规模。" 然而经记者核实,上海证券交易所并无DeepSeek的上市申请记录,DeepSeek近期也从未在任何官方渠 道宣布过上市计划。更关键是,DeepSeek背后的公司迄今未进行过股改。股改是一家公司上市的必要 条件。此外,DeepSeek官网显示的服务内容中,并不包含所谓算力租赁业务。 版本二发布7月30日左右,改称DeepSeek提交了北交所上市申报材料,拟于2025年11月正式挂牌。然 而,北京证券交易所官网同样无法查询到DeepSeek的上市申请记录。 上述新闻网站发布的DeepSeek上市消息,共同点是没有明确的署名,消息来源模糊。 虚假的信源也污染了 ...
产学研联动!DeepSeek上市前夕与中科院共建“新一代算力实验室
江南时报· 2025-08-01 03:09
公司动态 - 公司宣布与中国科学院计算技术研究所共建联合实验室,重点攻关"存算一体"等前沿技术 [1] - 实验室已有3项专利进入PCT国际申请阶段 [1] - 该举措发生在公司算力租赁业务上市冲刺阶段 [1] 业务发展 - 公司采取"上市+研发"双轮驱动模式 [1] - 联合实验室未来或形成新的利润增长点 [1] - 该模式被教育界人士认为将加速科研成果转化 [1] 技术布局 - 公司通过共建实验室强化技术壁垒 [1] - 研发重点为"存算一体"等前沿技术 [1] - 已有3项专利进入国际申请阶段显示技术储备 [1]
看完妈妈和DeepSeek的聊天记录,我哭了
36氪· 2025-07-31 12:31
AI正在以一种意想不到的方式,嵌入中国家庭最私密的肌理。 它不再仅仅是工具,更开始扮演一个微妙的"第三方"角色——在因观念、代际和沟通方式差异而撕裂的家庭关系中,充当起"军师"或"翻译官"。 蔡考和程君,这两位年轻女性的家庭,都因AI的偶然介入,经历了一场充满试探、挫折与反复的、漫长的"沟通实验"。 AI如同一面镜子,照见了她们与母亲在亲密关系中的僵局,也意外地赋予了她们重建现实关系的力量。 这并非一个"科技改变生活"的乐观故事。它更像是一个粗糙的、关于两代人在巨大的认知鸿沟面前,如何借助一个陌生的工具,笨拙走向彼此的现实记 录。 交锋 2025年5月下旬,距离女儿蔡考的又一次相亲还有一周,妈妈张瑞芳特地从浙江赶到上海。她此行的目的,是监督女儿为这场"考试"做万全准备。 张瑞芳去上海之前,问蔡考需不需要带过去点护肤品。蔡考说:我这全有。 结果张瑞芳发现,蔡考唯一的"家当"是酒店拿来的免费润肤霜。她形容女儿匪夷所思。 蔡考第一次相亲见面后没了下文,张瑞芳很焦虑,把这一切都归咎于女儿"长得不像照片"。"再不减减肥、脸上抹点东西,别人就看不上你了。" 蔡考暴跳如雷,质问妈妈为什么要代入男人的目光审视、否定自己,为什 ...
R2还没来,但DeepSeek的秘密武器已经“剧透”了
虎嗅· 2025-07-31 07:58
行业技术突破 - DeepSeek与北京大学联合研发的"原生稀疏注意力(NSA)"技术获ACL最佳论文奖 该会议被公认为自然语言处理领域顶级风向标 [2][3][4] - NSA技术首次实现稀疏注意力在完整训练流程的应用 突破仅能用于推理阶段的限制 在27B模型上实现训练前向计算加速9倍 反向传播加速6倍 [5][23][44] - 该技术显著提升长文本处理效率 在64k上下文长度下推理速度提升11.6倍 同时保持模型性能不降反升 [5][16][45][46] 技术原理创新 - NSA采用三重机制模拟人类阅读行为:Token Compression压缩早期文本为摘要块 Token Selection精准选择相关原文细节 Sliding Window保留最近上下文精细注意力 [26][27][28] - 通过门控机制动态平衡三种阅读策略 实现硬件对齐优化 兼容GQA架构和FlashAttention-2内核 基于Triton重写关键kernel [30][31][52] - 原生可训练特性使稀疏模式与模型协同优化 在MMLU、GSM8K等9项基准测试中7项超越全注意力模型 DROP测试推理能力提升显著 [32][33][35][37] 性能表现数据 - 在64k长度(约8万字)"大海捞针"测试中实现100%信息检索准确率 LongBench评测平均分0.469超越全注意力基线的0.437 [38][40][41] - 上下文长度与加速比呈正相关:8192长度加速4倍 16384长度加速6.4倍 32768长度加速9.1倍 65536长度加速11.6倍 [46] - 传统注意力机制在64k上下文长度下占据70%-80%推理延迟 NSA通过稀疏化计算有效降低延迟 [18][43] 行业应用前景 - 技术已通过27B及MoE架构完整预训练验证 具备商业化落地条件 将应用于下一代DeepSeek大模型 [51][52][53] - 突破性提升长文本处理能力 支持整本书籍、多份财报、完整代码库的直接分析 无需人工拆分 [49][54] - 计算效率提升将传导至API成本降低 加速AI应用生态发展 [55][58][59]
刚刚,DeepSeek梁文锋NSA论文、北大杨耀东团队摘得ACL 2025最佳论文
36氪· 2025-07-31 03:40
会议概况 - ACL 2025是第63届计算语言学和自然语言处理领域的顶级国际会议 于2025年7月27日至8月1日在奥地利维也纳举行[1] - 今年总投稿数创历史之最 高达8000多篇 较去年的4407篇大幅增长 主会论文和Findings的接收率分别为20.3%和16.7%[3] - 在所有论文的第一作者中 超过半数作者来自中国 占比达51.3% 而去年仅为30.6% 美国作者数量排名第二 占比14.0%[3] 获奖论文 - 今年共评选出4篇最佳论文 2篇最佳社会影响力论文 3篇最佳资源论文 3篇最佳主题论文 26篇杰出论文 2篇TACL最佳论文 1篇最佳Demo论文以及47篇SAC Highlights[5] - 4篇最佳论文分别由DeepSeek团队(梁文锋参与撰写) 北大杨耀东团队 CISPA亥姆霍兹信息安全中心&TCS Research&微软团队以及斯坦福大学&Cornell Tech团队获得[8] 最佳论文详情 - DeepSeek团队论文提出原生稀疏注意力机制NSA 用于超快长上下文训练和推断 具有硬件对齐和本地可训练的特点[22][24] - 北大杨耀东团队论文从数据压缩角度揭示大模型存在抵抗对齐的弹性机制 预训练越充分的模型弹性越强 对齐难度远超预期[14][16] - CISPA等机构合作论文提出通过差异意识视角研究算法公平性 构建包含16000个问题的基准套件评估差异意识[9][13] - 斯坦福大学等机构论文研究LLM在自主决策中的采样行为 发现其与人类决策启发式方法相似 存在向规范性成分的偏差[9][11] 技术突破 - NSA注意力机制通过分层token建模和组织键值成时间块 在260B token的27B参数Transformer上预训练 实现与Full Attention相当性能同时显著加速[24][25][28] - 模型对齐研究指出后训练所需资源与算力可能需要与预训练阶段相当甚至更多 对AI安全与对齐提出严峻挑战[16] - 稀疏注意力设计有效平衡模型能力和计算效率 解码 前向和后向阶段加速比随序列长度增加而增加[28] 行业影响 - 华人团队在ACL 2025表现突出 中国作者占比超过半数 在最佳论文等重要奖项中占据显著位置[3][8] - 大模型安全对齐研究成果获得ACL 2025审稿人及大会主席高度认可 被认为提供新的理论视角与坚实基础[17] - 注意力机制研究持续突破 DeepSeek提出的NSA架构为长上下文建模提供高效解决方案 推动下一代LLM发展[22][24]
大厂「AI」智能体,等待 DeepSeek 时刻
36氪· 2025-07-30 23:56
WAIC 2025 与 AI 行业格局 - 2025 年世界人工智能大会(WAIC)全网流量达 23.6 亿,同比增长 21.6%,但 OpenAI 的 GPT-5 和 DeepSeek 的 V4 或 R2 模型未亮相 [2] - AI 行业由互联网大厂主导,抖音、腾讯、阿里和百度构成第一梯队,去重用户规模分别为 12.66 亿、12.48 亿、11.68 亿、11.05 亿 [2] - AI 应用市场 TOP30 应用中,80% 来自互联网企业,四大集团占据 66.7% 的份额;原生 APP 增长前三为 DeepSeek、豆包和腾讯元宝 [2] AI 应用类型与插件趋势 - AI 插件规模增长趋势高于原生 App 和 AI PC 网页,因传统 App 通过接入 DeepSeek 分流原生 App 流量 [4] - AI 应用插件规模前三为百度 AI、抖音 AI 搜和微信 AI 搜 [4] Agent 技术发展与行业焦点 - Agent 是使用 AI 能力帮助人类规划并执行任务的应用系统,解决复合型问题,行业进入以智能体应用为核心的下半场 [5] - 互联网大厂重点加速 B 端 Agent 在具体场景落地,需兼顾通用能力与场景化聚焦 [5] 腾讯的 Agent 战略与产品 - 腾讯在 WAIC 展示 10 多个垂直领域智能体,覆盖健康管理、营销、旅游攻略和代码诊断等场景 [6] - 推出具身智能开放平台 Tairos(钛螺丝),为机器人提供多模态感知和规划模型,但需验证商业化可行性 [6][7] 阿里的 Agent 实践与落地 - 阿里云百炼应用开发平台获“镇馆之宝”奖,超 20 万开发者创建 70 多万个 Agent 应用 [7] - 企业构建 AI 应用多选择改造现有业务,将业务入口从传统服务改为 AI Agent [8] - 阿里国际智能退款 Agent 节约纠纷处理时长 30%,降低退款成本 15%;瓴羊退换货 Agent 缩短处理时长 60%,提升人工效率 60% [11] 字节跳动的开源与商业化 - 火山引擎开源 AI Agent 开发平台扣子(Coze Studio 和 Coze Loop),三天内 GitHub stars 数破万和超 3000 [12][13] - 火山引擎 2025 年智能体中标金额达 1.55 亿,中标数量蝉联第一;2024 年营收超 120 亿,2025 年目标超 250 亿 [16][17] - 企业案例包括为爱玛电动车打造四类 AI 场景、北大光华智能体“豆角”和海亮集团 150 个智能体 [15] 百度的 Agent 布局与挑战 - 百度侧重通用性 Agent,推出“多智能体协同”平台秒哒,一季度应用数超 20 万 [18] - 上线移动端通用超级智能体 App“心响”,但 ToC 方向未突破,公测后减少投入 [19] - B 端聚焦场景化,推出新一代数字人技术 NOVA,具备交互和对话能力,试点教育和医疗行业 [20] Agent 商业化与行业竞争 - Agent 商业化竞争激烈,火山引擎、阿里云和百度云在中标数量和金额上领先 [16] - C 端 Agent 市场空间大,B 端需结合具体场景推动规模化普及,成为生产力工具 [21]
DeepSeek冲刺北交所上市,未来5年战略投资算力租赁,构建AI基础设施生态
搜狐财经· 2025-07-30 07:50
公司上市计划 - 人工智能独角兽企业DeepSeek宣布启动北交所IPO进程 预计2025年11月正式上市 [1] 公司战略规划 - 未来5年核心战略聚焦算力租赁业务 计划投资30亿元建设自主可控的高性能计算中心 [1] - 联合国产芯片厂商打造定制化AI算力解决方案 [1] 业务合作进展 - 已与华为昇腾 寒武纪等国产芯片企业达成战略合作 [3] - 算力租赁平台支持大模型训练 自动驾驶仿真等高算力需求场景 [3] 市场前景预期 - 上市将加速中国AI算力基础设施国产化进程 [3] - 有望在未来3-5年内占据国内35%以上市场份额 [3]
DeepSeek真的不行了吗
36氪· 2025-07-30 03:32
DeepSeek用户数据下滑的消息为国产AI进度条蒙上一层阴影,再加上知名AI智能体公司 Manus把总部迁移至新加坡,人们对国产AI的前景难免出现一些悲观情绪。 但我们或许没 必要因为DeepSeek一时的流量下滑,而对国产AI过于悲观。 DeepSeek在2025年年初震撼全球的光环,如今似乎正在褪色。 这几天,"DeepSeek不行了吗"登上多个热搜的榜单。行业分析机构QuestMobile的最新数据显示, DeepSeek的月均下载量从第一季度的8111.3万降至2258.9万,降幅达72.2%。在此之前,国际知名半导 体研究机构 Semianalysis也发布数据称,DeepSeek使用率由年初时7.5%的高点下滑到如今的3%。 市场对DeepSeek的悲观预期确实存在,这主要与DeepSeek的更新版本R2"爽约",未能即时发布有关。 再加上DeepSeek经常"胡说八道"的高幻觉率,也劝退了许多用户。 DeepSeek用户数据下滑的消息为国产AI进度条蒙上一层阴影,再加上知名AI智能体公司Manus把总部迁 移至新加坡,人们对国产AI的前景难免出现一些悲观情绪。 但我们或许没必要因为DeepSe ...
DeepSeek流量暴跌,要凉了?是它幻觉太严重还是它在闷声发大财?
36氪· 2025-07-28 23:45
核心观点 - DeepSeek从"国运级"项目到月下载量暴跌72.2%,用户对其生成"幻觉"内容和"AI味儿"表达不满情绪高涨 [1][12][15] - 大模型存在逻辑暴力、数据代谢病、训练语料不足等深层问题,导致输出内容机械化和虚构化 [16][17][22] - 用户需掌握识破幻觉、压力测试逻辑、感知AI黑话三项能力以对抗平庸化 [23][24] 用户反馈与市场表现 - DeepSeek月均下载量从8111.3万骤降至2258.9万,降幅72.2% [1] - 社交媒体涌现"去AI味儿"话题,用户吐槽生成内容包含虚构建议(如"南极科考"挽回感情)、伪造商家及文献 [2][8][9] - 学术场景中,论文写作被批"机器人拼积木",过度使用连接词和程式化短语 [15][16] 技术缺陷分析 - 逻辑暴力:过度依赖"首先/其次"等连接词和短句,割裂叙事节奏 [16] - 数据代谢病:30%的AI生成内容反哺训练池,导致语言多样性荒漠化 [16][17] - 训练语料缺陷:中文优质语料占比不足5%,CSSCI期刊数字化率仅30% [22] 行业共性问题 - 大模型普遍存在"致幻"现象,如GPT-4V在违和场景中准确率从80%降至66% [20] - 语言模块压制视觉信号修正,导致先验知识凌驾于现实输入 [21] - 内容审查机制扩大敏感词库,迫使输出趋向安全但平庸的表达 [22] 解决方案建议 - 交叉核验关键数据,利用CNKI等权威数据库检索 [23] - 要求模型用反例自辩,打破逻辑暴力限制 [23] - 锚定时空法定位内容,如追问"理论首见期刊年份" [23] 行业价值与展望 - AI在信息整理、概念解释、创新实验等领域仍具不可替代性 [24] - 人机交互中保留5%非优化回答可增强人性化体验 [25]