DeepSeek R1
搜索文档
一位武汉老股民的2025:A股创十年新高,账户盈利超30%
搜狐财经· 2025-12-29 10:11
2025年A股市场回顾与特征 - 上证指数从年内低点3040点最高涨至盘中4034点,涨幅显著,并于10月盘中首次站上4000点,达到近十年峰值 [2] - 8月18日,上证指数盘中越过2021年高点3731.69点,最高触及3745.94点,创2015年8月以来近十年新高 [11] - 市场呈现明显的结构性牛市特征,在政策变化、技术革命与宏观转向中剧烈颠簸,行情从绝望中起步,依靠政策强力托底实现V型反转 [2][11] 驱动市场的关键政策与事件 - 2024年9月24日,央行、金融监管总局、证监会同步出台降准、降息、稳楼市、稳股市等一揽子超预期措施,含两项支持资本市场的结构性工具,显著改善市场预期与流动性,开启一轮“政策牛” [4] - 2025年5月7日,央行宣布降准0.5个百分点,预计释放长期流动性约1万亿元,同时搭配降息等“组合拳”为市场提供充足流动性支持 [11] - 2025年4月,美国“对等关税”落地,叠加半导体设备、汽车零部件等领域的关税与出口管制,导致全球市场震荡,出口依赖型行业成为重灾区 [8] 市场主线与轮动板块 - AI、算力、半导体等科技概念板块在2025年轮动频繁 [2] - 2024年9月“924行情”中,互联网金融和化债概念股表现突出,有投资者在一周内通过相关个股实现总持股收益超一倍 [4][5][6] - 2025年1月,DeepSeek发布重磅产品,带动国产AI与算力产业链受益,软件工具、开发平台及国产芯片、算力基础设施迎来投资机会 [8] - 2025年消费板块的新亮点包括以泡泡玛特为代表的悦己经济、宠物经济、陪伴经济,泡泡玛特在一年半内股价涨约13倍,6月盘中市值一度冲上3800亿港元 [9] - 商业航天板块因政策、技术、资本三重因素共振,投资逻辑从“主题炒作”向“业绩兑现”过渡,成为股价创历史新高最多的板块之一 [12] 投资者行为与策略演变 - 市场变化要求投资者不能盲目跟风,纯概念炒作的股票开始分化,有业绩支撑的科技股抗跌性明显更强 [2] - 成功的选股需要同时看政策导向、产业趋势和公司业绩,三者缺一不可,追逐热点、频繁交易的结果不佳 [3] - 投资逻辑应从追逐短期题材转向深耕产业链研究,耐心寻找并长期持有具备核心技术、强大盈利能力和清晰成长路径的真正价值型企业 [13] - 有投资者反思,由于长期熊市养成的短线操作模式,在2025年放跑了多只大牛股,例如中富电路在投资者以33元/股卖出后,最高涨至94.38元/股 [12] 对2026年市场的展望与主线 - 市场逻辑正从“政策托底”逐步转向“产业兑现”,未来或呈现“指数搭台、个股唱戏”的特征 [11] - 2026年,投资主线可聚焦于DeepSeek突破与开源引领的科技AI等方面 [3] - 2026年市场预计仍是结构牛,主线应该是科技自主和大消费两大主线 [12] - 2026年美联储大概率持续降息,将对A股大盘形成有效支撑 [14]
AI大模型分野:从技术狂热到商业价值回归
新浪财经· 2025-12-25 12:40
2025年中国大模型市场综述 - 2025年中国大模型市场经历深刻“价值回归”,技术突破边际效应减弱,竞争焦点转向真实需求、可持续商业模式与产业深度,被总结为“全球化AI应用的创业之年” [2] - 市场格局从“科技巨头”与“AI六小虎”的二元叙事,加速转向更复杂、多维的竞合新阶段 [3][12] DeepSeek的发展与影响 - 2025年1月27日,DeepSeek登顶美国苹果商店免费应用下载榜首,成为全球现象级产品 [3][11] - 上半年凭借V3与R1模型持续扩张,国内外多家云服务商、数据中心等基础设施厂商宣布接入部署 [3][12] - 进入下半年后声量回落,8月推出的V3.1及后续V3.2版本市场反响平淡,未能重现年初热度 [4][13] - 分析认为其仍是开源领域应用最广的模型之一,长期团队愿景和技术探索值得期待,背后有私募巨头幻方量化支持 [4][13] 中美大模型竞争格局 - 美国市场以Google为代表的公司未来可能占据更领先位置,OpenAI地位受到明显挑战 [5][14] - 中国市场阿里与字节跳动表现非常突出,腾讯年末挖来OpenAI前研究员体现大厂强势进攻 [5][14] - 对于创业公司而言,在大模型领域实现突破的难度越来越大,竞争焦点将转向应用层 [5][14] “AI六小虎”战略分化 - **零一万物**:停止万亿参数以上超大模型训练,聚焦商业化,其ToB解决方案已在政务、金融、工业、办公、销售等领域落地,2025年实现数倍于2024年的营收增长,并成功推动多个国际项目落地 [5][6][14][15] - **百川智能**:停止超大模型训练,更加聚焦医疗赛道,对金融业务进行优化调整以集中资源 [5][6][14][15] - **阶跃星辰**:坚守大模型训练,将智能终端Agent作为关键发力点,在汽车、手机、具身智能、IoT等端侧场景全面合作,国内超过60%头部国产手机厂商已与其深度合作 [2][6][15] - **智谱AI**:坚守大模型训练并重视商业化,其模型已赋能全球12000家企业客户、逾8000万台终端用户设备及超4500万名开发者 [6][7][16] - **MiniMax**:坚守大模型训练并重视商业化,截至2025年9月30日,其AI原生产品累计用户数达2.12亿以上,开放平台个人开发者和企业用户达13.2万 [7][16] - **月之暗面**:仍执着于技术探索,商业化相对薄弱,但已任命原投资人张予彤为总裁,负责整体战略与商业化,转向市场与资本双轮驱动 [2][7][16] 资本市场动向 - 一级市场投资转向谨慎,中美投资人几乎不再下注底层模型公司,更愿意投资AI应用、消费者应用、AI基础设施及企业应用 [7][8][17] - 资本话题从融资转向上市,智谱和MiniMax已通过港交所聆讯,将成为国内最早上市的独立大模型厂商 [8][18] - 市场预测智谱和MiniMax短期内将吸引大量关注,但长期表现取决于MaaS收入是否持续高增长及亏损是否明显收窄 [8][18] - 有消息称月之暗面或于2026年启动IPO,但其核心挑战在于缺乏规模化营收及持续盈利能力的证明 [8][18] 技术与未来展望 - 2026年可能成为“AI新物种”诞生元年,每个行业都可能出现具备全闭环能力的AI新物种,AI驱动的“全闭环化”将渗透各产业形成行业颠覆者 [9][18] - 技术层面,现有Transformer架构可能无法支撑下一代Agent,未来架构极有可能向“Non-LinearRNN”(非线性循环神经网络)演进 [9][19]
AI大模型分野:从技术狂热到商业价值回归|2025中国经济年报
华夏时报· 2025-12-25 08:16
文/石飞月 当年初DeepSeek一夜爆红,打破原有大模型市场的格局,这一年就注定不平凡。2025年的中国大模型 市场经历了一场深刻的"价值回归",技术突破的边际效应减弱,一场围绕真实需求、可持续商业模式与 产业深度的"生存进化"全面展开。"2025年是全球化AI应用的创业之年。"顺福资本创始人、行行AI董事 长李明顺总结道。 在此背景下,国内"AI六小虎"加剧赛道分化,零一万物和百川智能放弃超大模型训练,在更加务实的商 业化应用赛道越走越远,阶跃星辰将智能终端Agent作为⼤模型技术落地的关键发⼒点,在终端Agent领 域取得突破,月之暗面开始重视商业化,任命曾经的投资人为总裁,智谱和MiniMax则作为商业化的佼 佼者率先成功闯关二级市场。 DeepSeek的"起伏" 2025年初,一场由东方掀起的AI浪潮席卷全球应用市场。1月27日,来自中国的人工智能公司DeepSeek 一举登顶美国苹果商店免费应用下载榜首,将长期盘踞头部的ChatGPT暂时拉下王座,之后又迅速演变 为一场全球性的现象级传播——DeepSeek的名字随之刷屏各国社交网络,成为开年最受瞩目的科技焦 点。 热度并未止步于年初的榜单登顶。整 ...
GPT-5争议、开源追赶、能力飞跃:Epoch AI年终报告揭示AI能力加速
36氪· 2025-12-25 03:36
12月25日消息,专注于人工智能基准测试的非营利组织Epoch AI发布的年终报告显示,整体来看,AI模型的能力正在快速提升。 顶尖国际模型如GPT、Gemini在专家级数学难题FrontierMath上表现优异,但在真正高难度问题面前仍未满分,显示出推理能力仍有提升 空间。与此同时,AI推理能力和强化学习的进步让增长速度几乎翻倍,成本大幅下降,许多模型已能在消费级硬件上运行。 在此背景下,中国开源大模型也有所进步,但与国际顶尖模型相比仍存在明显差距。在FrontierMath测试中,绝大多数中国模型几乎未能 得分,最高也只有DeepSeek-V3.2取得约2%的成绩。这表明,中国模型虽然在追赶,但在处理真正复杂难题时仍面临挑战。 01 中国模型的"七个月追赶":开源力量正在重塑格局 中国模型的最高分仍落后全球前沿水平约七个月 在Epoch AI的FrontierMath最新评测中,中国开源模型交出了一份令人瞩目的答卷。FrontierMath是一个由专家数学家精心设计的高难度 数学基准测试,涵盖数论、实分析、代数几何、范畴论等现代数学主要分支。完整数据集包含350道问题,其中300道为基础集(第1-3 层) ...
中国策略-2025 年股票投资的 10 条经验教训-China Strategy_ 10 equity lessons learned from 2025
2025-12-22 02:31
纪要涉及的行业或公司 * 该纪要主要涉及中国股票市场,包括A股和H股,以及MSCI中国指数[4] * 行业层面广泛覆盖了材料、医疗保健、通信服务、信息技术、金融、可选消费、工业、能源、必需消费、公用事业和房地产等多个板块[5] * 公司层面提及了构成“中国出海领军企业”投资组合的25家高盛买入评级公司[38] 核心观点和论据 **市场表现与展望** * 2025年中国A股和H股分别录得16%和29%的回报,超过高盛最初13%和15%的预测[4] * 年内上涨主要由估值重估驱动,MSCI中国指数12个月远期市盈率从年初的9.9倍升至目前的12.5倍,而远期每股收益全年下降4%[4] * 预计牛市将持续但步伐放缓,预测到2027年底中国股票将上涨38%,由2026E和2027E分别14%和12%的利润增长以及约10%的估值重估潜力驱动[6] **宏观与政策环境** * 尽管美国有效关税税率自特朗普上任后从11%升至29%,但中国出口同比增长5.4%,人民币兑美元年内升值4%[14] * 高盛经济学家已将2025年GDP增长预测从4.5%上调至5%[14] * 2025年广义财政赤字为15.5万亿元人民币,占GDP的11%,低于经济学家此前18万亿元人民币(占GDP 13%)的预测[14] * 好于预期的增长背景可能抵消了政策回应的平淡,体现在股市定价上,上市出口商表现优于消费类股票[15] **人工智能(AI)的影响** * DeepSeek-R1的发布引发了2025年中国科技股的强劲反弹,数据与云、半导体以及AI基础设施与电力板块领涨,股价平均上涨40%,市值增加超过2万亿美元[23] * 广泛采用AI可能通过成本节约、生产力提升和新收入机会,在未来十年推动企业盈利每年增长3%[24] * 中国AI科技生态系统的估值已重估,但考虑到中国在资本支出方面的潜在上行空间以及通过用例创造实现AI货币化的重点,相对于美国仍显便宜[24] **中国企业的全球化** * 中国上市公司海外收入占比从十年前的12%增至目前的16%,预计到2030年可能达到20%,而发达市场/新兴市场的平均水平分别为53%/48%[36] * 鉴于更高的海外盈利能力,这可能每年推动MSCI中国指数盈利增长约1.5%[36] * 高盛的“中国出海领军企业”投资组合(包含25家公司,平均34%收入来自海外)年内上涨35%,跑赢MSCI中国指数9个百分点[38] **消费结构变化** * 零售销售年内同比仅增长4%,消费者信心徘徊在历史低点[43] * 服务消费(非贸易品)在后疫情时代表现优于商品消费[44] * 被定义为“新”消费的行业(如娱乐、特色零售、休闲、包装食品),在2025年上半年净利润平均增长28%,而整体消费板块(除互联网外)为5%[45] * “新”消费板块年内回报达43%,分别领先MSCI中国指数和“传统”消费股15个和39个百分点[45] **反内卷与再通胀** * 产能过剩、激烈竞争和通缩给太阳能、电池、化学品和水泥等“内卷”行业带来痛苦[54] * 自上而下看,PPI每上涨1%可能推动利润增长2%[55] * 潜在的供应减少和行业整合可能使内卷行业利润到2027年增长50%,并在2028年前推动指数盈利增长5%[55] * 自7月1日以来,高盛的反内卷受益股上涨12%,小幅领先MSCI中国指数2个百分点[56] **“十五五”规划的影响** * 在过去五个五年计划中,中国政策制定者完成了近90%的既定增长和发展目标[65] * 基于LLM的文本模型分析表明,如果投资者在过去25年使其投资组合与广泛政策趋势保持一致,可能产生13%的年化阿尔法收益,而MSCI中国的年复合增长率为6%[66] * 高盛构建的“十五五”投资组合(包含50只中盘股)过去一年回报率达68%(MSCI中国为27%),市场共识预期其未来两年每股收益年复合增长率达30%[68] **资本流动与投资者行为** * 南向资金年内达1800亿美元,创历史最高年度记录[73] * “国家队”活跃于股市,目前持有超过6%的A股总市值(6万亿元人民币)[73] * 全球对冲基金对中国的净敞口从年初的6.8%(处于五年历史的8%分位)升至11月底的7.8%(33%分位)[74] * 2025年香港IPO市场有101家公司上市,共筹集2710亿港元,外国基石投资者参与度达周期高点的25%[74] **多元化价值** * 中国股市与美国股市的回报相关性在主要市场中处于最低之列[78] * 中国股票估值较国际同行存在深度折价,相对于发达市场/新兴市场折价35%/9%[78] * 中国家庭资产配置中,房地产/现金占54%/28%,股票仅占11%[79] * 机构投资者持有A股市值的14%,而主要发达市场/新兴市场的比例为59%/50%[79] **风险与政策托底** * 风险包括全球衰退、AI过热、中美紧张关系以及国内政策和(通缩)通胀风险[88] * 关键的中国风险因素在2025年要么已被充分定价,要么已消退:房地产行业的经济影响力已缩小,政策/监管周期已转向更有利于增长和市场,再通胀前景已改善[89] * 宏观和股市的政策托底仍然有效,应有助于减少左尾增长和政策风险,从而压缩股票风险溢价,并将中国股票的预期公允价值向右移动[90] 其他重要内容 **行业与风格表现** * 行业层面,材料、医疗保健和通信服务表现最佳,而必需消费、公用事业和房地产表现落后[5] * 风格层面,合理价格增长(GARP)和成长型风格涨幅最大,价值型和股息型风格表现不佳[5] **估值与盈利驱动因素转变** * 市场可能正从“希望”阶段过渡到“增长”阶段,在后一阶段,盈利实现和温和的市盈率扩张通常取代前一阶段强劲但波动的估值重估收益,成为回报的主要驱动力[6] **出口结构演变** * 中国的出口故事已经演变:从为发达市场消费者提供低成本、低附加值的制造商,转变为更多向新兴市场销售作为最终目的地,在高端制造业领域获得全球市场份额,并向世界出口服务、知识产权和文化[35] **通胀前景指标** * 最新的M1-M2增速差指向未来几个季度PPI通胀可能复苏[99] **政策周期转向** * 对民营企业的监管处于宽松周期[94]
Karpathy 2025年AI终极觉醒:我们还没发挥出LLM潜力的10%
36氪· 2025-12-22 00:29
文章核心观点 - 2025年是人工智能发展历程中的“觉醒”之年,标志着大语言模型从模仿人类向追求真理的范式转移,其核心驱动力包括RLVR的崛起、Vibe Coding的流行以及关于AI本质的哲学思考[1][3] RLVR革命 - 传统的LLM训练流程包含预训练、监督微调和RLHF三个阶段,但RLHF存在“阿谀奉承”问题,导致模型倾向于生成看似正确但实际错误的答案[4][6] - 2025年兴起的RLVR范式引入第四阶段,其核心是使用可验证的客观结果作为奖励信号,例如用编译器验证代码、用答案验证数学题,从而训练模型进行真正的推理[7][11][12] - RLVR使模型能够通过自我博弈涌现出推理能力,它尝试生成成千上万条不同的推理路径,并由自动验证器进行筛选和强化[15][16][17][18] - 该范式引入了“测试时算力”这一新的扩展定律,模型能力不再在训练结束时定格,推理阶段通过增加“思考时间”可以显著提升表现[19][20][21][22] - 行业案例显示,仅靠纯粹的RLVR训练,模型也能从零开始衍生出强大的推理和自我反思能力,这意味着算力的价值从训练端向推理端转移[23] 哲学分野:动物与幽灵 - AI先驱Rich Sutton的“苦涩教训”认为,长期来看,能利用无限算力的通用方法终将胜出,他心目中的AGI是像动物一样具身、通过试错学习的连续智能体[27][28][29][31] - 然而,当前的大语言模型被描述为“幽灵”,它们无状态、没有持续的意识流,其智能是基于人类互联网文本的统计学蒸馏,是在扮演而非真正理解[32][33] - 目前的科研方向被认为是在召唤更强大的“幽灵”,这是一种位于“心智空间”不同坐标系的、全新的智能形态[35] - 这种智能是“参差”的,它在某些领域表现卓越,但在另一些简单任务上可能严重失误,这种特性源于训练数据分布不均和分词方式的先天缺陷[37][52] Vibe Coding - Vibe Coding代表编程范式的转变,开发者从编写代码细节转变为用自然语言描述意图,将逻辑和实现交由AI完成,人类主要负责审美和验收[40][44] - 行业实践案例显示,一个完整的Web应用项目可以在开发者不手写一行代码的情况下,通过自然语言指令与AI协作完成[41][44] - 2025年AI编程工具形成两大流派:以Cursor/Windsurf为代表的IDE增强派,将AI无缝集成到开发环境中辅助编码;以Claude Code为代表的终端Agent派,能够接受高级指令并自主执行复杂的开发任务[45] - 尽管Claude Code展现了Agent的雏形,但真正的“全自动工程师”尚未到来,当前的Agent在复杂架构任务上仍需人类把控方向[46] - 行业观点认为,Claude Code通过聚焦本地化开发体验,抓住了开发者的核心痛点[46] 范式转移 - 谷歌Gemini Nano Banana模型因其名称和特性引发了病毒式传播,它代表了文本生成、图像生成与世界知识在模型权重中交织的综合能力[47][49] - 一个深刻的行业观点是:文本是计算机偏好的格式,而非人类喜欢的格式,人类更倾向于通过视觉和空间维度接收信息[47][49] - 未来的LLM交互界面应超越文本,以图像、信息图、幻灯片、视频等人类偏好的格式进行输出,这被认为是继图形用户界面后的下一个重大计算范式[47][49] - 大语言模型正作为一种新型智能形态崭露头角,其能力分布不均,既在某些方面远超预期,又在另一些方面显得笨拙,但整体上极其有用[54] - 行业认为,即使以当前模型的能力,其应用潜力也远未被发掘出10%,该领域从概念上看仍感觉广阔无垠[55][56]
Andrej Karpathy年度复盘:AI大模型正在演变成一种新型智能,今年出现6个关键拐点
华尔街见闻· 2025-12-20 04:41
文章核心观点 - 2025年是大型语言模型领域蓬勃发展的关键一年,出现了六个改变行业格局的“范式转变”拐点,揭示了LLM正在演变成一种全新的智能形态 [1][3] - LLM展现出独特的“锯齿状”智能特征,既是博学的天才,又像思维混乱的小学生,其潜力目前实现尚不足10%,预计未来将持续飞速进展 [1][3] - 从训练范式、智能形态到应用层、交互界面,LLM技术栈的各个层面均发生根本性变革,标志着AI应用进入新的发展阶段 [3] 技术范式转变 - **拐点一:基于可验证奖励的强化学习成为训练新阶段**:传统的LLM生产流程(预训练、指令微调、基于人类反馈的强化学习)被改变,基于可验证奖励的强化学习成为新阶段 [4][5] - RLVR通过在数学题、代码谜题等可自动验证的环境中训练,使LLM自发演化出类似“推理”的策略,如将问题拆解为中间步骤并掌握多种解决方法 [5] - 与指令微调和基于人类反馈的强化学习不同,RLVR针对客观且不可作弊的奖励函数,允许更长周期的优化,具有极高的“能力/成本比” [5] - 2025年大部分能力提升源于各实验室将原本用于预训练的算力转向消化RLVR这一新阶段的“算力积压” [5] - OpenAI o3的发布是真正的拐点,RLVR带来了通过增加“思考时间”来控制推理能力的新调节旋钮 [6] LLM智能形态认知 - **拐点二:“幽灵智能”展现锯齿状性能特征**:业界开始理解LLM是一种与生物智能完全不同的全新智能实体,其神经架构、训练数据、算法和优化压力均不同 [7] - LLM展现出“锯齿状”性能特征:在可验证领域附近能力“激增”,但整体表现极不均衡,既是博学天才,又可能被简单提示词破解 [3][7] - 这种现象导致对基准测试产生信任危机,因为基准测试本质是可验证环境,极易受到RLVR攻击,“面向测试集训练”成为新艺术形式 [7] 应用层与交互范式革新 - **拐点三:Cursor引领新一代LLM应用层崛起**:Cursor的成功揭示了“LLM应用”的全新层级,标志着垂直领域LLM应用的兴起 [8] - 此类LLM应用为特定垂直领域封装并编排LLM调用,核心功能包括处理上下文工程、编排多个LLM调用串联成复杂有向无环图、提供特定图形界面以及提供“自主程度调节滑块” [8] - LLM实验室倾向于培养通用能力的“大学生”,而LLM应用则通过提供私有数据、传感器、执行器和反馈闭环,将这些“大学生”组织成特定领域的专业从业者 [8] - **拐点四:Claude Code开创本地AI智能体新范式**:Claude Code成为LLM智能体的首次令人信服展示,它以循环方式串联工具调用和推理进行长时间问题解决,且运行在用户电脑上,使用私有环境、数据和上下文 [9] - 这种本地化、个性化的AI交互范式改变了AI的样貌,使其从被动访问的网站变为“住”在电脑里的灵体,强调了隐私保护和个性化体验的重要性 [9] - **拐点五:Vibe Coding让编程能力普及化**:2025年AI跨越关键能力阈值,使人们仅凭英语就能构建复杂程序,“Vibe Coding”概念的流行标志着编程门槛的彻底降低 [10] - 编程不再是专业人士专利,普通人从LLM中获益远超专业人士、企业和政府,代码变得免费、瞬时、可塑,用完即弃,将重塑软件生态并让创意实现的成本接近零 [11] - **拐点六:Nano Banana开启LLM图形界面时代**:谷歌Gemini Nano Banana被称为2025年最震撼、最具范式转移意义的模型,预示着LLM交互界面的根本变革 [12] - 文本并非人类偏好的信息消费格式,真正的“LLM GUI”需要以人类偏好的图像、信息图、幻灯片、白板、动画视频、网页应用等方式进行交流 [12] - Nano Banana的显著特征不仅是图像生成,更是文本生成、图像生成和世界知识在模型权重中的交织融合,提供了多模态融合能力的早期雏形 [12]
MiniMax 闫俊杰和罗永浩四小时访谈:走出中国AI的第三条路,大山并非不可翻越
36氪· 2025-12-11 08:11
公司核心战略与理念 - 公司创始人认为,在AI大模型时代,真正的产品是模型本身,传统意义上的产品更像是渠道,模型不够聪明,产品做得再好也无用 [2] - 公司从创业第一天起就选择了一条与主流背道而驰的技术路径,其故事并非关于天才的灵光乍现,而是一场关于如何在资源受限的缝隙中,通过极度理性地计算与修正,撕开一道通往AGI窄门的精密实验 [2] - 公司内部将互联网行业奉为圭臬的DAU(日活跃用户数)直接定义为“虚荣指标”,并正在进行一场认知修正:不再沿用移动互联网通过大规模投放换取增长、堆砌功能留住用户的逻辑,而是回归本质,把模型当作最重要的产品 [1] - 公司坚持三个创业原则:第一,不做项目,只做用户;第二,国内海外同时做;第三,坚持技术驱动而非用户增长优先,哪怕这意味着短期数据的牺牲 [16][17][20] 技术路径与创新 - 公司在资源受限的前提下,技术路线的统一逻辑是:用更聪明的方式优化,而非更多的算力堆砌,来逼近AGI的上限 [3] - 创业第一天就押注全模态,认为真正的AGI一定是多模态的输入与输出,这种非共识的坚持让公司在2025年拥有了全球音频第一、视频第二、文本稳坐第一梯队的全模态能力 [3] - OpenAI的Sora 2通过多模态融合取得显著成果,印证了公司早在创业初期就选择这一技术路径的前瞻性 [5] - 公司打破AI研究的传统模式,不迷信过往经验,而是用第一性原理拆解问题,认为这代AI的核心是Scaling(缩放定律) [6] - 算力限制倒逼创新,公司从2023年起就率先探索MoE架构,在2025年敢于押注线性注意力机制,又在M2模型中回归全注意力机制,每一次技术选择都是在有限资源下寻找质量、速度、价格的三角平衡 [8] - 公司在模型推理机制上提出了“交错思维(Interleaved Thinking)”,这一创新很快推动了OpenRouter、Ollama等国外主流推理框架的适配支持,也带动了Kimi和DeepSeek等国内模型陆续补齐类似能力 [10] 资源与效率对比 - 创始人算过一笔账:美国最好公司的估值是中国创业公司的100倍,收入基本上也是100倍,但技术可能只领先5%,花的钱大概是50到100倍之间 [7] - 中国的公司可以花美国公司1/50的钱就做出效果,差距可能只差5%,核心原因是中国的人才非常好,且由于算力差距,必须用更加创新的方式才能达到同样效果 [7] - 如果说DeepSeek的逻辑是“用极致的工程优化榨干每一分算力”,那么公司就是在通过算法突破和机制创新在有限资源中撬动更大可能 [8] 团队与文化 - 公司相信AI不是玄学,而是可以被第一性原理拆解的工程问题,因此放弃了寻找“天才”,转而相信科学方法论可以让普通人发挥非凡价值 [10] - 公司的海归不少,但真正能起到关键作用的同学,很多人基本上都是第一份工作 [10] - 公司会议室墙上有“Intelligence with Everyone”的字样,这是创始人创业的初衷,也是不少人选择加入公司的理由 [10] - 创始人出身河南小县城,在资源匮乏的环境下培养了极强的自学能力,并从在商汤科技的经历中提炼出核心方法论:一定要做取舍,要选更加长期、能够根本性发生变化的东西,而不是去做修补的东西 [14] - 创始人具备极致的取舍能力和极高的心理韧性,这两个特质是公司能够在技术路线上坚持非共识的定力来源 [15] 市场与商业化 - 公司从创业第一天就瞄准全球市场,选择在海外更激烈的竞争中打磨技术,而非卷入国内与巨头的流量争夺,其在海外市场的DAU和付费率都维持在健康区间,这正在成为其护城河 [17][19] - 全球超过两百个国家和地区的用户正在使用公司的多模态模型,其中既有2.12亿用户,也有10多万企业和开发者来创造更多产品和服务 [12] - 公司选择了技术驱动的战略,并做出开源的关键选择,创始人认为开源可以让公司有独特的定位,发出新的生态,并让别人有选择公司的理由 [20] - 公司发布的MiniMax M2延续了中国AI在开源领域的领先地位,中国开源模型在全球使用量占比从2024年初的1.2%飙升至30%,全球开源生态的重心已经向中国倾斜 [21][23] 行业格局与展望 - 创始人判断,算力和芯片的物理限制决定了模型参数量和成本是有天花板的,在有限的参数量下,不同的人做不同的取舍,就一定会有些不一样的成果 [23] - AI行业不会一家独大,但也不会百家争鸣,最终会收敛到少数几家基于不同取舍的共存格局 [24] - 创始人展现出务实的乐观,认为把技术做好最重要的东西是想象力和自信,并指出中国人工智能行业目前还没有到引领的地步,但这件事已经越来越具备了 [24] - 中国AI公司需要走出第三条路:用更聪明的架构设计对抗算力差距;通过科学的组织进化培养AI原生人才;在夹缝中长出自己的形状,而非附庸于巨头 [24]
DeepSeek V3到V3.2的进化之路,一文看全
机器之心· 2025-12-08 04:27
DeepSeek模型系列技术演进 - 公司于2024年12月发布DeepSeek V3基础模型,随后推出基于相同架构的专用推理模型DeepSeek R1,使其成为最受欢迎的开放权重模型之一,成为OpenAI、Google、xAI和Anthropic等公司专有模型的有力替代方案[11] - 从DeepSeek V3到V3.2的演进过程中,公司模型策略从专用推理模型转向混合模型,V3.1和V3.2均为兼具通用聊天和推理能力的混合模型,而R1可能更多是作为研究项目或测试平台[25] - 公司于2025年9月发布实验性模型DeepSeek V3.2-Exp,旨在为更大规模的发布准备生态系统和推理基础设施,该模型引入了非标准的稀疏注意力变体,需要定制代码[17][18] - 2025年12月1日,公司发布新旗舰模型DeepSeek V3.2和DeepSeek V3.2-Speciale,与当前专有旗舰模型相比表现非常出色[5][103] 核心架构创新:注意力机制与效率提升 - DeepSeek V3基础模型采用了混合专家模型和多头潜在注意力架构,MLA通过在将键和值张量存储到KV缓存前将其压缩到低维空间来节省内存,虽然增加了一次额外的矩阵乘法,但显著减少了内存使用[29][31][32] - DeepSeek V3.2-Exp及V3.2的主要架构创新是DeepSeek稀疏注意力,该机制由Lightning Indexer和Token选择器组成,基于学习到的相关性分数选择性地关注部分过去的Token,而非所有Token或固定局部窗口[49][50][54][58][59] - DSA将注意力机制的计算复杂度从二次的O(L²)降低到了线性的O(Lk),其中L是序列长度,k是选定Token的数量,在减少性能衰减的同时实现了效率提升[66][67][68] - DeepSeek V3.2使用了与DeepSeek V3.2-Exp完全相同的架构,集成了MLA和DSA机制,主要动机是提高整体模型性能的同时,将计算效率视为巨大驱动因素[107][110] 训练方法演进:从RLVR到自我验证 - DeepSeek R1专注于“带可验证奖励的强化学习”方法以提高推理能力,其核心思想是让模型从可以进行符号化或编程验证的响应中学习,例如数学和代码[37][38] - RLVR流程使用了GRPO算法,这是“近端策略优化”算法的一个简化变体,GRPO取消了评论家模型,而带GRPO的RLVR进一步移除了奖励模型,转而依赖来自符号工具的可验证奖励[40][42] - 为改善常规RLVR的缺点,公司在DeepSeekMath V2中引入了自我验证与自我修正技术,开发了基于LLM的验证器和元验证器来对证明生成器的输出进行评分和检查,使验证器证明分析的平均质量得分从0.85提高到了0.96[76][77][83][86][89][90] - 在推理期间,公司使用单一模型同时执行证明生成和验证,这比运行第二个LLM进行证明验证增加了更少的复杂性和计算需求,通过多达8次的自我修正迭代,模型的准确性得到提高且尚未饱和[98][99][102] DeepSeek V3.2的具体训练改进 - DeepSeek V3.2采用了类似于DeepSeek R1的RLVR程序,但更新了奖励机制,对于推理和智能体任务采用基于规则的结果奖励、长度惩罚和语言一致性奖励,对于通用任务则采用生成式奖励模型[115][116] - 对于数学领域,公司整合了来自DeepSeekMath-V2的数据集和奖励方法[117] - 在GRPO算法本身,公司进行了一系列稳定性更新,包括:零梯度信号过滤、主动采样、Token级损失、无KL损失、更高裁剪阈值、截断重要性采样、无标准差归一化、特定领域的KL强度、无偏KL估计、异策略序列掩码、保留MoE模型的路由、保留top-p/top-k的采样掩码以及保留原始GRPO优势归一化[119][120][122] - DeepSeek V3.2-Speciale是V3.2的扩展思维变体,其在RL阶段仅在推理数据上进行训练,并减少了长度惩罚以允许模型输出更长的响应,这种推理扩展形式以生成长度增加为代价获得更好的结果[123][124] 模型性能表现 - DeepSeek V3.2在多项基准测试中与专有旗舰模型相比表现非常出色,在数学基准测试中获得了金牌级的表现,同时在训练时也考虑到了工具的使用,在其他任务上也表现良好[103][107] - 扩展思维变体DeepSeek V3.2-Speciale在多个基准测试中实现了更高的准确性,例如在AIME 2025基准上达到96.0,在HMMT Feb 2025基准上达到99.2,但同时也生成了更多的Token[127]
观察| 100万亿Tokens的:AI正在发生你看不见的巨变
未可知人工智能研究院· 2025-12-07 03:02
文章核心观点 - 基于OpenRouter平台超过100万亿tokens的真实使用数据,AI行业正在经历一场深刻的范式转变,其核心是从“工具”进化为“伙伴” [1][2][3] - 这场转变由两大技术革命驱动:“推理革命”使AI具备多步骤思考能力,“代理式AI”使AI能够自主规划并执行任务 [11][27] - 真实的用户行为和市场数据揭示了与实验室基准测试不同的竞争格局,开源模型(特别是中国的DeepSeek和Kimi)凭借成本、灵活性等综合优势正在强势崛起 [44][47] - 用户选择模型的标准日益多元化,模型“人设”(个性)和突破性能力对用户留存的影响,可能超过传统的性能基准分数 [88][96][100] - AI的应用场景已进入爆发期,正从创意写作和编程两大引擎,扩展到角色扮演等满足情感需求的领域,并深刻重塑普通人的工作、学习和娱乐方式 [69][71][80][121] 数据来源与重要性 - 报告数据来源于硅谷风投A16Z与OpenRouter联合发布的《State of AI: An Empirical 100 Trillion Token Study》,这是基于真实战场数据的首次大规模研究 [2] - 数据覆盖了OpenRouter平台上过去一年产生的超过100万亿tokens,涉及500万开发者、300多个AI模型及60多家提供商 [2] - OpenRouter被比喻为“AI世界的美团外卖”,连接了几乎所有主流AI模型,其数据的核心价值在于多样性,能够反映用户在公平平台上的真实选择 [5][7][8] - 从2024年初到2025年中,OpenRouter的年处理流量从约10万亿tokens增长至超过100万亿tokens,增幅达10倍,标志着AI应用从“尝鲜期”进入“爆发期” [8] - 作为对比,OpenAI官方API在2024年10月的日均处理量为8.6万亿tokens,而OpenRouter的日处理量已突破1万亿tokens [6] 推理革命 - 核心转变是AI从“接话机器”(一次性输出)进化为“思考机器”(多步骤思考),能够像人类一样分解问题、搜索信息并迭代优化 [13][16] - 标志性事件是OpenAI于2024年12月5日发布的o1推理模型,其特点是会进行内部推理,开启了“代理式推理”的新模式 [17][18] - 市场数据支持这一趋势:用户提示词长度显著增加、对话轮次增多,且专业推理模型的市场份额快速上升 [20][21][22] - 用户正用更复杂的任务“训练”AI,而能够胜任复杂任务的推理模型正在赢得市场 [23] - 这喻示着AI的角色从“计算器”(工具)进化为“工程师”(同事),实现了从工具到同事的跨越 [25][26] 代理式AI - 代理式AI改变了AI的“手脚”,使其从被动、单次、静态的问答,转变为主动、多步、动态的任务执行者 [27][29][30] - 例如,在分析财报时,代理式AI能主动搜索最新信息、下载文件、提取数据并生成分析报告,突破了传统模型数据过时的局限 [31][32][33] - A16Z报告指出,代理式推理是OpenRouter上增长最快的行为模式,表明开发者正在大规模构建能自主完成任务的AI代理应用 [34][35] - 这意味着用户期待从“给我一个答案”变为“帮我完成这件事”,AI的价值从“信息检索”升级到“任务执行” [35][36] - 竞争前沿随之改变,重点转向模型的编排能力、控制力和可靠性,而不仅仅是准确率,这要求AI公司构建全新的“模型调度系统”技术栈 [42][43] 开源模型的崛起与中国力量 - 真实使用数据挑战了“闭源模型碾压开源”的常识,显示开源模型,尤其是推理型开源模型正在快速抢占市场份额 [46][47] - 中国的DeepSeek R1和Kimi K2在报告中表现突出,成为开源逆袭的代表 [47] - DeepSeek R1凭借巨大的成本优势(调用成本可能低至GPT-4的十分之一)、不输闭源模型的推理能力以及开源可自部署的灵活性,获得开发者青睐 [51][52][53][54] - Kimi K2是一个万亿参数级的开源MoE模型,在长文本处理和推理任务上表现优异,发布后短时间内即获得显著市场份额 [56][57] - 开源逆袭的关键在于真实世界的“好用”不等于基准测试的“高分”,用户选择是成本、延迟、定制性、隐私及“人设”匹配度等综合权衡的结果 [59][65] - 这对中国AI产业意味着,在推理能力等新方向上与国际顶尖水平的差距正在缩小,开源路线结合成本优势和特定能力可以形成强大的市场竞争力 [67][75] 真实应用场景与用户行为 - 驱动token使用量的两大核心场景是创意写作和编程 [71] - 在编程场景中,代码生成、解释和debug是高频需求,AI的价值不仅在于“生产力”,更在于“理解力” [73][74] - 在创意写作中,AI主要作为“创意合伙人”与人类共创,而非完全替代 [77][78] - 角色扮演占据了相当大比例的使用量,这揭示了人类与AI交互中存在“情感连接”的维度,满足了陪伴、娱乐等需求 [80][81][82] - 全球使用模式存在地区差异,例如北美多用于专业工作,亚洲多用于学习和创意,欧洲更偏好隐私和开源模型,体现了AI应用的本地化特征 [84][88] 模型“人设”与用户选择 - 用户能感知到不同AI模型的独特“性格”,如GPT-4的博学严谨、Claude的细腻谨慎、Gemini的快速直接、DeepSeek的专注深入,这些构成了模型的“人设” [89][94] - 报告发现,某些在学术基准测试中表现一般的模型,却因“人设”受欢迎而拥有出色的用户留存率 [96][97] - 用户体验到的“突破性能力”(如卓越的代码、长文本、多模态或推理能力)能建立用户忠诚度,促使用户迁移并不再返回 [100][102] - 这对AI公司的启示是:不应只追求基准分数,而需打造差异化“人设”并在细分场景做到极致,同时突破性创新是建立护城河的关键 [103][104][105] 对中国AI产业的启示 - 积极信号:DeepSeek R1和Kimi K2在全球真实市场中站稳脚跟,证明中国开源推理模型已具备全球竞争力 [108][109][110] - 现存挑战:在开发者工具、生态集成及海外品牌认知方面,与国际领先者仍有差距 [112][116] - 重大机遇:“推理革命”和“代理式AI”是新赛道,中国公司在工程能力和丰富应用场景方面具有优势,存在弯道超车的机会窗口 [113][114][116] - 发展建议:聚焦推理和代理能力;采用“开源+商业”双轮驱动;重视开发者体验等软实力;打造差异化“人设”而非简单模仿 [115][117][118][119] 对普通人日常的影响 - 工作方式重构:AI正成为各行业从业者的必备技能,其价值在于将人从重复劳动中解放,聚焦于更高价值的洞察、创新与决策 [122][126] - 学习方式升级:AI能提供个性化、沉浸式的学习辅导,如实时答疑、语言对话、知识讲解,有助于消解教育资源不平等的问题 [127][131] - 娱乐方式扩展:AI创造了如角色扮演、互动小说等“主动共创”的新娱乐形态,超越了传统的被动观看 [132][134][135] - 需警惕的风险:包括对AI的依赖性可能导致独立思考能力退化、数据隐私问题、信息茧房效应以及AI生成内容的真假难辨 [136]