DeepSeek R1
搜索文档
中国策略-2025 年股票投资的 10 条经验教训-China Strategy_ 10 equity lessons learned from 2025
2025-12-22 02:31
纪要涉及的行业或公司 * 该纪要主要涉及中国股票市场,包括A股和H股,以及MSCI中国指数[4] * 行业层面广泛覆盖了材料、医疗保健、通信服务、信息技术、金融、可选消费、工业、能源、必需消费、公用事业和房地产等多个板块[5] * 公司层面提及了构成“中国出海领军企业”投资组合的25家高盛买入评级公司[38] 核心观点和论据 **市场表现与展望** * 2025年中国A股和H股分别录得16%和29%的回报,超过高盛最初13%和15%的预测[4] * 年内上涨主要由估值重估驱动,MSCI中国指数12个月远期市盈率从年初的9.9倍升至目前的12.5倍,而远期每股收益全年下降4%[4] * 预计牛市将持续但步伐放缓,预测到2027年底中国股票将上涨38%,由2026E和2027E分别14%和12%的利润增长以及约10%的估值重估潜力驱动[6] **宏观与政策环境** * 尽管美国有效关税税率自特朗普上任后从11%升至29%,但中国出口同比增长5.4%,人民币兑美元年内升值4%[14] * 高盛经济学家已将2025年GDP增长预测从4.5%上调至5%[14] * 2025年广义财政赤字为15.5万亿元人民币,占GDP的11%,低于经济学家此前18万亿元人民币(占GDP 13%)的预测[14] * 好于预期的增长背景可能抵消了政策回应的平淡,体现在股市定价上,上市出口商表现优于消费类股票[15] **人工智能(AI)的影响** * DeepSeek-R1的发布引发了2025年中国科技股的强劲反弹,数据与云、半导体以及AI基础设施与电力板块领涨,股价平均上涨40%,市值增加超过2万亿美元[23] * 广泛采用AI可能通过成本节约、生产力提升和新收入机会,在未来十年推动企业盈利每年增长3%[24] * 中国AI科技生态系统的估值已重估,但考虑到中国在资本支出方面的潜在上行空间以及通过用例创造实现AI货币化的重点,相对于美国仍显便宜[24] **中国企业的全球化** * 中国上市公司海外收入占比从十年前的12%增至目前的16%,预计到2030年可能达到20%,而发达市场/新兴市场的平均水平分别为53%/48%[36] * 鉴于更高的海外盈利能力,这可能每年推动MSCI中国指数盈利增长约1.5%[36] * 高盛的“中国出海领军企业”投资组合(包含25家公司,平均34%收入来自海外)年内上涨35%,跑赢MSCI中国指数9个百分点[38] **消费结构变化** * 零售销售年内同比仅增长4%,消费者信心徘徊在历史低点[43] * 服务消费(非贸易品)在后疫情时代表现优于商品消费[44] * 被定义为“新”消费的行业(如娱乐、特色零售、休闲、包装食品),在2025年上半年净利润平均增长28%,而整体消费板块(除互联网外)为5%[45] * “新”消费板块年内回报达43%,分别领先MSCI中国指数和“传统”消费股15个和39个百分点[45] **反内卷与再通胀** * 产能过剩、激烈竞争和通缩给太阳能、电池、化学品和水泥等“内卷”行业带来痛苦[54] * 自上而下看,PPI每上涨1%可能推动利润增长2%[55] * 潜在的供应减少和行业整合可能使内卷行业利润到2027年增长50%,并在2028年前推动指数盈利增长5%[55] * 自7月1日以来,高盛的反内卷受益股上涨12%,小幅领先MSCI中国指数2个百分点[56] **“十五五”规划的影响** * 在过去五个五年计划中,中国政策制定者完成了近90%的既定增长和发展目标[65] * 基于LLM的文本模型分析表明,如果投资者在过去25年使其投资组合与广泛政策趋势保持一致,可能产生13%的年化阿尔法收益,而MSCI中国的年复合增长率为6%[66] * 高盛构建的“十五五”投资组合(包含50只中盘股)过去一年回报率达68%(MSCI中国为27%),市场共识预期其未来两年每股收益年复合增长率达30%[68] **资本流动与投资者行为** * 南向资金年内达1800亿美元,创历史最高年度记录[73] * “国家队”活跃于股市,目前持有超过6%的A股总市值(6万亿元人民币)[73] * 全球对冲基金对中国的净敞口从年初的6.8%(处于五年历史的8%分位)升至11月底的7.8%(33%分位)[74] * 2025年香港IPO市场有101家公司上市,共筹集2710亿港元,外国基石投资者参与度达周期高点的25%[74] **多元化价值** * 中国股市与美国股市的回报相关性在主要市场中处于最低之列[78] * 中国股票估值较国际同行存在深度折价,相对于发达市场/新兴市场折价35%/9%[78] * 中国家庭资产配置中,房地产/现金占54%/28%,股票仅占11%[79] * 机构投资者持有A股市值的14%,而主要发达市场/新兴市场的比例为59%/50%[79] **风险与政策托底** * 风险包括全球衰退、AI过热、中美紧张关系以及国内政策和(通缩)通胀风险[88] * 关键的中国风险因素在2025年要么已被充分定价,要么已消退:房地产行业的经济影响力已缩小,政策/监管周期已转向更有利于增长和市场,再通胀前景已改善[89] * 宏观和股市的政策托底仍然有效,应有助于减少左尾增长和政策风险,从而压缩股票风险溢价,并将中国股票的预期公允价值向右移动[90] 其他重要内容 **行业与风格表现** * 行业层面,材料、医疗保健和通信服务表现最佳,而必需消费、公用事业和房地产表现落后[5] * 风格层面,合理价格增长(GARP)和成长型风格涨幅最大,价值型和股息型风格表现不佳[5] **估值与盈利驱动因素转变** * 市场可能正从“希望”阶段过渡到“增长”阶段,在后一阶段,盈利实现和温和的市盈率扩张通常取代前一阶段强劲但波动的估值重估收益,成为回报的主要驱动力[6] **出口结构演变** * 中国的出口故事已经演变:从为发达市场消费者提供低成本、低附加值的制造商,转变为更多向新兴市场销售作为最终目的地,在高端制造业领域获得全球市场份额,并向世界出口服务、知识产权和文化[35] **通胀前景指标** * 最新的M1-M2增速差指向未来几个季度PPI通胀可能复苏[99] **政策周期转向** * 对民营企业的监管处于宽松周期[94]
Karpathy 2025年AI终极觉醒:我们还没发挥出LLM潜力的10%
36氪· 2025-12-22 00:29
2025年,注定是人工智能历史上被铭记的一年。 如果说2023年是「惊艳」(ChatGPT的横空出世),2024年是「迷茫」(在大模型落地的憧憬中探索),那么在Andrej Karpathy的笔下,2025则是「觉 醒」的一年。 Karpathy一直以来都是AI界的「顶流」布道者。 他的年终总结不仅仅是一篇技术回顾,更像是一部微缩的编年史,记录了LLM如何从「模仿人类的鹦鹉」进化到了「召唤理性的幽灵」。 他以极其敏锐的视角,捕捉到了AI进化的核心:RLVR(基于可验证奖励的强化学习)的崛起、Vibe Coding(氛围编码)的流行、以及那个令人深思的 哲学隐喻: 创造AI,我们到底是在制造一种新的物种,还是在召唤幽灵? 这一次让我们剥茧抽丝,深度解析Karpathy提到的每一个范式转移。 穿过技术术语的迷雾,直抵智能进化的本质,呈现一个真实、疯狂且充满「参差感」的AI-2025年。 第一章:RLVR革命 从「讨好人类」到「追求真理」 在2025年之前,训练一个大语言模型(LLM)的通常包含三道工序: 1. 预训练(Pre-training): 让模型阅读整个互联网,学会预测下一个token。这是「博学」的阶段 ...
Andrej Karpathy年度复盘:AI大模型正在演变成一种新型智能,今年出现6个关键拐点
华尔街见闻· 2025-12-20 04:41
文章核心观点 - 2025年是大型语言模型领域蓬勃发展的关键一年,出现了六个改变行业格局的“范式转变”拐点,揭示了LLM正在演变成一种全新的智能形态 [1][3] - LLM展现出独特的“锯齿状”智能特征,既是博学的天才,又像思维混乱的小学生,其潜力目前实现尚不足10%,预计未来将持续飞速进展 [1][3] - 从训练范式、智能形态到应用层、交互界面,LLM技术栈的各个层面均发生根本性变革,标志着AI应用进入新的发展阶段 [3] 技术范式转变 - **拐点一:基于可验证奖励的强化学习成为训练新阶段**:传统的LLM生产流程(预训练、指令微调、基于人类反馈的强化学习)被改变,基于可验证奖励的强化学习成为新阶段 [4][5] - RLVR通过在数学题、代码谜题等可自动验证的环境中训练,使LLM自发演化出类似“推理”的策略,如将问题拆解为中间步骤并掌握多种解决方法 [5] - 与指令微调和基于人类反馈的强化学习不同,RLVR针对客观且不可作弊的奖励函数,允许更长周期的优化,具有极高的“能力/成本比” [5] - 2025年大部分能力提升源于各实验室将原本用于预训练的算力转向消化RLVR这一新阶段的“算力积压” [5] - OpenAI o3的发布是真正的拐点,RLVR带来了通过增加“思考时间”来控制推理能力的新调节旋钮 [6] LLM智能形态认知 - **拐点二:“幽灵智能”展现锯齿状性能特征**:业界开始理解LLM是一种与生物智能完全不同的全新智能实体,其神经架构、训练数据、算法和优化压力均不同 [7] - LLM展现出“锯齿状”性能特征:在可验证领域附近能力“激增”,但整体表现极不均衡,既是博学天才,又可能被简单提示词破解 [3][7] - 这种现象导致对基准测试产生信任危机,因为基准测试本质是可验证环境,极易受到RLVR攻击,“面向测试集训练”成为新艺术形式 [7] 应用层与交互范式革新 - **拐点三:Cursor引领新一代LLM应用层崛起**:Cursor的成功揭示了“LLM应用”的全新层级,标志着垂直领域LLM应用的兴起 [8] - 此类LLM应用为特定垂直领域封装并编排LLM调用,核心功能包括处理上下文工程、编排多个LLM调用串联成复杂有向无环图、提供特定图形界面以及提供“自主程度调节滑块” [8] - LLM实验室倾向于培养通用能力的“大学生”,而LLM应用则通过提供私有数据、传感器、执行器和反馈闭环,将这些“大学生”组织成特定领域的专业从业者 [8] - **拐点四:Claude Code开创本地AI智能体新范式**:Claude Code成为LLM智能体的首次令人信服展示,它以循环方式串联工具调用和推理进行长时间问题解决,且运行在用户电脑上,使用私有环境、数据和上下文 [9] - 这种本地化、个性化的AI交互范式改变了AI的样貌,使其从被动访问的网站变为“住”在电脑里的灵体,强调了隐私保护和个性化体验的重要性 [9] - **拐点五:Vibe Coding让编程能力普及化**:2025年AI跨越关键能力阈值,使人们仅凭英语就能构建复杂程序,“Vibe Coding”概念的流行标志着编程门槛的彻底降低 [10] - 编程不再是专业人士专利,普通人从LLM中获益远超专业人士、企业和政府,代码变得免费、瞬时、可塑,用完即弃,将重塑软件生态并让创意实现的成本接近零 [11] - **拐点六:Nano Banana开启LLM图形界面时代**:谷歌Gemini Nano Banana被称为2025年最震撼、最具范式转移意义的模型,预示着LLM交互界面的根本变革 [12] - 文本并非人类偏好的信息消费格式,真正的“LLM GUI”需要以人类偏好的图像、信息图、幻灯片、白板、动画视频、网页应用等方式进行交流 [12] - Nano Banana的显著特征不仅是图像生成,更是文本生成、图像生成和世界知识在模型权重中的交织融合,提供了多模态融合能力的早期雏形 [12]
MiniMax 闫俊杰和罗永浩四小时访谈:走出中国AI的第三条路,大山并非不可翻越
36氪· 2025-12-11 08:11
当整个 AI 圈都在为 DAU(日活跃用户数)和融资额焦虑时,MiniMax 创始人闫俊杰却表现出一种近乎冷酷的淡漠。 坐在罗永浩对面的闫俊杰,并不像一位掌管着 AI 独角兽企业的技术新贵。 他拒绝谈论改变世界,反而坦承恐惧。那种恐惧不是来自商业竞争,而是来自技术本身——当模型的能力开始超越人类时,创造者反而成了最先感到不安 的人。 用 1/50 的筹码通往 AGI 在巨头环伺、算力短缺、热钱褪去的 2025 年,MiniMax 正在进行一场关于认知的修正:不再沿用移动互联网的逻辑,即通过大规模投放换取增长、通过 堆砌功能留住用户,而是回归本质: 把模型当作最重要的产品 。 在大模型时代,真正的产品其实是模型本身,传统意义上的产品更像是一个渠道。如果模型不够聪明,产品做得再好也没有用。 在罗永浩和闫俊杰这期对谈里,我发现 MiniMax 这家 AI 公司从创业第一天就选择了注定与主流背道而驰的技术路径。 当所有人都试图寻找中国的 OpenAI 和 Sam Altman 时,闫俊杰却在试图证明「非天才」的价值。MiniMax 的故事不是关于天才的灵光乍现,而是一场关 于如何在资源受限的缝隙中,通过极度理性地计算 ...
DeepSeek V3到V3.2的进化之路,一文看全
机器之心· 2025-12-08 04:27
DeepSeek模型系列技术演进 - 公司于2024年12月发布DeepSeek V3基础模型,随后推出基于相同架构的专用推理模型DeepSeek R1,使其成为最受欢迎的开放权重模型之一,成为OpenAI、Google、xAI和Anthropic等公司专有模型的有力替代方案[11] - 从DeepSeek V3到V3.2的演进过程中,公司模型策略从专用推理模型转向混合模型,V3.1和V3.2均为兼具通用聊天和推理能力的混合模型,而R1可能更多是作为研究项目或测试平台[25] - 公司于2025年9月发布实验性模型DeepSeek V3.2-Exp,旨在为更大规模的发布准备生态系统和推理基础设施,该模型引入了非标准的稀疏注意力变体,需要定制代码[17][18] - 2025年12月1日,公司发布新旗舰模型DeepSeek V3.2和DeepSeek V3.2-Speciale,与当前专有旗舰模型相比表现非常出色[5][103] 核心架构创新:注意力机制与效率提升 - DeepSeek V3基础模型采用了混合专家模型和多头潜在注意力架构,MLA通过在将键和值张量存储到KV缓存前将其压缩到低维空间来节省内存,虽然增加了一次额外的矩阵乘法,但显著减少了内存使用[29][31][32] - DeepSeek V3.2-Exp及V3.2的主要架构创新是DeepSeek稀疏注意力,该机制由Lightning Indexer和Token选择器组成,基于学习到的相关性分数选择性地关注部分过去的Token,而非所有Token或固定局部窗口[49][50][54][58][59] - DSA将注意力机制的计算复杂度从二次的O(L²)降低到了线性的O(Lk),其中L是序列长度,k是选定Token的数量,在减少性能衰减的同时实现了效率提升[66][67][68] - DeepSeek V3.2使用了与DeepSeek V3.2-Exp完全相同的架构,集成了MLA和DSA机制,主要动机是提高整体模型性能的同时,将计算效率视为巨大驱动因素[107][110] 训练方法演进:从RLVR到自我验证 - DeepSeek R1专注于“带可验证奖励的强化学习”方法以提高推理能力,其核心思想是让模型从可以进行符号化或编程验证的响应中学习,例如数学和代码[37][38] - RLVR流程使用了GRPO算法,这是“近端策略优化”算法的一个简化变体,GRPO取消了评论家模型,而带GRPO的RLVR进一步移除了奖励模型,转而依赖来自符号工具的可验证奖励[40][42] - 为改善常规RLVR的缺点,公司在DeepSeekMath V2中引入了自我验证与自我修正技术,开发了基于LLM的验证器和元验证器来对证明生成器的输出进行评分和检查,使验证器证明分析的平均质量得分从0.85提高到了0.96[76][77][83][86][89][90] - 在推理期间,公司使用单一模型同时执行证明生成和验证,这比运行第二个LLM进行证明验证增加了更少的复杂性和计算需求,通过多达8次的自我修正迭代,模型的准确性得到提高且尚未饱和[98][99][102] DeepSeek V3.2的具体训练改进 - DeepSeek V3.2采用了类似于DeepSeek R1的RLVR程序,但更新了奖励机制,对于推理和智能体任务采用基于规则的结果奖励、长度惩罚和语言一致性奖励,对于通用任务则采用生成式奖励模型[115][116] - 对于数学领域,公司整合了来自DeepSeekMath-V2的数据集和奖励方法[117] - 在GRPO算法本身,公司进行了一系列稳定性更新,包括:零梯度信号过滤、主动采样、Token级损失、无KL损失、更高裁剪阈值、截断重要性采样、无标准差归一化、特定领域的KL强度、无偏KL估计、异策略序列掩码、保留MoE模型的路由、保留top-p/top-k的采样掩码以及保留原始GRPO优势归一化[119][120][122] - DeepSeek V3.2-Speciale是V3.2的扩展思维变体,其在RL阶段仅在推理数据上进行训练,并减少了长度惩罚以允许模型输出更长的响应,这种推理扩展形式以生成长度增加为代价获得更好的结果[123][124] 模型性能表现 - DeepSeek V3.2在多项基准测试中与专有旗舰模型相比表现非常出色,在数学基准测试中获得了金牌级的表现,同时在训练时也考虑到了工具的使用,在其他任务上也表现良好[103][107] - 扩展思维变体DeepSeek V3.2-Speciale在多个基准测试中实现了更高的准确性,例如在AIME 2025基准上达到96.0,在HMMT Feb 2025基准上达到99.2,但同时也生成了更多的Token[127]
观察| 100万亿Tokens的:AI正在发生你看不见的巨变
未可知人工智能研究院· 2025-12-07 03:02
文章核心观点 - 基于OpenRouter平台超过100万亿tokens的真实使用数据,AI行业正在经历一场深刻的范式转变,其核心是从“工具”进化为“伙伴” [1][2][3] - 这场转变由两大技术革命驱动:“推理革命”使AI具备多步骤思考能力,“代理式AI”使AI能够自主规划并执行任务 [11][27] - 真实的用户行为和市场数据揭示了与实验室基准测试不同的竞争格局,开源模型(特别是中国的DeepSeek和Kimi)凭借成本、灵活性等综合优势正在强势崛起 [44][47] - 用户选择模型的标准日益多元化,模型“人设”(个性)和突破性能力对用户留存的影响,可能超过传统的性能基准分数 [88][96][100] - AI的应用场景已进入爆发期,正从创意写作和编程两大引擎,扩展到角色扮演等满足情感需求的领域,并深刻重塑普通人的工作、学习和娱乐方式 [69][71][80][121] 数据来源与重要性 - 报告数据来源于硅谷风投A16Z与OpenRouter联合发布的《State of AI: An Empirical 100 Trillion Token Study》,这是基于真实战场数据的首次大规模研究 [2] - 数据覆盖了OpenRouter平台上过去一年产生的超过100万亿tokens,涉及500万开发者、300多个AI模型及60多家提供商 [2] - OpenRouter被比喻为“AI世界的美团外卖”,连接了几乎所有主流AI模型,其数据的核心价值在于多样性,能够反映用户在公平平台上的真实选择 [5][7][8] - 从2024年初到2025年中,OpenRouter的年处理流量从约10万亿tokens增长至超过100万亿tokens,增幅达10倍,标志着AI应用从“尝鲜期”进入“爆发期” [8] - 作为对比,OpenAI官方API在2024年10月的日均处理量为8.6万亿tokens,而OpenRouter的日处理量已突破1万亿tokens [6] 推理革命 - 核心转变是AI从“接话机器”(一次性输出)进化为“思考机器”(多步骤思考),能够像人类一样分解问题、搜索信息并迭代优化 [13][16] - 标志性事件是OpenAI于2024年12月5日发布的o1推理模型,其特点是会进行内部推理,开启了“代理式推理”的新模式 [17][18] - 市场数据支持这一趋势:用户提示词长度显著增加、对话轮次增多,且专业推理模型的市场份额快速上升 [20][21][22] - 用户正用更复杂的任务“训练”AI,而能够胜任复杂任务的推理模型正在赢得市场 [23] - 这喻示着AI的角色从“计算器”(工具)进化为“工程师”(同事),实现了从工具到同事的跨越 [25][26] 代理式AI - 代理式AI改变了AI的“手脚”,使其从被动、单次、静态的问答,转变为主动、多步、动态的任务执行者 [27][29][30] - 例如,在分析财报时,代理式AI能主动搜索最新信息、下载文件、提取数据并生成分析报告,突破了传统模型数据过时的局限 [31][32][33] - A16Z报告指出,代理式推理是OpenRouter上增长最快的行为模式,表明开发者正在大规模构建能自主完成任务的AI代理应用 [34][35] - 这意味着用户期待从“给我一个答案”变为“帮我完成这件事”,AI的价值从“信息检索”升级到“任务执行” [35][36] - 竞争前沿随之改变,重点转向模型的编排能力、控制力和可靠性,而不仅仅是准确率,这要求AI公司构建全新的“模型调度系统”技术栈 [42][43] 开源模型的崛起与中国力量 - 真实使用数据挑战了“闭源模型碾压开源”的常识,显示开源模型,尤其是推理型开源模型正在快速抢占市场份额 [46][47] - 中国的DeepSeek R1和Kimi K2在报告中表现突出,成为开源逆袭的代表 [47] - DeepSeek R1凭借巨大的成本优势(调用成本可能低至GPT-4的十分之一)、不输闭源模型的推理能力以及开源可自部署的灵活性,获得开发者青睐 [51][52][53][54] - Kimi K2是一个万亿参数级的开源MoE模型,在长文本处理和推理任务上表现优异,发布后短时间内即获得显著市场份额 [56][57] - 开源逆袭的关键在于真实世界的“好用”不等于基准测试的“高分”,用户选择是成本、延迟、定制性、隐私及“人设”匹配度等综合权衡的结果 [59][65] - 这对中国AI产业意味着,在推理能力等新方向上与国际顶尖水平的差距正在缩小,开源路线结合成本优势和特定能力可以形成强大的市场竞争力 [67][75] 真实应用场景与用户行为 - 驱动token使用量的两大核心场景是创意写作和编程 [71] - 在编程场景中,代码生成、解释和debug是高频需求,AI的价值不仅在于“生产力”,更在于“理解力” [73][74] - 在创意写作中,AI主要作为“创意合伙人”与人类共创,而非完全替代 [77][78] - 角色扮演占据了相当大比例的使用量,这揭示了人类与AI交互中存在“情感连接”的维度,满足了陪伴、娱乐等需求 [80][81][82] - 全球使用模式存在地区差异,例如北美多用于专业工作,亚洲多用于学习和创意,欧洲更偏好隐私和开源模型,体现了AI应用的本地化特征 [84][88] 模型“人设”与用户选择 - 用户能感知到不同AI模型的独特“性格”,如GPT-4的博学严谨、Claude的细腻谨慎、Gemini的快速直接、DeepSeek的专注深入,这些构成了模型的“人设” [89][94] - 报告发现,某些在学术基准测试中表现一般的模型,却因“人设”受欢迎而拥有出色的用户留存率 [96][97] - 用户体验到的“突破性能力”(如卓越的代码、长文本、多模态或推理能力)能建立用户忠诚度,促使用户迁移并不再返回 [100][102] - 这对AI公司的启示是:不应只追求基准分数,而需打造差异化“人设”并在细分场景做到极致,同时突破性创新是建立护城河的关键 [103][104][105] 对中国AI产业的启示 - 积极信号:DeepSeek R1和Kimi K2在全球真实市场中站稳脚跟,证明中国开源推理模型已具备全球竞争力 [108][109][110] - 现存挑战:在开发者工具、生态集成及海外品牌认知方面,与国际领先者仍有差距 [112][116] - 重大机遇:“推理革命”和“代理式AI”是新赛道,中国公司在工程能力和丰富应用场景方面具有优势,存在弯道超车的机会窗口 [113][114][116] - 发展建议:聚焦推理和代理能力;采用“开源+商业”双轮驱动;重视开发者体验等软实力;打造差异化“人设”而非简单模仿 [115][117][118][119] 对普通人日常的影响 - 工作方式重构:AI正成为各行业从业者的必备技能,其价值在于将人从重复劳动中解放,聚焦于更高价值的洞察、创新与决策 [122][126] - 学习方式升级:AI能提供个性化、沉浸式的学习辅导,如实时答疑、语言对话、知识讲解,有助于消解教育资源不平等的问题 [127][131] - 娱乐方式扩展:AI创造了如角色扮演、互动小说等“主动共创”的新娱乐形态,超越了传统的被动观看 [132][134][135] - 需警惕的风险:包括对AI的依赖性可能导致独立思考能力退化、数据隐私问题、信息茧房效应以及AI生成内容的真假难辨 [136]
老外傻眼!明用英文提问,DeepSeek依然坚持中文思考
机器之心· 2025-12-03 08:30
DeepSeek模型新版本发布 - DeepSeek上新两个新模型DeepSeek-V3.2和DeepSeek-V3.2-Speciale [1] - V3.2版本推理能力能与GPT-5硬碰硬,Speciale结合长思考和定理证明能力表现媲美Gemini-3.0-Pro [1] - 海外研究者反馈DeepSeek推理速度显著提升 [1] 多语言推理效率研究 - 微软论文《EfficientXLang》发现使用非英语语言推理能减少Token消耗并保持准确性 [7] - 研究评估了DeepSeek R1、Qwen 2.5和Qwen 3模型在七种目标语言中的表现 [8] - 与英语相比,非英语语言推理能实现20-40%的Token降低,DeepSeek R1的token减少量从14.1%(俄语)到29.9%(西班牙语)不等 [11] - Qwen 3表现更显著,韩语的token减少量高达73% [11] 中文推理特性分析 - 海外用户发现即使用英文询问,DeepSeek在思考过程中仍会使用中文 [1] - 评论普遍认为汉字信息密度更高,表达相同含义所需字符量明显更少 [4][6] - 中文相比英文能够节省推理token成本,但并非最有效率语言 [12] 长上下文多语言性能比较 - OneRuler基准包含26种语言,用于评估LLM在长达128K令牌的上下文理解能力 [12] - 英语在长上下文任务中排名第6,波兰语位居榜首 [14] - 英语和中文均未进入长上下文性能排名前五的语言 [18] 训练数据对思考语言的影响 - 国产大模型采用更多中文训练语料,思考过程出现中文是正常现象 [20] - AI编程工具Cursor的Composer-1模型思考过程完全由中文构成 [21] - OpenAI的o1-pro模型也会随机出现中文思考过程 [25]
离开OpenAI后,苏茨克维1.5小时长谈:AGI最快5年实现
36氪· 2025-11-27 05:43
当前AI发展阶段的评估 - AI技术已实现但经济影响尚不显著,投资巨大但日常体验未发生根本改变[3] - 模型在评估测试中表现出色但实际应用效果和经济贡献存在明显滞后[4] - 模型能力存在"锯齿状"落差,常犯循环性低级错误,泛化能力差[5][6] AI模型训练与性能瓶颈 - 单纯堆数据与算力的"规模化"路径已见顶,预训练数据即将耗尽[5][17] - 强化学习训练使模型过于专注和狭隘,缺乏"意识"导致基础任务表现不佳[4] - 训练环境设计变量过多,可能无意中优化评估目标而忽视实际应用需求[6] - 模型像"应试专家",通过海量题目填鸭式训练成为答题高手但难以灵活应用知识[7] 价值函数与AI学习效率 - 价值函数被类比为AI的"情绪系统",可引导AI更高效、鲁棒地学习[5][14] - 价值函数能提供中间步骤反馈,加快学习过程,而非仅依赖最终结果评估[14] - 人类拥有内在价值感知,能快速自我纠正,而模型缺乏此类机制[25] - 情绪作为相对简单的价值函数机制,在进化中硬编码且至今有效服务人类[16] 行业发展阶段与范式转变 - 行业从2020-2025年的"规模化时代"回归到"研究时代",但拥有更强大计算资源[18] - 规模化"吸走了房间里的所有氧气",导致创新想法稀缺,公司数量远超新想法数量[28] - 强化学习正成为新的规模化目标,其计算投入可能已超过预训练[19] - 研究所需计算资源并非绝对最大规模,像Transformer最初仅在8-64个GPU上训练[29] SSI公司战略与差异化 - SSI已筹集30亿美元资金,专注于研究"直通超级智能"路径[5][30] - 公司不急于商业化,专注研究,与其他公司将资源用于推理和产品开发形成对比[30][32] - 采用不同的技术方法,主要区别在于技术路径,认为最终策略会逐渐收敛[52][53] - 计划可能调整,考虑渐进式部署,让AI在全球发挥作用并影响世界[33][34] 泛化能力与样本效率 - 模型泛化能力远差于人类,是当前最根本的问题之一[20][21] - 人类样本效率高可能与进化赋予的视觉、听觉和运动等先验知识有关[21][22] - 人类在语言、数学和编程领域的学习优势表明存在更高效的基础学习机制[23] - 人类学习更具无监督特性,所需数据样本少,过程更灵活和鲁棒[24][25] 超级智能发展路径与影响 - 人类级别AGI预计在5到20年内实现[5][55] - 超级智能可能表现为"超级智能的15岁少年",非常聪明但知识有限,通过部署持续学习[36] - 达到关键点后,广泛部署将引发快速经济增长,不同国家政策将导致增长差异[37][38] - 可能出现多个超级智能体,而非单一系统,形成专业化分工[58][59] AI对齐与安全策略 - 倡导构建"关心有情生命的AI",认为这比对仅关心人类更为稳健[41][45] - 随着AI能力提升,行业处理安全问题的方式将发生变化,公司会变得更加警觉[40][41] - 对齐策略最终会趋同,包括可靠沟通、确保最早超级智能是对齐的等目标[53][57] - 长期均衡可能通过人类与AI融合实现,例如通过改进版Neuralink成为半AI生物[47] 模型多样化与自我博弈 - 当前模型同质化严重,主要因预训练数据相似,强化学习是分化开始[61][62] - 自我博弈可通过计算而非数据创建模型,激励方法多样性[62][63] - 智能体间竞争自然促使差异化思考,是打破"模型同质化"的路径之一[5][63] - 完全复制相同思维收益递减,真正需要的是具有不同想法的智能体[60] 研究方法与理念 - 好研究应兼具简洁、优雅与对大脑机制的正确借鉴[5][64] - 研究需要"自上而下的信念",在实验结果与信念相悖时坚持方向[66] - AI应该具有特定"美学",思考人类本质但必须以正确方式理解[64] - 分布式表示、从经验中学习等概念受到大脑运作方式的启发[65]
杨植麟走出雪山了吗?
36氪· 2025-11-26 11:28
融资与估值动态 - 月之暗面正与IDG资本、腾讯等投资方洽谈新一轮约6亿美元融资,公司估值将推高至38–40亿美元,预计年底前完成交割[1] - 月之暗面在不到两年内完成估值从3亿到40亿美元的跃迁,2023年10月获近20亿元投资,2024年初完成由阿里等参与的10亿美元融资,投后估值约25亿美元[2] - “AI六小龙”2023年合计拿下超过60亿元人民币融资[2] - 竞争对手MiniMax在2025年9月迎来一轮约3亿美元新融资,估值同样突破40亿美元[4] - 竞争对手智谱在2025年7月拿下成立以来第16笔融资,并进入A股上市辅导流程[4] 行业竞争格局演变 - 字节跳动最近一轮场外股权交易估值已接近5000亿美元,百度、阿里在AI战略加码下股价冲高,后者美港股涨幅均超过六成[4] - 国际对比方面,Anthropic在2025年完成35亿美元融资后估值直冲约615亿美元[5] - 2025年初DeepSeek横空出世,成为洗牌业态重要触发点,对主营C端业务的Kimi造成最大冲击[6] - 大厂高调在原生AI领域攻城略地,豆包在三季度月活达到1.72亿,反超DeepSeek夺回C端AI榜首,腾讯元宝领跑第二阵营,Kimi月活为967万,位列第五[7][8] - DeepSeek与字节掀起“厘时代”价格战,将主流大模型API输入价格压到每千tokens 0.5–0.8厘,Kimi被迫跟进降价[23] 公司战略与业务调整 - “AI六小龙”打法出现转向趋势,越来越强调开源+To B,配合行业方案、私有化部署,从“通用大模型厂”转变为提供模型、工具和解决方案的基础设施公司[11][12] - 月之暗面是“六小龙”中在“大厂打法”路上坚持最久的一家,坚守基座模型优先的技术路径[13] - 2024年Kimi靠“长文本处理”差异化定位一度冲进原生AI App前三,但DeepSeek出现后,月之暗面决定大幅收缩产品投放预算[15][16] - 月之暗面开始更认真思考“垂直方向”,在“AI+医疗”方向展开布局,优化财经、法律、医学等专业领域的搜索信源质量[16] - 月之暗面推出会员订阅计划,海外分19美元、39美元、199美元三档,国内分49/99/199元三档,预期一年内通过C端市场实现约1亿美元收入[19] 技术研发与产品进展 - 月之暗面成为“六小龙”中为数不多坚持迭代超大参数模型的选手,推出万亿级别参数K2、K2 Thinking,押注长上下文、推理和Agent架构[17][18] - K2系列在数个公开基准测试中取得优异成绩,在“BrowseComp”测评中得分甚至超过GPT-5[18] - 月之暗面2023年营收约为2.1亿元人民币,主要来自企业API调用和定制化解决方案,C端订阅与打赏贡献极为有限[19] 创始人视角与行业挑战 - 月之暗面创始人杨植麟被视为“技术+理想主义代表”,认为大模型公司的竞争“首先是一场残酷的金钱角力”[20] - 在DeepSeek进入大众视野后,杨植麟在AI创业圈占据的“技术明星C位”注意力被部分转移[23] - AI六小龙的叙事正从“谁最像OpenAI”转向“谁能最先跑出一条可复制的盈利路径”[24] - 月之暗面所依赖的长上下文、MoE架构与复杂推理能力,是一条成本极高的赛道,尤其在降价潮和算力成本双重压力下[24]
llya最新判断:Scaling Laws逼近极限,AI暴力美学终结
36氪· 2025-11-26 08:46
AI行业技术路径转向 - 规模化法则正在接近极限,强化学习的算力消耗巨大但并不能算作真正的扩展,扩展与浪费算力之间的界线变得模糊[1] - 行业正在从"规模驱动"重新回到"研究驱动",科研需要正确的问题和新的方法而非绝对最多的算力[2] - 预训练提供了一套可复用配方:准备足够的数据、算力和能撑住规模的模型结构,性能就会持续上升,但预训练终究会耗尽数据[27] 模型性能与泛化能力 - 当前模型在评估中表现出色但经济影响滞后,存在评估性能与实际现实世界性能之间的脱节[11] - 模型更像投入一万小时练习的算法竞赛选手,虽然训练良好但未必能推广到其他领域[14][15] - 人类学习速度快不是因为预装大量知识,而是因为进化内置了强大的通用学习机制[3][33] - 人类样本效率高的可能解释是进化赋予了我们少量但最有用的信息,对于视觉、听觉和运动能力有强大的先验[33] 公司战略与竞争格局 - 即使创新放缓,各公司依旧会取得显著进展并获得高额收入,差异化可能变得更难但"停滞"并不意味着"衰落"[2] - 规模化扼杀了所有创新空间,导致每个人都开始做同样的事情,公司数量远超创意数量[39] - SSI已经筹集了30亿美元,真正区别在于算力使用方式而非绝对规模,资源需要集中投入重要方向[42][44] - 随着人工智能能力提升,公司在战略协调方面会趋同,OpenAI和Anthropic已经在AI安全方面合作[63][78] 超级智能与社会影响 - 当AI足够强时,许多今天不存在的社会行为会出现,可能带来"全民高收入"并极大提升生产力[3][70] - 真正的风险在于人类可能逐渐从参与者变成旁观者,保持主体性的答案是与AI建立更深层耦合[3][71] - 超级智能最令人担忧的不是意图而是力量,即便目标是善意的,人类仍可能不喜欢实现目标的方式[3][67] - 如果模型被限定在某些领域,它们一样可以极其强大,可以拥有许多功能狭窄的超级智能[3][80] 技术方法与研究重点 - 价值函数能够提高强化学习效率,让系统在中途就能发出预警而不是等到终局才知道失败[22][31] - 预训练的主要优势是数据量庞大且无需费心考虑应该使用哪些数据,试图捕捉人们将世界投射到文本的过程[16] - 研究品味来自对简单而清晰信念的坚持,人工智能应该符合大脑的本质结构但要以正确方式理解大脑[4] - 自博弈提供了一种仅使用计算资源而无需数据即可创建模型的方法,如果数据是最终瓶颈则非常有趣[83] 学习机制与进化启示 - 人类的价值判断情感是演化出来的底层代码,这种情感关键点是社会中正常运转的基石[24] - 进化赋予了我们高度抽象的社交欲望,让我们强烈在意别人看法并渴望获得社会认可,尽管这些现象从进化时间尺度看极其新近[72] - 人类具备一种对"好"与"坏"的内在感知能力,这种普遍感知在人类身上极其强大且稳定可靠[36] - 五岁孩子接触到的信息量非常有限,但认知能力已经足以胜任某些工作,表明人类拥有强大的通用学习机制[33]