Workflow
Scaling Law
icon
搜索文档
2026年A股策略展望:“小登”月时代,牛途仍在
国信证券· 2025-11-13 12:03
核心观点 - 始于2024年“924”行情的牛市尚未结束,当前正进入以基本面为驱动力的第二阶段 [1] - 全年维度看,科技是核心主线,演绎路径从算力转向应用 [1] - 牛市中期存在风格轮动,可阶段性关注前期滞涨的地产、券商、白酒消费板块,红利资产仍具底仓配置价值 [1] 牛市阶段与驱动力 - 完整牛市分为孕育期、爆发期和疯狂期三个阶段,当前市场处于与1999年“519”行情相似的爆发期 [11] - 市场驱动力已从政策预期和估值修复的第一阶段,转向基本面和估值双击的第二阶段 [11] - 企业基本面呈现改善迹象,全A非金融ROE预期小幅上修,中报ROE企稳,三季报向上,利润率与周转率开启修复 [19] - 全A合同负债同比已连续修复一年,预计2026年部分行业将进行有序补库扩产,驱动盈利韧性继续向上 [19] 市场估值与结构 - 当前市场估值结构健康,未出现整体过热,5倍以上PB个股不足18%,远低于2015年6月时近六成的占比 [21] - 当前三年PB 75%分位数个股占比约为50%,显著低于2015年向上冲破4000点和向下跌回4000点时的80%+水平 [21] - 市场分化显著,“小登资产”(代表新兴科技)表现碾压“老登资产”(代表传统行业),2025年以来“小登股”组合上涨189%,“老登股”仅上涨2% [30] 流动性环境 - 国内微观流动性有支撑,“存款搬家”趋势延续,新增个人存款与新增M2的比值在2025年9月已回落至0.58 [35] - 随着高息环境下的中长期定存、大额存单陆续到期,部分资金可能重新配置于收益率更高的资产,加速“存款搬家”进程 [35] - 入市意愿指标温和回升,2025年1-9月新增开户数均值维持在224万户左右,三大炒股APP下载量之和在2025年10月为97.07万,仅为2024年10月高点(303.77万)的32% [39] - 海外方面,美国中期选举存在变数,预防式降息下半场有望驱动全球资金流向新兴市场风险资产 [1] 科技主线的产业逻辑 - 历史上每轮牛市均有明确主线,本轮为科技,由AI产业浪潮驱动,15只千亿科技标的贡献全A 10%的涨幅 [2] - 中美两国引领AI产业发展,呈现美国“深度优先”、中国“广度优先”的特征,中国在AI领域论文总量领先,美国则在“高影响力”研究方面领先 [68] - 中国科技型企业成立平均年限仅为美国一半,多数处于成长期,利润率提升空间充足,SPX成份股中前100家市值最大的美国科技股整体ROE为25.8%,比非科技股高近一倍 [68] - “十五五”规划开局年,政策聚焦培育壮大新兴产业和未来产业,科技自立中长期逻辑明确 [79] 科技趋势:从算力到应用 - Scaling Law持续印证算力需求,谷歌月token处理量从5月的480万亿翻倍至9月的超过1300万亿个 [89] - 大厂资本开支指引乐观,Google、Meta在2025年10月进一步上调资本开支,全年指引分别达到910-930亿美元和700-720亿美元 [90] - 产业重心从训练转向推理,AI Agent成为新驱动,预计2030年AI Agent市场规模将增长至471亿美元,为2024年的近十倍 [89] - 2025年上半年,全球生成式AI应用下载量接近17亿次,API收入高达19亿美元,用户日均会话数达到7.8次,较2024年增长37% [96] 五大AI应用投资机遇 - **AI眼镜**:预计2026年全球销量突破1000万副,至2029年全球市场规模突破1000亿元,有望复刻TWS发展轨迹 [98] - **机器人**:Figure发布新一代人形机器人Figure 03,具身智能迎来“GPT-2”时刻,国内具备成本优势的供应商有望受益 [108] - **智能驾驶**:中国智能汽车渗透率上升至57%+,L2及以上级别智驾在10万以下车型中实现突破,大模型在智驾领域应用空间广阔 [113] - **AI编程**:AI编程工具ARR在2025年加速明显,以“Agent”为基准的开发模式兴起,“人人皆可码”愿景可期 [120] - **AI+生命科学**:AI智能体可优化约75%-85%的现有生命科学工作流程,预计未来3-5年内为制药企业带来5%-13%的收入增长,并提升EBITDA 3.4-5.4个百分点 [124] 主线之外的配置机会 - 牛市中期往往出现风格轮动,可阶段性关注白酒(低估值、高股息)、券商(成交放量、业绩高增)、地产(股价领先基本面)等前期滞涨板块 [2] - 上述板块筹码拥挤度较低,地产券商主动偏股基金低配,白酒超配不足1.2个百分点 [133] - 红利资产具备穿越熊牛周期的属性,在金融资产荒背景下,其股息率能跑赢存量房贷利率,是居民“风险厌恶仓位”的重要出口 [137][142] - 长期看,红利资产夏普比率大于0.6,年度胜率超75%,在全A涨幅20%以下的年份胜率接近九成,长期回报不依赖估值扩张 [137][142]
2026年A股策略展望:“小登”时代,牛途仍在
国信证券· 2025-11-13 09:23
核心观点 - 始于2024年“924”行情的牛市尚未结束,当前已进入以基本面为驱动力的第二阶段 [1] - 2026年全年维度,科技是核心主线,投资演绎路径将从算力转向应用 [1] - 牛市中期存在风格轮动,可阶段性关注前期滞涨的地产、券商、白酒消费板块,红利资产在金融资产荒背景下仍具底仓配置价值 [1][2] 牛市阶段与驱动力分析 - 完整牛市包含孕育期、爆发期和疯狂期三阶段,本轮牛市与1999年“519”行情相似,目前处于爆发期 [1][11] - 市场驱动力已从政策预期和估值修复的第一阶段,转向基本面和估值双击的第二阶段 [11] - 上市企业ROE稳步回升,合同负债同比已连续修复一年,盈利预期持续上修 [1][19] - 当前市场估值结构健康,未出现整体过热,5倍以上PB个股不足18%,远低于2015年同期的近六成水平 [21] 市场结构与流动性 - 市场结构性分化显著,“小登资产”(科技成长)表现碾压“老登资产”(传统行业),2025年以来“小登股”组合上涨189%,“老登股”仅上涨2% [30] - 微观流动性仍有支撑:国内“存款搬家”趋势延续,新增个人存款与新增M2比值在2025年9月已回落至0.58;海外美联储预防式降息下半场有望驱动全球资金流向新兴市场风险资产 [1][35][47] - 入市意愿指标温和回升但远未达峰值,2025年1-9月新增开户数均值维持在224万户左右,三大炒股APP下载量之和仅为2024年10月高点的32% [39] 科技主线的产业逻辑与机遇 - 历史上每轮牛市均有明确主线,本轮为AI浪潮驱动的科技主线,“924”以来15只千亿科技标的贡献全A 10%涨幅 [2][57] - 中美两国引领AI产业,中国侧重应用广度,美国侧重技术深度,中国三分之一以上的硬科技企业仍处于成长期,利润率提升空间充足 [2][68] - 产业大趋势明确,Scaling Law持续印证,谷歌月token处理量从5月的480万亿翻倍至9月的超过1300万亿个,大厂资本开支指引乐观 [87][90] - 投资重点从算力转向应用,重点关注五大方向:AI眼镜(预计2029年全球市场规模突破1000亿元)、机器人、智能驾驶(中国L2及以上渗透率已达57%+)、AI编程、AI+生命科学(预计为制药企业带来5%-13%收入增长) [87][98][108][113][120][124] 阶段性配置机会与红利资产 - 借鉴历史,牛市中期市场风格或出现再平衡,可阶段性关注白酒(股息率一度重回4%+)、券商(受益成交放量,Q2、Q3业绩持续修复)、地产(股价领先基本面,估值低) [2][128][133] - 红利资产具备穿越牛熊的属性,长期风险收益比占优,夏普率大于0.6,在金融资产荒背景下,其股息率跑赢存量房贷利率,是居民“风险厌恶仓位”的重要出口 [137][142] - 红利资产相对成长风格,长期回报更依赖盈利贡献而非估值扩张,配置上讲求“久久为功” [142]
宇宙尺度压缩:Scaling Law的边界,柏拉图表征收敛于物质和信息交汇,解决P与NP问题,Simulation假说……
AI科技大本营· 2025-11-13 05:59
科学多任务学习的突破 - 超对称公司在BigBang-Proton项目中成功实现了跨尺度、跨结构的科学多任务学习,验证了高度异质的数据集(如夸克衰变、材料结构、DNA序列、股价等)可以在正确的表征和架构上收敛[1][4] - 该进展突破了传统观点,即认为多学科数据差异过大无法一起训练,预示了跨学科数据在高维潜在空间中可产生迁移学习,为将宇宙视为统一实体进行训练扫清了障碍[2][4] - 公司将算术运算能力作为科学多任务学习的核心,因为实验结果主要呈数值形式,这一科研范式融合了还原论和涌现论[4] Scaling Law的扩展与柏拉图表征 - BigBang-Proton的预训练能够平滑收敛,表明大语言模型的Scaling Law可超越语言范畴,延伸至物理世界[5] - 研究引用了柏拉图表征假说,认为不同AI模型的表征空间会收敛到一个对现实映射的相近统计结果,而物质世界构成了这一理想化现实[6] - 公司提出预训练的极限是宇宙本身的极限,在整个宇宙历史和人类文明数据上预训练的单一模型将收敛到大爆炸时刻的基本物理定律及信息与物质的交汇点[7] 宇宙尺度压缩的构想与理论基础 - 公司提出宇宙尺度压缩构想,旨在将宇宙作为一个完整整体进行预训练,其收敛目标为基本物理定律[1][9] - 理论指出,在人类文明完整数据上训练的模型倾向于收敛到基本自然定律,而在宇宙演化数据上训练的模型倾向于收敛到基本物理定律[9] - 热力学熵与信息熵的相互转换以及流形假设为理解跨领域表征迁移提供了框架,宇宙尺度预训练中的低维结构可能收敛到基本的宇宙流形,并与全息原理一致[10][14] 物理前沿理论与技术实践 - 理论基础包括约翰·惠勒的"It from Bit"、贝肯斯坦边界和全息原理,指出在普朗克尺度下时空维度可能减缩,物质与信息可互相转换[15] - 宇宙尺度压缩是对"计算宇宙"和"模拟假说"的一次实践,通过自回归LLM对物质世界进行压缩,为模拟戴森球或近地轨道工业等远期目标提供了可行性[16] - 根据计算,宇宙最多可容纳约10^90比特的信息,在施加完整物理定律约束后,条件柯尔莫哥洛夫复杂度会急剧降低,LLM预训练扩展至宇宙尺度可能匹配宇宙的复杂性[19][20][21][23][24] 技术路径与潜在应用 - 宇宙尺度压缩计划包括建立统一的时空框架、整合所有科学理论和实验数据、以及从重子组分中重建地球和人类文明[25] - BigBang-Proton的创新方法论为此提供了支持,包括二进制块编码、理论-实验学习范式和Monte Carlo Attention机制,后者可提供与宇宙中重子数量相当的上下文长度[25] - 公司提出假设,仅通过"下一个词预测"即可从微观粒子尺度重建宇宙中的任何物理结构,并计划在单一BigBang模型中模拟大爆炸核合成、量子材料、虚拟细胞系统乃至机器人技术和飞机等复杂物理结构[28] - 该方法有望将具身智能的高精度环境与决策能力整合在同一隐空间,并可从原子尺度加速复杂装备(如飞机、汽车)的设计、生产和迭代[28]
「紫荆智康」获近亿元天使轮融资,加速AI医院系统开发及落地 | 早起看早期
36氪· 2025-11-11 00:10
公司概况与融资信息 - 紫荆智康于2024年9月由清华大学智能产业研究院孵化成立,由清华大学计算机系教授刘洋发起 [2] - 公司近期完成近亿元天使轮融资,由星连资本领投,英诺天使和尚势资本跟投,资金将主要用于紫荆AI医院系统的研发、迭代与升级 [2] - 公司此前曾获得清智资本的种子轮投资 [2] 核心技术:AI医院系统 - 公司核心产品为紫荆AI医院系统,其核心逻辑是通过模拟真实医院的设施和流程,构建超拟人、广分布、多样化的AI患者,以解决训练数据需求 [2] - 系统旨在开发具备自我进化功能的AI医生,为用户提供便捷、低廉、优质的医疗服务,并构建诊前、诊中、诊后的全周期健康管理闭环 [2] - 公司通过“大模型+医学知识库+少量病例库样例”的方式,利用多步逆采样技术自动合成病例,并将合成病例转化为AI虚拟患者 [3] - 目前已构建超50万个AI患者,覆盖不同国家、年龄段与疾病类型,作为训练AI医生的重要补充路径 [3] - 公司设计了特定的记忆与反思算法机制,使AI医生能在问诊闭环中积累“经验”,实现“自进化”能力 [5] - 实验表明,AI医生的能力进化曲线符合规模定律,诊治的AI患者数量越多,能力越强 [5] - 公司研制的42位AI医生在国际权威MedQA数据集上的准确率超过96%,已超过人类医生平均水平 [5] 产品功能与进展 - 紫荆AI医院系统已于2025年6月30日发布,并于2025年8月在清华大学医院全科、呼吸内科等科室开展线下门诊功能内部测试 [6] - 系统设置了患者端APP、医生端工作站和医院系统三个端口,以实现全周期闭环管理 [5] - 诊前功能包括线上挂号和AI机器人智能预问诊、生成结构化病历 [5] - 诊中功能为医生提供结构化病历以节省时间,AI医生会给出检查、诊断等建议 [5] - 诊后功能包括健康档案管理、AI健康咨询、体检报告解读和基于时间线的健康建议 [5] - 公司计划于2025年底开展系统公开测试,测试范围将从北京扩展至全国更多城市,涵盖不同等级、体量的医院及更多科室和场景 [4][6] 行业背景与政策环境 - AI赋能医疗领域长期面临数据资产合规性、产品商业化落地等痛点 [2] - 2025年10月,国家卫健委等五部门印发促进“人工智能+医疗卫生”应用发展的实施意见,紫荆AI医院系统与该文件精神高度契合 [6]
史上规模最庞大、最多元的真实世界操作数据集!具身领域的Scaling Law来了~
具身智能之心· 2025-11-09 14:08
文章核心观点 - GEN-0是一种新型具身基础模型,专为直接基于高保真原始物理交互进行多模态训练构建,其能力随真实物理世界交互数据实现可预测的持续增长 [5][6][9] 模型架构与核心特性 - 架构继承视觉语言模型优势并实现突破,原生设计可捕捉人类级条件反射与物理常识 [5] - 核心特性"谐波推理"使模型接受同步思维与行动的无缝训练,在异步连续时序的感知与行动标记流之间建立谐波互锁 [5][6] - 架构原生支持不同机器人平台,已在6自由度、7自由度及16+自由度半人形机器人完成验证 [6] 规模化能力与扩展定律 - 在机器人领域海量数据环境中,观察到70亿参数临界点出现相变,较小模型呈现固化态势,而更大模型持续提升 [6][11] - GEN-0已扩展至100亿+参数规模,并展现出用越来越少训后数据快速适应新任务的能力 [6] - 模型展现出强扩展定律,更多预训练数据与算力持续且可预测地提升模型在多任务中的训后表现 [6][17] - 预训练数据规模与下游微调性能之间存在显著幂律关系,增加预训练数据能系统性地提升所有下游任务的模型性能 [18][20] 关键性能发现 - 70亿以上参数模型能够内化大规模机器人预训练数据,仅需数千步微调即可将知识迁移至下游任务 [15] - 60亿参数模型开始从预训练中获益,展现出强大的多任务处理能力 [15] - 10亿参数模型在预训练阶段难以消化复杂多元的感觉运动数据,模型权重随时间推移逐渐丧失吸收新信息的能力 [15] 数据规模与基础设施 - GEN-0基于超27万小时真实世界异构操控数据进行预训练 [6][22] - 数据集正以每周1万小时的速度持续扩张且不断加速,由覆盖全球的硬件网络及数千台数据采集设备与机器人共同驱动 [6][22] - 公司正在构建史上规模最庞大、最多元的真实世界操作数据集,涵盖人类能设想的所有操作任务 [24]
BigBang-Proton: 自回归基座模型统一语言、科学和物质世界
36氪· 2025-11-06 10:58
文章核心观点 - 超对称公司发布的新版基座模型 BigBang-Proton 挑战了以 OpenAI 为代表的主流 AGI 技术路线,其成果表明大语言模型(LLM)可以通过统一预训练和推理直接执行如 Alphafold 等横跨微观到宏观的专业科学任务 [1] - 公司提出物质结构学习是实现 AGI 的必备要素,并基于 BigBang-Proton 的实验结果,提出了“宇宙尺度压缩”的构想,认为 LLM 的预训练边界将扩展至全宇宙 [4][5][80] 技术路线与行业观点 - 当前主流 AGI 技术路线(如 GPT-5 和 DeepSeek R1 的长程思维链)在理解真实物质结构上遭遇完全失败,说明仅依赖长程思维链不可能实现 AGI [2] - 与主流通用 LLM 依赖互联网自然语言数据或世界模型从图像入手的路线不同,超对称公司提出了第三种路线:从物质结构学习入手,让 LLM 的预训练进入物质世界,构建超长上下文的世界模型 [4] - 公司认为 LLM 预训练会一直扩展到全宇宙,其终极目标是将全宇宙的信息转为超长序列压缩到一个单一基座上,成为所有 AI 分支任务的基座 [5] BigBang-Proton 的根本性创新 - **创新一:二进制块编码**:彻底抛弃传统的分词器(如 BPE),将所有输入(文本、代码、科学数据)统一视为最原始的二进制序列进行处理,解决了主流 LLM 因 BPE 导致的数值分析缺陷 [7][9][11] - **创新二:理论-实验学习范式**:建立混合表示,将数值型实验数据直接与文本描述对齐,类似于为科学实验数据配“理论描述标题”,覆盖90%以上的实验科研任务 [12][15][17] - **创新三:蒙特卡罗注意力机制**:替代传统 Transformer 注意力机制,通过分块代表交流机制,使模型的有效上下文长度随注意力层数指数级增长,20层即可实现 10^30 字节的上下文容量 [16][19][20] 模型性能表现 - **算术运算**:在50位数加法、减法和乘法上,BigBang-Proton 准确率分别为100%、98%和90%,远高于 DeepSeek-R1(19.23%、11.63%、9.68%)和 ChatGPT-o1(3.85%、6.98%、3.23%)[31][35] - **粒子喷注分类**:在11类分类任务中达到51.29%的准确率,与专用SOTA模型(Particle Transformer 的56.69%)差距仅4-5%,而主流通用LLMs(如GPT-5为16.4%)表现接近随机猜测水平 [40][42][44] - **材料原子间势能模拟**:在形成能预测任务中平均绝对误差为0.043 eV/atom,在Matbench榜单排名第11位,优于部分专用机器学习方法,而主流LLMs(如GPT-5 MAE为29.279 eV)误差巨大不可用 [46][52][55] - **湖泊水质预测**:在叶绿素-a浓度预测中实现0.58 μg/L的MAE和0.098的MAPE,达到与行业领先机器学习时序预测模型竞争的水平 [56][57][59] - **DNA/RNA/蛋白质联合建模**:以1.5B参数和Evo模型三分之一的训练数据量,在基因序列预测困惑度(PPL=2.8)和多个下游任务(如预测突变对蛋白质功能影响,斯皮尔曼相关系数0.785)上全面超过SOTA生物基座模型Evo [61][67][72] 行业影响与应用前景 - 公司正与中国高能物理所、合肥科学岛强磁场中心、南京大学、上海交大等机构合作,将BigBang-Proton应用于粒子对撞、核聚变装置诊断、高温超导原理攻关、高熵材料开发等前沿科学领域 [84] - 模型在虚拟细胞建模、地球系统压缩以及复现飞机、汽车等复杂人造物质结构方面展现出潜力,为具身智能和生产制造快速迭代提供了全新的技术基础 [85]
具身智能一步踏入Scaling Law!10B+基础模型,27万小时真实数据
机器之心· 2025-11-05 06:30
GEN-0模型核心特性 - 专为在高保真度原始物理交互数据上进行多模态训练而构建,参数量可达100亿以上[3] - 原生设计旨在捕捉人类水平的反应和物理常识[4] - 具备核心特性“和谐推理”,使模型能无缝地同时“思考”和“行动”[5] - 架构通过设计使其适用于不同的机器人,已在6自由度、7自由度和16+自由度的半人形机器人上成功测试[6] 超越智能阈值与相变现象 - 在70亿参数规模上观察到“相变”,较小模型出现“固化”现象,而较大模型持续改进[6] - 10亿参数模型在预训练期间难以吸收复杂数据,模型权重无法吸收新信息[11] - 60亿参数模型开始从预训练中受益,显示出强大的多任务能力[11] - 70亿以上参数模型能够内化大规模预训练数据,仅需几千步后训练就能迁移到下游任务[11] - 物理世界中的智能在算力方面可能有更高的激活阈值[14] 机器人模型的Scaling Law - 模型展现出强大的Scaling Law,更多预训练数据和算力可持续提高下游任务性能[6] - 预训练数据规模与下游后训练性能之间存在很强的幂律关系[16] - 在预训练数据集不同子集上训练的模型,在16个不同任务集上进行后训练,更多预训练提高了所有任务的下游模型性能[17] - Scaling Law可用于预测达到特定性能水平所需的预训练数据量[18] 数据规模与基础设施 - 预训练数据集包含超过27万小时的真实世界多样化操作数据[6] - 机器人数据运营每周能提供超过1万小时的新数据,并且仍在加速[23] - 构建了定制硬件、数据加载器和网络基础设施,以支持全球数据收集站点的上行带宽[31] - 使用前沿视频基础模型的数据加载技术,每训练一天就能吸收685年的真实世界操作经验[31] 预训练数据科学 - 数据质量和多样性比纯粹的数量更重要,精心构建的数据混合可带来不同特性的预训练模型[33] - 同时具有低预测误差和低逆KL散度的模型在后训练监督微调时表现更好[33] - 拥有多种规模化数据收集策略,可进行A/B测试以确定对预训练提升最大的数据[33] 行业影响与能力展示 - GEN-0标志着一个新时代的开始,具身基础模型能力可通过真实世界物理交互数据进行可预测扩展[8] - 模型成功完成长周期灵巧任务,如组装相机套件,涉及多个步骤且在单一“和谐推理”流程中完成[8] - 公司正在构建有史以来最大、最多样化的真实世界操作数据集,涵盖家庭、仓库、工厂等多种环境[28]
视觉生成的另一条路:Infinity 自回归架构的原理与实践
AI前线· 2025-10-31 05:42
视觉自回归模型的技术原理与优势 - 视觉自回归模型采用“由粗到细”的多尺度生成思路,从低分辨率开始逐级放大补全细节,更贴近图像物理属性和人类感知直觉 [12] - 模型通过金字塔式层级结构的改进版VQ-VAE将图像编码为一系列逐级放大的特征残差,残差设计使每级只需补全上级未刻画信息 [15] - 专用Transformer架构支持并行预测整片token,将迭代次数压缩至传统逐点方式的十分之一,显著提升效率 [15] Infinity框架的核心技术创新 - 放弃传统VQ码本改用符号量化技术,对特征激活按正负号压成±1形成1-bit表示,词表大小随通道数指数增长至2^32 [31] - 采用逐位预测机制将token拆分为逐通道二元分类,参数量从100B降至可接受范围,并对微小扰动具有天然鲁棒性 [33] - 引入位级自校正技术,在训练和推理阶段量化回传预测结果,使网络学会纠正前一步错误,显著抑制误差累积 [35] 性能表现与缩放定律验证 - 在ImageNet基准测试中VAR模型首次在生成质量上超越DiT,FID指标达到1.73(VAR-d30-re模型)[18][20] - 模型展现出清晰稳健的缩放曲线,性能随参数增加按幂律提升,2B参数Infinity在1024×1024分辨率下仅需0.8秒生成速度 [18][46] - 大模型在大词表配置下表现更优,当参数规模扩大时2^32词表性能反超2^16词表,验证缩放定律可靠性 [41] 与扩散模型的技术对比 - 扩散模型在单一分辨率上逐步去噪,训练推理步数开销大但误差可被后续步骤修正 [21][27] - 视觉自回归训练并行度高,所有尺度可一次输入网络,不像DiT需按时间步拆分多次前向计算 [27] - Infinity方案在1024×1024分辨率实现与DiT可比的FID指标,支持任意长宽比且推理速度比同量级DiT快3.7倍 [37][46] 行业应用前景 - 视觉自回归路线已从类别生成扩展至通用文本到图像生成,在高分辨率任务中具备与扩散模型正面竞争的能力 [49] - 后训练阶段采用DPO对齐技术可进一步提升画质和细节,表明对齐工作同样适用于VAR框架 [44] - 该技术路线在视频生成领域同样保持明显优势,为多模态AI应用提供新路径 [46]
SemiAnalysis 创始人解析万亿美元 AI 竞争:算力是 AI 世界的货币,Nvidia 是“中央银行”
海外独角兽· 2025-10-22 12:04
AI行业格局与资本流动 - AI基础设施竞赛驱动算力、资本与能源深度交织,形成产业迁徙[2] - 算力—资本—基础设施形成闭环,算力成为AI时代的货币[2] - OpenAI–Oracle–Nvidia形成3000亿美元三角交易,OpenAI五年内向甲骨文采购3000亿美元算力服务[4] - 英伟达向OpenAI投资最高1000亿美元,合作建设10吉瓦AI数据中心,耗电量相当于800万户美国家庭[5] - 1GW数据中心建设成本约100-150亿美元/年,5年总额500-750亿美元,10GW集群需数千亿美元[8] - 英伟达通过三角交易将约50%毛利转化为OpenAI股权,1GW集群350亿美元直接流向英伟达,毛利率达75%[8] 市场控制权与竞争态势 - 掌控数据、接口与切换成本的企业拥有AI市场话语权[2] - Cursor作为应用方掌握用户数据并可多模型切换,保有对Anthropic的议价空间[9] - 微软放弃独家算力供应后,OpenAI转向甲骨文,双方正就利润分配和知识产权重新谈判[9] - 英伟达通过需求担保、回购协议和算力前置分配巩固生态,实现GPU货币化[10] - Oracle、CoreWeave等提供"首年免付算力窗口",允许客户先训练模型后偿还成本[10] Neo Clouds商业模式 - Neo Clouds承担算力租赁与模型托管,形成产业链新分层[10] - 短期合同模式:Blackwell芯片每小时成本2美元,短期租赁价达3.5-4美元,利润率高但资产贬值风险大[11] - 长期绑定模式:Nebius与微软签190亿美元合同,CoreWeave转向服务Google和OpenAI但面临信用风险[11] - Inference Providers为Roblox、Shopify等企业提供模型托管服务,客户多为资金有限初创企业,承担较高信用风险[12][13] - 产业链利润最终集中在英伟达,其通过GPU销售获得稳定收益且几乎不受市场波动影响[13] 技术发展路径 - Scaling Law未出现边际效益递减,模型性能随算力投入持续提升[3][16] - 模型智能提升呈质变式跨越,下一阶段能力需投入10倍算力但经济回报可支撑[16] - 真正进步来自算法架构优化和推理时间延长,而非单纯扩大模型规模[3][18] - 需在inference latency与capacity间权衡,GPU降低延迟会急剧推升成本[17] - 过参数化陷阱:模型规模扩大而数据量未同步增长时,模型仅记忆而非理解内容[18] 硬件创新趋势 - 硬件创新重心在芯片互联、光电与电力设备等传统工业环节[3][24] - 英伟达Blackwell架构NVL72模块实现芯片间1.8TB/秒高速通信[25][26] - 光学互连为关键前沿,电光信号转换效率决定数据中心性能上限[25] - 固态变压器等传统电力设备创新提升能源利用效率,成为新利润源头[24] - 半导体制造复杂度达"太空时代级别",但软件体系滞后,数据共享文化缺失阻碍效率[24][26] AI工厂与经济模型 - AI工厂以token为产品单元,竞争关键是以最低token成本提供可规模化智能服务[3][28][30] - GPT-3级别推理成本比两年前下降约2000倍,但算力仍是稀缺资源[30] - OpenAI在GPT-5阶段保持与GPT-4相近规模,优先提升推理效率而非盲目扩大模型[30] - 未来可能出现AI执行抽成模式,平台从AI执行环节收取0.1%-1%费用[21] - Etsy超10%流量直接来自GPT,亚马逊若未屏蔽GPT则该比例可能更高[21] 人才与能源挑战 - 能高效使用GPU的人才比GPU更稀缺,研究者提升5%算力利用率可抵消数亿美元设备投资[31] - 美国数据中心用电占全国总电力3%-4%,其中约一半来自AI数据中心[31] - 美国2025年电力消耗预计41650亿千瓦时,AI数据中心将消耗624-833亿千瓦时[32] - OpenAI建设2吉瓦数据中心相当于费城全市耗电量,500兆瓦项目需约250亿美元资本支出[35] - 美国电网规定供电紧张时可要求大型企业削减50%用电量,迫使AI企业启用自备发电机[37] 软件行业变革 - AI降低软件开发成本,使SaaS行业"租比买划算"逻辑逐渐失效[38][39] - 中国软件工程师薪资为美国五分之一但能力可能更强一倍,导致本地化开发成本低于SaaS订阅[39] - AI抬高软件公司COGS,任何集成AI功能的服务成本显著上升[39] - Google凭借自研TPU和垂直一体化基础设施,在token边际服务成本上具显著优势[40] - 内容生成成本持续下降,YouTube等超级平台可能成为最大赢家[40] 主要玩家评估 - Anthropic收入增长快于OpenAI,因其专注2万亿美元软件市场,执行更稳健聚焦[41] - xAI建设可部署30-50万颗Blackwell GPU的Colossus 2数据中心,但商业化模式未突破[41] - Meta拥有硬件、模型能力、算力供应和推荐算法完整体系,具人机交互革命潜力[42] - Google从两年前悲观转向积极,对外销售TPU并推进AI商业化,在企业级应用具潜力[43] - AMD长期抗衡英特尔和英伟达,扮演友善挑战者角色[41]
《大模型的第一性思考》李建忠对话GPT5与Transformer发明者Lukasz Kaiser实录
36氪· 2025-10-13 10:46
对话一:语言对于智能到底意味着什么? - 语言模型在智能构建中扮演核心角色,其成功源于对语言在智能中核心作用的认知,ChatGPT和Transformer的成功均得益于此[6][9] - 语言具备时间维度,总是在生成下一个词,而序列模型(如Transformer)可处理包括语言、蛋白质、音频在内的各种序列,时间序列是表达智能的重要组成部分[7] - 语言训练具有实践优势,互联网上海量的语言数据使得训练非常方便且成本远低于视频训练[9] - 语言模型确实会形成独立于语言的抽象概念,例如在解决数学问题时,尽管用不同语言生成答案,但解题方式和错误类型相同,表明模型在抽象空间进行思考[10] - 然而,未经过大量多模态数据训练的模型,其概念(如"痛苦"或"爱")可能与人类植根于物理世界的真实感受有所不同[11] 对话二:多模态与世界模型的挑战 - 现代大语言模型(如GPT-4)已是多模态模型,能接收和生成图像、音频,并已取得巨大进展,例如ChatGPT的语音模式可以对话、唱歌[12] - 当前多模态处理方式(如通过VQ-VAE将图像/音频编码为特殊代码)有效但不令人满意,未来需要更深入地将多模态融合到模型中,使编码更具可训练性并与语言有更多交互[13] - 语言对于为视觉对象赋予语义含义至关重要,否定语言价值的视觉派研究可能重蹈ChatGPT发布前的错误路线[14] - 现代大语言模型在某种程度上已是世界模型,在文本和数学方面表现卓越,但作为物理模型的表现不如语言模型,部分原因是视频训练数据不足、质量不佳及当前架构限制[14] - 通过改进架构、损失函数并增加更好更多的数据,结合像Sora、Genie和Veo这类从视频学习的模型,正在弥合"世界模型"与"语言模型"之间的差距[15] 对话三:AI编程:自然语言是终极目标,还是新的"巴别塔"? - Transformer架构的创造者在早期就已预见其在自动化编程方面的应用潜力[17] - 未来语言模型将能覆盖大量编程工作,但数学符号和编程语言作为沟通工具,在解释复杂概念时比纯自然语言更高效,因此专业程序员仍需掌握这些概念以实现与模型的快速、高效沟通[18] - 编程的重点在于沟通和抽象,而非特定语言,AI有望帮助更好地使用现有编程语言来改进系统,而非必然需要创造新的为AI设计的编程语言[19] - 新的编程语言需求将来自新的计算硬件架构,而非AI编程本身[20] 对话四:Agent的泛化困境:是方法问题,还是根本限制? - 所谓的"智能体模型"通常指在其推理过程中能调用外部工具(如代码解释器、网络搜索)的推理模型,这些模型使用强化学习训练且效果良好[21] - Agent泛化问题的主要挑战在于缺乏学习信号,当模型使用未经训练的工具时,没有像强化学习训练那样的反馈机制来检查答案正确性[22] - 要实现出色的多智能体系统,需要能够模拟整个环境进行训练,而这在当前难以实现,但即使没有大量训练,聪明的模型也能零样本完成许多任务[23] 对话五:算力与算法:Scaling Law是信仰还是路径依赖? - 预训练的Scaling Law已带来巨大进展,但存在经济上的实践极限,因为用户不愿为每个token支付过高费用,且大模型可被蒸馏成更小模型[25] - 预训练的Scaling Law在解决某些问题(如GSM-8K数学数据集)时速度不可行,而强化学习推理能用小模型解决相同问题,显示出更高的数据效率[26] - 推理模型的Scaling Law(通过强化学习让模型运行更长时间以提升性能)受限于Transformer的上下文长度设计以及强化学习在长序列推理中的信用分配问题[27] - 推理的Scaling Law与预训练的Scaling Law有不同限制,这呼唤新的研究和可能的架构或强化学习算法改进[28] 对话六:具身智能的挑战:是数据问题?还是比特和原子的根本性差异? - 具身智能可能更接近于当前的大语言模型,数据效率正在提高,例如推理模型能用极少样本学会困难任务[29] - 实现具身智能需要一个在大量视频上预训练好的多模态模型作为基础,再结合强化学习进行推理训练,但需要调整架构以适应现实世界行动的速度要求[30] - 第一个版本的具身智能模型可能基于现有成果调整,但未来会出现数据和计算更高效的新一代模型[31] 对话七:强化学习:是超级优化器,还是科学发现的引擎? - 由强化学习驱动的推理模型可被视为一种数据效率更高的新架构或范式,能够从有限数据(如1000道数学题)中学习[32][33] - 强化学习只依赖一个奖励信号,若优化得当,模型有望从研究论文中学习并提出连专业人员都觉得新颖的想法,推动科学发现[33] - 该范式仍处于早期阶段(社区广泛关注约一年),需要更多尝试、发现和改进以提升效率和应用范围[34] 对话八:AI的组织跃迁:如何实现大规模Agent协作? - 实现大规模Agent组织(如成千上万个Agent协作)的最大挑战在于开发下一代推理模型,需要类似Transformer之于RNN的架构创新[35] - 当前推理模型顺序生成token的方式缺乏并行性,未来需要为并行过程提供更多信号,并结合新的架构来融入并行处理[36] 对话九:AI记忆的瓶颈:模型离真正的"原生记忆"还有多远? - 通过将记忆作为工具(如访问互联网或记忆库)并结合强化学习训练,模型可以有效地解决记忆问题,当前方案已相当可行[37][38] - 未来可能出现更优雅的记忆机制,如将记忆转化为连续的向量或通过类似LoRA的适配器微调模型权重,但这仍是待研究的问题[40] 对话十:大模型如何摆脱瞬时学习,而像人类一样持续学习? - 利用上下文学习作为持续学习的记忆是当前已实现的进展,模型将对话信息放入上下文进行处理,但效率并非最高[39] - 通过记忆工具和像LoRA这样的适配器微调技术,实质性修改权重已变得更加可行,为持续学习提供了基础,但如何优化算法仍是研究重点[40] - 下一代推理架构有望实现更并行的处理,推动模型在科学发现等领域的应用,未来并不遥远[41]