Scaling Laws

搜索文档
What Drives Nvidia's Growth?
The Motley Fool· 2025-03-04 16:33
文章核心观点 - 探讨英伟达数据中心业务增长原因、面临的市场因素、网络业务情况、CEO对AI未来的愿景及投资价值,还分析了AppLovin受投资者青睐原因、遭卖空指控及指控真实性 [3][19] 英伟达相关情况 业务增长情况 - 英伟达是数据中心业务公司,销售增长78%,近80%,主要来自数据中心收入 [3] - 数据中心业务增长源于两方面,一是微软、亚马逊等大型超大规模企业大量购买英伟达GPU,二是财富1000强或500强等企业为服务客户深入挖掘自身AI能力,购买GPU自用 [3] 市场影响因素 - 英伟达芯片驱动的大语言模型被要求完成更多任务,同时推理成本在过去两年下降200倍,推理计算生成的令牌数量是单次示例的100倍 [4] - 从英伟达角度看,这两种力量并不对立,随着模型发展,出现训练后扩展定律、推理时间扩展定律等,英伟达在销量上取胜,且通过架构设计降低客户成本,形成良性循环 [4][5][7] 网络业务情况 - 网络业务与数据中心业务不同,是英伟达少数收入下降的领域 [9] - 英伟达几年前收购Mellanox,其技术在AI网络数据传输上比以太网标准更快,公司不断创新该技术并与思科等竞争,同时建设原型工厂提高数据中心效率以销售更多GPU [10] - 本季度因旧标准向Envy Link 72和Spectrum X新技术整合过渡,网络收入略有下降,但公司预计不久后将回升 [11] CEO愿景 - 英伟达CEO詹森·黄提出未来愿景,包括企业的代理AI、机器人的物理AI和主权AI [12] - 企业的代理AI可让大公司在内部部署AI代理提高工作效率;物理AI将英伟达在图形处理的优势拓展到物理世界,通过大量模拟训练机器人;主权AI方面,英伟达向全球各国推销技术,帮助其在AI领域具备竞争力 [13][14][15] 投资价值分析 - 英伟达远期市盈率为28倍,几个月前曾达到50倍,市值有时超过麦当劳 [17] - 一方面公司规模大,难以保持两位数或低20%的增长率,可能导致未来市盈率下降;另一方面,英伟达善于把握未来趋势,提前开发有需求的技术,即使当前阶段增长放缓,未来仍可能有出色表现 [17][18] AppLovin相关情况 受投资者青睐原因 - AppLovin是2024年股市最成功的科技公司,主要为手机游戏销售广告,类似The Trade Desk但专注于手机游戏市场 [19] - 该公司所在的数字程序化广告市场竞争激烈,AppLovin通过管理层变革和新技术Axon 2.0优化货币化策略,实现盈利和收入增长,受到商业界、分析师和散户投资者关注 [19] 遭卖空指控情况 - 卖空报告指控AppLovin抄袭Meta用户数据、使用不良手段诱导下载、在手机游戏领域跟踪儿童等 [20] - 卖空报告中关于对年轻消费者造成伤害的指控引起关注,但可能容易被公司反驳,CEO已发表博客回应 [22] - 卖空者称用户玩游戏时会被诱骗直接下载,CEO称所有下载都是用户明确选择,但博客未直接回应反向工程Meta重要数据的指控 [23][24] 指控真实性分析 - 投资者面临卖空者和公司管理层两种对立说法,难以判断指控真实性 [23] - 投资者可思考为何Meta未自行发现问题并采取行动,未来几个季度若AppLovin收入大幅下降且提及某平台限制,可了解情况 [25][26]
AI 月报:马斯克加速 GPU 竞赛;大模型真撞墙了? 风口转到 Agent
晚点LatePost· 2024-12-11 14:30
技术发展 - OpenAI在12月开启为期12天的密集发布活动,包括推出完整版o1模型、每月200美元的ChatGPT Pro、视频生成模型Sora等 [2] - 大模型行业面临能力提升瓶颈,Google、OpenAI、Anthropic等公司在开发下一代模型时未能实现前几年的显著性能跃升 [4][5] - OpenAI尝试用合成数据训练新模型Orion但效果不理想,同时行业探索更高精度数据、后训练优化等新方向 [16][17][18][19] 市场竞争 - OpenAI企业市场份额从50%降至34%,Anthropic份额从12%增至24% [22] - xAI以500亿美元估值融资50亿美元,Anthropic获亚马逊追加40亿美元投资,Writer以19亿美元估值融资2亿美元 [27] - 视频生成领域竞争加剧,Runway上线新功能,腾讯开源对标Sora的HunyuanVideo模型 [25][26] 算力竞赛 - 亚马逊、微软、Meta、Google四家公司今年资本支出超2000亿美元建设算力中心,并计划加大投资 [28] - Anthropic CEO预测2026年将出现耗资超100亿美元的算力集群,OpenAI提议建造千亿美元级数据中心 [28] - 英伟达加速产品迭代,计划2025年发布机器人专用芯片Jetson Thor [35][37] 应用落地 - ChatGPT周活用户达3亿,企业生成式AI支出飙升500%至138亿美元 [38] - AI编程成为竞争焦点,GitHub Copilot生成微软近半启动代码,Cursor以25亿美元估值获融资 [6][23][43] - Agent成为行业新赛点,OpenAI、Anthropic、智谱等公司加速布局智能体产品 [51][52][53] 行业投资 - 沙特宣布500-1000亿美元AI投资计划,波兰投入2.44亿美元开发本土大模型 [31] - AI制药公司Cradle获7300万美元融资,Enveda筹1.3亿美元推进药物研发 [61] - 具身智能领域Physical Intelligence以24亿美元估值融资4亿美元,银河通用获5亿元人民币投资 [29]
发布视频生成模型、日均交互 30 亿次,MiniMax 第一次线下活动记录
晚点LatePost· 2024-09-02 15:40
公司发展历程与核心目标 - 公司成立于2021年12月9日,创业初心是实现"Intelligence with Everyone",通过通用AI技术帮助每个人解决实际问题 [6][7][8] - 公司提出三个核心判断:下一代AI需通过图灵测试、需系统性技术突破、需分步从高容错场景切入 [11] - 目前日均处理30亿次AI交互,包括3万亿文本Token、2000万张图和7万小时语音,交互时长已达ChatGPT的50% [12][14] 技术架构与创新 - 新基础模型abab 7采用MoE+Linear Attention架构,比传统Dense模型快3-5倍,支持接近无限长的文本处理 [22][25][27] - Linear Attention技术使模型在处理10万Token时效率提升2-3倍,与GPT-4o技术路线殊途同归 [25][27] - 视频生成模型abab-video-1支持6秒2K视频生成,具备高压缩率和多风格适配能力 [3][30][32] 多模态技术进展 - 语音模型支持10+语种(含粤语),具备拟人化情绪表达和音乐生成能力 [29][30] - 多模态是提升渗透率的关键,因人类80%信息交互为非文字形式 [21][41] - 视频模型《魔法硬币》展示全AI生成能力,无人工修改 [4][30][51] 行业竞争与商业化 - 国内大模型"六小龙"技术更新普遍晚于原计划,行业进入螺旋式发展平缓期 [5] - 价格战推动模型调用量增长,中国模型在东南亚等非英语市场已具备竞争力 [50] - 商业化难点在于模型错误率(目前两位数),需降至个位数才能支持复杂任务 [37][38] 产品战略与用户生态 - 开放平台拥有3万开发者和2000家付费客户,测试集显示国产模型与GPT-4仍有本质差距 [40] - 内容社区产品星野定位非陪伴聊天,强调用户共创世界观和交互故事 [44][45] - 技术投入标准为能否带来数倍提升,非渐进式改进 [42][43]
中国首批核聚变创业者谭熠:它总在你绝望时又给你希望|TECH TUESDAY
晚点LatePost· 2024-07-30 13:15
核聚变行业发展现状 - 2021年起核聚变行业迎来创业热潮,美国公司Helion实现1亿摄氏度等离子体加热,CFS开发出高温超导磁体,技术突破推动商业化进程[2] - 全球资本密集涌入,硅谷科技名流和机构累计投资超30亿美元,远超美国政府历史拨款总额[2] - 中国首批核聚变创业公司星环聚能、能量奇点成立,分别获得数亿元和4亿元人民币天使轮融资[2] - 核聚变工业协会报告显示,5家公司计划2030年前实现发电,21家定在2035年前[3] 技术路线与突破 - 磁约束路线为主流,高温超导技术可将磁场强度提升4次方,显著缩小装置尺寸并降低成本[18] - AI技术可优化等离子体稳定性,提升性能30%以上,通过数据拟合弥补理论空白[19] - 商业公司采用差异化技术路径:ITER路线(巨型托卡马克)、强场托卡马克(高磁场)、球形托卡马克(高磁场利用率)[20] - 星环聚能选择球形托卡马克路线,通过脉冲重复运行解决传统加热难题,成本较同行降低66%(12亿 vs 35亿)[25][40] 商业化进展 - 星环聚能首代装置279天建成并点亮等离子体,温度达1700万度,完成技术验证的20%进度[6][36] - 下一代装置计划2027年建成,目标Q值>10(输出能量达输入10倍),较当前最高纪录(JET装置5.2秒)跨越式提升[38][39] - 潜在应用场景包括数据中心供电、电动汽车充电、船舶动力等非电网领域[42] 行业挑战与机遇 - Scaling Laws(定标律)在JET装置以上存在数据空白,商业公司需验证技术路径延续性[39] - 资本支持仍不足,星环聚能需12亿元建设资金,当前融资缺口需说服投资人接受非主流技术路线[10][41] - 历史经验显示,等离子体常在技术瓶颈期出现意外突破,如1982年发现"高约束模式"[16][17] 研究历程与趋势 - 核聚变研究70年历经三阶段:1950s亢奋期→1990s低谷期(拨款降至峰值25%)→2010s复兴期[14][17] - "永远50年"说法源于冷战后期投入不足,当前资金与技术创新推动预期缩短至"10年内"[17] - 商业机构效率显著高于政府项目,ITER耗资200亿美元、2035年投运,而企业目标更激进[12][13]
Llama 3 发布,亮点在于 “小” 模型
晚点LatePost· 2024-04-19 16:05
核心观点 - Meta推出的Llama 3系列大模型通过大幅增加训练数据量(80亿参数模型使用15万亿Token)和算力投入(2个2.4万张H100集群),显著提升了小模型性能,80亿参数模型在多项评测中超过同级竞品,数学和编程能力翻倍[3][4][5] - 行业正在打破传统的Scaling Laws规律,Meta、DeepMind等公司通过调整数据/参数/算力配比,探索更高效的训练方式,Meta的训练数据量达到DeepMind建议值的75倍[5][6] - 小模型竞赛成为行业新趋势,Meta、Google、Anthropic等公司均在优化小模型性能以降低推理成本,Meta计划进一步开发10亿甚至5亿参数模型[7] 模型性能对比 - Llama 3 80亿参数模型在MMLU(68.4 vs 53.3/58.4)、GPQA(34.2 vs 21.4/26.3)、HumanEval(62.2 vs 30.5/36.6)、GSM-8K(79.6 vs 30.6/39.9)、MATH(30.0 vs 12.2/11.0)等测试中全面领先Gemma和Mistral同级模型[5] - Llama 3 700亿参数模型在MMLU(82.0)、HumanEval(81.7)、GSM-8K(93.0)等测试中与Gemini Pro 1.5(81.9/71.9/91.7)和Claude 3 Sonnet(79.0/73.0/92.3)相当或更优[5] 训练方法突破 - Meta采用超量训练策略:80亿参数模型使用15万亿Token数据,是Google Gemma(6万亿)的2.5倍、行业常规水平(1-2万亿)的7-15倍[3][5] - 算力投入巨大:使用H100训练130万小时(相当于5000张H100连续工作11天),实际仅用2天多完成(借助2个2.4万张H100集群)[6] - 正在训练4050亿参数模型,初步评测达GPT-4水平[5] 行业趋势 - 小模型本地化部署成为降低成本的关键路径,80亿参数Llama 3性能接近GPT-3.5且可在手机/电脑运行[5][7] - 训练策略分化:微软用GPT-4生成高质量数据训练小模型,Meta则依靠算力优势直接加大训练强度[7] - Meta计划2024年将H100数量扩至35万张(单价3万美元),远超同业数万张的规模[7]