Workflow
Scaling Law
icon
搜索文档
Kimi K2拿到了世界第一,也杀死了过去的自己
新财富· 2025-07-28 02:58
月之暗面Kimi K2大模型发布 - 7月12日月之暗面发布最新大模型Kimi K2 模型权重和代码全部开源 在LMArena排行榜中综合排名全球第五 开源大模型中位居全球第一 超越Claude 4和DeepSeek-R1-0528 [2] - Kimi K2提出"模型即Agent"新概念 原生具有调用各种工具的能力 在LiveCodeBench测试中取得53.7%的成绩 超越GPT-4.1的44.7%和Claude 3.5 Opus的47.4% [23][35][44] - Kimi K2参数量扩展至1T量级 放弃自研架构转向DeepSeek V3 通过减少Attention Heads数量增加Experts数量 突破智能上限 [24][28][29] Kimi发展历程与战略转型 - 月之暗面曾是Scaling Law忠实信徒 采取激进买量策略 2024年营销预算接近9亿人民币 但6月月活降至2352万 同比下降2.19% [8][11][17] - 2024年底全球高质量公开数据耗尽 深度求索通过DeepSeek R1开辟新范式 依靠后训练强化学习突破智能上限 月活暴涨至6181万 [13][16][17] - 2025年初公司停掉所有市场营销 集中资源研发K2 转向技术驱动 加入开源阵营 战略重心回归大模型性能提升 [55] Kimi K2技术创新 - 开发MuonClip优化器 解决15.5T tokens预训练稳定性问题 实现零崩溃表现 被海外AI圈称为"完美的Loss曲线" [32][33] - 提出Agent训练新路径 通过AI生成模拟场景合成数百个垂直领域工具调用轨迹 建立自动化Agent数据生产工厂 [38][39][41] - 模型架构上减少DeepSeek V3的Attention Heads 增加Experts数量 在算力有限情况下最大化模型潜力 [28][29] 行业影响与竞争格局 - DeepSeek R1引发AI创业公司存在主义危机 其不花营销预算单靠产品实力月活达6181万 促使行业重新思考发展路径 [17][54] - Kimi K2开源后迅速被阿里Qwen反超 但公司战略转型意义重大 体现从产品驱动转向技术驱动的决心 [55] - 行业验证"模型能力决定市场认可"逻辑 AI公司价值创造核心转向付费用户关注的效率和结果 [53][54]
全球AI应用产品梳理:模型能力持续迭代,智能体推动商业化进程-20250723
国信证券· 2025-07-23 13:20
报告行业投资评级 - 优于大市(维持评级) [1] 报告的核心观点 - 全球AI发展迅速,模型能力提升、开源推动成本降低,智能体技术完善且新产品密集发布,商业化用量增长,国产模型表现亮眼,C端应用重塑流量入口,B端应用推动企业上云 [2] 根据相关目录分别进行总结 模型层:能力迅速提升,开源推动成本降低 - 模型能力提升,主流架构转向MoE,多模态能力增强,采用思维链技术,其他技术发展推动可用性进步 [8] - 模型训练竞赛趋缓,Scaling Law向推理侧迁移,模型推理能力提升,商业化前景打开 [15] - 模型推理成本显著下滑,API调用价格下降利好应用端成本下降 [20] - 开源与闭源模型差距缩小,推动AI应用落地,开源模型降低使用门槛和成本 [25] 智能体:技术逐步完善,新产品密集发布 - AI Agent与传统人工智能不同,能改变人机协同模式,打开垂直行业应用入口 [30] - 模型Agent能力快速提升,在GAIA测试中表现不断刷新 [33] - MCP扩展AI能力边界,海内外大厂纷纷布局,推动Agent加速落地 [38] - 谷歌发布A2A协议,与MCP互补,加速Agent生态完善,推动AI应用向复杂工作流落地 [45] - 海内外智能体快速发展,测评成绩不断刷新,应用效果快速提高 [46] 商业化:用量持续增长,国产模型表现亮眼 - 中国AI发展走出自身路径,形成生态闭环,芯片产业本土化加速,数据成为核心资源 [55] - 中美模型差距缩小,中国依靠开源模型走出自身生态,在开源模型排行榜上表现优异 [65] - 全球AI模型流量持续上涨,为应用侧发展提供基础,推理需求提升,芯片价格上升,API调用量迅速提升,国产模型表现亮眼 [66][73][79] C端应用:借助AI赋能业务,重塑流量入口 - AI应用有望重塑C端流量入口,互联网巨头具备先发优势,可利用专有数据和用户参与度集成AI功能 [85] - 编程成为人机协同主要领域,办公类任务AI占比较低,人机深度协同存在较大空间 [92] - 以Reddit、Robinhood、多邻国为例,展示AI在社区平台、金融、教育等C端领域的应用及价值创造 [94][99][105] B端应用:开源提升投入意愿,推动企业上云 - 开源模型提升企业投入意愿,刺激国内上云需求,AI技术深入多行业,推动智能化转型,提升企业上云意愿 [112] - 以赛富时、ServiceNow、Snowflake为例,展示AI在CRM、工作流管理、数据库等B端领域的应用及功能升级 [118][124][131] - 汇总海外和中国AI应用厂商在各领域的主营业务及AI应用情况 [132][133]
计算机行业双周报(2025、7、4-2025、7、17):Grok4发布验证ScalingLaw依然有效,英伟达将重启H20对华供货-20250718
东莞证券· 2025-07-18 14:49
报告行业投资评级 - 超配(维持) [1] 报告的核心观点 - 申万计算机板块近2周、7月、今年累计涨幅均跑赢沪深300指数 Grok 4发布验证Scaling Law有效 预计全球AI算力需求维持高位 基础模型能力提升有望推动AI应用加速繁荣 建议关注AI算力、AI应用相关投资机遇 [2][27] 根据相关目录分别进行总结 计算机行业行情回顾 - 申万计算机板块近2周累计上涨4.98% 跑赢沪深300指数3.31个百分点 排名第4;7月累计上涨2.58% 跑赢沪深300指数0.08个百分点;今年累计上涨11.68% 跑赢沪深300指数9.15个百分点 [10] - 近两周涨幅前三为信息发展、普联软件和博睿数据 跌幅前三为旋极信息、ST华铭和汇金股份 [15] 板块估值情况 - 截至2025年7月17日 SW计算机板块PE TTM(剔除负值)为53.97倍 处于近5年87.27%分位、近10年74.59%分位 [20] 产业新闻 - Grok 4正式发布 对垒GPT - 5和Claude 4 Opus 模型训练量大幅增加 验证Scaling Law有效 [2][21] - 英伟达将重启H20芯片对华供货 还将推出RTXPRO新显卡 [21] - 上海数交所首提RDA [23] - 谷歌未来两年将在美投资250亿美元建设数据中心和AI基础设施 [23] - OpenAI发布ChatGPT Agent 能主动思考、自选工具 [23] 公司公告 - 星环科技拟发行H股股票并在港交所主板上市 事项待股东会审议及相关批准 [23] - 国网信通子公司中标国家电网采购项目 中标金额9.66亿元 合同未签 [24] - 恒银科技预计2025年半年度净利润扭亏为盈 [24] - 中望软件收到政府补助2800万元 [24] - 金桥信息预计2025年半年度亏损 [25] - 太极股份预计2025年上半年归母净利润盈利 上年同期亏损 [25] - 海量数据预计2025年半年度亏损 数据库业务收入同比增长66% [26] - 四维图新与北汽新能源签署泊车软件产品开发合同 [26] 本周观点 - Grok 4性能预计领先前沿模型 训练量和算力投入大 验证Scaling Law有效 全球AI算力需求将维持高位 基础模型能力提升推动AI应用繁荣 建议关注AI算力、AI应用投资机遇 [27] 建议关注标的 - 广电运通金融科技主业增长 数据要素等领域布局有望成新增长曲线 [29] - 神州数码作为“鲲鹏 + 昇腾”产业链伙伴 受益国产算力需求上升 [29] - 浪潮信息智慧计算行业地位稳固 人工智能服务器排名领先 [29] - 税友股份作为财税信息化服务商 有望受益财税改革 [29] - 软通动力是华为核心伙伴 鸿蒙生态建设领先 [29] - 赛意信息布局AI Agent领域 推出差异化智能体解决方案 [29]
Thinking Machines Lab获20亿美元种子轮融资,人才成为AI行业最重要的要素
36氪· 2025-07-17 23:56
融资与估值 - Thinking Machines Lab获得由a16z领投的20亿美元种子轮融资,估值达到120亿美元,创下科技史上最大种子轮融资记录 [1] - 初始计划融资10亿美元,估值90亿美元,最终融资额和估值均翻倍 [1] - 参与融资的机构包括NVIDIA、Accel、ServiceNow、CISCO、AMD、Jane Street等各领域知名机构 [1] 创始团队与技术方向 - 公司由OpenAI前CTO Mira Murati创立,创始团队包括John Schulman、Barret Zoph、Bob McGrew等AI领域顶尖人才 [1][4] - Mira Murati曾领导开发GPT-3、GPT-4、DALL-E和ChatGPT等开创性技术,并在特斯拉负责Model S/X和Autopilot开发 [2] - 技术方向相对模糊,强调多模态能力和AI安全措施,包括对齐、红队演练和部署后监控等方法 [16] 产品规划 - 首款产品将在数月内发布,包含重要开源组成部分,为开发定制化模型的研究人员和初创公司提供帮助 [16] - 将为企业开发围绕KPI定制的AI解决方案,采用"商业强化学习"和从开源模型中选择性"摘取"特定层进行组合的新技术 [16] 行业趋势 - AI行业三要素中人才的重要性被提到前所未有的高度,算力和数据的Scaling Law效应正在减弱 [17] - DeepSeek在算力受限情况下训练出Sota模型R1,而Meta拥有顶级算力和数据却遭遇Llama 4失利,印证人才的核心地位 [18] - Meta以143亿美元收购ScaleAI 49%股权并组建"超级智能"部门,从OpenAI、DeepMind等公司挖角大量顶尖人才 [18][19] 人才竞争 - OpenAI Mafia中最强大的三家公司Anthropic、Safe Superintelligence和Thinking Machines Lab均以顶尖AI研究员领导 [17] - Google以27亿美元收购Character.AI并吸纳其核心团队,以24亿美元与Windsurf达成许可协议获取人才 [19] - 全球前20%的AI研究人员中47%来自中国,中国在语言、视觉、机器人模型和应用领域表现突出 [20]
Grok4、KIMIK2发布,算力板块业绩预告亮眼
山西证券· 2025-07-17 10:43
报告行业投资评级 - 领先大市 - A(维持)[1] 报告的核心观点 - 海外算力需求逻辑从训练模型的scalinglaw发展为头部模型的服务较量和护城河构建,2026、2027海外算力投资产业链机会仍被看好;国内模型通过算法创新达“低成本下功能的对齐”,算力加大投入确定,英伟达新版合规卡出货有边际改善,国产算力价值逐步凸显[7] 根据相关目录分别进行总结 周观点和投资建议 周观点 - Grok4发布,推理能力较前代提升10倍,语音能力快2倍,在多领域效果更佳[3][14] - Kimi发布并开源最新一代MoE架构基础模型K2,总参数量1万亿,在多项测试中取得开源模型SOTA成绩,工具调用能力进步[4][15] - 中报业绩预告开启,服务器、光模块、铜连接等板块预计亮眼,如工业富联等公司业绩增长[5][16] - 海外算力军备竞赛持续,看好2026、2027海外算力投资产业链机会;国内算法优化,算力投入确定,国产算力价值凸显[7][17][18] 建议关注 - 海外算力链:工业富联、中际旭创等[8][19] - 国内算力链:润泽科技、欧陆通等[8][19] - 卫星和火箭:航天电器、泰胜风能等[8][19] 行情回顾 市场整体行情 - 本周(2025.7.7 - 2025.7.11)市场整体上涨,创业板指数涨2.36%,申万通信指数涨2.13%等;细分板块中设备商、物联网、光模块周涨幅前三[8][19] 细分板块行情 - 涨跌幅:周涨幅前三为设备商(+6.35%)、物联网(+5.82%)、光模块(+4.02%);月涨跌幅光模块领先;年涨跌幅工业互联网、无线射频、控制器年初至今领先[8][19][23] - 估值:多数板块当前P/E低于历史平均水平,各板块当前P/B与历史平均水平有对比[29] 个股公司行情 - 涨幅领先个股:博创科技(+19.84%)、长光华芯(+12.19%)等[8][29] - 跌幅居前个股:移远通信(-2.84%)、和而泰(-2.67%)等[8][29] 海外动向 - Arm公司基于Arm架构处理器的服务器客户数量增至7万家,自2021年增长14倍;多家云计算巨头推出自研基于Arm架构服务器处理器[33]
一文看懂:Grok 4到底强在哪里?
虎嗅· 2025-07-14 13:08
Grok 4 模型性能与规格 - Grok 4 模型在 xAI 自研的 Colossus 超算上训练,计算资源投入为 Grok-2 的 100 倍、Grok-3 的 10 倍,实现了推理性能、多模态能力和上下文处理能力的跃升 [4] - 模型拥有两个版本:Grok 4(月费 30 美元)和 Grok 4 Heavy(月费 300 美元),后者为多 Agent 协作版本,能够同时启动多个 Agent 并行工作并整合结果 [5] - 在 HLE 测试中,Grok 4 得分为 38.6 分,而 Grok 4 Heavy 得分达 44.4 分,为行业最高;在 HMMT 测试中,Grok 4 为 90 分,Grok 4 Heavy 达 97 分 [7] - 模型支持 256k tokens 的上下文窗口,并支持实时网络搜索和基础工具调用 [7] 基准测试表现与 HLE 重要性 - Grok 4 在 GPQA、AIME25、LCB(Jan-May)、HMMT25、USAMO25 等多项测评中超越了 o3、Gemini 2.5 Pro、Claude 4 Opus 等模型 [7] - 在 HLE(人类最后考试)基准测试中,Grok 4 Heavy 获得 44.4% 的成绩,显著高于此前冠军 Gemini 2.5 Pro 的 26.9% [9] - HLE 基准测试包含 2500 个极具挑战性的问题,覆盖数学、人文学科、自然科学等超过 100 个学科,设计为无法通过简单互联网检索快速回答的问题 [15] - 在 Grok 4 推出前,市面上最强大模型在 HLE 上表现不理想,例如 GPR-4o 的准确率仅为 2.7% [16] 核心技术创新:多智能体内生化 - Grok 4 的核心创新是在训练阶段引入多智能体协作,即"多智能体内生化",将 Agent 调用及实时搜索等能力融合到训练过程中 [6][42][43] - 大模型发展主线是能力内生化,从 OpenAI o1 的"思维链内生化"到 Grok 4 的"多智能体内生化",将多代理协作、动态任务分配等能力训练进模型中 [34][39][42][46] - "多智能体内生化"使 AI 内生化地支持 Agentic AI,更有效地解决复杂任务,相比外部工具调用,内生化的能力发挥更稳定 [40][41][46] AI 模型能力内生化趋势 - 行业发展趋势是 AI 能力内生化,包括深度思考内生化、Agent 内生化以及多模态内生化 [47][50] - 多模态内生化指大模型能够原生地理解图片、音频、视频,而非先转码成文字再理解,业界公认的目标是 Omni Model [51][53][54] - Google Gemini 已支持视频模态输入输出,而 OpenAI 的所有模型尚不支持视频模态输入 [56] - 能力内生化趋势下,大模型应用类公司的核心壁垒在于私域数据的持续积累和对应用场景的深度洞察 [58] AI Coding 能力与市场认知 - Grok 4 在代码生成能力上存在不足,生成的代码常有依赖库丢失、界面 UI 粗糙等问题,例如编写游戏时丢失 pygame 库 [63][64] - 商业场景需要的 coding model 是能整合 Github repo 资源、构建项目级应用的实战派选手,而非仅精通算法的奥赛型选手 [66][67] - Base44 公司专注于 Vibe Coding(氛围编程),通过自然语言交互生成完整软件系统,6 个月内用户达 25 万,并被以 8000 万美元(约 5.7 亿元人民币)收购 [69][70][71] 算力需求与行业竞争格局 - Grok 4 依托 20 万张 GPU 集群的 Colossus 超算中心训练,其计算资源投入是 Grok 2 的 100 倍,上下文窗口扩展至 25.6 万 tokens [76] - Colossus 超算中心目前已部署 35 万块 H100,总浮点运算能力达 100 EFLOPS,预计下半年将扩展至超过 50 万张卡 [79] - 预训练、后训练、测试时均存在 Scaling Law,今年开始后训练、测试时推理需求快速增长,多 Agent 内生化将给全球算力需求带来几何级增长 [80][81] - 随着 Grok 4 打响 Agent 能力内生化第一枪,AI 大厂大概率跟进,新一代大模型训练的军备竞赛已经开始 [83]
对话千寻高阳:端到端是具身未来,分层模型只是短期过渡
晚点LatePost· 2025-07-10 12:30
具身智能行业趋势 - 具身智能技术已从学术研究阶段进入产业化阶段,突破将发生在市场而非实验室[2][13] - 行业正处于Scaling Law时刻,预计需要4-5年沉淀才能达到类似GPT-4的突破[2][29] - 技术路径已从500个研究方向收敛至100个左右,进入工程优化阶段[12][13] 技术路径选择 - 端到端VLA(vision-language-action)是行业终极方向,已在自动驾驶领域验证[19][20] - 短期分层方案(规划-感知-执行)更易工程实现,但长期将被端到端替代[22] - VLA模型通过统一处理视觉、语言和动作模块,实现任务理解和执行一体化[20] 数据训练方法 - 训练数据来源包括:互联网视频数据(1%可用率)、遥操作数据和强化学习数据[24][26] - 发现Scaling Law规律:数据量每增加10倍,模型精度小数点后多一个9[27][28] - 达到ChatGPT级别效果需100亿条有效互联网数据+1亿遥操数据+数千万强化学习数据[31] 机器人形态发展 - 人形设计因适应人类环境成为主流,但非必需形态[33][34] - L4阶段前轮式底盘+双臂可覆盖80%场景需求,双足非必须[33][37] - 双足平衡技术已实现高难度动作(如燕式平衡),工业级稳定仍需优化[37][38] 产业链分工 - 硬件本体价值有限,核心突破在于"大脑"(AI系统)[39] - 未来产业链将类似汽车行业,形成专业化分工(灵巧手、芯片等)[41] - 纯软件方案不可行,需针对具体硬件进行训练优化[40] 中美发展差异 - 中国优势在于硬件制造和维修效率(美国维修周期长达数周)[6][7] - 美国在快慢系统等核心技术方面暂时领先[6]
为什么 AI 搞不定体力活——对话清华大学刘嘉:这才是生物智能最难攻克的“万里长征” | 万有引力
AI科技大本营· 2025-07-09 07:59
AI发展历史与现状 - AI经历两次寒冬,第二次从20世纪90年代持续至21世纪第一个十年,期间人工智能领域备受冷落[1][2] - 1997年MIT人工智能实验室处于无人问津状态,而脑科学领域呈现蓬勃发展态势[3][13] - 当前AI发展已进入与脑科学结合的关键节点,两者关系类似DNA双螺旋结构[3][19] AI与脑科学的交叉演进 - 人工神经网络早期发展深受脑科学影响,多位AI先驱具有心理学或认知科学背景[4][46] - 深度学习革命后AI与脑科学分道扬镳,但下一代AI可能需要重新借鉴脑科学发现[17][25] - 人类大脑进化采取双路径:神经元数量增加(860亿个)与神经元复杂度提升[23][24] - 当前AI仅模仿大脑新皮层功能(推理/语言),而小脑功能(运动控制)更难模拟[48][50] Scaling Law与模型发展 - Scaling Law是AI第一性原理,扩大模型规模是通向智能的必要条件[22][26][27] - 模型参数量必须达到临界规模才能展现真正智能,小模型只是"玩具案例"[21][22] - 所谓Scaling Law撞墙是商业炒作,实质是资源限制下的妥协[29][30] - 国内多数模型采用蒸馏技术,导致继承原始模型的三观对齐问题[29] 学术界与工业界分工 - 大学应专注0到1的颠覆式创新,企业负责1到100的工程优化[32][34] - 工业界竞争呈现赢者通吃格局,技术路线之争最终只有一种算法存活[37][38] - 企业应避免开发专用模型,通用模型专家化将取代专业模型[40][41] AGI发展路径 - 通向AGI的三条路线中,NLP因具备高质量数据和"已知的未知"特性而胜出[52][54] - 当前大模型仅能压缩人类已有知识,缺乏0到1的创造力[55][56] - 语言模型仅模拟人类慢思维系统,快思维系统仍需脑科学突破[57][58] AI对行业的影响 - 知识密集型岗位将消失95%,仅保留具有稀缺性的TOP 5%从业者[60][61] - 教育需转向通识培养,清华已实施书院制改革和"AI+学科"跨领域教育[65][66] - 通用模型专家化趋势下,创业公司应避免与基础模型厂商直接竞争[43][44] 技术瓶颈与突破方向 - 数据枯竭是重大挑战,需突破创造力瓶颈实现自我数据生成[55] - 当前AI仅完成模仿生物智能的第一步,具身智能面临小脑功能模拟难题[49][50] - MoE架构等"新"技术实际源自认知科学的"全局工作空间"理论[46]
原来Scaling Law还能被优化?Meta这招省token又提效
机器之心· 2025-07-06 03:49
Transformer架构演进 - 2017年《Attention Is All You Need》论文提出Transformer架构,现引用量接近19万次,成为AI领域基础范式[1][2] - Transformer核心改进方向包括Multi-Token Attention和Multi-matrix Factorization Attention等新型注意力机制[2] - Meta最新研究提出旋转不变型三线性注意力机制,性能可改变Scaling Law系数[4] 2-simplicial Transformer技术突破 - 2-simplicial Transformer源自2019年研究,将点积注意力扩展为三线性形式[7][19] - 新型注意力机制通过三线性积构建三阶张量,计算复杂度为O(n^3)[22][23][35] - Meta采用滑动窗口参数化(O(n×w1×w2))降低计算负担,最优配置为w1=512,w2=32[32][37] Scaling Law理论框架 - 神经Scaling Law公式:L(N,D)=E+A/N^α+B/D^β,其中E为不可约损失[13][14] - Hoffmann等(2022)实验得出a≈0.49,b≈0.5,表明token数量需与模型规模同步扩展[15][17] - 2-simplicial Transformer展示更优参数扩展指数,token增长可慢于参数增长[10][50] 实验性能对比 - 在1B参数模型中,2-simplicial注意力使GSM8k和MBPP任务分别提升0.79%和0.88%[43] - 参数规模超过2B后,2-simplicial注意力优势减弱,3.5B模型在MMLU-pro任务下降2.15%[43][45] - 2-simplicial注意力斜率α更陡峭,显示其Scaling Law指数优于传统Transformer[49][50] 计算优化实现 - Meta使用Triton实现新型注意力机制,采用分组查询注意力(GQA)比率64提升计算效率[38] - 对比标准点积注意力(复杂度2n^2),窗口化2-simplicial注意力复杂度为6πw1w2[33][35] - 引入在线softmax等核优化技术,延迟最优配置达55.1ms(16k窗口)[32][39]
华泰证券:算力链高景气延续,下半年AI眼镜有望迎来拐点
快讯· 2025-07-02 00:01
电子板块2025年下半年展望 - 大模型架构持续迭代,Scaling Law有望再次加速叠加推理需求增长,算力链高景气度有望延续 [1] - 国内制造端先进工艺产能持续推进,新产能开出将提升国产设备商的国产化率 [1] - AI眼镜下半年或迎来拐点,智驾领域因价格带下探产业趋势有望加速 [1]