Scaling Law
搜索文档
腾讯研究院AI速递 20250812
腾讯研究院· 2025-08-11 16:01
一、xAI开放Grok 4 - Grok 4向全球用户免费开放但限制每12小时使用5次 达到限制后完全不可用 [1] - 该策略被视为对标GPT-5发布 引发付费用户对订阅价值的质疑 [1] - Grok Imagine视频生成服务新增分享功能 修复下载问题并强化图片审核机制 [1] 二、浪潮发布元脑SD200服务器 - 元脑SD200将64张GPU卡融合为统一内存节点 支持四大国产开源模型并行运行 [2] - 采用3D Mesh架构与GPU虚拟映射技术 显存达4TB 内存64TB 满足万亿参数模型推理需求 [2] - 64卡运行DeepSeek R1性能提升3.7倍 Kimi K2提升1.7倍 专为Agentic AI计算需求设计 [2] 三、智谱GLM-4.5技术突破 - GLM-4.5公开预训练与后训练细节 首创单模型融合推理、编码与智能体能力 [3] - 基于MoE架构与15T通用+7T专业数据训练 强化长上下文与智能体性能 [3] - 在12项ARC测试中超越Claude Opus 4 部分指标超过OpenAI o3 [3] 四、昆仑万维SkyReels-A3视频模型 - SkyReels-A3基于DiT架构生成1分钟数字人视频 优化手部动作与运镜控制 [4] - 采用改进插帧方法与ControlNet模块 解决长视频稳定性与多视角切换问题 [4] - 作为五天技术发布周首款产品 已上线Talking Avatar工具 [4] 五、腾讯混元3D生成能力升级 - 创想三维MakeNow平台接入腾讯混元 增强CubeMe等工具的3D生成能力 [5] - 混元3D v2.5采用稀疏原生架构 几何分辨率达1024³ 纹理贴图4K级 [6] - 用户上传照片5分钟内可生成可打印Q版手办 支持三种风格个性化调整 [6] 六、阿里开源具身智能组件 - 开源RynnVLA-001视觉-语言-动作模型 能从第一人称视频学习人类操作 [7] - RynnRCP协议打通传感器到执行的机器人工作流 支持多款热门模型 [7] - RynnEC模型通过视频序列建立连续空间感知 引入多模态世界理解能力 [7] 七、百川医疗大模型Baichuan-M2 - 32B参数Baichuan-M2在HealthBench评测中仅次于GPT-5 超越所有开源模型 [8] - 集成验证系统与患者模拟器 严格遵循中国医疗指南并适配临床场景 [8] - 4bit量化后单卡RTX4090可部署 成本较DeepSeek-R1 H20降低57倍 [8] 八、灵巧智能机器人手技术 - DexHand021 Pro拥有22自由度 双绳驱动实现拇指对指等精细操作 [9] - 串并混联设计解决摩擦损耗问题 四指负载>1kg 整手抓握>5kg [9] - 集成12个电机与多传感器 成本仅为同类产品十分之一 [9] 九、Scaling Law行业观点 - Scaling Law反映数据内在幂律特性 模型能力非线性增长源于数据结构 [10] - 需通过强化学习将计算转化为新知识 建立生成-验证-学习的进化飞轮 [11] 十、2025大模型应用趋势 - 45%企业已部署大模型至生产环境 32%定制模型 27%采用API服务 [12] - 用户平均使用4.7家不同产品 ChatGPT领先但Gemini与DeepSeek增速显著 [12] - 55%接受中国模型但要求海外部署 英伟达占据78%训练硬件市场份额 [12]
OpenAI 惊人自曝:GPT-5 真“降智”了!但重现“神之一手”,剑指代码王座
程序员的那些事· 2025-08-11 02:38
GPT-5性能表现与争议 - GPT-5在门萨IQ测试中在线得分为118分,离线测试仅70分,而GPT-5 Thinking分别获得85分和57分,创下OpenAI模型家族IQ测试最低纪录[4][6] - 性能差异主要归因于路由问题,即单体模型中特定组件决定智能表现,而非模型本身能力不足[7][8][11] - 尽管测试结果引发争议,METR报告显示GPT-5仍处于帕累托前沿,智能增长保持指数级趋势,延续Scaling Law神话[13][14] 提示工程的关键作用 - 模型潜力需通过有效提示激发,系统思维用户可通过构建完整框架和明确需求规格使GPT-5自主执行任务[16][17][18] - 具体案例显示,添加"think harder and solve"等提示词可解决简单方程式求解问题,而威胁性提示如"答不对小心Bambi妈妈找你算账"能确保答案准确性[20][21][22][25] - 网友曝出的GPT-5系统提示被形容为金矿,凸显提示工程对释放模型能力的重要性[28] 医学与科研应用突破 - 生物医学家Derya Unutmaz使用GPT-5分析未发表免疫学数据,模型准确识别关键发现并提出实验方案,最终解释全部实验结果[32][34][38][39] - 这一过程被类比为AlphaGo的"神之一手"时刻,证明GPT-5具备顶尖专家级科研协作能力[31][39][44] 编程能力与行业竞争 - GPT-5在编程基准测试中表现突出:SWE-bench达74.9%,Aider polyglot达88.0%,Tau2-bench零售场景达81.1%[62][63] - OpenAI强调GPT-5为迄今最强编程模型,可生成复杂前端代码和调试大型代码库,直接挑战Anthropic的Claude模型统治地位[41][46][48][49] - 行业高管评价积极:Cursor CEO称其为最智能编码模型,Vercel CEO认可其前端能力,JetBrains CEO指出其使开发工具性能提升1.5倍[58][59][61] 商业模式与营收对比 - Anthropic年营收接近50亿美元,主要依赖编程应用需求增长,而OpenAI年营收达120亿美元,反映更广泛业务规模[64][65] - OpenAI经历商业模式转变:从付费请人测试(如GPT-3.5前身)转向用户主动订阅,ChatGPT上线72小时即突破百万用户[88][92] 技术架构与发展方向 - 训练突破依赖合成数据,解决互联网数据枯竭问题,实现更全面知识覆盖[68][69] - 核心方向为智能体式推理,通过速度优化整合推理与非推理能力,成为一站式解决方案[71][72][74] - 模型具备零样本学习新工具能力,如Python REPL和浏览器,下一步目标是将LLM能力提升至理论框架层面[77] 产品迭代与公司战略 - GPT系列演进路径:GPT-3跨过可用门槛,GPT-4具备现实可用性,GPT-5在可靠性、代码能力上设定新标准[85] - 公司采用多线并行开发策略,结合算法优化、硬件改进及开源社区经验,实现快速迭代[79][80][82] - ChatGPT处理全球71%大模型查询,公司通过挖掘隐性行为信号而非仅依赖点赞数据指导模型改进[83]
半导体关税、Intel、GPT-5
傅里叶的猫· 2025-08-08 11:30
半导体关税影响分析 - 核心观点为在美国建厂可获得关税豁免 苹果 英伟达和台积电均承诺扩建美国产能以规避影响 [4][5] - 苹果成为最明显受益者 供应链不确定性风险显著降低 虽AI领域突破尚未实现但压力缓解 [6] - 模拟芯片领域德州仪器和Microchip因本土优势可能获益 欧洲厂商英飞凌和意法半导体15%美国业务可能受损 [6] - 晶圆代工方面台积电和三星可通过策略规避影响 联电因15%-20%美国业务且无本土产能可能受压 [6] - 光通信领域美国厂商康宁和Coherent有望夺取中国竞争对手份额 [7] - 半导体设备商应用材料因纳入苹果项目且本土产能大可能受益 Lam Research因美国布局少处劣势 [7] - 定制芯片领域博通和Marvell可能受益 联发科及台湾Allchip面临挑战 [7] - 当前市场更倾向押注半导体硬件公司而非软件公司 [7] Intel管理层变动事件 - 特朗普要求Intel CEO陈立武辞职 指控其与中国公司联系存在"高度冲突" [8][9] - 陈立武通过个人投资在中国芯片领域投入至少2亿美元 涉及8家与军方有关联企业 [9] - 关联事件显示Cadence曾因违反出口管制被罚1.4亿美元 当时陈立武任CEO [9] - 若陈立武离职将影响Intel和Cadence业务关系 Cadence近期股价上涨与Intel订单相关 [9] GPT-5市场反应 - GPT-5发布后实际体验未达预期 文字处理和搜索功能改进不明显 [14] - 可能反映Scaling Law技术瓶颈已现 前期宣传过度拉高市场期待 [14] 行业数据资源 - 知识星球提供多维度行业数据库 包含AI芯片供应链 CoWoS产能分配 GPU参数等17份专业文档 [17]
终于发布的GPT-5,和它改变世界的982天
36氪· 2025-08-08 04:15
模型发布与性能 - GPT-5采用多层级架构整合o3系列推理能力,重点提升智能体能力并屠榜LMArena所有细分类目[3] - 模型提供四个版本:标准模式GPT-5、轻量版GPT-5 mini、高速版GPT-5 nano和ChatGPT专用版GPT-5 Chat[9] - 系统由三部分组成:基础模型解决多数问题、深度推理模型处理复杂问题、实时路由器根据用户反馈持续优化[11][12] 技术架构与创新 - 统一架构整合GPT系列语言模型和o系列推理模型,具备自动调度子模型能力[11] - 开源两款MoE模型gpt-oss-20b(21B参数)和gpt-oss-120b(117B参数),采用Apache 2.0许可协议允许商用[28][29] - 模型加入人格模式提供四种输出风格,在多模态和EQ表现上有显著提升[23][25] 商业化策略 - API价格显著降低,GPT-5输入价格1.25美元/M Tokens仅为o1-pro的1/120[14] - 企业版对美国联邦政府推出1美元/机构的促销价,GitHub Copilot提供免费预览版[17][19][21] - 年化收入达120亿美元,70%来自C端订阅,20%来自API调用[48] 行业竞争格局 - 中国开源模型占据OpenRouter趋势榜前10名中的9席,阿里/月之暗面/智谱等密集发布新模型[1] - 开源闭源差距缩小,2025年起各厂商模型与OpenAI技术代差显著收窄[54][55][57] - 微软/Google/Meta市值因AI实现两位数增长,Meta广告转化率提升5个百分点[52][53] 用户数据与采用 - ChatGPT周活跃用户达7亿占全球人口近10%,年下载量突破10亿次[42][45][47] - 使用场景从工作向生活延伸,周末使用频率与工作日差距缩小至10%以内[47] - 教育/医疗领域应用突出,演示案例显示能处理复杂情感咨询和实时语言教学[25][26] 研发投入与趋势 - 训练资源消耗创纪录,Orion版本两轮训练耗资5亿美元使用10万张GPU[37] - 模型迭代周期延长,GPT-4到GPT-5耗时2年半,GPT-3到GPT-4耗时33个月[34] - 计划投资1000亿美元建设"星际之门"数据中心,可容纳40万颗AI芯片[41]
终于发布的GPT-5,和它改变世界的982天
36氪· 2025-08-08 00:07
模型发布与性能 - GPT-5采用多层级架构整合o3系列推理能力 重点提升智能体能力 未公布具体参数规模 [9] - 上线后迅速屠榜LMArena竞技场 所有细分类目均位列第一 [10][12] - 提供四个版本:标准版GPT-5 轻量版GPT-5 mini 高速版GPT-5 nano 以及ChatGPT专用版GPT-5 Chat [18] - 系统由三部分组成:基础模型 深度推理模型GPT-5 thinking 实时路由器real-time router [20] 技术架构创新 - 统一模型架构整合GPT系列语言模型与o系列推理模型 具备调度子模型能力 [19] - 开源两款MoE模型gpt-oss-20b(21B参数)和gpt-oss-120b(117B参数) 采用Apache 2.0许可协议 [52][53] - 开源模型专门为智能体设计 120B版本可在高端笔记本运行 20B版本适配手机端 [54] - 词表超过20万 支持多语种与代码混合输入 直接对标DeepSeek与阿里Qwen3 [54] 商业化策略 - API价格显著降低 GPT-5输入1.25美元/M Tokens 仅为o1-pro价格的1/120 [24][25] - 美国联邦政府机构可1美元订阅企业版 同时GitHub Copilot提供免费预览版 [31] - 年化收入达120亿美元 70%来自C端订阅 20%来自API调用 [84][85] - 微软Azure AI与Copilot带动云收入同比增39% Meta广告转化率提升5个百分点 [90][91] 行业竞争格局 - 7月中国开源模型占据OpenRouter趋势榜前10名中的9席 [6] - 开源闭源差距缩小 阿里Qwen3 月之暗面K2等中国模型引发硅谷关注 [95][99] - Anthropic创始人公开质疑开源AI价值 Meta考虑将旗舰模型Behemoth转向闭源 [100] - 全球AI数据中心投入预计达3万亿美元 半数用于GPU等加速芯片 [74] 用户与市场表现 - ChatGPT周活跃用户达7亿 占全球人口近10% 去年同期的4倍 [76][77] - 成为最快达到10亿下载量与5亿月活的应用 周末使用频率趋近工作日 [80][81] - 推出人格模式包含四种输出风格 语音多模态能力显著提升教育医疗场景体验 [39][46] - 现场演示生成带关卡音效的小游戏仅需几分钟 代码量达一两百行 [36][38]
这家百人“作坊”,凭什么年入70亿,还成了OpenAI的“御用陪练”?
36氪· 2025-08-02 00:03
公司概况 - Surge AI是一家专注于高质量数据标注的AI公司,仅有110名正式员工,却在2024年创造了超过10亿美元的年营收,反超行业巨头Scale AI [1] - 公司正启动首轮融资,目标募资10亿美元,估值或达150亿美元 [1] - 创始人Edwin Chen是37岁的华人理工男,曾任Twitter工程主管,对行业痛点有深刻理解 [3][7] 商业模式创新 - 重构数据标注行业竞争维度,形成"极致质量 × 精英团队 × 自动化系统 × 使命感文化"的乘法模型 [10] - 专注RLHF(基于人类反馈的强化学习)等高价值环节,收费是同行的2-5倍,项目最低门槛数百万美元 [13] - 开发智能人机协同系统,110人团队每周处理数百万条高质量数据,人均产出是Scale AI的近9倍 [16][17] 人才战略 - 筛选全球最顶尖的1%标注人才,包括博士、硕士,将其视为"AI工程师"而非"数据工人" [11] - 创始人对初创公司招聘有独特见解,认为早期应追求10-100倍突破而非微调,产品方向应由创始人亲自把控 [12] - 通过使命感凝聚团队,标注者被视为"AI的父母",许多高学历人才因能实践毕生所学而长期工作 [19] 行业对比 - 2024年营收10亿美元,超过Scale AI的8.7亿美元 [21] - 与传统模式相比,解决了质量堪忧、效率低下、价值密度低三大痛点 [6][7][9] - 与Snorkel AI的程序化标注相比,更擅长需要人类价值观和常识判断的复杂任务 [23] - 与Turing的专家众包平台相比,通过自研平台将精英人才整合成高效协同团队 [24] 核心优势 - 重新定义行业问题:AI需要的是蕴含人类智慧的"养料"而非简单"标注" [25] - 打破"数据=劳力"的铁律,证明"更聪明的人力+更聪明的系统"可超越线性规模增长 [25] - 构建了包括人才、技术、文化在内的全方位质量导向体系 [10][19] - 创始人坚持不卖公司,以"培育AGI"为使命,形成难以复制的精神护城河 [17][19]
GPT-5真身曝光,首测编程惊艳全网,一句话秒生游戏,OpenAI双雄备战AGI
36氪· 2025-08-01 10:25
神秘模型Horizon Alpha性能表现 - 一款名为Horizon Alpha的神秘模型在OpenRouter平台上线,其上下文长度为256K,响应速度极快,非常擅长创意写作 [1][3] - 在编程能力方面表现极为突出,可以一句话生成“水果忍者”、“外星人抓奶牛”等游戏,能根据logo图直接生成广告,并能轻松通过“六边形物理模拟”测试 [5] - 在写作EQ-Bench基准测试中,Horizon Alpha位列第一,其Elo得分为1591.6,远超o3模型的1641.0和Gemini 2.5 Pro模型的1417.2 [12] - 在长文本创意写作基准测试中,Horizon Alpha生成长度为14,072个token的文本,得分为80.5,位列第一,优于Gemini 2.5 Pro(6,093个token,得分78.7)和o3(7,493个token,得分77.5) [16] - 在情感智能基准测试中,Horizon Alpha在多项能力上得分领先,其Elo得分为1570.9,高于Kimi-K2-Instruct的1567.9和o3的1500.0 [15] - 模型推理时的吞吐量达到120个token/s,相较于Claude Sonnet 4的60-80 token/s速度更快 [22] - 能够快速创建功能完整的Windows 95复古桌面,并在3分48秒内创建一个展示一系列简单有趣的浏览器小游戏的网页 [24][28] - 在SVG创建和UI设计方面表现出色,能瞬间生成具有专业设计美感的图像,被评价为视觉上类似o3-alpha的精致输出 [39][40] - 在生成“骑自行车的鹈鹕”同款SVG测试中,被认为是所有模型中最强的 [41] - 尽管测试表现不凡,但多方推测Horizon Alpha可能只是一款小模型 [51] GPT-5发布前兆与OpenAI研发动态 - Horizon Alpha的出现被认为是GPT-5发布的强烈前兆 [1] - 此前被爆料的代号模型如lobster、zenith、summit等在多项测试中表现惊艳,种种迹象表明GPT-5“全家桶”将是非常强大的模型 [18] - 谷歌收录的GPT-5 OpenAI文档页面目前显示404 [20] - 在GPT-5发布前夕,OpenAI首席科学家Jakub Pachocki和研究主管Mark Chen接受了专访,他们被认为是研发GPT-5的“双巨头” [55] - OpenAI首席执行官Sam Altman对这篇专访大加赞赏,认为其抓住了两人合作精髓 [55] - Mark Chen曾负责DALL·E、GPT-4多模态能力及Codex的关键研发,擅长将复杂研究转化为产品;Jakub Pachocki则负责设定研究路线图和技术愿景 [60][63] - 关于当前技术瓶颈,Mark Chen坦言即便是最强推理模型也无法有效将知识串联起来,Jakub Pachocki补充说明他们仍处于推理范式的开端 [65][67] - 公司坚信Scaling Law远未触及天花板,通过投入更多计算资源和数据,模型会变得越来越好 [67] - 对于AGI,Mark Chen提出了“自主时间”这一指标,即模型能更长时间自主工作的能力,目前模型的自主时间仅限于几分钟到一小时 [67] - OpenAI模型近期在AtCoder世界巡回赛总决赛中获得第二名,并在IMO 2025大赛中夺得金牌 [68] - Pachocki认为,在编程和数学竞赛中的胜利实际上关乎创造力,提出新颖想法和联系不同领域,数学和编程被视为“通用智能”的基石 [71]
一个“蠢问题”改写模型规则,Anthropic联创亲曝:瞄准Claude 5开发爆款应用,最强模型的价值会让人忽略成本负担
36氪· 2025-07-30 10:42
Anthropic 联合创始人 Jared Kaplan 是一名理论物理学家,研究兴趣广泛,涉及有效场论、粒子物理、宇宙学、散射振幅以及共形场论等。过去几年,他 还与物理学家、计算机科学家们合作开展机器学习研究,包括神经模型以及 GPT-3 语言模型的 Scaling Law。 近期,他在 YC 分享了 Scaling Law 未来如何影响大模型发展,以及对 Claude 等模型的意义。他在演讲中透露,Scaling Law 的发现源于他物理研究中的 习惯:问更基本的、看似"愚蠢"的问题。 在 Jared Kaplan 看来,AI 的大部分价值可能还是来自最强模型。他认为,目前 AI 的发展非常不平衡:AI 在快速进步、事情在迅速变化,模型能力尚未完 全解锁,但我们在释放越来越多的功能。他认为的平衡状态是 AI 发展速度变慢、成本极低。而 AI 的快速进化会让人优先关注能力,而非成本。 我也对理解宇宙本身特别感兴趣,比如事物是如何运作的、我们周围所见的各种现象背后有哪些宏观规律?宇宙从何而来,是决定论吗?人有没有自由意 志?我对这些问题都非常着迷。 幸运的是,从事物理研究的那段时间里,我认识了很多非常聪明、非 ...
一个“蠢问题”改写模型规则!Anthropic联创亲曝:瞄准Claude 5开发爆款应用,最强模型的价值会让人忽略成本负担
AI前线· 2025-07-30 09:09
核心观点 - Scaling Law是大模型持续进步的核心动力 通过增加计算资源投入可系统性提升模型性能[10][17] - AI发展目前处于不平衡状态 能力快速提升但成本仍高 未来可能达到发展速度变慢且成本极低的平衡状态[50] - AI大部分价值可能来自最强模型 而非低配版[51] - 建议在AI能力边界上构建产品 用AI集成AI 并快速找到大规模应用突破口[29][30][31] Scaling Law发现与应用 - 源于物理学思维 通过问基础问题发现预训练和强化学习阶段都存在精确的Scaling规律[13] - 预训练阶段 扩大规模与模型性能提升呈线性关系 该规律在5个数量级内成立[11][13] - 强化学习阶段 计算资源投入与模型能力提升同样存在线性关系 最初通过六子棋实验发现[14][17] - Scaling Law可作为训练诊断工具 若失效更可能是训练方法出现问题而非规律本身问题[48] AI能力发展趋势 - 用两个维度衡量AI能力:Y轴为适应性(处理多模态能力) X轴为任务时长跨度[18][19] - 任务时长处理能力约每7个月翻一倍 从几分钟逐步扩展到几天、几周甚至几年[20][23] - 未来可能出现成千上万AI模型协作 完成人类组织或科学界几十年才能完成的工作[25] - Claude 4重点优化了记忆功能 使AI能保存和调用信息 处理更长跨度任务[35][36] AI发展建议与方向 - 需突破三个关键点:组织知识整合、长期记忆能力、细致监督信号[27][28] - "广度型"AI在整合跨领域知识方面潜力巨大 如生物医学研究[40] - 技术门槛高且依赖电脑/数据的领域(金融、法律等)是AI应用空白地带[41] - 人机协作是重要方向 初期需人类管理 长期将更多任务完全自动化[39] 物理思维对AI研究的价值 - 物理学方法强调寻找宏观趋势并精确量化 如质疑"指数增长"说法并要求精确函数形式[43] - 将神经网络视为无限大系统研究 借鉴物理学中大矩阵近似方法[44] - 坚持问基础问题 因AI领域仍有许多基本原理未解 如可解释性问题[44][46]
直击WAIC 2025丨AI智能体元年,究竟需要怎样的算力?超节点、高性价比推理芯片还是全栈协同
每日经济新闻· 2025-07-29 12:14
2025年AI发展趋势与算力需求重塑 - 2025年被视为AI大规模应用的开端和AI智能体的元年 [1] - 算力芯片的需求逻辑被重塑,推理需求将超越训练成为核心增长点 [1] - 人形机器人发展将助推算力芯片需求,算力芯片是其大脑的计算核心 [1] WAIC 2025主要厂商解决方案 - 华为昇腾推出384超节点产品,通过总线技术实现384个NPU大带宽低时延互联 [2] - 摩尔线程提出"AI工厂"理念,提供以全功能GPU为核心的"云边端"全栈解决方案 [3] - 施耐德电气创新性提出"算电协同"三层架构,解决算力与电力系统协同优化问题 [5] 国产算力生态发展现状 - 华鲲振宇作为华为计算战略伙伴,定位为"国产算力生态的技术转化者" [3] - 公司以"鲲鹏+昇腾"双引擎构建全栈自主计算产品体系,实现整机出货量第一 [2][3] - 在金融、运营商、政府等领域积累深厚实践经验 [3] AI算力技术路径演进 - 行业从追求单卡突破转向系统级解决方案 [4] - 摩尔线程推出具身智能高性能算力扩展模块,采用低功耗高性能AI SoC芯片 [3] - 随着Scaling Law持续生效,云端算力需求持续增长,边缘侧和终端推理算力潜力巨大 [4] 算力能耗挑战与解决方案 - AI算力中心功耗呈指数型增长,沐曦GPU机柜耗电量巨大导致展台无法满载演示 [5] - 预测2030年中国数据中心用电量可能突破7000亿千瓦时,占全国总用电量5.3% [5] - 施耐德电气"算电协同"方案通过预测算力需求及功耗,优化IT负载灵活性和非IT负载节能 [5]