大语言模型 - 财报，业绩电话会，研报，新闻 - Reportify

大语言模型

搜索文档

闹玩呢，首届大模型对抗赛，DeepSeek、Kimi第一轮被淘汰了

36氪· 2025-08-06 08:01

大模型国际象棋对抗赛首轮结果 - 谷歌发起首届大模型国际象棋对抗赛，参赛模型包括OpenAI的o4-mini和o3、DeepSeek的DeepSeek-R1、月之暗面的Kimi K2 Instruct、谷歌的Gemini 2 5 Pro和Gemini 2 5 Flash、Anthropic的Claude Opus 4以及xAI的Grok 4 [1] - 首轮比赛结果为Gemini 2 5 Pro、o4-mini、Grok 4和o3均以4-0的战绩分别击败Claude 4 Opus、DeepSeek R1、Gemini 2 5 Flash和Kimi k2，晋级半决赛 [1] - 比赛在Kaggle Game Arena平台进行，旨在探索大模型在动态竞争环境中的表现 [1] 各模型表现分析 - Grok 4表现最为亮眼，不仅以4-0全胜，还展现出精准捕捉无保护棋子的能力，被认为突破了当前大模型在象棋对弈中的三大关键短板 [21][24][27] - Gemini 2 5 Pro是唯一通过"将杀"获胜场次多于因违规告负场次的模型，但真实棋力尚不明确 [14] - o4-mini在与DeepSeek R1的对局中成功实现两次将军，但棋局质量存在断崖式下跌现象 [10][13] - o3轻松击败非推理模型Kimi K2 Instruct，Kimi k2在脱离开局理论后出现技术问题 [3][6][9] 行业观察 - 比赛暴露出大语言模型在象棋对弈中的三大关键短板：全局棋盘视觉化能力不足、棋子间互动关系理解有限以及合法着法执行问题 [27] - 赛前投票显示37%的参与者最看好Gemini 2 5 Pro [27] - 比赛结果引发科技界关注，xAI创始人埃隆・马斯克再次提及"国际象棋太过简单"的观点 [24]

大语言模型

大语言模型

闹玩呢！首届大模型对抗赛，DeepSeek、Kimi第一轮被淘汰了

机器之心· 2025-08-06 04:31

比赛概况 - 谷歌发起首届大模型国际象棋对抗赛，旨在探索LLM在动态竞争环境中的表现[3][6] - 参赛模型包括Gemini 2 5 Pro、o4-mini、Grok 4、o3、Claude 4 Opus、DeepSeek R1、Gemini 2 5 Flash和Kimi k2[10] - 第一轮比赛结果为Gemini 2 5 Pro、o4-mini、Grok 4和o3均以4-0战绩晋级半决赛[4] 模型表现分析 - **Grok 4**：以全胜战绩表现最佳，展现精准捕捉无保护棋子能力，突破LLM三大短板（全局棋盘视觉化不足、棋子互动理解有限、合法着法执行问题）[30][33][36] - **o4-mini**：对阵DeepSeek R1时出现开局高质量但后续断崖式下跌现象，但实现两次将军[18][21][22] - **Gemini 2 5 Pro**：唯一通过将杀获胜多于违规的模型，第四局虽拥有32分子力优势仍出现送子[23][24] - **o3**：对阵Kimi k2时因对方连续四次无合法着法获胜，Kimi k2在脱离开局理论后技术问题显著[7][8][9] 技术短板与观察 - LLM普遍存在棋盘状态识别混乱问题，如Kimi k2能识别局势但无法执行合法着法[13][14] - 部分模型（如Claude 4 Opus）在稳定对局后突发草率决策（如10...g5送兵破坏王城安全）[27] - 赛前投票显示37 64%参与者最看好Gemini 2 5 Pro，但实际表现与预期存在差异[37][38] 赛事影响 - Grok 4表现引发科技界关注，创始人马斯克重申"国际象棋太过简单"观点[33] - 比赛结果揭示LLM在复杂策略游戏中的能力边界，半决赛表现将验证模型稳定性[36]

大语言模型

大语言模型

OpenAI开源！深夜连发两个推理模型

第一财经资讯· 2025-08-06 00:16

2025.08.06 本文字数：304，阅读时长大约1分钟作者 |一财科技 OpenAI发布两款"开源"和免费使用的AI模型，GPT-oss-120b和GPT-oss-20b。这次发布是 OpenAI 自发布 GPT-2以来，首次推出新的"开源"大语言模型。 OpenAI CEO 山姆·奥尔特曼在社交媒体表示："GPT-oss是一个重大突破，这是最先进的开放权重推理模型，具有与o4-mini相当的强大现实世界性能，可以在你自己的电脑（或手机的较小版本）上本地运行。"他透露公司将在未来几天里带来许多新东西。微信编辑| 七三第一财经持续追踪财经热点。若您掌握公司动态、行业趋势、金融事件等有价值的线索，欢迎提供。专用邮箱：bianjibu@yicai.com （注：我们会对线索进行核实。您的隐私将严格保密。） ...

大语言模型

Artificial Intelligence

大语言模型

Artificial Intelligence

AI解读7月中央政治局会议：总量收敛，结构鲜明

国信证券· 2025-08-05 13:06

宏观经济表现 - 2025年上半年GDP同比增长5.3%，展现超预期韧性[4] - 政策基调转向"提质促转型"，强调"落实落细"财政与货币政策[4][22] 政策量化分析 - 7月政治局会议总体政策强度得分为0.51，较4月略有回落但仍处历史高位[11] - 财政政策分项得分0.51（环比回落），货币政策分项得分0.53（温和回落）[11] - AI量化显示货币政策得分与10年期国债收益率呈负相关（R²=0.5798）[13] 结构性政策导向 - "创新"词频大幅上升，科技导向强化；"民生"关注回暖，聚焦育儿补贴与服务消费[9] - 房地产政策转向"城市更新"，未直接提及"房地产"关键词[9][11] - 外贸与债务词频同步抬升，地方债务化解路径明确[9][22] 下半年政策主线 - 三条结构主线：服务消费（育儿/养老/文旅）、统一大市场与产能治理、科技创新[22] - 政策组合呈现"弱刺激、强改革、重结构"特征，降准降息概率较低[22]

大语言模型

高质量发展

结构性政策

大语言模型

高质量发展

结构性政策

英伟达最新研究：小模型才是智能体的未来

36氪· 2025-08-05 09:45

小语言模型（SLM）的优势 - SLM已足够强大，能处理AI智能体中大多数重复、专一的任务，且天生更适合智能体系统的架构，灵活且易集成 [3] - 从经济角度看，SLM更省钱、更高效，能大幅降低AI运行成本 [3] - SLM小巧，训练/微调成本低（几小时GPU就行），易适应新需求（如新法规），带来"民主化"，让更多人能开发智能体，减少偏见，促进创新 [5] AI智能体市场的现状与问题 - 2024年AI智能体市场已达52亿美元，预计到2034年飙升至2000亿美元，企业中超过一半已经在用 [5] - 目前大多数AI智能体依赖LLM作为"大脑"，但任务往往重复单一（如"检查邮件""生成报告"），用LLMs过于浪费资源 [5] - 智能体系统任务的特点使得小模型能更好的适配智能体生态，从而更有可能交付出更符合要求的结果 [5] SLM的技术特点与性能 - SLM能装进普通消费电子设备（如手机或笔记本），推理速度快，能实时服务一个用户的智能体请求，10亿参数以下的模型可以算是SLM [9] - 最前沿的小模型如Phi-3和Hymba，在工具使用、常识推理和指令遵循方面，性能足以媲美30B到70B的大模型，但在实际工作流中的计算量却降低了10-30倍 [11] - 英伟达测试发现：MetaGPT 60%的任务可用SLM取代，Open Operator 40%，Cradle（图形界面自动化）70% [11] SLM未被广泛采用的原因 - 路径依赖：大量资金（高达570亿美元）被投入了中心化的大模型基础设施，团队倾向于重复使用付费设置，短期内难以转变 [11] - 行业内对「大即是好」的偏见依然强烈，小型模型的研究一直在追逐用于大型模型的相同广泛基准，这些测试体现不出小模型在智能体任务上的优秀表现 [12] - SLM几乎没有GPT-4那样的热度，小模型也不像大模型那样经历营销热潮，许多构建者从未尝试过更便宜更合理的路线 [13] SLM的未来发展建议 - 收集梳理数据，针对特定任务微调SLM，把任务进行聚类并建立SLM的"技能" [13] - 智能体运行时自然产生的专精数据可用来微调SLM，形成良性循环，使得结果越来越好 [6] - 智能体系统天然异构利于混用模型，主智能体用LLM，子任务用SLM [5] 作者背景 - SHIZHE DIAO：先后就读于北京师范大学、香港科技大学，曾在UIUC做访问学者，字节AI LAB实习，2024年加入英伟达担任研究科学家 [15][17] - Xin Dong：博士毕业于哈佛大学，曾在腾讯、Meta等公司工作和实习，现为英伟达研究科学家 [20][22][24]

英伟达(US:NVDA)

小语言模型

人工智能智能体

大语言模型

小语言模型（SLM）

大语言模型（LLM）

小语言模型

人工智能智能体

大语言模型

小语言模型（SLM）

大语言模型（LLM）

首破10亿美元！“AI应用神话”Palantir Q2营收暴增48%，上调全年指引

搜狐财经· 2025-08-05 00:54

业绩表现 - 二季度营收达10.04亿美元，首次突破10亿美元大关，超出预期的9.4亿美元，同比增长48% [2] - 调整后每股收益为16美分，高于预期的14美分 [2] - 美国收入同比增长68%至7.33亿美元，其中美国商业收入同比增长近100%至3.06亿美元 [3] - 美国政府收入同比增长53%至4.26亿美元，占总营收42% [4] 财务指标 - 运营收入2.69亿美元，调整后运营收入4.64亿美元 [3] - 经营活动现金流5.39亿美元，调整后自由现金流5.69亿美元 [3] - 归属于普通股股东的净利润3.27亿美元，调整后净利润4.05亿美元 [3] - 调整后EBITDA 4.71亿美元 [3] 业务发展 - 完成66笔超500万美元交易和42笔超1000万美元交易，合同总价值同比增长140%至22.7亿美元 [4] - 美国陆军未来十年可能采购价值高达100亿美元的服务 [4] - 公司计划在减少员工至3600人（现4100人）的同时实现10倍营收增长 [6] 市场反应 - 股价盘后上涨近5%，自去年6月以来累计涨幅达641% [1][6] - 市值突破3790亿美元，跻身美国市值前20，超过Salesforce、IBM和思科 [6] - 当前预期市盈率达276倍，显著高于特斯拉的177倍 [6][7] 管理层观点 - CEO表示AI突破推动增长，公司将成"未来主导的软件公司" [6] - 大语言模型及配套芯片开发推动软件基础设施融合，使AI能与现实世界连接 [6] - 分析师认为Palantir在AI商业化方面具有独特市场定位，商业和政府业务均取得进展 [7] 业绩展望 - 上调全年营收指引至41.42-41.5亿美元，高于此前预期的38.9-39亿美元和市场预期的39亿美元 [4]

大语言模型

人工智能应用

大语言模型

人工智能应用

大模型年中报告：Anthropic 市场份额超 OpenAI，开源模型企业采用率下降

Founder Park· 2025-08-04 13:38

基础大模型发展趋势 - 基础大模型正成为生成式AI核心引擎并重塑计算未来其能力与成本控制的演进将推动系统应用及产业格局变革 [2] - 模型API支出在6个月内从35亿美元增长至84亿美元企业重心从训练微调转向模型推理标志阶段性转折 [2] - 代码生成成为首个大规模爆发的AI应用场景基础模型能力升级路径新增"带验证器的强化学习"(RLHF with verifiers) [2] 市场竞争格局变化 - Anthropic以32%企业使用率超越OpenAI(25%)和Google(20%) 成为市场新领跑者 Meta Llama占9% DeepSeek仅1% [9] - Anthropic崛起始于2024年6月Claude Sonnet 3 5发布 2025年系列版本(Claude Sonnet 3 7/4 Opus 4 Claude Code)巩固领先地位 [12] - 企业投入集中流向少数高性能闭源模型开源采用趋势因前沿突破放缓而减弱 [3] Anthropic成功驱动因素 - 代码生成领域占据42%市场份额(OpenAI为21%) 催生19亿美元生态系统及AI IDE 应用构建工具等新形态产品 [13][14] - 采用带可验证奖励的强化学习(RLVR)突破数据瓶颈成为提升模型可靠性与实际能力的关键路径 [15] - 率先实现Agent范式突破通过多轮自我优化及工具调用提升模型执行力 2025年被称为"Agent之年" [16] 开源模型发展现状 - 开源模型运行任务占比从19%降至13% Meta Llama仍领先但Llama 4表现未达预期 [17] - 中国公司贡献突出开源模型(DeepSeek 字节跳动阿里巴巴等) 但性能落后前沿闭源模型9-12个月叠加部署复杂度导致份额停滞 [17][20] - 开源吸引力在于定制化成本优势及私有化部署但初创企业生产负载正加速转向闭源 [20] 企业模型选择行为 - 66%开发者选择原供应商升级仅11%切换供应商性能(非价格)是核心决策因素 [24][27] - 性能优先逻辑下旧模型即使降价十倍也无法挽回用户 Claude 4发布一个月内即抢占45%用户 [27][30] - AI支出从训练转向推理初创企业推理任务占比从48%升至74% 近半数企业主要计算任务由推理驱动 [31]

大语言模型

带验证器的强化学习

大语言模型

带验证器的强化学习

直播电商“兴趣产业带”为实体经济发展注入新活力

中国新闻网· 2025-08-04 10:10

在实体经济和数字经济深度融合的背景下，以抖音电商为代表的全域兴趣电商已经成为牵引制造业转型升级的重要力量。细化到产业层面，"兴趣产业带"本质上是一种依托地缘集聚优势、聚焦特定小众兴趣品类的产业集群现象。数字平台通过其平台能力，有效聚集了这些原本分散的特色产业资源，构建起连接生产与消费的新通道。在抖音电商的整合与赋能下，实体企业也得以依托短视频和直播平台充分展现产业带商品的特性、价值和精神内涵，从而获得大量稳定订单，开辟了增长新路径。更为重要的是，抖音电商助力了"兴趣产业带"的发展，深度激发了产业带内中小商家的产业潜能，刺激了多元化的新消费需求，孵化培育了新锐品牌，完善了产业链，为市场创造了显著的新增量。 (责任编辑：王晨曦) 第一，直播电商整合"兴趣产业带"集群，显著降低交易成本，提升盈利能力。直播电商平台凭借其生产成本低、传播速度快、动态性和流动性高等特征，有效激活并整合了分散的小众兴趣产业资源，助力实体企业有效降低交易成本和充分挖掘市场潜力，使得传统制造业企业得以根据用户需求追随消费潮流。在抖音电商等新电商模式的牵引下，具有地缘集聚性的制造业企业持续优化流程、缩短周期、降低成本，根据用 ...

兴趣产业带

大语言模型

生成式人工智能

全域兴趣电商

兴趣产业带

大语言模型

生成式人工智能

全域兴趣电商

LLM抢人血案：强化学习天才被挖空，一朝沦为「无人区」

36氪· 2025-08-04 07:22

强化学习领域的历史回顾与核心观点 - 斯坦福AI+CS博士Joseph Suarez对强化学习进行历史回顾，其文章获得38.2万阅读量[1] - 封面曲线暗示强化学习领域研究前景经历快速上升、平缓爬升后急转直下[3] - 文章探讨强化学习历史发展及近期才真正起飞的原因，并提供个人独特视角[3] Joseph Suarez的专业背景与研究基础 - 2019年本科毕业于斯坦福大学计算机科学专业人工智能方向[5] - 2018年在OpenAI实习期间发布Neural MMO首个公开版本[5] - 博士期间创建开源计算研究平台Neural MMO，并以此作为毕业论文主题[5][6] - 早期研究经历包括在李飞飞课题组和吴恩达实验室参与项目[5] - 其研究为PufferLib工作奠定基础[9] 强化学习早期突破与潜力展示 - 2017-2019年强化学习领域出现多项重大突破[10] - OpenAI Five项目开发期间，作者在OpenAI实习并亲眼见证相关工作[10] - OpenAI的Dota 2项目使用1.68亿参数网络，在约1000个GPU上训练后击败顶尖职业选手[12][16] - 其他重要展示项目包括AlphaStar、Capture the Flag和Emergent Tool Use等[17] 强化学习衰落的原因分析 - 2019年至2022年强化学习明显走下坡路，缺乏持久突破[19] - 学术短视导致领域集体设定了不合理的标准，如使用Agent57基准测试57款雅达利游戏[19] - 基准测试以样本数为x轴而非实际运行时间，且未限制硬件使用量，导致研究耗时且成本高昂[22] - 单个游戏运行可能需要数周GPU时间，消融实验需要1万GPU小时且利用率低于5%[22][23] - 大语言模型崛起吸引了99%的天才研究人员离开强化学习领域[25][26] - 强化学习存在超参数不合理、模型无法扩展、简单任务难以转移等基础问题[27] 当前强化学习研究的挑战与重复错误 - 现代强化学习研究重现了缓慢实验周期、过度优化评价体系等历史问题[29] - 领域为已有概念创造新术语，如“多轮RL”指“不只是赌博机问题”[32] - 对早期研究的不信任源于许多已发表内容确实存在问题[32] 强化学习的新发展方向与突破 - Joseph Suarez团队转向以墙钟训练时间为标准，重视性能工程[33] - 目标是将训练吞吐量从每秒几千步提升至数百万步[33] - PufferLib 3.0在单个RTX 5090上训练速度最高可达每秒400万步[35] - 新方法使新手程序员能在几天内让强化学习在新问题上运行，显著降低门槛[35] - 实验显示简单环境的结果能泛化到更难环境，开发周期快速[35] - 长期计划回归样本效率研究，但会保持flop效率，避免低利用率问题[36]

大语言模型

大语言模型

在WAIC耳朵听出茧子的「智能体」，是时候系统学一下了

机器之心· 2025-08-04 07:05

文章核心观点 - 智能体成为AI大模型应用的重要方向，从单纯的聊天机器人转向具备主动思考、制定计划和使用工具的能力 [1] - 智能体系统通过整合工具使用、推理能力和自主规划，显著提升LLM解决复杂问题的能力 [6][38][112] - ReAct框架通过结合推理与行动，为智能体系统提供了通用的问题解决范式 [40][41][47] - 智能体发展分为多个层级，从标准LLM逐步演进到具备高度自主性的系统 [101][105][107][111] - 当前智能体系统仍处于早期阶段，可靠性是制约其发展的关键因素 [114][115] LLM及其能力 - 标准LLM采用文本到文本的结构，通用性是其核心优势 [5] - 现代智能体的高级能力建立在LLM基础功能之上 [6] - 推理风格的LLM通过生成思维链(CoT)显著提升推理能力 [24][25] - 专用推理模型(如DeepSeek)通过RLVR训练实现更复杂的推理行为 [29][31] 工具使用 - LLM可集成计算器、日历、搜索引擎等外部工具作为问题解决环节 [7] - LLM充当"大脑/指挥官"角色，协调不同专业工具协同工作 [8] - 工具使用方式包括：针对性微调、基于提示的方法和MCP协议 [9][11][16] - 基于提示的工具使用方法可支持LLM与数千个API集成 [15] 推理模型 - CoT提示通过引导LLM展示逐步推理过程提升表现 [24][25] - 推理模型采用不定量"思考"时间，思维链可达数千token [30] - RLVR训练使模型通过自我进化发展推理能力 [31][33] - 推理轨迹长度可控制模型思考深度，如OpenAI的o系列提供低中高三级 [34][35] ReAct框架 - 首个通用框架，通过LLM智能体自主分解并解决复杂问题 [40][41] - 关键创新：允许语言作为行动形式，智能体可输出"思考" [46][47] - 思维模式包括：任务分解、计划制定、进度跟踪等 [53][55] - 在知识密集型推理和决策制定任务中表现优异 [63][64][77] - 与CoT结合可进一步提升性能，支持两种模式切换 [78][80] 智能体系统演进 - 从标准LLM(Level 0)到具备完全自主性的系统(Level 3) [101][111] - Level 1: 集成工具使用，克服知识截止和幻觉问题 [104][105] - Level 2: 引入问题分解框架，如ReAct [107][109] - Level 3: 增加自主行动能力，如自动提交PR的Codex [111] - 理想系统整合推理LLM、标准LLM、工具和行动能力 [112] 行业现状与未来 - 当前智能体系统仍脆弱，单步错误可能导致整体失败 [114] - 可靠性是制约因素，需提升LLM稳健性 [114] - 研究重点：多智能体系统、领域微调、评估方法 [114] - 预计短期内能力和通用性将显著提升 [115]

大语言模型

思维链（Chain of Thought

Artificial Intelligence

大语言模型

思维链（Chain of Thought

Artificial Intelligence