Workflow
大语言模型
icon
搜索文档
闹玩呢,首届大模型对抗赛,DeepSeek、Kimi第一轮被淘汰了
36氪· 2025-08-06 08:01
大模型国际象棋对抗赛首轮结果 - 谷歌发起首届大模型国际象棋对抗赛,参赛模型包括OpenAI的o4-mini和o3、DeepSeek的DeepSeek-R1、月之暗面的Kimi K2 Instruct、谷歌的Gemini 2 5 Pro和Gemini 2 5 Flash、Anthropic的Claude Opus 4以及xAI的Grok 4 [1] - 首轮比赛结果为Gemini 2 5 Pro、o4-mini、Grok 4和o3均以4-0的战绩分别击败Claude 4 Opus、DeepSeek R1、Gemini 2 5 Flash和Kimi k2,晋级半决赛 [1] - 比赛在Kaggle Game Arena平台进行,旨在探索大模型在动态竞争环境中的表现 [1] 各模型表现分析 - Grok 4表现最为亮眼,不仅以4-0全胜,还展现出精准捕捉无保护棋子的能力,被认为突破了当前大模型在象棋对弈中的三大关键短板 [21][24][27] - Gemini 2 5 Pro是唯一通过"将杀"获胜场次多于因违规告负场次的模型,但真实棋力尚不明确 [14] - o4-mini在与DeepSeek R1的对局中成功实现两次将军,但棋局质量存在断崖式下跌现象 [10][13] - o3轻松击败非推理模型Kimi K2 Instruct,Kimi k2在脱离开局理论后出现技术问题 [3][6][9] 行业观察 - 比赛暴露出大语言模型在象棋对弈中的三大关键短板:全局棋盘视觉化能力不足、棋子间互动关系理解有限以及合法着法执行问题 [27] - 赛前投票显示37%的参与者最看好Gemini 2 5 Pro [27] - 比赛结果引发科技界关注,xAI创始人埃隆・马斯克再次提及"国际象棋太过简单"的观点 [24]
闹玩呢!首届大模型对抗赛,DeepSeek、Kimi第一轮被淘汰了
机器之心· 2025-08-06 04:31
比赛概况 - 谷歌发起首届大模型国际象棋对抗赛,旨在探索LLM在动态竞争环境中的表现[3][6] - 参赛模型包括Gemini 2 5 Pro、o4-mini、Grok 4、o3、Claude 4 Opus、DeepSeek R1、Gemini 2 5 Flash和Kimi k2[10] - 第一轮比赛结果为Gemini 2 5 Pro、o4-mini、Grok 4和o3均以4-0战绩晋级半决赛[4] 模型表现分析 - **Grok 4**:以全胜战绩表现最佳,展现精准捕捉无保护棋子能力,突破LLM三大短板(全局棋盘视觉化不足、棋子互动理解有限、合法着法执行问题)[30][33][36] - **o4-mini**:对阵DeepSeek R1时出现开局高质量但后续断崖式下跌现象,但实现两次将军[18][21][22] - **Gemini 2 5 Pro**:唯一通过将杀获胜多于违规的模型,第四局虽拥有32分子力优势仍出现送子[23][24] - **o3**:对阵Kimi k2时因对方连续四次无合法着法获胜,Kimi k2在脱离开局理论后技术问题显著[7][8][9] 技术短板与观察 - LLM普遍存在棋盘状态识别混乱问题,如Kimi k2能识别局势但无法执行合法着法[13][14] - 部分模型(如Claude 4 Opus)在稳定对局后突发草率决策(如10...g5送兵破坏王城安全)[27] - 赛前投票显示37 64%参与者最看好Gemini 2 5 Pro,但实际表现与预期存在差异[37][38] 赛事影响 - Grok 4表现引发科技界关注,创始人马斯克重申"国际象棋太过简单"观点[33] - 比赛结果揭示LLM在复杂策略游戏中的能力边界,半决赛表现将验证模型稳定性[36]
OpenAI开源!深夜连发两个推理模型
第一财经资讯· 2025-08-06 00:16
2025.08.06 本文字数:304,阅读时长大约1分钟 作者 |一财科技 OpenAI发布两款"开源"和免费使用的AI模型,GPT-oss-120b和GPT-oss-20b。这次发布是 OpenAI 自发布 GPT-2以来,首次推出新的"开源"大语言模型。 OpenAI CEO 山姆·奥尔特曼在社交媒体表示:"GPT-oss是一个重大突破,这是最先进的开放权重推理模 型,具有与o4-mini相当的强大现实世界性能,可以在你自己的电脑(或手机的较小版本)上本地运 行。"他透露公司将在未来几天里带来许多新东西。 微信编辑| 七三 第一财经持续追踪财经热点。若您掌握公司动态、行业趋势、金融事件等有价值的线索,欢迎提供。专 用邮箱:bianjibu@yicai.com (注:我们会对线索进行核实。您的隐私将严格保密。) ...
AI解读7月中央政治局会议:总量收敛,结构鲜明
国信证券· 2025-08-05 13:06
宏观经济表现 - 2025年上半年GDP同比增长5.3%,展现超预期韧性[4] - 政策基调转向"提质促转型",强调"落实落细"财政与货币政策[4][22] 政策量化分析 - 7月政治局会议总体政策强度得分为0.51,较4月略有回落但仍处历史高位[11] - 财政政策分项得分0.51(环比回落),货币政策分项得分0.53(温和回落)[11] - AI量化显示货币政策得分与10年期国债收益率呈负相关(R²=0.5798)[13] 结构性政策导向 - "创新"词频大幅上升,科技导向强化;"民生"关注回暖,聚焦育儿补贴与服务消费[9] - 房地产政策转向"城市更新",未直接提及"房地产"关键词[9][11] - 外贸与债务词频同步抬升,地方债务化解路径明确[9][22] 下半年政策主线 - 三条结构主线:服务消费(育儿/养老/文旅)、统一大市场与产能治理、科技创新[22] - 政策组合呈现"弱刺激、强改革、重结构"特征,降准降息概率较低[22]
英伟达最新研究:小模型才是智能体的未来
36氪· 2025-08-05 09:45
小语言模型(SLM)的优势 - SLM已足够强大,能处理AI智能体中大多数重复、专一的任务,且天生更适合智能体系统的架构,灵活且易集成 [3] - 从经济角度看,SLM更省钱、更高效,能大幅降低AI运行成本 [3] - SLM小巧,训练/微调成本低(几小时GPU就行),易适应新需求(如新法规),带来"民主化",让更多人能开发智能体,减少偏见,促进创新 [5] AI智能体市场的现状与问题 - 2024年AI智能体市场已达52亿美元,预计到2034年飙升至2000亿美元,企业中超过一半已经在用 [5] - 目前大多数AI智能体依赖LLM作为"大脑",但任务往往重复单一(如"检查邮件""生成报告"),用LLMs过于浪费资源 [5] - 智能体系统任务的特点使得小模型能更好的适配智能体生态,从而更有可能交付出更符合要求的结果 [5] SLM的技术特点与性能 - SLM能装进普通消费电子设备(如手机或笔记本),推理速度快,能实时服务一个用户的智能体请求,10亿参数以下的模型可以算是SLM [9] - 最前沿的小模型如Phi-3和Hymba,在工具使用、常识推理和指令遵循方面,性能足以媲美30B到70B的大模型,但在实际工作流中的计算量却降低了10-30倍 [11] - 英伟达测试发现:MetaGPT 60%的任务可用SLM取代,Open Operator 40%,Cradle(图形界面自动化)70% [11] SLM未被广泛采用的原因 - 路径依赖:大量资金(高达570亿美元)被投入了中心化的大模型基础设施,团队倾向于重复使用付费设置,短期内难以转变 [11] - 行业内对「大即是好」的偏见依然强烈,小型模型的研究一直在追逐用于大型模型的相同广泛基准,这些测试体现不出小模型在智能体任务上的优秀表现 [12] - SLM几乎没有GPT-4那样的热度,小模型也不像大模型那样经历营销热潮,许多构建者从未尝试过更便宜更合理的路线 [13] SLM的未来发展建议 - 收集梳理数据,针对特定任务微调SLM,把任务进行聚类并建立SLM的"技能" [13] - 智能体运行时自然产生的专精数据可用来微调SLM,形成良性循环,使得结果越来越好 [6] - 智能体系统天然异构利于混用模型,主智能体用LLM,子任务用SLM [5] 作者背景 - SHIZHE DIAO:先后就读于北京师范大学、香港科技大学,曾在UIUC做访问学者,字节AI LAB实习,2024年加入英伟达担任研究科学家 [15][17] - Xin Dong:博士毕业于哈佛大学,曾在腾讯、Meta等公司工作和实习,现为英伟达研究科学家 [20][22][24]
首破10亿美元!“AI应用神话”Palantir Q2营收暴增48%,上调全年指引
搜狐财经· 2025-08-05 00:54
业绩表现 - 二季度营收达10.04亿美元,首次突破10亿美元大关,超出预期的9.4亿美元,同比增长48% [2] - 调整后每股收益为16美分,高于预期的14美分 [2] - 美国收入同比增长68%至7.33亿美元,其中美国商业收入同比增长近100%至3.06亿美元 [3] - 美国政府收入同比增长53%至4.26亿美元,占总营收42% [4] 财务指标 - 运营收入2.69亿美元,调整后运营收入4.64亿美元 [3] - 经营活动现金流5.39亿美元,调整后自由现金流5.69亿美元 [3] - 归属于普通股股东的净利润3.27亿美元,调整后净利润4.05亿美元 [3] - 调整后EBITDA 4.71亿美元 [3] 业务发展 - 完成66笔超500万美元交易和42笔超1000万美元交易,合同总价值同比增长140%至22.7亿美元 [4] - 美国陆军未来十年可能采购价值高达100亿美元的服务 [4] - 公司计划在减少员工至3600人(现4100人)的同时实现10倍营收增长 [6] 市场反应 - 股价盘后上涨近5%,自去年6月以来累计涨幅达641% [1][6] - 市值突破3790亿美元,跻身美国市值前20,超过Salesforce、IBM和思科 [6] - 当前预期市盈率达276倍,显著高于特斯拉的177倍 [6][7] 管理层观点 - CEO表示AI突破推动增长,公司将成"未来主导的软件公司" [6] - 大语言模型及配套芯片开发推动软件基础设施融合,使AI能与现实世界连接 [6] - 分析师认为Palantir在AI商业化方面具有独特市场定位,商业和政府业务均取得进展 [7] 业绩展望 - 上调全年营收指引至41.42-41.5亿美元,高于此前预期的38.9-39亿美元和市场预期的39亿美元 [4]
大模型年中报告:Anthropic 市场份额超 OpenAI,开源模型企业采用率下降
Founder Park· 2025-08-04 13:38
基础大模型发展趋势 - 基础大模型正成为生成式AI核心引擎并重塑计算未来 其能力与成本控制的演进将推动系统 应用及产业格局变革 [2] - 模型API支出在6个月内从35亿美元增长至84亿美元 企业重心从训练微调转向模型推理 标志阶段性转折 [2] - 代码生成成为首个大规模爆发的AI应用场景 基础模型能力升级路径新增"带验证器的强化学习"(RLHF with verifiers) [2] 市场竞争格局变化 - Anthropic以32%企业使用率超越OpenAI(25%)和Google(20%) 成为市场新领跑者 Meta Llama占9% DeepSeek仅1% [9] - Anthropic崛起始于2024年6月Claude Sonnet 3 5发布 2025年系列版本(Claude Sonnet 3 7/4 Opus 4 Claude Code)巩固领先地位 [12] - 企业投入集中流向少数高性能闭源模型 开源采用趋势因前沿突破放缓而减弱 [3] Anthropic成功驱动因素 - 代码生成领域占据42%市场份额(OpenAI为21%) 催生19亿美元生态系统及AI IDE 应用构建工具等新形态产品 [13][14] - 采用带可验证奖励的强化学习(RLVR)突破数据瓶颈 成为提升模型可靠性与实际能力的关键路径 [15] - 率先实现Agent范式突破 通过多轮自我优化及工具调用提升模型执行力 2025年被称为"Agent之年" [16] 开源模型发展现状 - 开源模型运行任务占比从19%降至13% Meta Llama仍领先但Llama 4表现未达预期 [17] - 中国公司贡献突出开源模型(DeepSeek 字节跳动 阿里巴巴等) 但性能落后前沿闭源模型9-12个月 叠加部署复杂度导致份额停滞 [17][20] - 开源吸引力在于定制化 成本优势及私有化部署 但初创企业生产负载正加速转向闭源 [20] 企业模型选择行为 - 66%开发者选择原供应商升级 仅11%切换供应商 性能(非价格)是核心决策因素 [24][27] - 性能优先逻辑下 旧模型即使降价十倍也无法挽回用户 Claude 4发布一个月内即抢占45%用户 [27][30] - AI支出从训练转向推理 初创企业推理任务占比从48%升至74% 近半数企业主要计算任务由推理驱动 [31]
直播电商“兴趣产业带”为实体经济发展注入新活力
中国新闻网· 2025-08-04 10:10
在实体经济和数字经济深度融合的背景下,以抖音电商为代表的全域兴趣电商已经成为牵引制造业转型 升级的重要力量。细化到产业层面,"兴趣产业带"本质上是一种依托地缘集聚优势、聚焦特定小众兴趣 品类的产业集群现象。数字平台通过其平台能力,有效聚集了这些原本分散的特色产业资源,构建起连 接生产与消费的新通道。在抖音电商的整合与赋能下,实体企业也得以依托短视频和直播平台充分展现 产业带商品的特性、价值和精神内涵,从而获得大量稳定订单,开辟了增长新路径。更为重要的是,抖 音电商助力了"兴趣产业带"的发展,深度激发了产业带内中小商家的产业潜能,刺激了多元化的新消费 需求,孵化培育了新锐品牌,完善了产业链,为市场创造了显著的新增量。 (责任编辑:王晨曦) 第一,直播电商整合"兴趣产业带"集群,显著降低交易成本,提升盈利能力。直播电商平台凭借其生产 成本低、传播速度快、动态性和流动性高等特征,有效激活并整合了分散的小众兴趣产业资源,助力实 体企业有效降低交易成本和充分挖掘市场潜力,使得传统制造业企业得以根据用户需求追随消费潮流。 在抖音电商等新电商模式的牵引下,具有地缘集聚性的制造业企业持续优化流程、缩短周期、降低成 本,根据用 ...
LLM抢人血案:强化学习天才被挖空,一朝沦为「无人区」
36氪· 2025-08-04 07:22
强化学习领域的历史回顾与核心观点 - 斯坦福AI+CS博士Joseph Suarez对强化学习进行历史回顾,其文章获得38.2万阅读量[1] - 封面曲线暗示强化学习领域研究前景经历快速上升、平缓爬升后急转直下[3] - 文章探讨强化学习历史发展及近期才真正起飞的原因,并提供个人独特视角[3] Joseph Suarez的专业背景与研究基础 - 2019年本科毕业于斯坦福大学计算机科学专业人工智能方向[5] - 2018年在OpenAI实习期间发布Neural MMO首个公开版本[5] - 博士期间创建开源计算研究平台Neural MMO,并以此作为毕业论文主题[5][6] - 早期研究经历包括在李飞飞课题组和吴恩达实验室参与项目[5] - 其研究为PufferLib工作奠定基础[9] 强化学习早期突破与潜力展示 - 2017-2019年强化学习领域出现多项重大突破[10] - OpenAI Five项目开发期间,作者在OpenAI实习并亲眼见证相关工作[10] - OpenAI的Dota 2项目使用1.68亿参数网络,在约1000个GPU上训练后击败顶尖职业选手[12][16] - 其他重要展示项目包括AlphaStar、Capture the Flag和Emergent Tool Use等[17] 强化学习衰落的原因分析 - 2019年至2022年强化学习明显走下坡路,缺乏持久突破[19] - 学术短视导致领域集体设定了不合理的标准,如使用Agent57基准测试57款雅达利游戏[19] - 基准测试以样本数为x轴而非实际运行时间,且未限制硬件使用量,导致研究耗时且成本高昂[22] - 单个游戏运行可能需要数周GPU时间,消融实验需要1万GPU小时且利用率低于5%[22][23] - 大语言模型崛起吸引了99%的天才研究人员离开强化学习领域[25][26] - 强化学习存在超参数不合理、模型无法扩展、简单任务难以转移等基础问题[27] 当前强化学习研究的挑战与重复错误 - 现代强化学习研究重现了缓慢实验周期、过度优化评价体系等历史问题[29] - 领域为已有概念创造新术语,如“多轮RL”指“不只是赌博机问题”[32] - 对早期研究的不信任源于许多已发表内容确实存在问题[32] 强化学习的新发展方向与突破 - Joseph Suarez团队转向以墙钟训练时间为标准,重视性能工程[33] - 目标是将训练吞吐量从每秒几千步提升至数百万步[33] - PufferLib 3.0在单个RTX 5090上训练速度最高可达每秒400万步[35] - 新方法使新手程序员能在几天内让强化学习在新问题上运行,显著降低门槛[35] - 实验显示简单环境的结果能泛化到更难环境,开发周期快速[35] - 长期计划回归样本效率研究,但会保持flop效率,避免低利用率问题[36]
在WAIC耳朵听出茧子的「智能体」,是时候系统学一下了
机器之心· 2025-08-04 07:05
文章核心观点 - 智能体成为AI大模型应用的重要方向,从单纯的聊天机器人转向具备主动思考、制定计划和使用工具的能力 [1] - 智能体系统通过整合工具使用、推理能力和自主规划,显著提升LLM解决复杂问题的能力 [6][38][112] - ReAct框架通过结合推理与行动,为智能体系统提供了通用的问题解决范式 [40][41][47] - 智能体发展分为多个层级,从标准LLM逐步演进到具备高度自主性的系统 [101][105][107][111] - 当前智能体系统仍处于早期阶段,可靠性是制约其发展的关键因素 [114][115] LLM及其能力 - 标准LLM采用文本到文本的结构,通用性是其核心优势 [5] - 现代智能体的高级能力建立在LLM基础功能之上 [6] - 推理风格的LLM通过生成思维链(CoT)显著提升推理能力 [24][25] - 专用推理模型(如DeepSeek)通过RLVR训练实现更复杂的推理行为 [29][31] 工具使用 - LLM可集成计算器、日历、搜索引擎等外部工具作为问题解决环节 [7] - LLM充当"大脑/指挥官"角色,协调不同专业工具协同工作 [8] - 工具使用方式包括:针对性微调、基于提示的方法和MCP协议 [9][11][16] - 基于提示的工具使用方法可支持LLM与数千个API集成 [15] 推理模型 - CoT提示通过引导LLM展示逐步推理过程提升表现 [24][25] - 推理模型采用不定量"思考"时间,思维链可达数千token [30] - RLVR训练使模型通过自我进化发展推理能力 [31][33] - 推理轨迹长度可控制模型思考深度,如OpenAI的o系列提供低中高三级 [34][35] ReAct框架 - 首个通用框架,通过LLM智能体自主分解并解决复杂问题 [40][41] - 关键创新:允许语言作为行动形式,智能体可输出"思考" [46][47] - 思维模式包括:任务分解、计划制定、进度跟踪等 [53][55] - 在知识密集型推理和决策制定任务中表现优异 [63][64][77] - 与CoT结合可进一步提升性能,支持两种模式切换 [78][80] 智能体系统演进 - 从标准LLM(Level 0)到具备完全自主性的系统(Level 3) [101][111] - Level 1: 集成工具使用,克服知识截止和幻觉问题 [104][105] - Level 2: 引入问题分解框架,如ReAct [107][109] - Level 3: 增加自主行动能力,如自动提交PR的Codex [111] - 理想系统整合推理LLM、标准LLM、工具和行动能力 [112] 行业现状与未来 - 当前智能体系统仍脆弱,单步错误可能导致整体失败 [114] - 可靠性是制约因素,需提升LLM稳健性 [114] - 研究重点:多智能体系统、领域微调、评估方法 [114] - 预计短期内能力和通用性将显著提升 [115]