Gemini 2.5 Deep Think

搜索文档
谷歌与OpenAI同获ICPC 2025金牌!GPT-5满分夺冠,Gemini攻破人类队伍都没解出的难题
AI科技大本营· 2025-09-19 10:36
GPT-5 和 Gemini 2.5 Deep Think 作为参赛模型,受 ICPC 官方规则与组织监督,参与了与人类选手相同的解题环节。虽然它们并非与学生团队直接同 场竞技,却交出了惊艳答卷: ● GPT-5 拿下满分,12 道题全解,相当于"金牌"水准。 ● Gemini 2.5 Deep Think 在 677 分钟内解出 12 题中的 10 题 ,也达到金牌级别。 根据谷歌的说法,这样的成绩放在人类排名里将是全球第二。 整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 在过去几十年里,国际大学生程序设计竞赛(ICPC)一直被视为 计算机 程序设计 领域的"奥林匹克"。然而今 年 ,赛场上的风头却被两位"非人类"选手 抢走——OpenAI 的 GPT-5 和 Google DeepMind 的 Gemini 2.5 DeepThink。 要知道,本届 ICPC 的人类金牌队伍来自圣彼得堡国立大学、东京大学、北京交通大学和清华大学。 可 即便是这些顶尖学府的强 队,也没有任何一支 做到全对(最好成绩是 11/12)。换句话 说, 这是 AI 第一次在这类算法竞赛中实现了"超车" 。 ICP ...
OpenAI在ICPC 2025编程赛上满分登顶,Gemini也达到金牌水平
36氪· 2025-09-18 09:50
AI在ICPC竞赛中的表现 - OpenAI在5小时内解决了全部12个问题,相当于人类排名第1位,超过所有参赛大学团队[1] - OpenAI对11个问题的首次提交便获得正确答案,最难问题经过9次尝试后成功攻克[7] - OpenAI由通用推理模型集成体构成,结合GPT-5和实验性推理模型,未针对竞赛专门优化[12] Gemini在竞赛中的表现 - Gemini解决了12个问题中的10个,总用时677分钟,达到金牌水平,相当于人类排名第2[3][20] - Gemini在45分钟内解决8个问题,三小时内又解决2个问题,使用高级数据结构和算法[20] - Gemini在半小时内成功解决C题,而该题在竞赛中没有任何大学队伍解出[23] 人类团队竞赛结果 - 俄罗斯圣彼得堡国立大学排名第1,解决了11个问题[4] - 北京交通大学、清华大学、北京大学、中国科学技术大学分别排名2、4、5、9[4] - 在139支参赛队伍中,只有前四支队伍获得金牌[6] 技术实现细节 - Gemini通过假设水库优先级值,应用动态规划算法和极小极大定理解决C题[27][28] - Gemini通过嵌套三分查找迅速找到最优优先级值[28] - OpenAI解题过程中完全自主分析问题并提交答案,无定制化测试工具辅助[6] 研究人员背景 - OpenAI研究员Borys Minaiev曾获ICPC世界总决赛冠军,专注于大规模推理模型开发[14] - OpenAI研究员Mostafa Rohaninejad专注于元学习和强化学习,参与GPT-5开发[17][19] - Google DeepMind的Hanzhao Lin领导Gemini竞赛编程技术方向,Heng-Tze Cheng共同领导研究工作[28][31][33] 行业意义 - AI在ICPC中获得金牌级成绩,展示其在创新性解决方案方面的独特优势[35] - AI正从信息处理工具转变为解决复杂推理问题的关键力量[35] - 同一组模型已在IMO和IOI等竞赛中证明其实力和通用性[12]
刚刚,OpenAI在ICPC 2025编程赛上满分登顶,Gemini也达到金牌水平
机器之心· 2025-09-18 04:32
机器之心报道 编辑:杨文、+0 IMO 之后,OpenAI 与 Gemini 双双加冕 ICPC 2025 金牌。 就在刚刚,OpenAI 和 Gemini 都声称达到了 ICPC 金牌水平。 其中,OpenAI 在 5 个小时内解决了所有 12 个问题,相当于人类排名第 1 位,超过了所有参赛大学团队。 而 Gemini 解决了 12 个问题中的 10 个,总用时 677 分钟,达到了金牌水平,如果与人类团队比较,将排名第 2。 人类团队方面,俄罗斯圣彼得堡国立大学的参赛队伍排名第 1,解决了 11 个问题。北京交通大学、清华大学、北京大学、中国科学技术大学的参赛队伍分别排名 2、4、5、9。 | Rank | Name | Solved Time | | A | B | C | D | E | | G | H | I | 2 | K | L | | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | | 1 | 91 St. Petersburg State Univ ...
ICPC总决赛被AI统治,GPT-5组合系统12题全对登顶,人类打破头只能争夺第三
36氪· 2025-09-18 01:56
赛事结果 - OpenAI的GPT-5与实验性推理模型组合在2025年ICPC世界总决赛中解决全部12道题目 若计入排名将位居第一 [1] - 谷歌Gemini 2.5 Deep Think模型解决10道题目 达到金牌水准名列第二 [1] - 人类冠军队伍圣彼得堡国立大学解决11道题目 东京大学与北京交通大学各解决10道题目 [5] AI技术表现 - OpenAI系统在不到五小时内完成全部题目 其中11道由GPT-5独立完成且均一次提交通过 [6] - 问题G由实验性推理模型接力完成 共提交9次 仅人类冠军队伍曾用3次尝试解决该问题 [7] - Gemini延迟10分钟启动 总用时677分钟 前45分钟解决8道题目 三小时内累计解决10道 [5][12] - 双方均解决人类队伍无法攻克的问题C Gemini通过动态规划与嵌套三元搜索算法实现突破 [4][14][16] 技术实现细节 - OpenAI强调使用通用推理模型 未针对ICPC专门训练 团队含多名前ICPC参赛选手 [11] - Gemini融合预训练、后训练、新型强化学习技术、多步推理和并行思维等技术进展 [16] - OpenAI推理模型相比一年前在智能性、速度与成本效益方面显著提升 [11] 行业影响 - AI已在数学奥赛IMO、信息学奥赛IOI及编程大赛ICPC三大顶级赛事中证明能力 [19] - OpenAI表示将转向现实世界的科学与工程问题应用 不再参与竞赛 [19][20][23] - 赛事覆盖全球103个国家近3000所大学的139支顶尖队伍 [3]
刚刚,OpenAI/Gemini共斩ICPC 2025金牌,OpenAI满分碾压横扫全场
36氪· 2025-09-18 01:55
真是疯狂! 刚刚,谷歌和OpenAI同时拿下ICPC金牌,尤其OpenAI还是满分! ICPC全称国际大学生程序设计竞赛,是世界上最负盛名的编程竞赛之一! 规则是在五个小时内,求解十几个极其复杂的编程和算法难题! 最终,Gemini成功解答了12道题目中的10道,荣获金牌。 OpenAI则全部解答正确,获得满分,拿下金牌! 人类呢? 139支人类参赛队伍中,只有3支队伍取得了和Gemini 10/12一样的成绩,没有人类队伍获得满分。 其中和Gemini战平的唯一中国队伍,是北交大,我们在ICPC全球总决赛放榜的第一时刻也做了深入报道,解析了这支中国最强战队是如何炼成的。 力压哈佛MIT!北交大、清华勇夺2025国际大学生程序设计竞赛金牌 尤其是,谷歌也特地提到,问题C所有人类队伍都没有解答出来,而谷歌Gemini在半个小时内成功求解! OpenAI则是解决了所有问题,拿下满分! 真的是令人震撼的时刻,历史性的一夜,AI在最顶级的编程比赛中彻底的超过了人类! | Asia East Standings | Latin America Standings | Africa and Arab Standings ...
ICPC总决赛被AI统治!GPT-5组合系统12题全对登顶,人类打破头只能争夺第三
量子位· 2025-09-18 00:51
这届大学生太难了,好不容易拼进编程竞赛总决赛,还要被AI秀一脸。 在刚刚结束的2025年国际大学程序设计竞赛(ICPC)世界总决赛上, OpenAI 的系统完美解决全部12道题目,若计入排名将 位居第一 。 谷歌 的Gemini 2.5 Deep Think模型解决10道题目,达到金牌水准 名列第二 。 这场顶级赛事汇集了来自全球103个国家、近3000所大学的139支顶尖队伍。 而AI系统在ICPC官方监督的独立"AI实验赛道"中,与人类选手面对相同题目和评测标准,表现非常抢眼。 梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 其中比较难的一道 "问题C" ,没有一个大学团队能够解决,Gemini和OpenAI的模型组合都解决了。 | Rank Name | Solved Time | | A | B | C | D | 트 | E | G | H | I | 기 | | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | | 81 St. Petersburg State University | ...
腾讯研究院AI速递 20250915
腾讯研究院· 2025-09-14 16:01
OpenAI与微软合作及发展前景 - OpenAI与微软发布非约束性合作备忘录 涉及云服务托管 知识产权归属和AGI控制权等核心问题 但最终合作条约仍未确定[1] - OpenAI预计成立估值超1000亿美元的公益公司(PBC) 非营利机构将持有股权并保持控制权 成为全球资源最充足的慈善组织之一[1] - OpenAI面临巨大成本压力 预计2029年前烧掉1150亿美元 仅2030年就需花费1000亿美元租赁服务器 未来几年几乎没有容错空间[1] AI影视内容创作突破 - 前谷歌X团队创立全球首家AI原生影视工作室Utopai 两部电影项目已带来1.1亿美元收入 锁定戛纳电影节[2] - Utopai突破AI视频生成三大难题:一致性 可控性和叙事延续性 实现毫秒级精准对口型 模型内置物理规律的3D数据训练[2] - 公司定位为内容+AI而非纯工具供应商 已获好莱坞顶级资源支持 为电影《科尔特斯》邀请奥斯卡提名编剧 八集科幻剧《太空计划》成功预售欧洲市场[2] 音乐生成技术进展 - MiniMax发布新一代音乐生成模型Music 1.5 支持长达4分钟的完整歌曲创作 具备强控制力 人声自然饱满 编曲层次丰富和歌曲结构清晰四大突破[3] - 模型支持"16种风格×11种情绪×10个场景"自定义音乐特征 能生成不同声线唱腔 并支持中国民族乐器生成 真正实现Intro/Verse/Chorus段落分明[3] - 基于MiniMax多模态自研能力积累 同步面向全球开发者提供API 适用于专业音乐创作 影视游戏配乐 虚拟偶像单曲和企业品牌专属音频内容多种场景[3] 本地生活AI应用发展 - 美团首个AI Agent产品"小美"开启公测 通过自然语言指令点咖啡 找餐厅 规划早餐菜单 大幅简化点餐流程[4] - 小美基于美团自研Longcat模型(5600亿总参数) 能根据用户口味偏好和地理位置实现从选品到支付的全自动操作 并记忆用户习惯[4] - 与Agent热潮相呼应 但目前仍有局限性:无法处理复杂模糊需求 无法进行语音回复 未来将在个性化和主动服务能力上进一步优化[4] 语音合成技术创新 - 小红书智创音频技术团队发布新一代对话合成模型FireRedTTS-2 解决现有方案灵活性差 发音错误多 说话人切换不稳定和韵律不自然等问题[5] - 模型在数百万小时语音数据上训练 支持逐句生成与多说话人音色切换 能够通过一句语音样本模仿音色和说话习惯 流式解码可实时输出音频[6] - 在主客观评测中均达行业领先水平 开箱即用支持中文 英语 日语等多语言 是AI播客等对话合成应用的工业级解决方案 已开源代码与模型权重[6] 开源语音合成技术突破 - 哔哩哔哩开源新一代零样本语音合成模型IndexTTS2 实现毫秒级精准时长控制 让AI配音能严丝合缝对上口型[7] - 模型采用"通用且兼容自回归架构的语音时长控制方法" 达到0.02%的时长误差率 同时通过两阶段训练策略实现情感和说话人身份的"解耦"[7] - 系统由T2S(文本到语义) S2M(语义到梅尔频谱)及BigVGANv2声码器三大核心模块组成 支持用大白话控制情绪 在跨语言产业应用上具有重大意义[7] 小型高效模型发展 - Meta AI发布MobileLLM-R1系列小参数高效模型 包括140M/360M/950M三种规模 专为数学 编程和科学问题优化[8] - 最大的950M模型仅使用约2T高质量token预训练(总训练量不足5T) 性能却与使用36T token训练的Qwen3 0.6B相当或更佳[8] - 在MATH基准上比Olmo 1.24B高五倍 比SmolLM2 1.7B高两倍 Token效率和性价比极高 完全开源模型中创造新标杆[8] AI数学研究突破 - 名为"Gauss"的AI Agent仅用三周时间完成了陶哲轩团队18个月未能完成的数学挑战——在Lean中形式化强素数定理(PNT)[9] - 该Agent由Math公司开发 生成约25000行Lean代码包含上千个定理和定义[9] - Gauss能协助顶级数学家进行形式验证 突破了复分析核心难题 团队计划在未来12个月让形式化代码总量提升100到1000倍[9] AI产业格局演变 - OpenAI推出GPT-5 首次真正让人感觉与博士级专家对话 内置"思考"能力 统一模型取代复杂选择界面 显著减少幻觉[10] - 发布前其他玩家也纷纷推出战略性新品:Anthropic推出Claude Opus 4.1瞄准高风险企业场景 Google推出Gemini 2.5 Deep Think和Genie 3分别强化推理和模拟能力[10] - 新AI版图已重新排布:OpenAI同时占据开放与封闭AI生态主导地位 Anthropic专注企业级精准稳定 Google专注基础研究长期布局 Agentic AI 先进推理和端侧能力已成顶尖模型核心特性[11] 科研AI战略布局 - DeepMind科学团队只瞄准三类问题:具有变革性 公认5-10年内无人能解 但DeepMind有信心快速攻克的"不可能任务"[12] - 团队从专用模型到通用智能的进化:将AlphaProof等专用数学模型的能力成功转移到Gemini通用模型 使DeepThink实现IMO金牌水平[12] - 未来目标是打造"科学API" 让全球科学家共享AI能力 从AlphaFold数据库到AI Co-scientist 降低科研门槛 使普通人也能做出诺贝尔奖级贡献[12]
喝点VC|红杉美国解读GPT-5后AI产业版图新格局:全新的AI交互范式产生,AI时代的加速发展拐点已到
Z Potentials· 2025-09-14 06:14
文章核心观点 - 2025年8月OpenAI、Google和Anthropic三大AI实验室密集发布新一代AI模型,其中GPT-5的发布标志着行业进入技术拐点,重绘了AI产业竞争格局 [2][3][11] - GPT-5通过统一模型架构、减少幻觉现象、跨领域专家级表现及全面开放权限,树立了新的技术标杆并推动AI普惠化 [3][4][5][6] - 竞争对手Anthropic聚焦企业级高可靠性应用,Google则双线布局推理技术与模拟环境,OpenAI同时占据高端专有市场与开放生态 [7][8][12] 技术突破与产品特性 GPT-5核心升级 - 取消模型选择界面,采用统一系统并内置"思考"能力,面对复杂问题时可自动调用"推理版本" [4] - 显著减少幻觉现象,成为OpenAI迄今最可靠模型,为企业级应用奠定基础 [4] - 在编程、写作和医疗领域达到"全球最优"水平,例如通过自然对话在数分钟内生成完整可用的法语学习网页应用 [6] - 向全部7亿ChatGPT用户开放,包括免费用户 [3] 开发者生态支持 - 推出三档API:旗舰版GPT-5、成本优化版GPT-5 mini及速度优化版GPT-5 nano [6] - 全系列支持多模态(文本与视觉)且上下文长度高达400K [6] - 同步发布gpt-oss开放权重系列,支持消费级硬件运行,降低高性能AI使用门槛 [8] 竞争对手动态与市场格局 Anthropic技术路线 - 发布Claude Opus 4.1模型,在SWE-bench真实编码测试中取得74.5%领先分数 [7] - 获得行业首个ASL-3安全等级认证,专注于企业级高可靠性应用 [7] - 通过关键集成实现约14亿美元年经常性收入 [7] Google双线技术布局 - Gemini 2.5 Deep Think采用"parallel thinking"架构,在国际数学奥林匹克竞赛中获得金牌 [7] - DeepMind推出Genie 3,可根据文本提示生成交互式3D世界,作为AI Agent与机器人的训练环境 [7] 行业竞争格局对比 | 模型 | 核心优势 | 独特定位 | 目标用户群 | |---------------------|-------------------------|---------------------------------|---------------------------| | GPT-5 | 统一模型、博士级专家能力 | 内置思考能力+全民访问 | 普通用户/开发者/企业 | | Claude Opus 4.1 | 真实编码与代理任务 | 企业级可靠性+ASL-3安全认证 | 企业开发者/高风险自动化 | | Gemini 2.5 Deep Think | 并行推理与复杂问题解决 | 模拟人类头脑风暴的超级分析能力 | 专业人士/科学家/战略分析师 | | DeepMind Genie 3 | 交互式3D世界模拟 | 具身AI训练基础工具 | AI研究者/机器人/未来游戏 | | gpt-oss系列 | 设备端效率与开放权重 | 普惠化访问+开发者灵活性 | 开发者/研究者/边缘AI | [10] 行业影响与发展趋势 - AI产业创新周期从数年压缩至数日,进入持续高频创新阶段 [11][12] - Agentic AI、高级推理能力及端侧运行能力成为顶尖模型核心特性 [12] - 技术发布将引发各行业连锁反应,提升生产力、催生新媒介形态并改变人机交互方式 [12]
国信证券晨会纪要-20250813
国信证券· 2025-08-13 01:52
宏观与策略 - OCIO业务模式在海外成熟市场快速发展,过去10年管理规模增长超过2.6倍,头部5家机构占据67%市场份额[7] - 美国OCIO市场以企业养老金为主(61%),但捐赠基金、慈善基金会等非养老金客户占比持续提升,预计未来5年CAGR超过10%[7] - Vanguard与Mercer合并后OCIO AUM市占率快速上升至30%+,形成"低成本+专业化+ESG深度"服务优势[8] - 头部OCIO平台差异化显著:JP Morgan侧重亚太扩张,Mercer强于ESG与另类资产,BlackRock定制化程度高,Goldman Sachs在复杂交易有优势[9] 建筑建材行业 - 新藏铁路预计总投资3000-4000亿元,工期7-8年,将拉动新疆水泥、钢铁、减水剂等核心环节需求[10] - 水泥价格趋稳,长三角协商错峰生产;浮法玻璃价格下行,光伏玻璃因海外需求支撑价格上调2.38%[11][12] - 建材板块建议关注水泥(旗滨集团、海螺水泥)、玻纤(中材科技)及消费建材龙头(东方雨虹、三棵树)[13] - 建筑板块推荐基建央企(中国铁建、中国交建)及钢结构企业(鸿路钢构),下半年政策重心回归增量基建[13] 食品饮料行业 - 白酒企业积极推新应对场景缺失,贵州茅台推出70周年纪念酒,五粮液布局精酿啤酒,酒鬼酒启动"二低一小"战略[15] - 燕京啤酒U8大单品上半年销量占比超20%,带动吨价同比提升4.8%,扣非净利率同比提升2.9pct至12.1%[29][30][31] - 大众品中啤酒旺季表现突出,推荐燕京啤酒;零食板块加仓集中在盐津铺子,调味品关注海天味业[16][17] 电力设备新能源 - 干法隔膜企业达成"反内卷"共识,暂停扩产并自律定价,涉及星源材质、恩捷股份等8家企业[21] - 锂电材料盈利回升机遇显现,推荐宁德时代、亿纬锂能及隔膜龙头恩捷股份、星源材质[21] - 卧龙电驱布局人形机器人关键部件,与智元机器人合作发布工业垂域模型"舜造GRP01",上半年净利润同比+37%[36][37][38] 传媒互联网 - GPT-5正式发布,多模态能力增强且幻觉率下降;谷歌Gemini 2.5 Deep Think在国际数学奥赛获金牌[19] - 暑期档票房回暖,《南京照相馆》单周票房6.46亿元占比43.4%,游戏《Whiteout Survival》蝉联收入榜首[20] - 推荐游戏(恺英网络)、广告媒体(分众传媒)及AI应用场景,关注泡泡玛特等IP潮玩标的[20] 重点公司财报 - 万华化学Q2扣非净利环比+5.4%至32亿元,福建MDI/TDI新产能将于2026年投产[22][23][24] - 艾德生物上半年扣非净利同比+40%,伴随诊断产品覆盖EGFRex20ins突变检测[33][34][35] - 行动教育AI赋能毛利率逆势提升1.3pct至77.5%,股息率(TTM)达6.09%[25][26][27]
传媒互联网周报:GPT-5正式发布,暑期档票房回暖-20250812
国信证券· 2025-08-12 11:04
行业投资评级 - 传媒互联网行业评级为"优于大市" [1][13] 核心观点 市场表现 - 传媒行业本周上涨1.52%,跑赢沪深300(-2.27%)和创业板指(-0.97%),在所有板块中排名第4位 [1][13][14] - 涨幅靠前的公司包括果麦文化(35%)、易点天下(31%)、上海电影(26%)[14] AI技术进展 - GPT-5正式发布,特点包括统一系统架构、多模态能力提升、幻觉率降低26%、安全性增强 [2][17][18] - 谷歌推出Gemini 2.5 Deep Think,在2025国际数学奥林匹克竞赛中获得金牌 [2][18] - 1.7B参数的dots.ocr模型在文档解析领域达到SOTA水平,处理PDF仅需数秒 [2][18] 行业数据 影视娱乐 - 本周电影票房14.96亿元,Top3影片为《南京照相馆》(6.46亿,占比43.4%)、《浪浪山小妖怪》(3.91亿,26.2%)、《东极岛》(1.75亿,11.7%)[3][19][22] - 网络剧Top3为《凡人修仙传》(播映指数85.61)、《利剑玫瑰》(82.52)、《扫毒风暴》(76.77)[24] - 综艺节目Top3为《歌手2025》(播映指数79.42)、《披荆斩棘2025》(79.11)、《喜剧之王单口季第2季》(78.62)[28] 游戏 - 2025年6月中国手游收入前三:点点互动《Whiteout Survival》、柠檬微趣《Gossip Harbor》、点点互动《Kingshot》[3][29] - iOS畅销榜Top3为《和平精英》《王者荣耀》《英雄联盟手游》[32] 上市公司动态 - 浙数文化2025H1收入14.14亿元(+0.09%),净利润3.77亿元(+156.26%)[38] - 果麦文化2025H1收入2.97亿元(+29.75%),净利润566.3万元(+80.38%)[39] 投资建议 短期机会 - 游戏板块推荐恺英网络(PE 19x)、巨人网络、姚记科技(PE 18x)[4][42] - 影视内容关注光线传媒(PE 25x)、华策影视(PE 32x)及万达电影(PE 21x)[4][42] - 广告媒体推荐分众传媒(PE 20x)、芒果超媒(PE 22x)[4][42] 长期方向 - AI应用重点关注营销(蓝色光标)、短剧(华策影视)、游戏(恺英网络)、玩具(泡泡玛特)[40] - IP潮玩推荐泡泡玛特(2025E PE 54x)、浙数文化、姚记科技 [4][42]