Large Language Model
搜索文档
Alphabet is the best 'mag 7' stock to own for the next year, says Deepwater's Gene Munster
Youtube· 2025-11-24 21:09
公司在生成式AI领域的竞争能力 - 公司加速其在6月季度的进展,并在9月季度以超出市场预期300个基点的增长表现,显示其在生成式AI和搜索领域的竞争和导航能力已得到解决[1] - Gemini模型表明公司具备在大型语言模型层面与OpenAI直接竞争的实力,这重新激发了公司的竞争文化,对投资者而言是令人鼓舞的信号[3] - 公司正将用户对信息查询重新产生的兴趣引导至搜索收入,表明其能够有效捕获并货币化这一需求[2] 用户基础与分销渠道优势 - 目前仅有约20%的谷歌用户每日使用聊天机器人,存在巨大的用户转化和增长机会[4] - 谷歌搜索每日用户达25亿,而ChatGPT的每日用户估计约为5亿(公司公布的指标为8亿),谷歌在用户规模和习惯性使用方面拥有显著优势[7] - 谷歌的分销渠道是习惯性的,而OpenAI依赖苹果的分销渠道但迄今效果不佳,预计明年春季新Siri发布时将再次尝试[6] 估值与财务表现 - 公司当前股价对应未来12个月市盈率为28倍,与除特斯拉外的其他六家科技巨头估值水平基本一致[5] - 过去5年公司的平均市盈率为23倍,当前28倍的估值虽显著高于历史平均水平,但并未达到过高的程度[8] - 估值回升的部分原因在于公司在搜索领域的竞争能力得到重估,使市盈率回归至可比水平[5][6] 未来增长与货币化路径 - 未来一年公司将改变策略,重点扩大聊天机器人等产品的分销[3] - 公司通过在典型搜索中提供AI概览并引导用户使用AI模式,有望将部分流量引导至纯Gemini模式,从而构建一个每月20美元的业务,这相当于OpenAI当前80%的消费者业务规模[9] - 尽管品牌形象可能显得传统,但用户的使用习惯为公司提供了将AI功能货币化的重大机会[8][10]
Microsoft and Nvidia Just Signed a Multibillion-Dollar Deal With Anthropic. Here's What It Really Means for Investors.
Yahoo Finance· 2025-11-24 14:30
合作核心内容 - 微软与英伟达宣布与基础大语言模型开发商Anthropic建立合作伙伴关系 [1] - Anthropic同意从微软Azure购买价值300亿美元的算力容量,并承诺额外1吉瓦的算力容量 [1] - 1吉瓦算力容量当前价值约500亿美元,其中350亿美元为图形处理器成本 [1] 投资与估值 - 微软将向Anthropic投资高达100亿美元,英伟达将投资50亿美元 [2] - Anthropic当前估值达到3500亿美元,较2024年9月前一轮融资的1830亿美元估值大幅提升 [2] 技术合作细节 - Anthropic将与英伟达合作优化其人工智能模型设计,以适配英伟达未来的GPU架构 [2] - 公司将继续使用亚马逊作为主要云计算提供商和训练合作伙伴 [3] - 亚马逊近期启动价值110亿美元的Rainier项目AI数据中心,专门用于训练Anthropic模型并运行推理 [3] - Anthropic上月与Alphabet达成协议,获得超过1吉瓦明年上线的算力容量,将使用其定制张量处理单元训练新一代Claude模型 [4] 战略意义 - 对微软而言,此次合作是公司寻求在OpenAI之外实现人工智能领域多元化的重要举措 [5] - 合作协议为Azure带来显著收入增长动力,并在平台上增加OpenAI之外的领先AI模型选择 [6] - Anthropic效仿OpenAI模式,通过分散风险与不同芯片和云计算公司建立合作关系 [7]
Youdao(DAO) - 2025 Q3 - Earnings Call Transcript
2025-11-20 11:02
财务数据和关键指标变化 - 第三季度净收入达到16亿元人民币(约合2.288亿美元),同比增长3.6% [4][16] - 第三季度营业利润为2830万元人民币,同比下降73.7%,主要由于对战略业务的投资增加以及去年同期STEAM课程的一次性影响造成高基数 [4] - 前三季度营业利润达到1.611亿元人民币,同比大幅增长149.2% [5] - 公司已连续五个季度实现营业利润,为历史首次 [5] - 第三季度经营现金流出为5860万元人民币,同比改善31.4% [5] - 第三季度归属于普通股股东的净收入为100万元人民币(约合0美元),去年同期为8630万元人民币 [19] - 第三季度总毛利为6.879亿元人民币(约合9660万美元),同比下降12.9% [17] - 第三季度营业利润率为1.7%,去年同期为6.8% [18] - 截至2025年9月30日,合同负债(主要为学习服务产生的递延收入)为7.511亿元人民币(约合1.055亿美元),相比2024年12月31日的6.61亿元有所增加 [20] - 期末现金及现金等价物、受限现金和短期投资总额为5.577亿元人民币(约合7830万美元) [21] 各条业务线数据和关键指标变化 - **学习服务**:第三季度净收入为6.431亿元人民币(约合9030万美元),同比下降16.2%,反映公司在客户获取上采取更自律的战略性方法,专注于发展灵述业务 [6][16] - **学习服务-数字内容服务**:第三季度净收入为4.259亿元人民币 [6] - **在线营销服务**:第三季度净收入达到7.397亿元人民币(约合1.039亿美元),创下新纪录,同比增长51.1%,增长主要由网易集团和海外市场需求增加驱动 [10][17] - **智能设备**:第三季度净收入为2.458亿元人民币(约合3450万美元),同比下降22.1%,反映公司战略性地控制营销支出以加强运营健康度 [14][17] - **灵述业务**:总账单金额同比增长超过40%,留存率超过75%,较去年第四季度的超70%有所提升 [7] - **编程课程**:总账单金额在第三季度同比增长超过30% [8] - **AI驱动订阅服务**:第三季度总销售额达到约1亿元人民币的新纪录,同比增长超过40% [8] 各个市场数据和关键指标变化 - **海外广告业务**:收入同比增长超过100% [12] - **游戏行业广告收入**:主要来自网易的贡献,同比增长超过50% [11] 公司战略和发展方向和行业竞争 - 公司战略聚焦于AI原生策略,深化其大型语言模型"孔子"在学习与广告业务中的应用 [15] - 有道灵述和在线营销服务作为战略优先业务展现出强劲势头 [4] - 学习服务部门的重组已完成 [4] - 公司与清华大学姚期智数学科学中心合作,为识别和支持数学天才学生的平台提供技术支持 [7] - 公司成为CCF金牌合作伙伴 [8] - 公司的孔子3系列大语言模型是首批获得中国信通院最高级别可信AI教育大语言模型认证的模型之一 [9] - 公司推出AI音视频翻译产品"有道AnyDub",利用专有的自适应声音克隆技术 [10] - 公司计划深化与网易集团及其他游戏客户的合作,并与谷歌和全球广告商合作,支持中国公司全球扩张 [12][13] 管理层对经营环境和未来前景的评论 - 管理层对实现年初设定的全年目标保持信心,包括实现强劲的同比营业利润增长以及首次达到年度经营现金流盈亏平衡 [15] - 在线营销服务的强劲扩张由先进的广告技术和AI能力、客户从传统广告向效果广告转型的趋势以及海外广告机会驱动 [24] - 生成式AI和智能体AI在在线广告中的应用刚刚开始,2025年被视为规模化应用的第一年 [25] - 学习服务业务经过过去两年的显著变化,AI驱动的在线服务具有巨大的长期潜力 [26] - 预计整个学习服务部门的净收入在近期将恢复同比增长 [27] - 在线营销服务的毛利率目标范围在25%-35%之间被认为是合理的 [35] 其他重要信息 - 有道被纳入2026年GSV 150榜单,该榜单从全球3000多家公司中评选出数字学习和劳动力技能领域最具变革性的成长型公司 [7] - 在第三季度为编程课程直播班引入了AI导师,具有逼真的虚拟形象并支持文本和语音交互 [8] - 对旗舰产品有道词典应用进行了重大升级,推出有道词典11,提供真正的AI原生体验 [9] - AI同声传译功能的销售额在第三季度同比增长超过200%,至今已有超过2000万用户使用该功能 [9][10] - 为网易游戏《逆水寒》执行的综合营销策略产生了超过5亿的视频播放量和超过2140万的直播曝光量 [11] - 公司的BYD Wonderlife Global Influencers共创活动在YouTube Works Awards China上获得了Brands and Creators Award [13] - 计划在今年年底前推出AI广告投放优化器2.0版本 [13] - 推出新的辅导笔产品有道Space X,提供精准扫描、AI视频讲解和AI错题本功能 [14] 问答环节所有提问和回答 问题: 从战略角度看,在线营销服务未来是否会变得比学习服务更重要? [23] - 长期来看,公司在学习和广告两个领域都看到巨大机遇 [24] - 在线营销服务的强劲扩张由先进的广告技术、AI能力、向效果广告的转型趋势和海外广告机会驱动 [24] - 广告业务仍处于早期阶段,生成式AI和智能体AI在广告中的应用刚刚开始,预计未来几年将推动强劲收入增长 [25] - 学习服务业务方面,AI驱动的在线服务和订阅服务增长轨迹良好,灵述业务增长强劲,预计整个学习服务部门净收入将恢复同比增长 [26][27] 问题: 在线广告业务的毛利率低于30%,管理层有何计划或时间表使其恢复到30%以上? [32] - 第三季度为扩大客户基础而接纳了新客户,新客户利润率较低,甚至对某些重要客户可能亏损运营,这影响了短期毛利率 [33] - 在线营销服务的毛利率目标范围在25%-35%之间被认为是合理的 [35] - 计划通过以下举措推动毛利率改善:广泛应用iMagicBox创意平台以降低70%生产成本;优化数据管理平台和程序化投放系统;利用AI能力整合创意生产与广告投放流程,建立自动化闭环系统 [35][36] 问题: 第三季度营业利润同比下降,第四季度反弹至同比增长的潜力如何? [38] - 年初设定的全年目标是实现营业利润的同比改善和全年经营现金流盈亏平衡 [39] - 上半年营业利润的显著改善为下半年投资提供了灵活性,第三季度在灵述和广告客户获取上的投资为第四季度和明年创造了良好势头 [39][40] - 去年第三季度STEAM课程收入占比较高,造成高基数影响,该影响仅限今年 [41] - 第四季度重点是确保实现全年营业利润快速改善的目标,同时继续投资核心业务 [41] - 灵述业务作为学习服务部门内毛利率最高的业务,预计将贡献越来越大的收入份额,从而长期改善该部门的盈利能力 [42] - AI有助于提升广告业务的交付和运营效率,将推动该部门中长期盈利能力的改善 [43] 问题: 考虑到前三季度累计经营现金流出,全年现金流盈亏平衡目标是否有变化? [47] - 公司对实现全年经营现金流盈亏平衡目标仍保持非常信心 [49] - 前三季度累计经营现金流为负1.29亿元人民币,但同比显著改善超过40% [49] - 季度现金流表现具有明显的季节性特征:第一季度因春节通常为奖金支付期,第三季度为用户获取高峰期,现金流通常为净流出;第二和第四季度为留存驱动季节,现金流表现通常更强 [50] - 去年第四季度实现了1.58亿元人民币的经营现金流入 [50] - 学习服务重组已完成,灵述业务留存势头强劲,AI订阅服务销售加速增长,这些因素对现金流状况有积极支持 [51] - 考虑到运营的显著季节性、前三季度现金流的显著同比改善以及第四季度灵述业务的强劲留存表现,公司对实现全年目标保持信心 [51]
杨立昆批评Meta的AI战略,称LLM不是通往人类水平智能的途径;夸克全面接入千问对话助手,将发布全新AI浏览器丨AIGC日报
创业邦· 2025-11-19 00:12
蚂蚁集团AI产品发布 - 蚂蚁集团正式发布全模态通用AI助手“灵光”,可在移动端实现自然语言30秒生成可编辑、可交互、可分享的小应用 [2] - “灵光”是业内首个全代码生成多模态内容的AI助手,首批上线“灵光对话”、“灵光闪应用”、“灵光开眼”三大功能,支持3D、音视频、图表、动画、地图等全模态信息输出 [2] - 该产品已同步登陆安卓与苹果应用商店 [2] 行业巨头AI动态 - 亚马逊创始人杰夫・贝索斯创办名为“Project Prometheus”的人工智能初创公司并担任联席CEO,该公司已获得62亿美元资金并拥有近100名员工,包括来自Meta、OpenAI和谷歌DeepMind的研究人员 [2] - 夸克APP全面接入阿里巴巴千问对话助手,用户可在夸克APP内使用千问的对话能力,夸克定位为AI浏览器并将与千问APP形成战略协同,其PC端也将推出与千问深度结合的全新AI浏览器 [2] - 苹果明星设计师Abidur Chowdhury已从苹果公司离职,加入一家人工智能初创公司,其离职在公司内部引起不小震动 [2] AI技术路径争议 - Meta前首席AI科学家杨立昆批评大型科技公司在大型语言模型上投入巨额资金是一个错误,认为真正的计算机智能不会来自语言模型 [2][3] - 杨立昆认为人工智能的突破将来自“世界模型”,而非依赖于从互联网吸收文本的LLM或视觉数据 [2][3]
Mark Zuckerberg's Patience 'Ran Out': Hyperbolic CTO Says Yann LeCun's Meta Exit Was Inevitable After $15 Billion Alexandr Wang Deal
Yahoo Finance· 2025-11-12 19:31
核心观点 - Hyperbolic联合创始人兼CTO Yuchen Jin认为Meta首席人工智能科学家Yann LeCun的离职是不可避免的 这源于公司首席执行官Mark Zuckerberg在ChatGPT成功后转向产品驱动的AI战略 并将AI领导权移交给了Scale AI创始人Alexandr Wang [1][2][3] 人事变动与领导层调整 - Yann LeCun此前向首席产品官Chris Cox汇报 现在改为向27岁的Scale AI创始人Alexandr Wang汇报 Wang被聘请来领导公司新的“超智能”部门 [6] - 这一组织结构变动反映了公司从基础AI研究向快速、以产品为中心的创新的战略转变 旨在追赶OpenAI和谷歌 [6] 战略转变与潜在原因 - 据称在OpenAI的ChatGPT取得成功后 Mark Zuckerberg感到恐慌 因为公司自己的大语言模型Llama 4未能取得可比的结果 [2] - Mark Zuckerberg对Yann LeCun长期AI研究方法的不耐烦日益增长 最终导致了据称的决裂 Yann LeCun从不相信LLM是实现AGI的途径 [3] - Mark Zuckerberg斥资150亿美元收购了Alexandr Wang 并让Yann LeCun向Wang汇报 这使得LeCun的离职成为“一个不可避免的结果” [1][2] 历史类比与未来可能性 - Yuchen Jin提出 Mark Zuckerberg可能会以高价重新聘请Yann LeCun 并类比了谷歌在2024年花费约27亿美元授权CharacterAI技术并重新聘请AI先驱Noam Shazeer的案例 [4][5] - Noam Shazeer是谷歌对话应用语言模型的创造者 于2021年10月离开谷歌创立CharacterAI 谷歌在2024年花费巨资将其请回以主导其AI计划 [5]
斯坦福新发现:一个“really”,让AI大模型全体扑街
36氪· 2025-11-04 09:53
研究背景与核心问题 - 聊天机器人用户数据显示,有超过100万人在对话中表现出自杀倾向,凸显了AI在涉及人类情绪时正确理解用户情感的重要性[1] - 大语言模型在医疗、法律、新闻等高风险领域应用时,能否像人类一样区分“个人想法”和“客观事实”成为关键问题[1] - 若缺乏区分能力,大语言模型不仅可能误导判断,还可能在无意中放大错误信息的影响[1] 研究方法与数据集 - 斯坦福大学James Zou教授团队通过“原子化”语言任务对大语言模型的认知局限进行系统性检验[1] - 相关研究论文发表在权威科学期刊《自然·机器智能》上[2] - 研究采用名为“知识与信念语言评估”的数据集,包含13个任务的13000道题目,覆盖历史、文学、医学和法律等10个领域[3] - KaBLE数据集巧妙结合来自《大英百科全书》等权威来源的事实陈述与保持相似语义但引入细微偏差的虚假版本[3] 模型分类与评估框架 - 研究人员将大语言模型分为两组:GPT-4o发布之前的模型归为旧一代“通用型”模型,包括GPT-4、Claude 3和Llama 2/3[6] - GPT-4o发布之后的模型归为新一代“推理导向型”模型,包括o1和DeepSeek R1,这些模型经过强化学习训练,具备复杂推理能力[6] 模型表现与局限性 - 旧一代大语言模型在识别错误信息时准确率仅49.4%,识别真实信息的准确率为89.8%,揭示了不稳定的决策边界[7] - 新一代大语言模型在“识别错误信息”上更敏锐,判断逻辑更鲁棒,能主动质疑输入内容[8] - 即使是先进的推理型模型,也难以识别以第一人称表达的错误想法,例如GPT-4o处理错误想法时准确率从98.2%骤降至64.4%[10] - 大语言模型在处理想法时会根据归属于“谁”而表现不同,确认第三人称错误信念时准确率明显更高[13] - 对“递归知识”的评估显示,部分以推理为导向的模型表现良好,但也有一些模型表现不佳,表明可能在进行表层模式匹配而非真正掌握逻辑本质[14] - 大语言模型对语言细节非常敏感,例如在判断语句中多加一个“really”就会导致准确率大幅下降[15] 行业影响与未来方向 - 研究结果对大语言模型在新闻业、医疗、法律推理、教育及科学交流等领域的应用具有深远影响[15] - 研究中揭示的局限性甚至存在于先进模型之中,凸显亟需改进人工智能系统在“信念、知识与事实”表征和推理方面的能力[15] - 未来大语言模型不仅需要熟练区分“个人观点”与“客观事实”的细微差异,还必须理解“人们为何会相信某个信息是真或假”[16]
刚刚,Cursor 2.0携自研模型Composer强势登场,不再只做「壳」
机器之心· 2025-10-30 01:41
Cursor 2.0 版本发布 - Cursor 发布重大更新,包括首个自研编码模型 Composer 和用于并行协作多个智能体的新界面 [2] 自研模型 Composer 的意义 - Composer 的发布标志着公司从依赖第三方模型的“AI外壳”向“AI原生平台”的战略转型 [3][4] - 此举旨在打破长期依赖 Claude、GPT 等第三方模型的瓶颈 [3] 模型 Composer 的性能特点 - 模型生成速度达到每秒 250 个 token,是领先快速推理模型的两倍,是同类前沿系统的四倍 [9] - 模型智能程度匹敌中端前沿系统,但速度遥遥领先 [6][9] - 模型专为低延迟的智能体式编码打造,大多数任务回合在 30 秒内完成 [11] - 模型通过覆盖整个代码库的语义搜索等工具进行训练,在处理大型代码库方面能力显著更强 [12] 模型 Composer 的技术架构 - Composer 是一种混合专家模型,支持长上下文的生成与理解 [16] - 模型通过在多样化开发环境中进行强化学习,针对软件工程进行专项优化 [16] - 训练鼓励模型高效使用工具并最大化并行处理,模型自发习得执行复杂搜索、修复错误等能力 [19] - 公司构建了新的基准测试 Cursor Bench,以更贴近开发者实际使用价值的方式评估模型 [16] Cursor 2.0 的多智能体界面 - 新界面彻底以“智能体”为中心,用户可专注于结果,让智能体处理细节 [22] - 系统能够轻松并行运行多个互不干扰的智能体,并可利用多个模型尝试同一问题以提升结果质量 [22] - 新版本开始解决代码评审与变更测试这两个新的瓶颈 [24][25] - 构建了原生浏览器工具,使智能体可以测试其工作并持续迭代直至产出正确结果 [26] 训练基础设施 - 公司基于 PyTorch 和 Ray 构建了定制化训练基础设施,以支持大规模异步强化学习 [28] - 通过结合 MXFP8 MoE kernels 与专家并行等技术,将训练扩展到数千张 NVIDIA GPU,并实现更快的推理速度 [28] - 重写了虚拟机调度器,以支持在云端并发运行数十万份隔离的沙盒编码环境,实现了训练与生产环境的无缝统一 [28] 市场反馈与应用 - Composer 已被公司自身的工程团队在日常开发中使用,表明其成熟度和稳定性 [20] - 本次大版本更新获得了大量关注,早期体验开发者给出了积极反馈 [30][31][36]
Inuvo (NYSEAM:INUV) Conference Transcript
2025-10-21 19:02
行业与公司 * 公司为Inuvo Inc (NYSEAM: INUV) 一家拥有10年历史的广告技术公司[1] * 行业为广告技术行业 专注于程序化媒体购买 行业规模达2200亿美元[4] 核心技术与产品 * 核心技术为专有的大型语言模型 基于19项已获批专利和6项待批专利构建[3] * 核心产品为IntentKey AI 一个隐私优先设计的人工智能平台 用于创建受众模型[9] * 技术优势在于无需依赖个人身份数据或Cookie 通过分析开放网络上的实时信号来发现购买意向[9][14] * 技术能够预测未来客户 比其他广告技术平台最多提前24小时竞价库存[10] * 技术效能经过8年验证 相比竞争平台效果高出60%[17] 商业模式与客户 * 公司收入来源包括平台业务 服务于大型数字供应链 代理商以及直接面向营销人员[2] * 商业模式具有弹性 客户包括苹果 迪士尼等主要科技品牌 美国顶级三大汽车品牌之一 医疗保健和零售领域客户[12][16] * 公司新增36个自助服务客户和42个新客户 自助服务模式利润率极高 接近100%[18][21] * 公司五年季度复合年增长率为24% 截至今年第二季度 即将突破1亿美元收入门槛[17] 市场机遇与竞争格局 * 市场机遇源于传统广告供应链的崩溃 传统系统依赖Cookie进行用户追踪 而消费者隐私意识增强和设备限制使其失效[4] * 64%的美国广告支出通过程序化媒体购买平台进行 涉及数字 视频 联网电视等渠道 其中联网电视是增长型领域[4] * 25%的数字广告支出未能命中目标 数据信号减弱 受众更难触达 公司技术是应对此问题的解决方案[9] * 公司定位在隐私合规领域具有领导优势 符合日益重要的隐私保护趋势[2][19] 增长战略与财务表现 * 增长战略包括通过咨询式销售更接近预算决策者 利用混合媒体建模技术帮助确定最优支出和绩效[19] * 战略重点包括更多直接与品牌合作 因为广告代理行业环境艰难 有13000至15000家代理商面临挑战[19][20] * 公司账上有现金 并通过融资设施获得资本渠道 拥有1000万美元的资本通道[17] * 第二季度收入出现环比下降 但未在纪要中说明具体原因[22] 其他重要信息 * 公司首席运营官Rob Buckner于2025年2月加入董事会 后担任首席运营官 拥有数十年行业经验[1] * 技术可应用于预测性混合媒体建模 受众发现 以及创意信息与受众对齐等多个场景[5][6] * 技术可细化到邮政编码级别 并实时更新受众模型 每五分钟刷新一次[7][9] * 公司提及一个潜在的重大客户机会 例如体育博彩品牌FanDuel 其在美国年广告支出达10亿美元[20]
「重要性采样」并不「重要」?快手清华ASPO攻克重要性采样权重错配
量子位· 2025-10-15 10:20
文章核心观点 - 在大语言模型的结果监督强化学习中,传统的重要性采样机制存在权重错配问题,导致模型过度自信、熵坍缩和训练早熟收敛 [2][6][12] - 研究团队提出一种名为ASPO的新算法,通过不对称翻转正样本的重要性采样权重,有效解决了上述问题 [3][18][19] - 实验证明ASPO在数学推理和代码生成任务中性能显著提升,训练过程更稳定 [24][26] 重要性采样问题分析 - 在GRPO类算法中,重要性采样不仅未带来分布修正好处,反而成为训练不稳定的元凶 [6][7] - 移除重要性采样权重后,模型最终准确率无差异,但训练曲线更平滑稳定,熵值下降速度放缓,重复率降低 [7] - 权重错配表现为正优势token的平均重要性采样权重高于负优势token,导致模型陷入自我强化循环和局部最优 [9][12][14] ASPO算法核心机制 - 对正优势token的重要性采样权重取倒数,使低概率token获得更强更新,高概率token被适当削弱 [18][19][22] - 引入Dual-Clipping机制裁剪翻转权重后导致的极端值,限制不稳定因素同时保留有效梯度流动 [20][21] - 梯度分析显示ASPO使梯度与token概率倒数成正比,增大了低概率token的学习力度 [22] 实验性能结果 - 在数学推理基准测试中,ASPO-Math-1.5B模型平均得分达59.3,优于对比模型如Nemotron-1.5B的58.7和FastCuRL-1.5B-V3的57.7 [24][25] - 在代码生成基准LiveCodeBench上,ASPO-Code-1.5B达到31.5 avg@8和47.0 pass@8的成绩,显著高于DeepSeek-R1-1.5B的17.0 avg和29.0 pass@8 [25][26] - 整体性能提升明显:数学任务平均性能提升12.5%,代码生成任务平均性能提升17.0% [26] 训练动力学优势 - ASPO训练曲线更平滑稳定,无显著熵坍塌现象 [26][27] - 模型输出重复率更低,KL散度与Clip Ratio保持稳定 [27] - 熵下降更平缓,避免了传统算法中的熵坍缩问题 [27]
Google AI 今年最大王炸,测试曝光直接复刻 macOS,比GPT-5更值得期待
36氪· 2025-10-15 09:29
产品发布与测试状态 - 更强大的Gemini 3 0已在Google AI Studio的测试中提前上线[1] - 目前关于Gemini 3 0的爆料测试均通过Google AI Studio网页端的随机A B测试完成 用户需平均重复查询50次才有可能触发[46][47] - Google AI Studio首页近期进行了更新 添加了API数据统计等功能 被推测是在为Gemini 3 0的正式上线做准备[50] - 根据泄露的内部项目追踪文件 Gemini 3 0的发布日期可能与2025年10月22日的营销里程碑对齐[52] 核心能力表现 - Gemini 3 0在编程能力上展现出显著提升 能根据简单提示词直接生成功能完整的网页版操作系统 如macOS和Windows 且生成的应用可交互[1][6][7] - 在相同的智能体编程任务测试中 Gemini 3 0的表现被指有超越Claude Sonnet 4 5和GPT 5的趋势[3] - Gemini 3 0生成的代码不仅能直接运行 其前端设计也更成熟 摆脱了AI模型中常见的渐变紫风格 审美获得提升[1][9][21] - 该模型具备工具调用能力 即智能体功能 已得到Google AI Studio负责人的确认[3] - 在处理复杂编程任务时 Gemini 3 0的推理速度约为1至2分钟[8] 具体应用案例 - 模型能够生成单一HTML文件的网页视频编辑器 并且可以正常工作[24] - 可生成无限流刷视频的抖音App网页版[24] - 能够生成原创音乐以及带有原创配乐的小游戏[44] - 通过了如生成骑自行车鹈鹕的SVG动画 六指测试 手写文档内容准确提取等多种基准能力测试[25][32][35][37] 行业竞争格局 - 大语言模型在基础能力上仍有提升空间 行业竞争焦点持续集中在编程等核心能力的突破上[1][3][53] - OpenAI凭借庞大的用户基础和ChatGPT收集的海量数据 近期持续推出多项应用以巩固用户群体[53] - Claude在编程领域保持领先地位 并按其计划推进基础模型更新 同时注重安全方面的研究[53] - Google通过此前nano banana在图像编辑领域的成功 为Gemini系列赢得了市场关注 目前正试图在编程等领域实现追赶和超越[53]