Workflow
AI下半场
icon
搜索文档
阿里吴泳铭为什么现在站出来造词?
虎嗅· 2025-09-24 23:25
题图来自:视觉中国 从AGI到ASI,阿里果然是造词担当。 阿里集团CEO、阿里云董事长吴泳铭在9月24日的阿里云栖大会上提出观点:实现通用人工智能AGI只 是起点,发展出能自我迭代、全面超越人类的超级人工智能ASI才是终极目标。 维特根斯坦说,语言的边界就是世界的边界。 跳出原有语言体系的表达,确实让人印象深刻,恍如新世界的大门就在眼前。 姚顺雨在今年4月发布的博客《The second Half》提到,AI下半场已经开始,"评估比训练更重要""通过 把智能转化为有用的产品,打造出数十亿甚至万亿美元的公司。" 这些参与"下半场"的创业公司,显然是各大云平台的潜在客户。阿里云需要尽可能多地把它们搞到手。 淘金者可能穷困潦倒,但卖铲子的人总能富得流油。 阿里云已经吃到甜头。根据2025年二季度财报,阿里云收入333.98亿元,同比增长26%,增速创三年新 高,其中AI收入已经占阿里云外部商业化收入超20%。 它的模式已经清晰。 吴泳铭在演讲中重点提到了"两个判断"(两个产品): 1、大模型是下一代OS。通义千问开源300多款模型,做AI时代的andriod。 别管ASI是否会重蹈"新零售"的覆辙,反正股价已经信 ...
高阶程序,让AI从技术可行到商业可信的最后一公里
机器之心· 2025-09-16 11:57
AI发展阶段的转折 - 行业进入从模型竞赛转向工程竞赛的AI下半场 核心命题从AI能做什么转变为如何让AI做得对做得好不出错 [4] - 当前大模型在常见任务中可靠性仅达70%-85% 与金融医疗等领域99%以上的及格线存在巨大鸿沟 [14] - 实现AI广泛应用需要可靠性保障 涉及准确度速度确定性及幻觉问题等多个细分指标 [4] 数据与可靠性的核心地位 - 数据决定AI应用能力上限 但数据本身不会自动创造价值需要可靠加工引擎 [3] - 幻觉是当前AI范式下的固有系统性问题 源于训练评估程序奖励猜测而非承认不确定性 [8] - 行业需要将不确定的智能与确定的工程逻辑深度融合的新范式 [14] 现有技术方案的局限性 - RAG能降低幻觉但带来向量库集中化权限与陈旧数据风险 在合规敏感场景需谨慎设计 [9] - 智能体编排方便灵活但缺乏内部细粒度核验会导致错误放大 [9] - 神经-符号方法提升可解释性与判定性 但各方案对输出不确定性缺乏强约束 [4][9] 高阶程序(HOP)的工程化解决方案 - HOP是神经-符号主义思想的深度工程实践 为AI智力引擎构建可靠控制系统 [17][22] - 通过编程语言表达业务逻辑构建符号骨架 自然语言调用大模型处理神经任务 [23][25] - 核心机制HopLogic执行框架利用核验复杂性塌缩原理 实现99%以上可靠性 [28][29] - 建立完成率与正确率两大指标 使AI能力边界和可靠性可度量可管理 [34] HOP的实际应用效果 - 在金融风控建模中将可靠性从不足10%提升至99%以上 开发时长从数天缩短至1天以内 [42][43] - 通过内置精确业务规则确保每个关键节点行为受控 弥补传统AI框架短板 [46][47] - 提供比SFT更敏捷经济的迭代方式 通过优化程序逻辑等轻量级方法提升应用表现 [52] 行业标准化与生态发展 - 蚂蚁集团联合十余家机构起草大模型金融领域可信应用参考框架 核心思想与HOP一致 [48][50] - HOP开源推动开放生态建设 结合HopCorpus场景语料集构建提升能力上限 [64] - AI下半场始于数据成于工程 需要可靠框架与高质量数据双核心驱动 [55][64]
腾讯官方辟谣“前 OpenAI 研究员姚顺雨上亿薪资入职腾讯”
环球网· 2025-09-12 08:33
公司人事动态 - 腾讯官方澄清前OpenAI研究员姚顺雨以"上亿薪资"入职腾讯的报道为谣言 [1] 行业人才背景 - 姚顺雨本科毕业于清华大学姚班 获普林斯顿大学计算机科学博士学位 2024年加入OpenAI参与智能体产品operator与deep research开发 [3] - 姚顺雨博士期间提出思维树(Tree of Thoughts)框架改进决策模型 构建CoALA模块化认知架构 [3] - 主导ReAct方法首创语言智能体"推理—行动"交互范式 2025年主导Computer-Using Agent项目融入强化学习新范式 [3] 技术发展趋势 - 推动AI技术从训练导向转向评估导向 提出"AI下半场"概念 [3]
腾讯打出「AI岗位薪酬不限」的底气来自哪?
机器之心· 2025-06-13 04:31
AI行业发展趋势 - AI领域竞争重心正从模型参数与训练技巧转向定义有价值问题和构建真实场景评估体系[6] - 当前AI社区面临基准测试收益递减问题 基准饱和速度加快但解决现实问题进展有限[6] - 下半场需将AI嵌入人类环境 实现多轮互动式服务 如客服场景中的动态调整[6] 场景为王时代的公司选择标准 - 合格公司需具备持续做AI能力 包括大规模用户体量 高频刚需交互 多元化商业结构[11] - 技术-业务耦合强度是关键 AI应作为核心驱动力而非锦上添花 确保技术快速部署[12] - 商业化验证能力是试金石 需观察AI驱动营收案例和客户付费意愿[13] - 稳定商业回报才能支撑算力投入和人才薪酬 缺乏变现的企业面临生存挑战[14] 腾讯的AI场景优势 - 微信14.02亿月活和QQ5.34亿月活提供全球稀缺的高频社交场景[16] - 业务矩阵覆盖社交 游戏 广告 内容生产等 形成TOB+TOC完整数据闭环[16] - 混元模型和元宝等AI技术深度嵌入微信 《和平精英》AI队友等核心业务[17] - 2025Q1财报显示AI驱动广告收入增长20%至319亿元 游戏收入增长24%至595亿元[18] 腾讯青云计划人才机制 - 提供自由探索环境 非KPI导向 可自主选择游戏 广告等亿级用户场景课题[24] - 配备顶级科学家导师 协助梳理业务场景 2023年有成员28岁晋升T12专家[25][26] - 2025年升级筛选标准 通过CVPR会议 校企课题等渠道接触候选人[27][28] - 计划覆盖混元大模型 优图实验室等10+技术团队 提供群星晚宴等交流机会[29]
姚顺雨提到的「AI下半场」,产品评估仍被误解
机器之心· 2025-06-02 05:22
AI产品评估的重要性 - AI发展进入下半场,重点从解决问题转向定义问题,评估的重要性将超过训练,需要更接近产品经理的思维方式[1] - 评估是运用科学方法的持续实践,而非一劳永逸的工具,需要持续监测AI输出[7] - 评估驱动的开发(EDD)是推动AI产品进步的核心方法,类似于测试驱动的开发[12] 构建产品评估体系的科学方法 - 评估体系遵循观察数据、标注数据、提出假设、设计实验、测量结果的循环流程[8] - 需建立平衡且有代表性的数据集,正负样本比例应接近五五开,覆盖各类输入场景[8] - 实验结果必须量化,准确率提升、缺陷减少等可衡量的改进才是有效改进[9] 评估驱动的开发(EDD)实践 - EDD要求在开发AI功能前先定义成功标准,确保有明确目标和可衡量指标[12] - 通过"写评估-做改动-跑评估-整合改进"的循环实现可衡量的进步[12] - 评估提供即时客观反馈,帮助判断提示词调整、系统更新等改进是否有效[12] 自动化评估工具与人工监督 - 自动化评估工具(LLM-as-judge)需要人工监督校准,不能完全取代人工[14] - 需持续采样输出并标注质量缺陷,用高质量标注数据校准自动评估工具[14] - 理想产品设计应能通过用户交互获取隐式反馈,同时结合显式反馈[14]
深度|清华姚班学霸、OpenAI姚顺雨:AI下半场从“算法竞赛”转向“效用定义”,重构评估框架,将技术能力转化为真实世界价值
Z Potentials· 2025-04-25 03:05
AI发展阶段划分 - 当前处于AI发展的中场阶段 上半场以模型创新和基准测试为核心 下半场将从"解决问题"转向"定义问题"[2][3] - 上半场的标志性成果包括DeepBlue AlphaGo GPT-4等 这些突破基于搜索 深度强化学习 模型规模化和推理等根本性创新[2] - 下半场的关键转变在于评估比训练更重要 需要重新思考如何定义问题和衡量进展 思维方式需向产品经理靠拢[3] AI上半场特征 - 上半场的赢家主要是训练方法和模型创新 如Transformer AlexNet GPT-3等 而非基准测试本身[4] - 方法比任务更具通用性 例如Transformer架构推动了计算机视觉 自然语言处理 强化学习等多个领域发展[7] - 上半场游戏规则是开发新方法提升基准测试 再创建更难的基准测试继续循环 这种方法持续几十年并催生重大突破[8] 强化学习突破 - 强化学习取得重大进展的关键在于获得泛化能力 通过语言预训练与强化学习融合形成通用解决方案[3][9] - 强化学习三要素中 先验知识的重要性超过算法和环境 语言预训练提供了关键的先验知识[14][15] - 将推理作为特殊"行动"加入强化学习环境 使模型能利用语言预训练的先验进行泛化[20] AI下半场趋势 - 下半场需要从根本上重新思考评估框架 创造新的评估方式以突破现有解决方案的限制[23][26] - 当前评估框架与现实世界存在差异 例如评估应自动进行和i.i.d.假设等问题需要被质疑和突破[27][29] - 下半场的重点是将智能转化为有用产品 可能创造价值数十亿或数万亿美元的公司[29][32] 技术突破路径 - 有效解决方案的关键成分包括:大规模语言预训练 规模化(数据和算力) 以及推理与行动的概念[9] - OpenAI早期尝试将数字世界变为强化学习环境 但未能解决跨领域迁移问题 直到GPT系列引入语言预训练先验[14][15] - 强化学习算法重要性下降 正确的先验知识和合适的环境配置成为关键突破点[21]