强化学习

搜索文档
腾讯研究院AI速递 20250912
腾讯研究院· 2025-09-11 16:01
估值120亿美元的Thinking Machines发布首篇研究博客 - 公司估值达120亿美元 创始团队多来自OpenAI 首款产品命名为Connection Machine [1] - 研究团队通过改进RMSNorm 矩阵乘法和注意力机制实现完全可复现的推理结果 性能损失可接受 [1] - 解决LLM推理中的非确定性问题 核心是批次不变性 [1] OpenAI ChatGPT支持MCP协议 - OpenAI宣布ChatGPT正式支持MCP Plus和Pro用户可一句Prompt实现自动化操作 [2] - MCP实现AI模型 工具和数据源的标准化交互 使不同模型能共享上下文 支持即插即用 [2] - 用户可通过开启开发人员模式连接第三方服务如Stripe 完成复杂任务 [2] 微信推出混元大模型智能回复功能 - 微信公众号推出由腾讯混元大模型支持的智能回复功能 解决运营者无法及时回复读者问题 [3] - 功能可自动学习公众号历史文章和回复风格 回复内容会标注该消息为智能回复 并可引用相关历史文章 [3] - 腾讯混元还将上线Roleplay模型和AI分身应用 提供沉浸式对话体验 [3] Kimi开源万亿参数模型中间件 - Kimi开源新中间件checkpoint-engine 能在20秒内完成万亿参数模型在数千GPU上的更新 [4] - 采用混合共置架构 通过分布式检查点引擎管理参数状态 实现参数广播和重载并行处理 [4] - 系统设计支持训练和推理引擎完全解耦 采用参数逐条更新的流水线方式 可抵御单点故障 [4] 英伟达发布文本驱动3D模型生成AI - NVIDIA发布新AI Blueprint 通过生成式AI技术让3D艺术家快速创建场景原型 [5] - 集成Microsoft TRELLIS NVIDIA NIM微服务 比原生应用快20% 支持所有配备16GB以上显存的RTX 50和40系列GPU [5] - 只需文本提示即可生成多达20个3D模型 工作流程自动化从创意到3D模型的转换 [5] 百度学术完成AI重构 - 百度学术推出AI学术搜索 AI文献总结 AI阅读 论文图谱等功能 打造行业首个一站式AI学术平台 [6][7] - 全面覆盖搜 读 创 编学术全链路 提供文献总结 全文翻译 选题推荐和专业排版等功能 [7] - 平台已收录6.9亿文献资源 覆盖104万学术站点 建立420万学者主页 [7] 腾讯会议推出AI托管功能 - 腾讯会议联合元宝推出AI托管功能 能替用户提前听会并实时记录 [8] - 用户只需在会议页面或列表点击AI托管 元宝将自动接入会议 生成智能AI纪要 [8] - 会后可直接向元宝提问会议内容 辅助决策推进 实现会议成果沉淀转化 [8] 宇树科技创始人谈AI与机器人发展 - 宇树科技创始人王兴兴表示最后悔2011年起专注机器人而错过AI发展 [9] - 公司已宣布IPO计划 预计2025年底提交申请 2024年营收突破10亿元且连续4年盈利 [9] - 修正此前关于数据的观点 承认机器人数据和模型都是核心问题 [9] 强化学习之父萨顿预言AI未来 - 萨顿认为AI进入经验时代 将从持续学习而非静态知识积累中获得智能 [10] - 指出对AI的恐惧被夸大 认为AI与人类繁荣源自去中心化协作 [10] - 提出四条预测原则 认为人类智能将被超越 权力将流向最聪明的智能体 [10]
预见AI:人类进入新“经验时代” 唯有人造太阳能喂饱AI
南方都市报· 2025-09-11 15:58
人工智能发展趋势 - 人工智能发展正从"数据时代"进入"经验时代" 训练大模型的数据几乎耗尽 智能体通过观察、行动和奖励信号与世界交互 [3] - 强化学习带领进入新经验时代 但需持续学习和元学习技术释放全部潜力 [3] - 人工智能替代不可避免 权力和资源将流向最聪明的智能体 [4] 开源与资源开放 - 开源成为AI竞争关键变量 从代码开源演进为资源开放 [5] - 开放数据和计算资源是推动AI发展的必需环节 [6] - 之江实验室将8B参数模型部署至太空星座 提出"计算卫星"新概念 [6] 机器人产业发展 - 具身智能发展面临高质量数据采集和模型算法挑战 多模态数据融合不理想 [7] - 机器人控制模态对齐存在技术难点 [7] - AI落地应用仍处于爆发性增长前夜 [7] 企业AI转型 - AI转型最大瓶颈在组织文化 必须由CEO主导且业务驱动 [8] - 需聚焦利润而非应用场景 打破组织壁垒和惯性 [8] - "本地对本地"模式成为全球现象 企业需建立分散化全球布局 [8] 中国企业全球化 - 中企海外收入占比仅8% 远低于韩国的65% [9] - 全球品牌百强中仅12家中国企业 美国有61家 [9] - 全球化3.0阶段需输出IP和专长 建设国际化团队 [10] 能源需求与核聚变 - AI用电量占全球1.5% 预计将增长至20%以上 [11] - 核聚变能量密度极高 1克燃料相当于8吨石油 [2][11] - 全球核聚变公司累计获投71亿美元 同比增长9亿美元 [12] - 89%企业看好2030年代末实现并网发电 [12] 技术突破路径 - 可控核聚变存在激光惯性约束和磁约束两大技术方向 [12] - 磁惯性约束混合路径可降低造价和建造时间 [12] - AI技术助力解决核聚变物理过程理解难题 [12]
金融大模型步入“价值”攻坚战,如何跨越三道门槛?
第一财经· 2025-09-11 10:11
核心观点 - 2025年是中国金融业大模型规模化落地的关键年 AI技术正从概念验证深入业务核心 驱动金融服务智能化和普惠化 [1] - 金融机构从早期单纯强调"用起来"转向关注技术与业务协同的实际效益和成本控制 "有价值"成为行业共识 [2] - 金融大模型应用面临数据价值转化不足 安全性挑战和不确定性等门槛 需通过技术融合和体系建设解决 [4][5][6][7] AI应用现状与进展 - 金融智能体已具备感知 学习 行动 决策的代理能力 可培育专业水准的金融代理人 适用于市场分析 风险评估 投资顾问等领域 [2] - 行业正从人机协同L3阶段向L4阶段跨越 关键突破在于大模型使机器自主理解并响应用户需求 未来将向L5阶段发展 提供更拟人 有情感的高质量服务 [2] - 2025年是智能体元年 大型企业构建智能体平台 业务部门参与度从18%提升至74% [3] - 银行业AI大模型落地呈加速跑态势 工商银行新增100余个应用场景包括AI财富助理和投研智能助手 邮储银行开展230余项大模型场景建设 [3] - 马上消费发布零售金融大模型"天镜"并升级至3.0版本 应用于八大核心场景 智能客服年均服务超6500万次 [5] 战略与体系建设 - 金融机构将智能化作为最重要战略 倾向于从体系化角度考虑AI建设 希望利用1-2年时间窗口构建AI体系确保发挥大模型核心作用 [3] - 行业需要推动数据中台与AI平台深度融合 将AI技术系统应用于业务全流程 目前数据平台仅还原50%数据价值 大量业务规则和专家经验尚未充分挖掘 [5] 数据价值转化挑战 - 中国企业面临数据资源难以转化为自身资产的挑战 数据 技术与算法割裂无法协同支撑决策 [4] - 需通过洞察平台从大量"废弃数据"中识别高价值应用场景与客户真实需求 洞察平台可激活企业约70%的"沉睡数据" [4] - 计划将自动驾驶领域的强化学习经验与AI技术融合 在金融决策和风险控制领域实现突破 [4][5] 安全性与可信性挑战 - 必须高度重视金融模型的安全性与可信性 模型歧视 算法共振和隐私泄露等技术风险仍未彻底解决 [6] - 算法共振指不同机构采用相似程序算法逻辑导致市场预测趋同和交易策略一致 可能引发单边市场行为与剧烈波动 [6] - 隐私泄露问题缘于模型可解释性不足 对算法处理 数据挖掘及生成过程缺乏透明解释 制约监管合规能力和模型可靠应用 [6] - 金融决策要求极高精准性 微小偏差可能造成显著影响 需确保AI决策可信 已逐步形成标准方法 平台与工具 [6] 不确定性挑战 - AI引入带来不确定性挑战 部署前无法预知投资回报率或具体商业成效 要求机构有先期投入与探索意愿 [7] - 金融机构需在战略规划 组织架构设计和人才引进等方面持续创新与调整 [7]
对AI的恐惧被夸大了,“强化学习之父”萨顿外滩演讲:四条原则预言AI未来
36氪· 2025-09-11 08:34
智东西9月11日报道,今日上午,在2025 Inclusion·外滩大会开幕式上,2024年图灵奖得主、"强化学习之父"理查德·萨顿(Richard Sutton)发表 主旨演讲。他认为,人类数据红利正逼近极限,人工智能(AI)正在进入以持续学习为核心的"经验时代",潜力将远超以往。 知识来自于经验,可以从经验中学习。一个智能体的智能程度,取决于它能预测并控制自身输入信号的程度。经验是一切智能的核心与基础。 强化学习带领我们进入了新的经验时代,但要释放全部潜力,还需要两项目前尚不成熟的技术——持续学习(continual learning)和元学习 (meta-learning)技术。 面对外界对AI带来偏见、失业甚至人类灭绝的担忧,萨顿认为,这种对AI的恐惧被夸大了,并且是被某些从中获利的组织和个人煽动起来 的。 "人类最卓越的超能力,就在于比其他任何动物都更擅长协作。"在萨顿看来,AI和人类繁荣将来自于去中心化协作。目标不同的智能体,可以 通过去中心化的协作实现双赢。 他预测当今人类的智力水平,很快将会被超级人工智能,或者超级智能增强的人类远远超越,权力和资源会流向最聪明的智能体。 在人类的发展进程中,A ...
VLA:有人喊“最强解法”,有人说“跑不动”
36氪· 2025-09-11 08:17
智能驾驶技术路径分化 - 智能驾驶行业出现VLA(视觉-语言-动作)与反VLA两大阵营分化 理想、小鹏、元戎启行支持VLA路线 华为、Momenta、博世、卓驭持反对立场 [1][27][43] - VLA技术通过引入语言桥梁实现隐式逻辑推理 旨在突破端到端模型90%性能瓶颈 提升系统认知与决策能力 [12][14][16] - 行业技术竞争焦点从纯技术路径转向资源分配策略与技术价值观博弈 [4][40][47] 端到端技术局限性 - 端到端模型存在两大缺陷:决策逻辑不透明(黑箱问题)及未见过场景处理能力缺失 [8][9] - 该模型可解决90%智驾难题 但剩余10%涉及安全的关键场景需依赖规则兜底 [10][11] - 当前行业共识认为端到端需结合规则代码保障基础交通规则遵守 [10] VLA技术优势与挑战 - VLA具备三维动态信息理解能力 如潮汐车道标识、交警手势 支持语音交互与风险预判 [19][20][21] - 技术落地面临三大挑战:多模态特征对齐困难、训练数据获取复杂度高、现有智驾芯片算力不足 [31][32] - VLA需7B-10B参数规模理想部署 但当前芯片带宽限制导致决策频率难以稳定维持10Hz [31] 阵营资源投入差异 - VLA路线需数十亿级资金投入 小鹏宣称仅投入数亿只能实现"微型VLA" [28][29] - 小鹏通过自研图灵芯片提供750TOPS算力 构建72B参数基座大模型支撑VLA [41] - 理想早期布局端到端+VLM融合 元戎启行聚焦英伟达Thor芯片应用 三方均具备人形机器人研发协同优势 [41][42] 替代技术路径发展 - 华为推出WEWA世界模型架构 通过端云结合降低时延 主张该路径为智驾终局解决方案 [36][37] - 地平线基于征程6P计算平台打造软硬一体方案 博世强化一段式端到端工程化量产能力 [43][45] - Momenta采用数据飞轮模式开发R6强化学习模型 强调商业可扩展性与成本控制 [46] 行业监管与发展阶段 - 监管政策禁止"自动驾驶"宣传用语 要求OTA升级需备案 智驾安全被提至绝对优先 [39] - L3政策未放开导致行业处于L2+功能优化阶段 用户感知的"利己效益"不明显 [39] - "车位到车位"功能落地后行业进入瓶颈期 技术突破需百倍级安全提升方能支撑L4落地 [35][38]
图灵奖得主理查德·萨顿:人类将开启“宇宙第四大时代”
21世纪经济报道· 2025-09-11 05:45
萨顿解释,"经验"指的是观察、行动和奖励,这三种信号在智能体与世界之间来回传递。 "知识来自于经验,可以从经验中学习。一个智能体的智能程度,取决于它能预测并控制自身输入信号 的程度。经验是一切智能的核心与基础。"他同时指出,强化学习带领我们进入了新的经验时代,但要 释放全部潜力,还需要两项目前尚不成熟的技术——持续学习(continual learning)和元学习(meta- learning)技术。 面对外界对AI带来偏见、失业甚至人类灭绝的担忧,萨顿认为,这种对人工智能的恐惧被夸大了,并 且是被某些从中获利的组织和个人煽动起来的。他以经济社会的运行为例,只有当每个人有不同的目标 和能力,经济才能运行得最好。同样,目标不同的智能体,可以通过去中心化的协作实现双赢。 (原标题:图灵奖得主理查德·萨顿:人类将开启"宇宙第四大时代") 21世纪经济报道记者李览青 上海报道 9月11日,2025 Inclusion·外滩大会在上海黄浦世博园区开幕。2024年图灵奖得主、"强化学习之父"理查 德·萨顿(Richard Sutton)发表主旨演讲,他对人工智能的未来提出四条基于现实的"预测原则"。他认 为,在人类的发 ...
Kimi开源又放大招!20秒更新万亿参数的中间件来了
量子位· 2025-09-11 05:19
技术突破 - Kimi K2推出checkpoint-engine中间件 实现万亿参数模型权重更新进入"秒更时代" [1][6] - 该中间件可在约20秒内完成在数千个GPU上对1万亿参数的更新操作 [7] - 支持两种更新模式:一次性将更新完的权重从一个节点同时发送给所有节点 以及点对点动态更新 [2] 性能表现 - 在8×H800 TP8配置下 GatherMetas耗时0.17秒 Update(Broadcast)耗时3.94秒 [2] - 在16×H20 TP16配置下 GatherMetas耗时1.44秒 Update(Broadcast)耗时12.22秒 [2] - 在256×H20 TP16配置下 GatherMetas耗时1.40秒 Update(Broadcast)耗时13.88秒 [2] 系统架构 - 采用混合共置架构 训练引擎和推理引擎部署在同一组工作节点上 [8] - 每个引擎都针对高吞吐量进行深度优化 通过资源释放和调配实现高效协同 [9][10] - 使用参数逐条更新的流水线方式 将内存占用降至最低 [19] 技术创新 - 采用三阶段流水线:H2D阶段将权重分片异步复制到缓冲区 广播阶段将分片复制到IPC缓冲区并广播到所有GPU 重载阶段推理引擎从另一个IPC缓冲区加载参数 [20] - 选择将完整参数集广播到整个集群 简化系统设计并降低对训练和推理引擎的侵入性 [24][25] - 通过牺牲微小开销实现训练引擎与推理引擎的完全解耦 大大简化维护和测试流程 [26] 系统优化 - 优化启动时间 让每个训练工作节点选择性地从磁盘读取参数并广播至对等节点 确保所有节点只需集体读取一次检查点 [28][29] - 在启动阶段复用检查点引擎 集体从磁盘读取检查点后更新未初始化的推理引擎状态 [31][32] - 系统可抵御单点故障 某个推理副本可独立重启而无需与其他副本通信 [33]
交互扩展时代来临:创智复旦字节重磅发布AgentGym-RL,昇腾加持,开创智能体训练新范式
机器之心· 2025-09-11 04:53
机器之心报道 机器之心编辑部 强化学习之父、2024 年 ACM 图灵奖得主 Richard Sutton 曾指出,人工智能正在迈入「经验时代」—— 在这个时代,真正的智能不再仅仅依赖大量标注数据的监督 学习,而是来源于在真实环境中主动探索、不断积累经验的能力。正如人类通过实践理解世界、优化行为一样,智能体也必须在交互中积累经验、改进策略,才 能掌握长期决策的能力。 无独有偶,特斯拉前 AI 负责人,OpenAI 联合创始人 Andrej Karpathy 进一步指出,环境的多样性与真实性,是智能体获得泛化能力、应对复杂任务的关键前提。 缺乏丰富的环境,智能体就无法充分暴露于多样化情境,也难以从经验中形成稳健的决策策略。 在这一背景下, 复旦 、创智 、字节 的研究者们 基于智能体自我进化框架 AgentGym,全新打造了 多环境强化学习智能体训练框架 AgentGym-RL 。 本文的第一作者为复旦大学自然语言处理实验室博士生奚志恒,通讯作者为复旦大学自然语言处理实验室的桂韬教授和张奇教授。 这一框架是首个无需监督微调、具备统一端到端架构、支持交互式多轮训练,且在多类真实场景中验证有效的 LLM 智能体强化 ...
图灵奖得主理查德·萨顿:人工智能进入“经验时代”,潜力超以往
贝壳财经· 2025-09-11 04:47
人工智能发展现状 - 人类数据红利正逼近极限 大多数机器学习目标是将人类已有知识转移到静态AI [1][2] - 现有方法不能生成新知识 不适合持续学习 而持续学习对智能效用至关重要 [2] - 强化学习带领进入经验时代 需要智能体与世界直接交互生成新数据源 [2] 经验时代技术方向 - 经验指观察 行动和奖励三种信号在智能体与世界间传递 知识来自于经验 [2] - 智能体智能程度取决于预测并控制自身输入信号的程度 经验是一切智能核心 [2] - 释放全部潜力需要持续学习技术和元学习技术 目前这两项技术尚不成熟 [2] 人工智能协作理念 - 对人工智能恐惧被夸大 是被某些从中获利组织和个人煽动 [3] - 目标不同智能体可通过去中心化协作实现双赢 人工智能和人类繁荣将来自去中心化协作 [3] - 人类最卓越超能力在于比其他动物更擅长协作 经济市场与政府都是成功协作产物 [3] 人工智能未来预测 - 对世界如何运转没有共识 没有哪种看法能凌驾其他 [3] - 人类将真正理解智能并借助技术创造出来 [3] - 当今人类智力水平将被超级人工智能或超级智能增强人类远远超越 [3] - 权力和资源会流向最聪明智能体 人工智能替代将不可避免 [3] 宇宙时代与人工智能定位 - 宇宙历史分为粒子时代 恒星时代 复制者时代和设计时代 [4] - 人类独特之处在于把设计推向极致 创造出能自己设计的事物 [4] - 人类是催化剂和助产士 是开启宇宙第四大时代设计时代的先驱 [4] - 人工智能是宇宙演化必然下一步 应以勇气自豪和冒险精神迎接 [4]
图灵奖得主理查德·萨顿2025外滩大会演讲:经验是一切智能的核心与基础
央广网· 2025-09-11 04:06
央广网上海9月11日消息(记者 殷雨婷)今天上午,2025 Inclusion·外滩大会在上海黄浦世博园区开幕。2024年图灵奖得主、"强化学习之父"理查德·萨 顿(Richard Sutton)发表主旨演讲。 萨顿在发言中表示,今天大多数机器学习的目标,是把人类已有的知识转移到静态、缺乏自主学习能力的 AI 上。"我们逐渐达到人类数据的极限,现有 的方法不能生成新的知识,不适合持续学习,而持续学习对智能的效用至关重要。"他认为,我们正进入"经验时代",需要一种新的数据源,由智能体与世 界直接交互中生成。 萨顿解释,"经验"指的是观察、行动和奖励,这三种信号在智能体与世界之间来回传递。"知识来自于经验,可以从经验中学习。一个智能体的智能程 度,取决于它能预测并控制自身输入信号的程度。经验是一切智能的核心与基础。"他同时指出,强化学习带领我们进入了新的经验时代,但要释放全部潜 力,还需要两项目前尚不成熟的技术——持续学习(continual learning)和元学习(meta-learning)技术。 展望人工智能的未来,他提出了四条现实的"预测原则":第一,对世界应该如何运转并没有共识,但没有哪一种看法能够 ...