Reinforcement Learning
搜索文档
Albion Technology & General VCT PLC: Interim Management Statement
Globenewswire· 2025-06-17 10:56
文章核心观点 公司发布2025年1月1日至3月31日的中期管理声明,涵盖业绩、募资、投资组合等方面情况 [2] 业绩表现 - 截至2025年3月31日,公司未经审计的净资产值为2.748亿英镑,每股73.51便士(不包括库存股),较2024年12月31日每股增加0.47便士,增幅0.6% [3] 募资情况 - 2025年1月6日开启新普通股的招股说明书追加发行认购申请,3月31日宣布已达到3000万英镑的发行上限(含1000万英镑超额配售权) [4] - 2025年3月21日发行2977.4402万股,发行价每股74.54 - 75.30便士,净收入2174.8万英镑 [4] - 2025年4月4日发行1010.0775万股,发行价每股75.30便士,净收入737.8万英镑 [10] 投资组合 新增投资 - 对Latent Technology Group等7家公司进行新投资,总计267万英镑 [5] 追加投资 - 对Mondra Global等5家公司进行追加投资,总计259万英镑 [5] 前十大持仓 - 截至2025年3月31日,前十大持仓包括Quantexa等公司,Quantexa持仓价值5.1401亿英镑,占净资产值18.7% [6] 股份回购 - 期间公司因处于禁售期未进行股份回购,董事会政策是在符合公司利益的情况下在市场回购股份,意图在市场条件和流动性允许时以较净资产值约5%的折扣进行回购 [8][9] 其他信息 - 可在公司网页获取历史和当前财务业绩及其他股东信息 [11]
NVIDIA (NVDA) Conference Transcript
2025-06-11 12:45
纪要涉及的公司 NVIDIA 纪要提到的核心观点和论据 1. **量子计算** - 核心观点:量子经典结合是发展方向,未来所有超级计算中心都会采用这种模式 [9][15] - 论据:量子计算机需连接GPU超级计算机进行控制和纠错,纠错方面的突破性工作意义重大;预计每五年逻辑量子比特数量增加10倍,五年后可能有20 - 100个逻辑量子比特,可用于早期生物分子或化学材料研究 [10][12] 2. **主权投资与欧洲市场** - 核心观点:欧洲主权AI建设将代表各国GDP,未来几年全球将有价值约1.5万亿美元的建设投入 [17][18] - 论据:欧洲信息技术产业相对美国较轻,但重工业更发达,机器人和工业数字双胞胎将有很大发展;欧洲有20个由政府支持的AI工厂正在建设,部分为超级工厂,主要用于本地消费 [16][17] 3. **物理AI模型** - 核心观点:物理AI模型与大语言模型不同,将是多模态的,能使机器人更易被中小企业使用 [19][23] - 论据:机器人可根据指令生成动作并进行推理,如将苹果放入抽屉的过程;欧洲多个国家有强大的机器人能力,但缺乏软件能力,物理AI模型可弥补这一不足 [20][21][22] 4. **市场供需与限制因素** - 核心观点:供应虽受限但仍在快速增长,终端市场受本地语言等因素限制 [30][33] - 论据:公司产品供应需提前预测,但不受关键组件限制;不同地区人们偏好使用母语与设备交互,需要针对当地语言训练大语言模型,每个模型微调约需一个月超级计算机工作时间 [30][33][35] 5. **AI模型评估与应用** - 核心观点:推理模型和智能体将不断改进,企业模型效果良好 [39][41] - 论据:推理模型能解决未见过的问题,智能体可从上下文受益;与ServiceNow、SAP和Cadence等合作的企业模型是狭义超级智能体,经过微调后能在特定工作中表现出色 [39][40][41] 6. **数据中心增长** - 核心观点:欧洲市场将成为NVIDIA数据中心业务增长的强大驱动力 [44] - 论据:欧洲大部分地区服务不足,当地云服务提供商有机会尽快部署最新技术,增量市场潜力大 [46][47] 7. **业务模式与机会** - 核心观点:后训练是重要机会,推理业务成功,边缘计算有四个主要应用场景 [49][53][56] - 论据:后训练通过强化学习和人类反馈进行,可用于编码和科学模拟等;NVIDIA是全球最大的推理平台;边缘计算的四个主要应用场景为自动驾驶汽车、机器人、设施和基站 [49][50][56] 8. **供应链与风险** - 核心观点:公司将在多个大洲进行制造,降低对台湾的依赖;华为在AI芯片制造方面有一定进展,但与公司存在差距 [64][67] - 论据:公司计划在美国建设价值50万亿美元的AI超级计算机,同时在韩国的三星也有部分组件制造;华为在AI芯片制造方面落后公司几年,但中国电力成本低,可通过增加芯片使用量弥补性能差距 [64][67][68] 9. **产品相关** - 核心观点:GB 300过渡顺利,NVLink有潜在机会,RTX Pro服务器市场机会巨大 [82][87][98] - 论据:GB 300按计划出现,过渡窗口更短,且包装未改变;很多人对使用NVLink感兴趣,公司正在打造相关生态系统;RTX Pro服务器可集成到传统企业IT组织,市场规模达数百亿美元 [82][89][98] 10. **产品使用寿命与财务** - 核心观点:产品的会计寿命由客户决定,但实际使用寿命可达五到七年;公司在追求增长的同时注重成本和价格平衡 [113][119] - 论据:过去两年Hopper性能提升了四倍,软件优化可在购买硅片后长期提高性能;公司从总拥有成本(TCO)价值角度确定价格,注重战略投资以推动平台全球增长 [114][119] 11. **AI包装与价值交付** - 核心观点:NIMS和NEMO是现代AI包装方式,有助于公司向客户交付价值 [126][128] - 论据:NIMS和NEMO将大量软件集成在一个容器中,类似AI盒子,方便客户使用;公司通过整合GPU、NVLink等系统,实现了40倍的性能提升,能向客户证明价值 [126][129][130] 其他重要但是可能被忽略的内容 1. 公司自动驾驶汽车业务年收入已达50亿美元 [56] 2. 公司从每年3040亿美元的中国业务降至零,但因全球需求强劲仍将继续增长 [70] 3. 很多ASIC项目可能会被取消,但部分人对使用NVLink感兴趣 [87][89] 4. RTX Pro服务器已投入生产 [103] 5. 主权AI建设是逐步进行的,基础设施建设已讨论一年多 [108][110]
新“SOTA”推理模型避战Qwen和R1?欧版OpenAI被喷麻了
量子位· 2025-06-11 05:13
模型发布与性能 - Mistral AI发布首款推理模型Magistral,包含Magistral Small(24B参数开源版本)和Magistral Medium(企业版)[4][5] - 与公司初期模型Mistral Medium 3相比,Magistral在AIME-24上的准确率提升50%[3] - Magistral Small在AIME-24准确率达70.7%,纯RL训练使AIME-24数学基准准确率从26.8%跃升至73.6%[18][20] 多语言与推理能力 - Magistral支持多语言推理,覆盖英语、法语、西班牙语等,解决欧洲语言推理效果不佳的问题[7] - 在AIME'24测试中,英语准确率73.6%,法语68.5%,西班牙语69.3%,德语66.8%[8] - 模型针对多步逻辑微调,提供可追溯的思考过程,实现大规模实时推理[10][15] 技术创新与训练方法 - 采用纯强化学习(RL)训练,改进GRPO算法,不依赖现有模型蒸馏数据[16][17] - 首创异步分布式训练架构,动态批处理优化提升训练效率,纯文本RL训练使多模态性能提升12%[20] - Magistral Medium的token吞吐量比大多数竞争对手快10倍,支持实时反馈[14] 行业对比与争议 - 官方未与最新版Qwen和DeepSeek R1对比,网友测试显示Qwen 4B性能相近,30B MoE效果更优[22][24] - 基准测试未纳入Qwen,且DeepSeek-R1数据非最新版(AIME-25准确率从70%升至87.5%)[1] - 开源权重版本Magistral Small采用Apache 2.0许可,但被质疑“欧洲OpenAI”不够开放[24]
AI仅凭“自信”学会推理,浙大校友复刻DeepSeek长思维链涌现,强化学习无需外部奖励信号
量子位· 2025-05-29 04:42
核心观点 - 大模型强化学习新范式RLIF通过优化模型自身信心实现复杂推理 无需外部奖励信号或标注数据 [1][2][3] - 新方法INTUITOR使用KL散度衡量自信程度 在数学和代码任务上表现优于传统GRPO方法 [4][12][15] - 小模型(1.5B/3B)可涌现长思维链推理能力 并降低奖励黑客风险 [16][17][18] 技术方法 - 通过计算预测分布与均匀分布的KL散度作为内在奖励信号 Self-certainty$(o|q)=\frac{1}{|o|}\sum_{i=1}^{|o|}\text{KL}(U\parallel p_{\pi_{\theta}}(\cdot|q,o_{<i}))$ [12][13] - 在线学习机制使评估标准与模型能力协同进化 有效防止作弊策略 [17][18][33] - 与RENT方法的主要区别在于使用KL散度与最小化熵衡量自信程度 [6][7] 实验结果 - Qwen2.5-1.5B经INTUITOR微调后 GSM8K从0.002提升至0.711 MATH500从0.090提升至0.530 [24][25] - Qwen2.5-3B在GSM8K基准上INTUITOR(0.811)优于GRPO(0.758) 代码任务性能比GRPO高8% [25][26][27] - 模型会添加自然语言推理步骤(如"为解决X问题需先执行Y步骤") 促进自我理解 [29][30] 性能表现 - INTUITOR早期学习速度更快 在多任务泛化中表现优秀 [25][27] - 对正确答案的self-certainty显著高于GRPO 具有更好的区分度 [35] - 代码生成任务中无效响应大幅减少 响应长度有效增加 [24] 研究背景 - 由UC Berkeley团队开发 主要作者包括Xuandong Zhao和Zhewei Kang [38][41] - 基于2024年2月发表的Best-of-N策略的先验尝试 [44] - 实验受计算资源限制 未来需在更大规模模型和数据集验证 [37]
312条轨迹激发241%性能!上交大与SII开源电脑智能体,超越 Claude 3.7
机器之心· 2025-05-25 03:51
电脑智能体技术突破 - 行业首次实现仅需312条人类标注轨迹即可训练出高性能电脑智能体PC Agent-E,性能提升达241%,超越Claude 3.7 Sonnet的extended thinking模式,成为Windows系统开源电脑智能体的新一代SOTA [1][10] - 关键创新在于轨迹增强(Trajectory Boost)技术,利用Claude 3.7 Sonnet为每一步合成多个动作决策,使模型性能相比仅使用人类轨迹训练提升141% [8][11] - 研究表明大模型已具备基础电脑操作能力,性能瓶颈在于长程推理(long-horizon planning)能力的激发,而该能力可通过少量高质量轨迹显著提升 [3][13] 数据收集与处理方法 - 数据来源仅需两位作者一天时间通过PC Tracker工具收集的真实操作轨迹,每条包含任务描述、屏幕截图及键盘鼠标操作 [4] - 原始轨迹经过思维链补全(Thought Completion),为每个动作步骤添加符合ReAct范式的思考逻辑 [7] - 轨迹增强阶段利用环境快照(environment snapshot)通过Claude 3.7 Sonnet为每一步合成9个额外动作决策,极大丰富数据多样性 [8][11] 模型训练与性能表现 - 基于开源模型Qwen2.5-VL-72B训练,PC Agent-E作为原生智能体模型可实现端到端任务执行,无需复杂工作流设计 [10] - 在改进版WindowsAgentArena-V2评测中表现优异,同时在OSWorld平台展现跨平台泛化能力 [10] - 实验显示模型性能随合成动作数量增加而显著提升,验证了轨迹增强方法的有效性 [11] 行业影响与未来方向 - 该方法证明少量高质量轨迹可替代海量标注数据,为构建更智能的数字代理提供新思路 [13] - 当前电脑智能体能力仍显著落后人类,在预训练和监督微调阶段引入人类认知仍是必要基础 [13] - 技术路径降低了数据需求,为未来开发自主操作数字世界的智能代理奠定基础 [13]
港大马毅谈智能史:DNA 是最早的大模型,智能的本质是减熵
晚点LatePost· 2025-05-23 07:41
智能的本质与历史 - 智能的本质是学习,生命作为智能载体通过DNA、神经系统、语言和数学等不同形式学习外部世界规律并预测未来[3][15] - 智能发展经历了四个阶段:物种进化(强化学习)、个体记忆(神经系统)、语言文明和数学科学[19][20] - 当前大模型处于类似单细胞生命的低效演化阶段,缺乏自主学习和纠错能力[21][30] 大模型技术现状 - 当前推理模型(o1/R1)主要依靠记忆模仿而非真正逻辑推理,存在训练题表现优异但基础题失误的矛盾现象[8][12] - 提升模型能力的两种核心方法:监督微调(SFT)和强化学习(RL),通常先微调再强化学习效果更佳[10][11] - DeepSeek验证了开源模型可以低成本赶超闭源模型,500万美元训练成本被误读为全程成本[13][14] 机器智能发展方向 - 白盒大模型和闭环反馈纠错机制是突破方向,模仿生物神经系统的多路并行闭环结构[43][45] - 当前端到端开环系统只能在封闭世界运行,闭环系统才能适应开放世界的自主学习[46][47] - VLA方法通过暴力计算整合感知与动作,但非最优解决方案[48] 行业生态与教育 - 港大开设面向所有本科生的AI通识课程,涵盖智能历史、技术原理和伦理思考[37][38] - 为企业家开设AI专项课程,80多位高管参与学习技术本质与商业应用[35] - 学术界应专注原理创新而非跟随工业界,需要保持独立探索精神[44]
Pony Ai(PONY) - 2025 Q1 - Earnings Call Transcript
2025-05-20 13:00
财务数据和关键指标变化 - 2025年第一季度营收1400万美元,同比增长11.6%,主要受Robotaxi服务快速增长推动;季度环比波动主要因项目工程解决方案服务和产品销售的收入确认差异,与历史模式一致 [28] - Robotaxi服务收入170万美元,同比大幅增长200.3%,其中收费收入同比增长约800%;Robotruck服务收入780万美元,同比增长4.2%;许可和应用收入450万美元,同比持平;总营收成本1170万美元,同比增长17.9% [28][29] - 毛利润230万美元,毛利率16.6%,低于去年同期的21%,主要因第一季度新机器人交付客户的ADC销售增加导致收入结构变化;总运营费用同比增长56.3%,非GAAP运营费用4930万美元,同比增长35% [29][30] - 净亏损3790万美元,2024年第一季度为2080万美元;非GAAP净亏损2840万美元,2024年第一季度为2570万美元 [31] - 截至2025年3月31日,现金及现金等价物、受限现金、短期投资和用于财富管理的长期债务工具合计7.385亿美元,2024年底为8.258亿美元,现金流出主要用于Gen seven研发和供应链准备 [32] 各条业务线数据和关键指标变化 - Robotaxi服务:2025年第一季度收入同比增长200.3%,收费收入增长约800%,主要得益于中国一线城市面向公众的收费Robotaxi业务扩展以及针对不同用户群体的运营优化 [28][29] - Robotruck服务:2025年第一季度收入780万美元,同比增长4.2%,主要受新客户贡献推动 [29] - 许可和应用:2025年第一季度收入450万美元,同比持平,自动驾驶域控制器(ADC)销售订单和交付增加,主要受新机器人交付客户推动 [29] 各个市场数据和关键指标变化 - 中国市场:商业运营区域覆盖北京、广州、深圳和上海,总面积超过2000平方公里;Pony Pilot应用注册用户在2025年第一季度环比增长超20% [12][13] - 国际市场:与Uber合作,计划今年晚些时候在中东关键市场推出Robotaxi服务,并在未来扩展到其他国际市场;与Confidelgro开展联合Robotaxi试点项目;获得卢森堡L4 Robotaxi测试许可,在韩国首尔江南区开始路测 [15][16] 公司战略和发展方向和行业竞争 - 战略方向:2025年是规模化之年,重点是Gen seven Robotaxi的大规模生产和部署;持续技术创新,提高生产效率,降低成本,实现盈亏平衡和长期盈利;拓展全球市场,与全球合作伙伴合作,推动当地商业无人驾驶法规发展,提高公众接受度并创收 [5][17] - 行业竞争:Gen seven系统物料清单成本较上一代降低70%,通过设计优化,自动驾驶计算降低80%,激光雷达成本降低68%;远程协助与驾驶员比例达到1:20,商业保险保费约为传统人工出租车典型成本的一半,凭借安全记录和运营经验降低运营成本,在行业中具有竞争力 [6][11] 管理层对经营环境和未来前景的评论 - 经营环境:中国市场监管环境相对成熟,为公司发展提供有利条件;国际市场商业化处于早期阶段,但公司与全球合作伙伴合作,推动当地法规发展,提高公众接受度 [42][43] - 未来前景:Gen seven Robotaxi大规模生产和部署是首要任务,随着技术创新和成本降低,有明确的盈亏平衡和长期盈利路径;2026年规模扩张将加速,生产更多自动驾驶车辆并在中国和国际市场部署 [17][39] 其他重要信息 - 2025年第一季度,公司取得四个关键里程碑:Robotaxi服务收入同比翻倍,收费收入增长约八倍;在上海车展推出第七代自动驾驶系统Gen seven,物料清单成本降低70%;确保到年底将车队规模扩大到1000辆车的生产能力和相关组件;与腾讯、Uber等关键合作伙伴达成战略伙伴关系,打造国内外综合生态系统 [5][6][7] - Pony World作为行业领先的AI世界基础模型,每周生成超过100亿公里的测试数据,训练虚拟驾驶员,积累超过600万公里的干散货运营里程,验证技术成熟度和大规模部署准备情况 [18][19] 问答环节所有提问和回答 问题1: 如何看待2025年全年进展以及2026年规划 - 2025年主要聚焦Gen seven Robotaxi大规模生产,预计第二季度进入量产,年底车队规模达1000辆;下半年大规模部署逐步加速,通过与OEM合作、灵活采购关键组件、与政府合作获取许可证等方式确保快速扩张;2026年规模扩张将更迅速,在中国和国际市场生产和部署更多自动驾驶车辆 [37][38][39] 问题2: 公司全球战略如何演变,现阶段中国市场是否仍是核心重点 - 公司使命是实现全球自动驾驶出行,现阶段优先考虑中国市场,因其监管环境相对成熟;凭借在中国建立的生态系统、技术优势和规模化运营经验,进入有强劲出行需求、先进基础设施和友好法规的国际市场;目前已与Uber、Comfort Aero等全球合作伙伴建立战略关系,在国际市场取得监管和测试进展 [42][43][44] 问题3: Robotaxi业务本季度高增长的驱动因素是什么,是否可持续 - 增长受收费和项目工程解决方案服务驱动,收费收入增长更快,同比增长约800%,主要得益于中国一线城市面向公众的收费Robotaxi业务扩展和运营优化;Robotaxi收入来自项目工程解决方案服务和虚拟驾驶员运营的经常性收入,项目收入目前占比较大,但非经常性收入对增强和推进经常性收入流至关重要,预计该业务收入会有季度波动,但长期将实现强劲增长 [47][48][49] 问题4: ADK成本下降是否需要升级软件,计算能力有哪些改进 - 通过优化Pony World和增强工程能力,设计了具有成本效益的硬件和软件系统,即使使用汽车级SoC和低精度激光雷达传感器,也能提高推理性能并降低成本;网络通过AI输入优化、自动蒸馏等创新将计算能力效率提高了三倍,采用总容量为1016 TOPs的更具成本效益的计算能力,在推理计算方面实施了多项优化以提高性能 [54][55] 问题5: 中国工信部关于驾驶辅助的监管要求对公司有何影响 - 工信部明确L2不等于L4,要求制造商和解决方案提供商避免使用误导性术语,明确驾驶辅助系统的能力和安全措施,强调驾驶员的持续监控责任;这对公司有利,有助于公众更全面、清晰地理解L2和L4的区别;L2系统采用模仿学习,L4系统采用强化学习和生成式Pony World,两者在技术和竞争优势上有显著差异 [59][60][63] 问题6: 中美关税问题是否会对公司运营产生潜在负面影响,海外市场采购材料的比例是多少 - 关税问题对公司运营的潜在影响极小,大部分供应链来自国内;过去几个季度增强了供应链弹性,包括供应商多元化和必要时增加库存;Gen seven大规模生产计划已考虑这些假设和不确定性,有信心实现全年部署1000辆车的目标,不受贸易环境变化影响 [66][67]
客户不转化、内容不合规?AI与Agent如何破解金融营销五大难题
36氪· 2025-05-12 08:15
金融营销的演进与AI价值定位 - 金融营销从依赖网点和客户经理的传统1.0时代,演进至以CRM和线上渠道为主的数字化2.0时代,目前正进入以大语言模型和Agent为代表的智能化3.0时代 [2] - AI技术提供前所未有的客户洞察力,能解析结构化数据(如交易流水)和非结构化信息(如聊天记录、浏览轨迹),挖掘客户的真实需求和意图 [2] - AI实现实时精准的智能决策,整合市场动态、客户状态等多维度信息,动态生成最优营销策略,从“千人千面”升级至“一人一策” [3] - AI通过智能客服、虚拟数字人等Agent高效执行服务,7x24小时承担标准化任务,提升效率、降低成本,并释放客户经理专注于高价值服务 [4] 当前金融营销的核心挑战 - 行业面临获客成本居高不下的问题,零售客户的CAC(客户获取成本)动辄上千元,传统渠道效率低,线上渠道转化难 [5][6] - 数据孤岛导致个性化体验难以实现,客户在不同渠道需重复操作,无法提供“恰到好处”的服务,影响客户选择 [7] - 复杂金融产品如结构性产品、基金等条款复杂,客户理解困难,导致购买决策犹豫期长,易产生误解和投诉 [7] - 强监管环境限制创新效率,AIGC内容合规性、算法偏见及数据隐私保障成为新的挑战 [8] - 客户决策路径复杂,线上线下触点多,传统归因模型难以准确衡量营销ROI,导致预算分配不科学和资源浪费 [9] AI与Agent的解决方案及实践 - 构建“智能营销中台”作为核心解决方案,其底层为数据基座,整合内外部数据形成360度客户视图 [10] - 中间层为智能引擎,运用意图识别、情感分析、流失预警、LTV预测等AI算法,并结合大语言模型、知识图谱和强化学习技术 [10] - 上层服务与应用将智能能力封装成API,支撑智能客服、虚拟数字人、AIGC内容生成及自动化营销工具等场景 [10] - 关键技术突破包括:大模型结合RAG提升专业回答准确性;知识图谱增强推理能力;多Agent协作分工完成复杂流程;隐私计算实现安全数据合作建模 [11][12] - 行业实践案例显示,某股份行通过数据中台实现高净值客户精准洞察,带动AUM显著增长;某理财子公司智能推荐系统将理财产品转化率提升数倍;某银行利用AIGC平台提升营销内容生产效率和私域运营效果 [12] 未来发展趋势 - AI进化方向包括更懂客户的“多模态”交互,能理解语音、图像甚至微表情,使体验更接近真人 [13] - 未来AI将具备更可信的“因果”决策能力,解释决策过程以提升透明度并应对监管 [13] - Agent将发展出更自主的“进化”能力,实现自我学习、适应及跨机构协同,形成“金融智能体” [13] - 借助边缘计算,AI可实现更快速的“边缘”响应,达到“零延迟”体验 [13] - 人机协同将更高效,AI处理标准化工作,人类专注于复杂决策和战略创新 [13] - 未来竞争核心是“智能密度”,即有效运用智能技术构建感知、认知、决策、行动闭环的能力,关乎企业未来十年的核心竞争力 [14]
清华“挖”来美国顶尖AI学者
观察者网· 2025-04-29 06:52
文章核心观点 美国对教育和科学的攻击使科研人员外流,中国加大AI领域投入吸引人才,如微软研究院纽约实验室高级研究员兰姆将加入清华大学人工智能学院 [1][4][6] 科研人员流动 - 微软研究院纽约实验室高级研究员兰姆将于秋季加入清华大学人工智能学院担任助理教授 [1] - 《自然》调查显示超75%(1200人)在美科研人员考虑离美,希望去支持科学的地方 [4][6] 科研人员情况 - 兰姆在约翰霍普金斯大学获应用数学和计算机科学学士学位,2015 - 2020年在加拿大蒙特利尔大学攻读计算机科学博士学位,师从2018年图灵奖获得者本希奥 [1] - 兰姆深耕机器学习研究多年,谷歌学术引用次数为9831,H指数为23 [1] - 兰姆研究聚焦机器学习,尤其是强化学习和生成模型等方向,近期重点包括学习策略、世界模型及训练方法等 [2] - 兰姆曾在亚马逊和谷歌大脑担任深度学习研究科学家,常驻东京 [2] - 兰姆课题组计划招收2025年秋季及之后入学的博士生、硕士生和访问学生,优先考虑有机器学习和强化学习研究经历的同学,在三大机器学习顶级学术会议有发表经历是加分项 [1] 学院情况 - 清华大学人工智能学院成立于2024年4月,由姚期智领导,聚焦“人工智能核心”与“人工智能 +”两大前沿方向 [4] - 今年7月,清华大学人工智能学院发布招聘广告,面向全球招募顶尖人才 [4] 行业投入 - 2025年1月17日,工信部和财政部牵头设立国家人工智能产业投资基金,总规模600.6亿元人民币 [6] - 国家人工智能基金高度重视具身智能,将围绕人工智能全产业链开展投资布局,覆盖各环节,适度投早、投小、投前沿 [6]
深度|清华姚班学霸、OpenAI姚顺雨:AI下半场从“算法竞赛”转向“效用定义”,重构评估框架,将技术能力转化为真实世界价值
Z Potentials· 2025-04-25 03:05
AI发展阶段划分 - 当前处于AI发展的中场阶段 上半场以模型创新和基准测试为核心 下半场将转向定义问题和现实效用[2] - 上半场标志性成果包括DeepBlue AlphaGo GPT-4等 通过搜索 深度强化学习 模型规模化和推理等根本性创新实现突破[2] - 下半场将从"解决问题"转向"定义问题" 评估比训练更重要 需要产品经理式思维方式[4] 上半场特征分析 - 核心在于构建新模型和方法 评估与基准测试处于次要地位 方法比任务更具挑战性和通用性[8] - 最具影响力论文如Transformer AlexNet GPT-3的共同点是提出训练更优模型的根本性突破 并在基准测试展示显著性能提升[5] - Transformer论文引用量超过16万 而其基准WMT'14仅约1300次引用 显示方法创新价值远高于基准测试[5] 突破性技术配方 - 有效配方包含三大要素:大规模语言预训练 规模化(数据和算力) 推理与行动概念[9] - 强化学习长期关注算法而忽视环境和先验知识 深度强化学习时代证明环境重要性远超预期[15] - 语言预训练提供关键先验知识 使模型具备泛化能力 这是OpenAI早期尝试未能突破的核心原因[15] 下半场范式转移 - 现有配方已产业化基准测试提升 新方法仅能带来5%改进 而下一代模型可提升30%[20] - 需要重新思考评估框架 打破自动执行和i.i.d.等传统假设 开发人类参与的长期记忆型评估[23][26] - 下半场重点是将智能转化为实用产品 可能创造数万亿价值 需要筛选并突破现有方法局限[26] 技术演进路径 - 人类通过思考实现任务泛化 将推理作为特殊"行动"可充分利用语言预训练先验[16] - 增加推理动作空间使Agent能灵活分配计算资源 这是实现泛化的关键机制[18] - 讽刺性发现:强化学习算法重要性低于先验和环境 这与数十年研究重点完全相反[18]