机器之心
搜索文档
被轻视的Rollout过程,是后训练的性能瓶颈,还是RL的ROI突破口?
机器之心· 2025-11-30 01:30
强化学习后训练中的Rollout环节 - 2025年,强化学习已成为大语言模型后训练的核心技术路径,研究重心从预训练规模竞赛转向后训练能力深化[5][6] - 在RL后训练的“生成-评估-更新”流程中,Rollout环节是影响训练效率和效果的关键因素,也是计算消耗最大的环节[6] - 多项研究发现Rollout环节占据了RL后训练时间的绝大部分:港科大和阿里团队的分析发现其占70%,字节和上海交大的研究证明其占84%-91%[6] - Rollout在LLM语境下特指模型基于当前策略,从某个提示开始生成完整或部分回答序列的过程[7] - Rollout与推理共享自回归生成的核心技术逻辑,但目标不同:推理追求单次生成的准确性与效率,而Rollout旨在为训练提供多样化、有价值的轨迹样本[7] Rollout对训练效果的影响与质量重要性 - Rollout的轨迹质量直接决定RL训练的最终效果,劣质轨迹会导致模型陷入局部最优,优质轨迹则能激活模型的探索能力与推理潜力[8] - 阿里巴巴团队研究发现,在数学推理RL训练中,采用随机采样Rollout的模型,其轨迹与任务目标对齐度仅41%,即使训练步数达到优质轨迹组的2倍,在MATH数据集上的准确率仍低18%[8] - 蚂蚁团队在万亿参数模型的训练中发现,未经过滤的Rollout轨迹会导致梯度计算偏差指数级累积[8] Rollout的计算效率挑战与优化探索 - Rollout环节的计算效率困境,本质是“生成逻辑的串行特性”与“任务分布的长尾特性”之间的根本性矛盾[9] - “长尾延迟”指少量长请求占据多数耗时的分布失衡现象,这导致所有GPU需要等待最慢的请求,大量设备在等待期内处于空闲,产生计算资源“泡沫”[9] - 英伟达的研究者在2025年11月提出了BroRL范式,通过扩展Rollout规模的方式让该环节更具计算与数据效率,能在更短时间内完成更高质量的训练,且扩展上限更高[9] 行业动态与未来展望 - 2026年被提及为大模型可能实现未知“能力拐点”的关键年份,并探讨其能否实现可持续的业务增长[2] - 行业关注AI能否在2026年实现独立工作8小时,以及OpenAI内部开始强调“进入战时状态、不再是默认赢家”的竞争态势[2] - 企业优先的Anthropic被讨论是否会在OpenAI之前实现盈利[2] - Google和Meta投入的巨额资本支出能带来多少“非泡沫”的AI增长成为行业焦点[2] - OpenAI的Sam Altman认为“极速”比“廉价Token”更值钱,专家级用户愿为“毫秒级延迟”而非“低成本Token”买单[2] - “任务连贯性”正在取代“准确率”成为新的评价指标[2] - 在万物互联时代,OpenAI致力于打造一台“断网”也能使用的新计算机[2] - 有观点认为人类精心设计的智能体工作流,反而是阻碍模型智力涌现的最大绊脚石,“Let it figure it out”被视为顶级AI智能体的最终解决方案[2]
AI驱动的行情里,AI终于成了淘金的铲子
机器之心· 2025-11-29 09:33
AI产业资本内循环 - 硅谷流传资本内循环示意图,资金在投资者、OpenAI、英伟达等科技巨头间循环,成为AI繁荣的市场写照[3] - 一系列交易与合作支撑起万亿美元市值,公司间存在复杂精密的资金网络和内在联系[6][7] 重大交易与合作 - OpenAI与Oracle签署价值约3000亿美元的云服务合同,为期约五年,从2027年开始实施,是历史上最重磅的云合同之一[8] - Oracle股价单日暴涨36%,创1992年12月以来最大单日涨幅,市值增加超2500亿美元,其董事长拉里・埃里森身家超越马斯克成为全球首富[8] - 英伟达与OpenAI签署战略合作意向书,为其构建至少10GW的AI数据中心,配备数百万块GPU,英伟达将分阶段投资最高1000亿美元[10] - OpenAI向英伟下达价值10GW的GPU超级订单,使英伟达部分投资资金回流[10] - 英伟达持有CoreWeave约7%股份,价值约30亿美元,CoreWeave已购入至少25万块英伟达GPU,总价值约75亿美元,英伟达投入资金通过GPU订单回流[11][12] - AMD与OpenAI达成AI基础设施合作协议,OpenAI将部署总计6 GW的AMD Instinct GPU,AMD向OpenAI发出价值超300亿美元的1.6亿股认股权证,相当于OpenAI间接获得AMD近10%股份[14] 市场表现与估值 - 英伟达市值在2025年7月突破4万亿美元,10月底成为唯一一家5万亿美元公司,是全球最贵半导体公司[14] - OpenAI估值达到5000亿美元,约合人民币3.56万亿元,成为全球估值最高的初创企业[14] - 与OpenAI达成协议后,AMD股价上涨40%[14] 普通投资者的困境 - AI产业技术复杂度高,存在认知不足、工具缺失、信息滞后三重困境,造成专业机构与普通投资者间巨大的信息鸿沟[16][17] - 信息不对称程度极高,产业节奏极快,专业投资者通过自动化系统秒级反应,普通投资者信息滞后[17] AI技术作为解决方案 - AI技术本身成为填补信息鸿沟的工具,大模型能快速总结信息,降低接触专业数据的门槛[18] - 新型金融应用和券商利用AI技术提供分析工具,将复杂的产业链关系转化为散户易懂的投资信号,定位为“信息不对称的消除者”[18] - 散户可通过AI工具实时追踪公司资本动向、项目订单、芯片交货周期等,在AI资本迷宫中找到方向[19] 产业链角色定位 - 英伟达是AI产业的“卖铲人”,只要模型训练军备竞赛持续,对AI芯片的需求就会持续[21] - 甲骨文等AI基础设施提供商是“矿场主”,提供算力按使用量收费,不承担模型商业化最终风险[22] - 新型科技券商成为投资领域的“卖铲人”,通过提供分析工具创造新价值,占据重要位置[22]
炸了!ICLR 一键清零 rebuttal,全网研究者怒了
机器之心· 2025-11-29 09:33
ICLR审稿重置事件核心观点 - ICLR会议因安全漏洞对所有论文实施审稿重置,包括重新分配领域主席、重置所有审稿意见和分数至讨论前状态,引发学术社区强烈反响 [1][2][11] 事件具体措施 - 每篇论文重新分配新的领域主席 [11] - 所有评审意见和评分恢复到讨论阶段开始之前的状态,审稿人无法再更改评分或参与答辩讨论 [11] - 作者在截止日期前仍可提交回应,新领域主席将根据原始评审意见和作者回应给出推荐意见 [11] - 关闭公开评论功能以防止信息滥用 [11] 对作者群体的负面影响 - 作者在反驳阶段提升论文分数的努力被清零,例如有分数从4分提升至8分、从2分提升至6分的工作成果被作废 [5][10] - 被形容为“连坐式惩罚”,使未参与漏洞利用的合规作者受到牵连 [6] - 新增的工作量被无效化,引发普遍愤怒和挫败感 [8][11] 对审稿流程的担忧 - 新分配的领域主席每人需处理二三十篇稿件,工作量巨大 [10] - 社区担忧新主席缺乏足够时间和动力去逐篇细读论文与反驳内容 [10] - 近两万篇投稿和七万余份评审的重启操作,使整个系统面临巨大压力 [11] 潜在受益方与系统性问题 - 部分作者认为重置使所有人回到同一起跑线,对先前遭遇审稿人不回应反驳的情况可能有利 [11] - 事件暴露了机器学习顶会发表机制的内卷问题,包括为追求论文数量导致审稿质量下滑 [11]
NeurIPS 2025 | DynaAct:DeepSeek R1之外,探索大模型推理的另一条道路
机器之心· 2025-11-29 09:33
文章核心观点 - 大模型推理领域正从单纯增加思维链长度的“想得久”范式,转向通过动态优化动作空间以实现“想得准”的新范式[3] - 蚂蚁与香港大学团队提出的DynaAct方法,通过动作空间优化为核心,实现了更高效、结构化的推理路径,在多项基准测试中表现优异[7][21] - 该方法证明了Test-Time Scaling的未来在于更聪明的搜索策略,而非单纯投入更多计算资源[25] 研究方法与技术框架 - 提出以Action Space Optimization为核心的TTS范式,在每一步推理中动态构建可选动作集合并选择最优动作[7] - 将动作空间学习问题转化为集合选择问题,采用子模优化实现线性复杂度算法,子模函数包含效用和多样性两部分[14] - 利用Q-learning优化,旨在选出能最大化推理回报的动作空间[14] - 动作候选从真实推理数据中学习,确保覆盖潜在解的同时避免冗余[15] 系统实现与性能 - 开源了基于vLLM的高性能MCTS框架,显著提升了节点扩展、Rollout与Reward计算效率[19] - 在6项推理基准测试中,DynaAct性能显著优于CoT、RAP与rStar等方法[21] - 具体性能表现:在MMLU上达到70.22,在ARC-C上达到51.40,在GSM8K上达到39.39,在MATH-500上达到88.31,在MMLU-Pro上达到89.16,在数学任务上达到61.00[22] - 随着MCTS Rollout次数增加,DynaAct呈现出稳定的test-time scaling趋势,且动作空间更小、延迟几乎不增加[25] 未来发展方向 - 计划将Dynamic Action Space扩展到多智能体规划场景[26] - 探索将子模优化与强化学习结合,学习端到端的自适应推理策略[26] - 推出更高效的MCTS工具包以服务开源社区[26]
2026 年,大模型未知的「能力拐点」能否实现可持续的业务增长?
机器之心· 2025-11-29 02:30
独立工作8小时,2026年AI能力可以成为真实的业务增长 - 有预测认为2026年中期AI模型将能够自主工作一整天(8小时),并在年底前达到多个行业中人类专家的水平[3] - 当前评估显示Anthropic的Sonnet 3.7模型能以50%的成功率完成长达一小时的任务[3] - 社区对预测方法存在质疑,认为其通过混合不同任务类别才呈现出指数趋势,且“成功完成任务”的定义可能过于宽松,对复杂工作流的代表性有限[3] - OpenAI内部预计到2026年收入增速可能降至个位数(约5–10%),公司强调需进入“战时状态”并聚焦“超级智能”研究[4] - Anthropic收入结构高度依赖企业客户和API,弱化了对大规模C端业务的依赖,有评论认为其可能在2025–2026年期间在ARR指标上超越OpenAI[4] - 社区评论认为Google的Gemini在C端助手体验和稳定性上的口碑不如ChatGPT,尤其在家庭设备、语音交互等场景[5] - 社区对Meta的Llama 5发布存在讨论,认为其可能调整开源授权策略,不再延续高开放度,这将直接影响2026年的开源生态[5] 从OpenAI、Anthropic到阿里字节,2026年头部玩家的AI战略路线有何同异 - 中美头部AI公司将2026年业务增长寄希望于AI技术的成熟和商业化应用,内部乐观增长预期正影响市场预期[7] - 对于阿里,有观点认为其可利用AI将所有子业务串成整体生态形成优势,也有观点认为其基因更偏向ToB,应重点面向政府、企业级AI项目,类似“国内版Anthropic”[6] - 对于字节,有观点提出“AI搜索终局可能不在硅谷,在字节”,其火山引擎的大模型服务调用量已占据国内公有云的46.4%,搜推能力在ToB市场可能对传统云厂商形成“降维打击”[6]
世界模型,是否正在逼近自己的「ChatGPT时刻」?
机器之心· 2025-11-29 01:49
世界模型的定义与愿景 - 世界模型本质上是预测模型,给定当前状态及动作序列,预测下一个状态 [4] - 世界模型可理解为AI对环境状态的预测和判断,从简单游戏世界逐渐走向高质量3A大作级的虚拟环境模拟 [4] - 终极目标是将世界1:1建模,可能到原子级别,但实际只需依照不同任务目的进行建模 [4] 世界模型的应用前景 - 为自动驾驶、具身智能等多模态任务提供更多数据 [4] - 建立模型与世界的结合以替代传统模拟器 [4] - 最终成为端到端系统的一部分 [4] 数据瓶颈与构建路径 - 自动驾驶公司积累上亿公里数据,但99%都是晴天道路数据,真正危险场景数据稀缺 [5] - 构建世界模型时采集数据的成本在千万级,非研究团队能直接承担 [5] - 可行路径为:先用常见数据训练垂类模型,再生成更多极端案例数据,通过迭代增强模型 [5] - 采用“生成数据 + 真实数据”的混合模式,通过模型、产品、数据的循环推动发展 [5] 技术路径与架构分歧 - 技术路径分歧明显:有团队偏向融入物理信息以保持一致性(如重力),而面向影视、游戏等创意领域则视频生成可能更合适,甚至不需要严格遵守物理规律 [7] - 模型最终形态可能是纯生成的,但随着生成能力增强,对物理规律的掌握会越来越好 [7] - 在架构上,扩散模型从随机噪声中逐步还原内容,更接近物理世界生成方式及人脑解码机制,被认为更适合世界模型 [8] - 观察到技术融合趋势,如OpenAI正探索将不同架构(如token化的扩散)统一 [9] - 扩散模型擅长捕捉现实世界真实分布,但需自回归模型补足时序与逻辑连贯性,已有扩散和自回归结合的工作 [9] 商业化挑战与发展时间表 - 世界模型存在ToB和ToC两方面的商业化挑战:ToB端需定义视频生成数据对用户的价值,ToC端需提升token价值 [10] - 业内人士估计世界模型的“ChatGPT时刻”可能需要三年左右出现 [10] - 目前最困难的是缺乏高质量长视频数据,视频生成时长大多在5到10秒,大厂演示也只能做到一分钟量级 [10] - 世界模型可能是现在及未来十年新的爆发方向,随着语言模型发展成熟,需开拓新研究方向推动AI进步 [10] 未来技术演进方向 - 未来世界模型可能更需要训练强化学习Agent,以及如何将VLA(视觉-语言-动作)进化为WLA(世界-语言-动作) [11]
NeurIPS 2025 Oral | 1个Token零成本,REG让Diffusion训练收敛快20倍!
机器之心· 2025-11-29 01:49
文章核心观点 - REG方法通过将预训练视觉模型的class token与图像latent在空间维度拼接并共同加噪训练,显著加速Diffusion模型的训练收敛,并提升生成性能上限[9] - 该方法仅需引入一个额外token,计算开销小于0.5%,几乎不增加推理成本,却能实现数十倍的训练加速[9][17] - REG在ImageNet 256×256任务上相比基线方法SiT和REPA分别实现63倍和23倍的收敛加速[10][17] 技术方案创新 - REG采用high-level class token与low-level latent混合纠缠的去噪训练范式,使模型具备直接从纯噪声生成图像-类别对的能力[9] - 训练时对class token和latent同时加噪并联合去噪优化,推理时只需将随机初始化的class token参与去噪过程[14][15] - 与REPA仅进行特征对齐不同,REG显式将DINOv2表征作为模型输入,实现真正的语义引导生成[13] 性能表现 - 在ImageNet 256×256上,SiT-XL/2+REG在400K步时FID达到3.4,显著优于SiT-XL/2+REPA的7.9[18] - 经过4M步训练后,REG的FID进一步降至1.8,显示其性能上限优势[17][18] - 使用CFG时,REG在480 epochs达到1.40 FID,超越REPA 800 epochs的1.42 FID[19][20] - 在ImageNet 512×512任务上,REG仅用80 epochs即达到1.68 FID,优于REPA 200 epochs和SiT 600 epochs结果[21] 效率优势 - 训练效率大幅提升,达到相似FID时,REG相比SiT-XL/2训练时间减少98.36%,相比REPA减少95.72%[24][25] - 推理开销几乎可忽略,参数、FLOPs和延迟增加均小于0.5%,但FID比SiT-XL/2+REPA提升56.46%[26][27] - 仅需400K步的SiT-L/2+REG即可优于4M步的SiT-XL/2+REPA,实现10倍训练时长节约[10][17] 技术验证 - 消融实验表明DINOv2 class token效果最佳,high-level全局判别信息能大幅提升生成质量[29][30] - 即使单独插入class token并进行联合加噪训练,也能带来显著性能提升[31][32] - CKNNA指标显示REG在所有训练阶段、网络层和时间步均保持更高的判别语义相似度[35][36][37] 机制分析 - REG促进生成模型的"理解-生成"解耦,class token指引模型前层专注理解噪声latent,后层聚焦生成任务[38] - 通过attention机制传递判别语义,实现"先理解、后生成"的高效生成范式[36][38] - 该方法首次提出high-level与low-level token混合纠缠的训练理念,为生成模型设计提供新思路[38]
AAAI 2026 | 电子科技大学提出OWL,基于双路径注意力干预的多模态大模型物体幻觉缓解
机器之心· 2025-11-28 08:05
文章核心观点 - 论文提出一种名为Owl的新框架,旨在缓解视觉语言大模型中的物体幻觉问题 [2] - 该框架基于因果关系,采用双路径注意力干预方法,通过量化跨模态依赖关系并动态纠正注意力偏差来抑制幻觉 [2][4][7][8] - 在多个基准测试中,Owl方法显著降低了幻觉指标,同时保持甚至提升了模型的基本理解能力和生成内容的丰富度 [13][14][16] 现有问题与Owl的解决方案 - 现有方法普遍存在两大问题:忽视双模态注意力交互失衡的核心诱因,以及缺乏对解码过程中跨模态依赖关系的量化衡量 [5] - Owl通过构建结构因果模型,将视觉与文本注意力形式化为关键中介变量,揭示了混杂因子通过扭曲注意力导致幻觉的路径 [4] - 提出VTACR指标,通过计算视觉token平均注意力与文本token平均注意力之比,量化模型在每一解码层对两种模态的依赖程度,为干预提供信号指导 [7] - 采用双路径对比注意力干预方法,构建视觉增强路径和文本增强路径,利用对比解码策略放大差异,动态纠正注意力偏差 [8][10] 实验结果 - 在CHAIR基准上,Owl在LLaVA-1.5模型上将句子级幻觉降低17.6%,实例级幻觉降低21.4%,同时生成了更长的文本 [13] - 在五个VQA任务测试中,Owl在多数任务上性能持平甚至提升,如在VizWiz任务上提升7.6%,表明其增强了复杂视觉场景下的理解能力 [14] - 通过GPT-4V进行的人工对齐评估显示,Owl在生成内容的正确性上提升20.1%,在详细度上提升11.3%,内容更忠实且信息量更丰富 [16] - 评估覆盖三个代表性LVLMs(LLaVA-1.5、MiniGPT-4和Shikra),并对比了包括VCD、PAI、OPERA和CausalMM在内的先进基线方法 [12]
刚刚,神秘模型登顶视频生成榜,又是个中国模型?
机器之心· 2025-11-28 08:05
神秘模型Whisper Thunder登顶AI视频榜 - 一个名为Whisper Thunder (aka) David的神秘模型登上了Artificial Analysis视频榜榜首,超越了包括Veo 3、Veo 3.1、Kling 2.5以及Sora 2 Pro在内的所有公开AI视频模型 [1] Artificial Analysis榜单排名详情 - 在Artificial Analysis全球公开权重模型排行榜上,Whisper Thunder (aka) David以1,247的ELO评分位列第一 [2] - 排名第二的是谷歌的Veo 3 (无音频版),ELO评分为1,226 [2] - 快手KlingAl的Kling 2.5 Turbo 1080p以1,225的ELO评分位列第三 [2] - 谷歌的Veo 3.1 Preview (无音频版)和Veo 3.1 Fast Preview (无音频版)分别以1,223和1,219的ELO评分位列第四和第五 [2] - Luma Labs的Ray 3排名第六,ELO评分为1,210 [2] - OpenAI的Sora 2 Pro (无音频版)以1,205的ELO评分位列第七 [2] - MiniMax的海螺02 Standard O和海螺2.3 O分别以1,198和1,188的ELO评分位列第八和第九 [2] - Lightricks的LTX-2 Pro (无音频版)以1,187的ELO评分位列第十 [2] Whisper Thunder模型特性与市场反应 - 该模型生成的视频时长固定为8秒,且运动幅度肉眼可见更强 [3] - 目前其在平台上的出现频率有所降低,用户可能需要反复刷新尝试才能遇到 [3] - 由于测试平台无音频测试机制,该模型是否具备原生音频能力仍是未知 [3] - 不少网友从其生成效果和审美倾向推测,这个神秘模型很可能来自中国 [4] - 尽管在高动作场景下会出现一些抖动,但其生成效果仍然非常令人印象深刻 [11] - 作为榜单头名,该模型在Artificial Analysis Arena的用户投票机制下,仍然存在不少的生成瑕疵 [13] - 行业关注度极高,在下一次刷新之前,所有人都在等待它闪亮登场 [14] Whisper Thunder模型生成示例 - 能够生成复杂的延时摄影场景,如起重机吊装钢梁、城市天际线快速变化的建筑工地 [5] - 可处理特殊镜头效果,如产生变形镜头光斑的沙漠高速公路经典汽车飞驰场景 [6] - 擅长动漫风格内容生成,如将钢琴键转化为彩色音符环绕角色的情感化音乐表演场景 [7] - 能够生成具有电影感的城市景观,如从圣保罗屋顶拍摄的洗衣绳、天线与城市网格 [8] - 可创建环保主题场景,如太阳能电池板追踪日光、风力发电机转动的宁静山谷 [9] - 能够生成超现实主义内容,如月光泻湖中鳞片闪烁的美人鱼 [10] - 可精确生成动物行为细节,如针鼹用长舌捕捉蚂蚁时刺的颤动 [12]
亚马逊研究奖获奖名单出炉:王晋东等26位华人入选
机器之心· 2025-11-28 04:11
亚马逊研究奖2025年春季获奖概况 - 亚马逊研究奖最新一期共评选出63位获奖者,来自全球8个国家的41所大学,其中华人学者有26位,占比约41% [1][2] - 该奖项设立于2015年,为多学科研究提供资助,获奖者可访问700多个亚马逊公共数据集,使用AWS AI/ML服务与工具,并获得亚马逊专家的咨询支持 [2] AI信息安全领域 - AI信息安全方向有8位研究者获奖,其中包含3位华人学者 [3] - 加州大学欧文分校Zhou Li的研究课题为利用LLM在审计日志中实现精确且分析人员友好的攻击溯源 [4] - 弗吉尼亚大学Yu Meng的研究聚焦于弱监督RLHF,旨在建模人类偏好中的模糊性与不确定性 [5] - 东北大学Ziming Zhao的研究兴趣涵盖系统与软件安全、网络与Web安全 [6] 亚马逊广告研究方向 - 亚马逊广告研究方向共有两位获奖者,均为华人学者 [8] - 东北大学Xiaojing Liao的研究课题为理解大语言模型的攻击方式:可解释的漏洞检测与修复 [10][11] - 弗吉尼亚大学Tianhao Wang的研究方向包括差分隐私和机器学习隐私,重点在于设计实用算法 [14] AWS Agentic AI方向 - 智能体AI是亚马逊资助的热门方向,今年共有30位研究者获奖 [16] - 达特茅斯学院Cong Chen的研究目标是通过优化、经济学和AI方法推动全球能源转型,涉及面向能源用户的大语言模型 [17][19][23] - 慕尼黑工业大学Chunyang Chen的研究领域位于软件工程、人机交互与AI的交叉处,采用AI和LLM辅助自动化移动应用开发 [20][21][24] - 蒙特利尔大学Bang Liu深耕基础智能体研究,联合发起Foundation Agents开源组织,并构建材料科学大模型与智能体 [26][28][33] - 加州大学圣地亚哥分校Lianhui Qin的研究目标是构建在复杂环境中进行交互、推理与泛化的AI智能体 [30][34][35] - 威廉与玛丽学院Jindong Wang的研究兴趣涵盖机器学习、大型基础模型及面向社会科学的生成式AI,其成果曾应用于微软健康产品,减少15% token消耗 [36][38][42] - 加州大学圣地亚哥分校Xiaolong Wang的研究聚焦于利用数据中的结构学习视觉表示,特别是视频中的时空结构 [39][41][43] - 明尼苏达大学Zhi-Li Zhang的研究重点包括开发AI/ML算法以实现智能软件定义网络基础设施和边缘/云系统 [45] - 石溪大学Jiawei Zhou的研究聚焦于广义语言应用与生成式AI,致力于改进LLM和多模态模型的效率、知识增强、事实性等方面 [46][51] 在Trainium上构建 - Trainium是AWS开发的定制AI芯片系列,旨在以更低成本提供高性能的ML模型训练和推理,支持PyTorch和TensorFlow等流行框架 [48] - 该方向共有20名获奖者 [49] - 康奈尔大学Kuan Fang的研究课题为机器人感知与控制的多模态基础模型快速适应 [50][53][59] - Lieber研究所Shizhong Han的研究旨在结合多组学数据和深度学习技术揭示脑部疾病的遗传基础并开发新型治疗方法 [55][60] - 加州大学欧文分校Sitao Huang的研究兴趣包括高效硬件加速器、硬件系统的编程语言与综合流程 [58][61][79] - 加州大学默塞德分校Dong Li的研究聚焦高性能计算,并与大规模AI/ML系统密切相关 [63][68][78] - 不列颠哥伦比亚大学Xiaoxiao Li的研究集中在AI与医疗的交叉领域、通用人工智能的理论与技术 [66][69] - 早稻田大学Jiang Liu的研究兴趣包括无线通信与感知、无线网络系统 [67][70] - 加州大学默塞德分校Xiaoyi Lu的研究兴趣包括并行与分布式计算、高性能通信与I/O技术、深度学习 [72][78] - 普渡大学Xupeng Miao的研究课题为通过数据流感知优化实现大型基础模型的通信高效分布式训练 [73][74] - 明尼苏达大学Yanning Shen的研究兴趣包括机器学习、数据科学、网络科学 [76] - 加州大学伯克利分校Yun Song的研究方向为数学与计算生物学 [80] - 伊利诺伊大学厄巴纳-香槟分校Minjia Zhang的研究兴趣包括大规模深度学习与AI应用、高效算法及高效机器学习系统 [83][89] Think Big方向 - Think Big方向旨在资助通过变革性理念推进科学前沿的研究者,今年共有三位获奖者,其中一位为华人 [85] - 北卡罗来纳大学教堂山分校Tianlong Chen的研究课题为利用分子动力学赋能蛋白质AI模型 [86][88]