机器之心
搜索文档
Veo何止生成视频:DeepMind正在用它模拟整个机器人世界
机器之心· 2025-12-15 08:10
机器之心报道 机器之心编辑部 随着通用型(Generalist)机器人策略的发展,机器人能够通过自然语言指令在多种环境中完成各类任务,但这也带来了显著的挑战。 一方面,真实世界评估成本极高,需要系统性地覆盖常规场景、极端情况、分布外(OOD)环境以及各类安全风险,通常需要进行成百上千次真实硬件实验,不 仅耗时、昂贵,还可能存在操作风险。 1)在闭环、动作条件生成中容易产生伪影; 2)对接触动力学(如物体接触、碰撞)的仿真十分困难; 3)现代策略架构对多视角一致性提出了较高要求,而这在视频生成中并不容易满足。 论文地址:https://arxiv.org/pdf/2512.10675 另一方面,安全性评估尤为棘手,许多潜在的不安全行为(例如误夹人手、损坏设备或引发环境危险)本身就不适合在真实环境中反复测试,使得传统的硬件评 估方法在安全场景下往往难以实施。 传统的物理仿真器虽然有帮助,但在真实感、多样性、搭建成本和视觉一致性方面仍存在明显瓶颈。 另外,前沿视频模型为世界仿真提供了一种替代路径,有望解决前文提到的诸多挑战。然而,要真正发挥这一潜力面临很多困难,主要原因包括: 项目主页:https://veo-ro ...
AAAI 2026 | 革新电影配音工业流程:AI首次学会「导演-演员」配音协作模式
机器之心· 2025-12-15 01:44
机器之心报道 机器之心编辑部 你是否也觉得,AI 配音的语调总是差了那么点 "人情味"?它能把台词念得字正腔圆,口型分秒不差,但角色的喜怒哀乐却总是难以触及灵魂深处。 创新之道:三步还原真实配音 "心流" 问题出在哪里?答案或许藏在配音棚里那些看不见的导演与演员的互动中。在真实的电影工业里,配音绝非演员的独角戏。导演会提供参考片段、解读角色情 绪,引导演员 "入戏"—— 这个过程,正是将文字转化为有生命声音的核心。然而,现有 AI 配音模型却模拟了一个 "简化版" 流程,让 AI "演员" 直接对着脚本和 画面硬说,完全跳过了这个至关重要的 "导戏" 与 "揣摩" 环节。 这缺失的一环,正是 AI 配音缺乏情感表现力的症结所在。 内蒙古大学计算机学院、 人工智 能学院刘瑞教授牵头的语音理解与生成团队 在 AAAI 2026 上发表的论文《Towards Authentic Movie Dubbing with Retrieve- Augmented Director-Actor Interaction Learning》正式回应了这一问题。研究团队提出了一种 全新的检索增强导演 - 演员交互学习框架 ——Au ...
RL是「点金石」还是「挖掘机」?CMU 用可控实验给出答案
机器之心· 2025-12-15 01:44
机器之心报道 机器之心编辑部 近期,强化学习(RL)技术在提升语言模型的推理能力方面取得了显著成效。 然而, 后训练究竟是真正扩展了模型的推理能力,还是仅仅挖掘了预训练中已有的潜力? 目前尚不明确。 一个核心挑战在于现代训练流程缺乏可控性:大规模预训练语料库不够透明,中期训练往往缺乏充分研究,且 RL 目标函数与未知的先验知识之间存在复杂 的交互作用。 为了回答这个问题,来自卡耐基梅隆大学(CMU)的研究者通过构建 基于 GSM-Infinite 的可控合成数据框架 ,在完全解耦的环境下,定量分析了预训 练、Mid-training(中期训练/CPT)和 RL 三者对模型推理泛化能力的因果影响。旨在剥离并独立分析预训练、中期训练以及基于 RL 的后训练各自的因 果贡献。 https://x.com/xiangyue96/status/1998488030836044112 研究者从两个维度对模型进行评估:针对更复杂组合的外推泛化能力,以及跨越不同表层语境的情境泛化能力。利用该框架,研究者调和了关于 RL 有效性 的不同观点。 研究表明: 仅当预训练留有足够提升空间,且 RL 数据针对模型的能力边界(即那些虽具 ...
SIGGRAPH Asia 2025|30FPS普通相机恢复200FPS细节,4D重建方案来了
机器之心· 2025-12-14 04:53
核心观点 - 提出了一种名为“4DSloMo”的软硬协同解决方案,通过“异步采集”与“视频扩散模型修复”相结合,实现了仅利用30 FPS的普通相机阵列,就能恢复出相当于100-200 FPS的高质量动态4D模型,为高速4D重建提供了一条低成本、高质量的新路径 [2][3] 硬件革新:异步捕捉 - 核心思路是突破单个相机速度瓶颈,通过让多个相机协同工作,实现“接力式”拍摄 [6] - 具体方案是人为给不同相机或相机组设置微小启动延迟,进行“错峰拍摄”,从而在时间维度上获得更密集的信息 [6] - 例如,8台25 FPS的相机,若分成4组交替启动,可实现100 FPS的有效捕捉帧率;分成8组甚至能达到200 FPS,整个过程无需额外硬件成本 [8] 软件革新:视频扩散模型修复 - 异步捕捉带来了“稀疏视角”问题,导致初步重建结果产生“浮块”等视觉伪影 [10] - 为解决此问题,训练了一个专门用于修复4D重建伪影的视频扩散模型,其核心功能是接收含伪影的视频输入,并输出精修后的高质量视频 [13] - 该模型利用输入视频提供的时空上下文作为引导,专注于去除伪影并补全细节,其优势在于能保证修复结果的“时间一致性”,避免逐帧修复带来的纹理闪烁等问题 [13] - 通过在高质量4D数据上模拟异步捕捉过程生成训练数据集,并对大规模预训练视频模型进行微调,使其学习从伪影输入到清晰输出的映射关系 [13] 整体流程与框架 - 方法构建了一个迭代式的“重建-优化”框架,将硬件捕捉与AI算法相结合 [14] - 整体流程为:异步视频 → 初步重建 → 视频增强 → 优化4D模型 [17] - 具体步骤包括:1) 利用异步捕捉数据重建初步的4D高斯模型(存在伪影)[20];2) 用初步模型渲染出含伪影的视频作为扩散模型输入 [20];3) 将渲染视频送入视频扩散模型进行增强,去除伪影并提升质量 [15];4) 将增强后的高质量视频作为新的监督信号,进一步优化4D高斯模型,提升最终重建质量 [15] 方法效果与验证 - 在DNA-Rendering和Neural3DV两大公开数据集的测试中,该方法在PSNR、SSIM和LPIPS三项核心指标上超越了K-Planes、4DGS、GS4D等多种当前顶尖方法 [19] - 具体数据:在DNA-Rendering数据集上,PSNR为26.76,SSIM为0.845,LPIPS为0.293;在Neural3DV数据集上,PSNR为33.48,SSIM为0.951,LPIPS为0.134,均优于对比方法 [21] - 通过搭建包含12个25 FPS相机的真实多视角捕捉系统进行验证,证明该方法在真实、复杂的异步捕捉环境下,依然能够稳健地重建出高质量、时空一致的4D内容 [22]
1100多个模型殊途同归,指向一个「通用子空间」,柏拉图又赢一回?
机器之心· 2025-12-14 04:53
核心观点 - 一项新的研究提出了“通用权重子空间假说”,认为不同神经网络模型的权重在训练后会收敛到一个共享的低维子空间,这表明模型架构对学习内容的影响可能比数据更大 [1] - 该发现为理解神经网络的泛化能力、隐式正则化及模型合并等技术的有效性提供了新的理论支持,并可能带来模型压缩、快速适应新任务等实际应用 [2] - 研究也引发了关于当前架构可能存在内在能力天花板、缺乏多样性的担忧 [8] 论文概览 - 研究首次在权重层面为深度神经网络参数空间中“通用性”的存在提供了严谨的实证证据 [14] - 研究聚焦于分析同一架构下的大量模型,包括约500个基于Mistral-7B的LoRA适配器、约500个Vision Transformer和50个LLaMA3-8B模型 [11] - 此前已有神经正切核理论、机制可解释性研究、彩票假说等线索暗示类似现象,但未涉及不同模型间参数性质的收敛 [13] 方法与结果概览 - 分析方法主要采用1-2阶的高阶奇异值分解,对数千个公开模型进行分析,无需额外训练成本 [16] - 在CNN实验中,对在五个不同数据集上训练的ResNet-50进行分析,发现大部分信息仅存在于16个或更少的共享子空间方向中 [19] - 将模型投影到该低秩子空间后,其性能相对于完全微调仍具竞争力,支持了联合子空间的实用性 [19] - 在基于Mistral-7B的500个LoRA模型分析中,所有模型的参数都可被一个有限的低秩子空间良好近似 [22] - 通用子空间模型在解析重构已见和未见任务时表现稳健,且内存效率提升了19倍 [23] - 在文生图任务中,将Stable Diffusion-XL的单个LoRA投影到通用子空间后,生成的图像保持了视觉质量和风格 [26] - 基于CLIP的评估显示,通用子空间在某些情况下甚至优于单个LoRA [27] - 在模型合并任务中,通用子空间方法仅基于几何结构解析计算合并系数,无需迭代调优或验证数据,在降低参数数量的同时取得了更高的平均准确率 [29] - 在多个数据集上的合并实验结果显示,该方法平均准确率达到83.5%,优于RegMean、Task Arithmetic、TIES等一系列基线方法 [32] 研究的局限与开放问题 - 有观点指出,研究中的任务多样性可能不足,发现的可能只是“任务子宇宙特定的子空间”而非真正的通用子空间 [33] - 目前缺乏跨架构比较的方法,无法声称ViT和LLaMA3拥有相同的子空间 [33] - 开放问题包括:不同架构的通用子空间如何区别、能否通过显式设计架构来优化子空间几何结构、以及多样性缺失是否构成根本瓶颈 [14] 通用子空间涌现的原因推论 - 作者推论,神经网络对低频函数的谱偏好将学习动态集中到少数主导方向 [36] - 现代架构(如卷积、注意力机制)施加的强烈归纳偏置约束了解空间 [36] - 基于梯度的优化方法在无限宽度极限下由与任务基本无关的核函数主导,内在地偏好平滑解,将学习轨迹引向共享的几何流形 [36] - 如果假说成立,通用子空间可能捕获了超越特定任务的基本计算模式,这或许能解释迁移学习的有效性 [37]
谷歌创始人布林:当年发完Transformer论文,我们太不当回事了
机器之心· 2025-12-14 04:53
谷歌的成功经验与早期决策 - 公司早期确立了宏大的使命宣言“整合全球信息”作为理念基础[4] - 公司创建时具有学术化基因,创始人均来自博士项目,重视基础研发投入[5] - 公司文化鼓励尝试并敢于挑战技术难题,这在AI等深奥技术领域变得尤为重要[5] - 公司早期招聘方向正确,吸引了大量数学、计算机科学和物理学背景的顶尖人才[6] 对AI发展的反思与当前格局 - 公司承认约8年前发布Transformer论文时未给予足够重视,投资不足,且因担心聊天机器人说蠢话而害怕向用户展示,这给了OpenAI机会[8] - 公司在神经网络研发上有长期积累,可追溯到Google Brain,并幸运地雇佣了Jeff Dean等关键人才[8] - 公司是早期使用GPU的公司之一,并开发了自有芯片TPU,该芯片已有约12年历史,经历了多代迭代[10] - 公司拥有大规模数据中心、自研半导体和深度学习算法等完整技术堆栈,使其能在现代AI前沿竞争[10] 对计算机科学教育与AI的看法 - 尽管AI编程能力不错,但编程因其巨大的市场价值以及能推动AI进步而依然重要,公司大量使用AI进行编程和算法创意[12] - AI在创意性写作(如比较文学)上可能比编程更容易,因为编程错误可能导致更严重的后果[12] 对未来大学形态的展望 - 未来大学可能不应再局限于地理位置,信息传播迅速和在线开放课程已改变了学习方式[14] - 远程工作与跨地域协作成为趋势,但特定规模下的线下协作效果可能更好[14] - 个人创造新事物的能力不一定依赖传统学位,公司雇佣了大量没有学士学位的优秀人才[14] 学术界与工业界的角色演变 - 从学术到产业的转化路径时间已被大幅压缩,一个想法从出现到落地可能只需几年,这挑战了传统学术研究的长期性[17] - 在AI等领域,工业界与学术界都在进行类似研究,学术界的“先行期”优势可能不再明显[18] - 在更激进、底层的创新(如全新模型架构、量子计算)上,学术界可能仍适合进行最初的探索[18] - 需要十年或更久的纯探索性研究,因时间跨度长不符合商业逻辑,可能仍是学术界不可替代的价值[19] 对创业者的建议与过往教训 - 创业者应避免在想法未完全成熟前过快商业化,并以Google Glass为例,指出其在成本效益和消费者体验未准备好时就推出的错误[21] - 创业者需警惕“以为自己是下一个乔布斯”的心态,应给予想法足够长的发展时间,避免被外部期望和开支裹挟[21] AI的未来发展方向 - AI进步的主菜是算法突破,其重要性已超过单纯扩展算力和数据[23] - 算法进步的速度在过去十年里超过了算力提升,历史上N-body问题的解决主要依靠算法改进[23] - 高校在算力受限的情况下,专注于如何用更少资源做更多事的创新,这是一条持续的研究路径[24] 被低估的技术领域 - 材料科学是一个被长期低估的方向,其在AI和量子计算等领域的应用潜力巨大[27][28] - 生物与健康领域,特别是分子科学和合成生物学,正在发生革命,但获得的关注度明显不如AI[28]
干掉同传?谷歌把AI同传放入所有耳机,顺手发了个颠覆性的AI浏览器
机器之心· 2025-12-14 02:49
Google加速AI产品化进程 - 公司正在加速将其Gemini模型的能力融入核心产品线 [2] - 公司通过Google Labs推出名为“Disco”的实验性浏览器,试图用AI重构网页浏览体验 [3] Google翻译的重大功能升级 - 公司正式向Google翻译引入Gemini模型,推出实时语音翻译Beta版,支持通过任何品牌耳机收听 [2][5] - 该实时翻译功能旨在将用户设备变成实时单向翻译工具,能保留说话者的语调、重音和节奏 [6] - 功能支持超过70种语言,目前已在Android端上线,计划于2026年扩展至iOS平台及更多国家 [7] 文本翻译能力的AI增强 - 公司利用Gemini模型重构文本翻译体验,新引擎能更智能地解析上下文,处理俚语、成语等本地化表达 [8] - 该改进即日起在美国和印度推出,支持英语与近20种语言(包括中文、日语、德语等)之间的互译 [8] 语言学习功能的扩展与优化 - 公司进一步完善翻译应用中的语言学习功能,使其更接近专业语言学习软件 [9] - 语言学习工具扩展至近20个新国家/地区,新增了英语使用者练习德语和葡萄牙语等组合 [11] - 新增基于口语练习的改进型反馈机制,以及“连胜打卡”功能以激励用户保持学习习惯 [12] 实验性AI浏览器“Disco” - Chrome团队推出实验性浏览器“Disco”,其核心概念是“GenTabs”(生成式标签页) [14] - GenTabs不同于传统网页展示或文本摘要,能通过Gemini 3模型将信息转化为“微型应用” [15] - 当用户输入需求时,Disco会打开相关网页,并自动生成包含地图、行程表等内容的交互式界面 [15] - GenTabs是动态的,能根据用户新打开的网页自动抓取信息并更新交互界面 [16] - 该项目目前仅开放macOS版本的等待名单 [17]
8B模型任务击败GPT-5?阶跃星辰开源Deep Think新框架,小模型解锁百万Token测试时计算
机器之心· 2025-12-14 02:49
核心观点 - 阶跃星辰公司推出名为并行协同推理的全新训练和推理框架,该框架通过大规模并行协同的方式,使模型能够进行广度和深度思考,突破了传统线性思维链在上下文窗口和处理速度上的限制 [2] - 基于该框架训练的PaCoRe-8B模型在HMMT 2025数学基准测试中取得94.5分,超越了GPT-5的93.2分,其性能提升得益于模型在解决单个问题时能有效利用高达两百万Token的计算量 [3] - 该研究标志着在扩展通用人工智能推理阶段计算规模的方向上迈出了坚实一步,并计划通过开源模型、训练数据和推理代码来加速该领域的研究与创新 [2][3][29] PaCoRe框架机制 - 框架核心是迭代消息传递架构,它将推理的主要驱动力从“串行深度”转移到“并行协同的广度”,从而解耦了推理能力与上下文窗口容量的强耦合关系 [7] - 推理流程包含三个关键步骤:综合与并行探索、消息压缩、迭代协同,通过循环机制将“有效测试时计算量”扩展到远超模型物理上下文窗口限制的程度 [13][14] - 该机制允许在遵守固定上下文限制的同时,产生数百万Token的有效测试时计算量,最终的压缩消息即为系统答案 [12] 训练方法与能力涌现 - 训练采用大规模、基于结果的强化学习,旨在教会模型“推理综合”能力,即审查并行分支、调和冲突证据并提炼统一解决方案的能力 [15] - 通过过滤训练数据,排除仅靠启发式规则就能解决的简单问题,迫使模型发展出真正的综合能力,从一个孤立的求解者转变为一个高效的协同者 [16] - 训练过程中,模型输出中“交叉检查”类词汇的频率稳步增加,表明模型学会了显式地引用同伴的消息,这种综合能力在未经训练的模型中几乎不存在 [25] 性能表现与数据有效性 - 在数学基准测试中,PaCoRe-8B在HMMT 2025上达到94.5%的得分,超越了GPT-5的93.2%,这是通过将有效测试时计算量扩展到每个问题约200万Token实现的 [23] - 在代码基准测试中,模型在LiveCodeBench上达到78.2%的得分,与GLM-4.6和Kimi-K2-Thinking等更大的前沿模型保持了竞争力 [23] - 为PaCoRe构建的训练语料库被证明是一种密度极高的学习资源,将其作为标准强化学习的主要基底也能带来稳健的性能提升 [26] 未来发展方向 - 计划将PaCoRe应用于更强大的基础模型,扩展任务领域,并进一步扩大并行轨迹和协同轮次,以攻克目前被认为无法解决的挑战 [30] - 目标从通过“量”来扩展,转向最大化每一个计算单元的效用,包括通过更好的组织、合作和轨迹间的劳动分工,实现更高效的并行探索 [30] - 有兴趣探索综合策略与消息传递机制的联合训练,构建协作多智能体学习环境,并利用PaCoRe流程开发先进的合成数据生成技术,以反哺并改进预训练和后训练过程 [31]
「Memory as a Context」是否将重新定义 Transformer 的 「记忆模式」?
机器之心· 2025-12-14 01:30
要事解读① 「Memory as a Context」是否将重新定义 Transformer 的「记忆模式」 - 谷歌于2024年底提出Titans架构,其核心是设计了一种神经长期记忆模块,能够在测试时根据新输入数据进行在线学习和优化,该模块以多层感知器的形式运行,其突破在于能主动学习识别并保留输入数据中各个标记间的重要关系和概念主题,而非被动存储数据[7] - Titans提出了三种将神经记忆模块与Transformer注意力机制结合的架构变体,分别代表不同的记忆集成思路:「Memory as a Context」、「Memory as a Gate」和「Memory as a Layer」[7] - 技术社区对Titans和「Memory as a Context」思路的探讨升温,有观点认为其可能重新定义Transformer的记忆模式,但2025年10月有研究通过复现实验指出,受限于分块机制,Titans并不总能超越现有基准模型,且记忆组件与模型主干之间的适配优化仍存在挑战[8] - 尽管存在挑战,同一研究也指出,与仅使用注意力的模型相比,Titans的神经记忆组件能够持续提升模型性能[8] - 谷歌团队为Titans等系列建模方法提出了统一的理论框架「MIRAS」,该框架将各种架构视为由「联想记忆架构」、「注意力偏差」、「记忆保持门控」、「记忆学习算法」四个组件抽象组合而成的问题解决方法[7] Transformer的记忆模式如何转变为自适应的Test-Time Learning系统 - 业界在共识到注意力机制局限的背景下,持续探索改进LLM记忆力的方案,以使模型获得持续学习能力,适应动态变化的部署环境,有思潮认为在LLM语境下,持续学习可能是一个「记忆管理」问题[9] - 华为研究者在2025年8月的综述中指出,LLM的记忆机制正从被动的静态缓存转变为具有自适应能力的测试时学习系统,这种系统指模型在推理阶段无需重新训练或微调,即可通过动态调整记忆策略,实时适配任务需求与环境变化,实现「边用边学」[9] - 该综述梳理了过去7年对LLM四项核心记忆操作(读取、写入、遗忘、容量管理)的技术演进,对比了静态缓存机制的局限与近期记忆增强型Transformer的改进方法[10] - 在「读取」操作上,记忆增强型Transformer实现了动态调整检索范围、内容敏感的模式补全以及测试时优化检索策略,代表模型如CDMem、ARMT(支持5000万token O(1)读取)和ABC[10] - 在「写入」操作上,记忆增强型Transformer实现了选择性写入(如仅存储高惊喜度信息)、实时决策每层写入比例以及无梯度更新的超线性容量增长,代表模型如Titans(使用KL惊喜驱动)、LM2和ATLAS[10] - 在「遗忘」操作上,记忆增强型Transformer实现了价值优先的保留策略、测试时调整衰减因子以及主动清理机制,代表模型如MemLong、RA-DT和ARMT[10] - 在「容量管理」操作上,记忆增强型Transformer实现了弹性扩容(如支持超过16万令牌的连贯生成)、语义感知压缩以及测试时资源调度,代表模型如M+、zip2zip和Transformer-Squared[10] 2026将近,世界模型到底更「世界」了吗 - 业界在探索世界模型的发展方向,存在不同路径的对比,例如Sora式的像素级模拟被认为更可靠,而V-JEPA式的抽象表征预测则被认为更高效[2] - 关于世界模型的输出形式存在讨论,其输出的「世界」应是静态资产、实时帧序列,还是用于驱动预测与控制的潜在状态[2] - 大型科技公司布局世界模型,其战略意图存在不同解读:是在补充现有的「数据引擎」,还是在搭建全新的「时空认知」框架[2] 基于100万亿Token的深度分析:OpenRouter联合a16z发布《State of AI》报告 - 中国开源模型的全球流量份额在一年内从1.2%大幅提升至近30%[2] - 「智能体式推理」已经取代「对话生成」,成为消耗超过50%流量的主流使用范式[2] - 参数量在15B至70B之间的「中型模型」击败了更小和更大的模型,成为在效能平衡上的最优解[2] - AI应用的发展呈现两极分化趋势,正在向「高成本生产力」工具和「低成本娱乐」应用两个极端集中[2]
ACL Fellows 2025名单公布:西湖大学张岳与UIUC季姮入选
机器之心· 2025-12-13 08:31
2025年ACL会士名单概览 - 国际计算语言学学会(ACL)公布了2025年度会士名单,共有11位学者入选,其中包含2位华人学者[1] - ACL会士是该学会授予会员的最高荣誉之一,旨在表彰在自然语言处理(NLP)领域取得卓越技术成就或为社区做出突出贡献的会员[1] 入选华人学者详情 - **季姮(Heng Ji)教授**:来自伊利诺伊大学厄巴纳-香槟分校(UIUC),入选理由为在信息抽取、多模态和多语言知识抽取以及「AI for Science」方面的重要贡献[4][6] - 季姮教授是UIUC Siebel计算与数据科学学院计算机科学教授,曾担任Amazon Scholar,并是Amazon-Illinois交互式对话体验人工智能中心(AICE)及Capital One-Illinois人工智能安全与知识系统中心(ASKS)的创始主任[7] - 其研究兴趣集中于多媒体多语言信息抽取、知识增强的大语言模型与视觉-语言模型,以及面向科学的人工智能,曾获ACL 2024杰出论文奖、NAACL 2024两项杰出论文奖等多个奖项[8] - **张岳(Yue Zhang)教授**:来自西湖大学,入选理由为在NLP结构化预测与泛化方面的贡献,以及对中国和全球NLP社区的服务和NLP教育方面的贡献[9][12] - 张岳教授是西湖大学终身正教授,其研究兴趣包括自然语言处理及其底层机器学习算法,近年来重点研究神经语言模型与人类认知之间的差异,以及利用这种差异自动检测AI生成文本[11][13] 其他入选学者及其贡献 - **Rada Mihalcea**:密歇根大学教授,因在基于图的语言处理、计算社会科学,以及推动「向善的自然语言处理」方面的贡献入选[14][17] - 她与Paul Tarau共同提出了被广泛应用于文本摘要等任务的经典TextRank算法[16] - **Hanna Hajishirzi**:密歇根大学教授,因在问答系统、科学应用、多模态人工智能以及全开放语言模型方面的重要贡献入选[19][20] - 她共同领导开放语言模型与推理项目OLMo和Tulu,致力于构建性能可与专有系统媲美的完全开放算法、数据集和模型[19] - **Mohit Bansal**:北卡罗来纳大学教堂山分校教授,因在多模态NLP基础、忠实的语言生成与摘要,以及模型可解释性方法方面的重要贡献入选[22] - 他是AAAI Fellow,并获得美国总统青年科学家与工程师奖(PECASE)、NSF CAREER奖等多个奖项[22] - **Nizar Habash**:纽约大学阿布扎比分校教授,因在阿拉伯语NLP、针对阿拉伯语及形态丰富语言的开源工具与资源,以及社区建设与服务方面的重要贡献入选[25][26] - **Peter Clark**:艾伦人工智能研究所(AI2)高级研究总监,因在基于知识的NLP、问答系统和常识推理方面的开创性贡献入选[28][31] - 他共同领导AI2的Asta项目,致力于构建用于辅助与自动化科学发现的智能体框架[28] - **Sadao Kurohashi(黒橋禎夫)**:京都大学教授兼日本国立情报学研究所所长,因在日语NLP和机器翻译方面的重要贡献,以及对亚洲NLP社区发展的推动入选[29][32] - **Saif Mohammad**:加拿大国家研究委员会首席研究科学家,因在计算情感科学、情绪检测与情感分析,以及负责任的NLP方面的重要贡献入选[34][36] - **Lori Levin**:卡内基梅隆大学教授,因在机器翻译中应用语音学、句法、词汇语义学和对话建模,以及将NLP技术迁移至低资源语言方面的开创性工作入选[37][42] - **Alexander Koller**:萨尔大学教授,因在计算语义学、语法形式化以及神经符号架构方面的基础性贡献入选[41][43]