华为悬赏单项最高 100 万元攻克存储技术难题,第六届奥林帕斯奖启动全球征集
新浪财经·2025-12-26 12:21

奥林帕斯奖项目概况 - 华为公司于2019年设立“奥林帕斯奖”,旨在鼓励全球科研工作者投入数据存储领域基础理论研究,突破关键技术难题,加速科研成果产业化,实现产学研合作共赢 [3][44] - 该奖项自设立以来,已吸引全球超过12个国家的320名学者参与,共评出6个奥林帕斯奖和18个奥林帕斯先锋奖 [3][44] - 2025年奖项设置包括2个奥林帕斯奖(每个奖金100万元)和5个奥林帕斯先锋奖(每个奖金20万元),获奖者可与华为建立技术交流渠道并获得科研助力 [3][44] - 第六届奥林帕斯奖于2024年12月26日正式启动全球征集 [41] 研究方向一:面向AI时代的创新介质技术 - 核心目标是研究以存补算、以存换算的新范式,以及超高密度信息记录和层次化大内存创新技术,以打造高性能、大容量、高性价比的存储系统 [5][46] - 该方向下设三个具体技术难题,旨在应对AI发展导致的数据处理开销增大、数据规模跃升(至YB量级)以及异构存储介质协同等挑战 [5][11][19][46][52][60] 难题一:基于SSD的存算融合与高效索引技术 - 技术挑战:当前存算融合架构面临近存算力瓶颈,因大部分AI算子算术强度高;同时,SSD容量扩大导致FTL映射表规模膨胀,显著推高内存需求,形成功耗、成本和可靠性的核心瓶颈 [8][49] - 技术诉求:目标是探索面向AI应用的高性能、大容量SSD技术 [9][50] - 算子优化下沉技术:研究面向LLM推理、RAG等AI场景的存算融合友好型算子优化,将高算术强度算子转化为低算术强度算子,以存储空间换计算时间,目标是在保证精度和性能的同时,将算力需求下降10倍 [9][50] - 低内存高效索引技术:目标是将整盘映射表常驻DRAM的需求降低70%或更多,在标准测试和真实数据集下,相比原始FTL,吞吐保持95%或以上,P99延迟上升不超过10% [10][51] 难题二:面向超高记录密度的存储信道调制编码技术 - 课题背景:为解决数据规模达YB量级后“存得下、存得起”的挑战,提升存储信道容量密度成为关键突破口 [11][52] - 技术挑战:多元符号记录技术尚未成熟,二元记录下信道容量受限;现有调制编码方案导致实时检测译码算法复杂度呈指数级提升,难以实际应用 [17][58] - 技术诉求:目标是在受限信道场景下实现信息记录密度提升2倍以上,并保证数据可靠恢复 [18][59] - 构建端到端的数据调制编码和记录技术,使记录密度增益G达到3或以上 [18][59] - 构建配套的高可靠检测译码技术,使误码率恶化小于10% [18][59] 难题三:层次化大内存网络协议和IO路径优化技术 - 课题背景:Agentic AI的发展趋势(如多智能体协同、记忆驱动智能)对存储提出了多样化负载需求(带宽/容量/IOPS);XPU(如GPU)需要直接、主动向存储发起请求,传统为CPU设计的数据访问协议栈已无法满足其高带宽、高IOPS、低时延诉求;需通过构建层次化大内存系统整合HBM、DDR、Flash等异构介质,以突破单一介质局限 [21][62] - 技术挑战:基于RDMA的GPU Initiated IO引入了复杂的RoCE协议栈开销,且GPU缺乏中断机制只能轮询,占用计算资源;Agentic AI复杂的非均匀、突发性数据访问模式对层次化存储系统提出了双重挑战,导致性能损失 [23][24][64][65] - 技术诉求:目标是探索基于层次化大内存的XPU原生网络访问协议和IO路径优化技术 [26][67] 研究方向二:Agentic AI原生的数据底座 - 核心目标是使存储系统从简单的数据存放演进为数据存管用的AI数据平台,通过研究高质量知识库、语义信息凝练等技术,构建Agentic AI原生的数据底座 [27][68] - 该方向下设两个具体技术难题,聚焦于知识处理与推理效率 [28][34][68][74] 难题四:知识提取、多模态数据表征与知识检索技术 - 技术挑战:知识完整表达困难,多源异构数据处理过程易导致语义丢失;多模态知识对齐复杂,向量语义表征错位影响检索精度;知识库检索噪声大,传统排序策略对长尾知识权重分配不合理 [32][72] - 技术诉求:目标是探索高质量知识库中的知识提取、多模态数据表征与知识检索技术 [33][73] - 异构数据的知识提取技术:提升知识表达完整度,目标编辑距离小于0.05,数据处理带宽达到1GB/s,生成知识可检索时间小于100ms [33][73] - 多模态语义对齐的知识增强技术:提升语义理解一致性,目标向量内容语义表征精度NDCG@10超过0.9,图谱关联语义表征准确性F1分数超过0.99 [33][73] 难题五:面向大模型高效推理的语义信息凝练技术 - 技术挑战:缺乏系统性的存算系统冗余抑制框架,推理流程中的上下文、KV Cache、参数、多源数据等冗余相互耦合;缺乏以语义信息论为基础的精度保障理论模型,无法对“凝练-精度”进行理论建模 [37][77] - 技术诉求:目标是面向Agent AI长序列与多模态混合推理场景,构建端到端的存算协同信息凝练系统 [38][78] - 在精度损失小于1%的前提下,实现端到端存算压缩比达到20倍或以上,推理吞吐提升5倍或以上 [38][78] - 构建覆盖推理多阶段(上下文冗余、KV Cache冗余、模型参数冗余等)的统一信息凝练框架,并建立可解释的无损压缩理论模型,确保压缩策略的泛化能力 [39][79] 行业技术趋势与对比数据 - 存储介质带宽与成本对比:HBM带宽为1-4 TB/s,成本约为15美元/GB;DRAM带宽为100 GB/s,成本约为3美元/GB;大容量存储(如Flash)带宽为7-32 GB/s,成本约为0.3美元/GB;SSD带宽未明确列出,成本约为0.06美元/GB [6][47] - 层次化内存系统带宽容量比(宽容比):高带宽内存(如HBM)的宽容比(每TB容量的带宽)约为40+ TBps/TB;内存型存储的宽容比约为1 TBps/TB;大容量存储的宽容比约为0.001 TBps/TB [20][22][61][63]