大型语言模型

搜索文档
中科院团队自研大模型,自动设计超强芯片
半导体行业观察· 2025-06-12 00:41
核心观点 - 提出全新处理器芯片软硬件全自动设计系统QiMeng,包含底层大型处理器芯片模型(LPCM)、中间层硬件/软件设计代理和顶层应用的三层架构 [1][9] - LPCM通过多模态架构、跨阶段协作训练和反馈驱动推理三大创新设计,解决知识表示缺口、数据稀缺、正确性保证和巨大解空间四大挑战 [10][23] - 硬件设计代理采用双循环机制实现从功能规范到物理布局的端到端自动化设计,软件设计代理实现基础软件无缝适配和性能优化 [11][39] - 已实现自动化前端设计、HDL生成等应用,其中QiMeng-CPU-v2性能达到Arm Cortex A53水平 [59][60] 技术挑战 - 制造工艺接近7纳米以下物理极限,量子隧穿和短沟道效应使传统性能扩展方法失效 [4] - 传统设计流程需要大量专业知识和验证迭代,导致开发周期长、成本高昂 [4] - RISC-V等开放指令集带来组合爆炸问题,软件生态适配复杂度呈指数级增长 [50] - 32位CPU设计解空间达10^10540量级,远超传统方法处理能力 [7] LPCM创新设计 - 多模态架构同时处理文本和AST/DFG/CFG等图数据,通过GNN编码和对比学习实现特征对齐 [26][27] - 跨阶段协作训练通过级联单阶段模型自动生成TB级跨阶段对齐数据,缓解数据稀缺问题 [28][29] - 反馈驱动推理集成功能正确性验证(准确率99.99999999999%)和性能优化双循环机制 [33][34][36] 硬件设计代理 - 外部性能优化循环通过模块分解将解空间降低4个数量级,内部验证修复循环确保功能正确性 [45][47] - 采用二进制推测图(BSD)表示电路,通过香农展开实现错误节点自动修复,验证精度渐近收敛至100% [59] - 已实现400万门规模的QiMeng-CPU-v1和1700万门超标量QiMeng-CPU-v2,后者性能达Cortex A53水平 [59][60] 软件设计代理 - 外部循环采用LLM引导的蒙特卡洛树搜索优化性能,内部循环通过SMT求解器保证功能等价 [52][53] - AutoOS方法在1天内完成Linux内核15000个配置项的优化,性能提升最高达25.6% [71] - QiMeng-Xpiler实现CUDA到国产AI芯片的程序转译,平均准确率95% [77] 应用成果 - CodeV系列模型在Verilog生成任务上pass@1达81.9%,超越GPT-4和专用开源模型 [63][69] - QiMeng-GEMM生成的矩阵乘法算子在RISC-V平台性能达OpenBLAS的2.11倍 [80] - QiMeng-Attention在NVIDIA T4平台生成的注意力算子性能为cuDNN的3.04倍 [84]
世界顶尖数学家在测试中震惊地发现,人工智能模型已经接近数学天才了
36氪· 2025-06-08 23:49
AI数学推理能力突破 - o4-mini在伯克利数学会议上成功解决教授级难题,被评价为"接近数学天才"[1] - 该模型由OpenAI训练,采用轻量化架构和人类强化学习,推理能力显著优于早期LLM[1] - 在未训练过的300道数学题测试中,传统LLM正确率不足2%,而o4-mini突破此局限[2] 基准测试进展 - FrontierMath项目分四个难度级别测试,o4-mini在2025年4月已能解决20%高难度问题[3] - 第四级别测试采用严格保密协议,问题设计者每道未解题可获得7500美元奖励[3][4] - 30位数学家分组设计挑战题,最终仅10题难倒AI,显示模型解决博士级问题的能力[4][5] 技术表现细节 - o4-mini解题过程展现类人推理:先检索文献,构建简化版问题,再完成完整证明[5] - 速度优势明显,几分钟完成人类需数周的工作,被比作"优秀研究生+"水平[6] - 输出风格具有高度自信,学者担忧其"威吓证明"可能影响结果可信度[6] 行业影响与未来 - 数学家角色可能转向问题提出和AI协作,类似教授指导研究生的模式[6] - 第五层级问题(人类无法解决的难题)将重塑数学研究范式[6] - 高等教育需加强创造力培养以应对AI冲击,保持学科传承价值[6][7]
英伟达,遥遥领先
半导体芯闻· 2025-06-05 10:04
MLPerf基准测试结果分析 - Nvidia GPU在最新MLPerf基准测试中保持主导地位 包括对Llama 3 1 403B大型语言模型预训练的顶级性能表现 [1] - AMD首次提交训练基准测试 其Instinct MI325X GPU在LLM微调任务中性能与Nvidia H200相当 但整体落后Nvidia一代 [1][3] - AMD Instinct MI325X相比前代MI300X性能提升30% 主要由于高带宽内存增加30% [3] 基准测试任务特点 - 本次测试包含6个行业相关机器学习任务 包括内容推荐 LLM预训练/微调 目标检测 图像生成和图节点分类 [1] - LLM预训练是最资源密集的任务 本次使用Meta Llama 3 1 403B模型 规模是GPT3的两倍多 上下文窗口扩大4倍 [2] - 预训练后通常进行微调而非"训练" 微调是针对特定任务改进模型的关键阶段 [2] 硬件性能表现 - Nvidia Blackwell GPU在所有六项基准测试中取得最快训练时间 这是Blackwell首次大规模部署 [2] - 最大规模提交使用8192块GPU 性能扩展接近线性 达到理想性能的90% [7][9] - NVL72套件通过NVLink连接36个Grace CPU和72个Blackwell GPU 形成"单个大型GPU"系统 [9] - 相比历史记录 本轮最大提交GPU数量(8192)少于前几轮(超10000) 反映硬件效率提升 [12] 行业技术趋势 - 更大模型成为行业趋势 Llama 3 1 403B基准测试反映了这一发展方向 [2] - 网络连接效率对大规模训练至关重要 NVL72和InfiniBand技术显著提升多GPU协同效率 [7][9] - 能效问题受关注 两块Blackwell微调LLM耗电6 11千兆焦耳(1698千瓦时) 相当于小型房屋冬季供暖能耗 [13] 其他参与者表现 - 谷歌使用Trillium TPU提交了图像生成任务的单一基准测试 [3] - Cerebras采用晶圆级集成技术 声称推理性能比Blackwell好两倍以上 但测试方法不同于MLPerf [12] - 仅联想提交了功耗测量结果 行业呼吁更多公司参与能效测试 [13]
刚刚,新一届ACM博士论文奖正式公布
机器之心· 2025-06-05 07:14
ACM博士论文奖 - 2024年ACM博士论文奖授予Ashish Sharma,其研究聚焦人机协作改善心理健康支持的可及性和质量[3][4] - 获奖论文开发了AI辅助心理健康工具,已拥有超16万用户,其中50%以上家庭年收入低于4万美元[5] - 研究包含三大创新方向:通过强化学习训练志愿者提升共情能力、优化自助工具用户体验、建立AI心理咨询质量监督框架[8][10] 人机协作心理健康系统 - 基于Reddit/TalkLife平台数据开发AI反馈系统,经300名志愿者测试证明可显著提升共情表达效果[8][10] - 在15,531人参与的随机试验中,人机协作系统成功帮助用户克服消极思维模式[10] - 分析13种心理治疗技术发现,当前LLM行为模式更接近低质量人类治疗师,常违反治疗准则提供直接建议[11] 计算模型局限性研究 - 荣誉提名论文研究伪随机分布对低复杂度计算模型的限制,涉及分支程序/常数深度电路等模型[15][17] - 该研究为破解P与NP等理论难题提供新路径,在密码学领域具有应用潜力[15] - 论文作者Alexander Kelley系统构建了面向特定计算模型的稳健性限制理论框架[16] 大型语言模型数据利用 - 荣誉提名论文揭示LLM的上下文学习能力主要依赖训练数据记忆,提出非参数语言模型新架构[19][21] - 开发神经检索模型实现训练数据的动态复用,提升模型准确性和可更新性[22] - 探索数据使用伦理框架,包括区分版权文本与许可文本的差异化处理方法[23]
共封装光学,达到临界点
半导体行业观察· 2025-06-04 01:09
共封装光学器件(CPO)技术概述 - 基于CPO的网络交换机已商业化,支持太比特级信号路由,但面临光纤-PIC对准、热管理和光学测试等制造挑战 [1] - CPO将光电转换靠近GPU/ASIC交换机,带宽密度达1 Tbps/mm,相比可插拔模块功耗从15 pJ/bit降至5 pJ/bit(预计<1 pJ/bit) [1][6] - 当前数据中心采用可插拔光收发器通过PCB电连接交换机,存在信号损耗和能效瓶颈 [1][2] 技术优势 - 缩短电信号传输距离至100µm,信号损耗从>20dB降至1-2dB,SerDes组件需求降低 [7] - 硅光子IC采用DWDM技术,单个光纤端口带宽扩展10倍,器件微型化推动与计算节点集成 [6] - 典型配置中计算芯片被4-8个硅光子IC收发器包围,激光器因可靠性问题单独封装 [6] 制造挑战 光纤对准 - 单模光纤(8-10µm)与SOI波导(500x220nm)尺寸差异导致模式失配,需0.1µm精度对准 [8][9] - V型槽无源对准实现最低损耗,可拆卸方案每个接口增加约1dB损耗 [8] - 光纤阵列对准需3D调整,自动化系统通过光反馈优化多通道耦合效率 [10] 热管理 - 1°C温度变化导致0.1nm波长偏移,DWDM架构下热稳定性要求更严格 [11] - 激光器可靠性是最大缺陷来源,多波长激光器将提高测试要求 [13] - 需选择热界面材料并部署传感电路,保持PIC在>105°C环境下的性能 [11][13] 可靠性设计 - 采用Telcordia GR468和JEDEC标准测试,硅光子器件故障率低于1 FIT [14][16] - 冗余设计包括备份激光器阵列和容错架构,支持自动切换降低停机时间 [15] - 集成监控/BiST功能实现自校正,晶圆级测试对复杂多芯片组件至关重要 [15][16] 封装架构 - 2.5D方案中EIC与PIC通过硅中介层互连,可集成波导/光栅等光学特性 [17] - 3D堆叠允许EIC用先进CMOS节点、PIC用硅光子平台,但增加TSV/HBI成本 [18] - 单片集成简化散热但限制IC工艺节点,3.5D方案结合EMIB实现最优性能 [18] 行业应用前景 - CPO为AI数据中心提供带宽和能效突破,光子IC性能达传统收发器10倍 [7][20] - 技术依赖精密对准、热管理及测试方法,需内置冗余保障高可靠性运行 [20]
人工智能和知识图谱:人工智能中知识图谱的概述
36氪· 2025-05-30 03:48
知识图谱定义与结构 - 知识图谱是由实体(节点)和关系(边)组成的结构化网络,用于以机器可读形式编码知识,实体对应现实世界概念(如人物、地点),边表示实体间关系(如"Person worksFor Company")[1][2] - 采用灵活的基于图的数据模型(如RDF或属性图),支持异构和动态数据,通过唯一ID或URI标识实体,属性可附加到节点和边上以补充详细信息[2] - 与传统关系数据库相比,知识图谱能更好地捕获信息上下文和含义,促进数据整合与新事实推断[2] 知识图谱在AI中的作用 - 为AI系统提供结构化背景知识,支持多跳连接查询、逻辑规则应用和上下文关联,增强语义理解与推理能力[3][4] - 主要应用包括:知识集成(打破数据孤岛)、语义丰富(为NLP/ML添加语境)、逻辑推理(推断新事实)、人机交互(生成可解释答案)[3][4] - 通过链接多源数据(如客户数据、社交媒体)实现全局分析,例如图像识别系统可结合知识图谱提升对象分类理解[3] 知识图谱的优势 - 减少AI数据需求:编码先验知识(如"阿司匹林治疗头痛")可降低对大规模标注数据的依赖[5] - 改进迁移学习:跨任务复用图谱知识(如城市道路网络理解),无需重新训练[6] - 增强可解释性:通过关系链追溯决策依据(如金融AI标记欺诈交易的原因)[6] - 提升互操作性:共享词汇表和标识符实现跨系统数据整合,如谷歌搜索利用知识图谱优化结果[7] 历史演变 - 概念源于20世纪60年代语义网络,经语义网(RDF/OWL标准)和链接数据(2006年)发展,2012年谷歌知识图谱推动商业化应用[8] - 当前形态包括领域专用图谱(医疗/金融)、开放知识库(Wikidata)和企业知识图谱,动态图谱可自动更新(如整合新研究成果)[8] - 科技巨头自建图谱案例:微软Satori、Facebook实体图谱[8] 最新技术进展(2023-2025) - **与LLM融合**:KG作为外部知识源减少LLM幻觉,支持检索增强生成(RAG);LLM辅助自动化KG构建(实体/关系提取)[9][10][11] - **嵌入与图机器学习**:TransE/ComplEx等嵌入模型升级,结合GNN/Transformer处理复杂关系;基准测试(FB15k-237)推动链接预测精度提升[12][13] - **自动推理**:SPARQL优化器改进,神经符号系统处理不确定性;超关系图谱支持n元事实推理,查询语言扩展(Cypher/GSQL)[14][15] 新兴趋势 - 企业级自动化管理(AI驱动构建/更新)与可信AI(决策溯源)成为重点[16][17] - 领域专用图谱(生物医学/法律)快速发展,多模态集成(图像/音频链接实体)受关注[16] - 知识嵌入2.0融合本体与文本描述,混合符号-神经方法成为研究方向[16]
香港金管局与香港科技大学签署合作备忘录 推动香港金融业的网络安全创新
智通财经· 2025-05-29 03:26
香港金管局助理总裁(银行监理)朱立翘表示,网络安全是银行服务数码化进程的重要一环。此次合作将 融合金管局的监管经验和科大商学院的学术专长,有助应对银行体系日益复杂的网络威胁,从而保障香 港的金融稳定与健全。 科大商学院署理院长许佳龙教授补充:"很高兴与金管局展开这项具前瞻性的合作。透过结合我们的研 究实力与金管局的监管洞察,我们期望共同开发具影响力的技术方案,应对现实世界的网络安全挑战, 并为香港金融生态系统的韧性作出贡献。" 5月29日,香港金融管理局(香港金管局)与香港科技大学工商管理学院(科大商学院)宣布签署合作备忘 录,加强在网络安全应用研究方面的合作,切合香港金融业的需要。 此次合作备忘录为双方在网络安全这一关键领域建立策略性合作框架,致力推动相关研究及增长知识, 目标包括开发具实际价值的应用方案、提升业界对新兴威胁的认识,以及培育网络安全专才,支援金融 业的持续发展。 透过本次合作,香港金管局与科大商学院将运用最新大型语言模型等前沿技术,共同探索创新的监管科 技(Suptech)及合规科技(Regtech)方案,帮助进一步提升金管局的监管能力,强化金融业的网络防卫韧 性。为使研究能针对业界当前及新 ...
蔡崇信:大多数机器人不需要像人类,年轻人选老板比选岗位更重要
搜狐财经· 2025-05-26 03:36
阿里巴巴战略调整 - 公司对组织架构进行了一些调整 [4] - 公司将专注于三大核心业务:电子商务、云计算、以及将人工智能渗透到业务的各个方面 [5] - 公司80%的收入仍然来自中国市场 [6] 国际化发展策略 - 国际化发展的关键原则是理解当地文化并实现管理团队本地化 [6] - 公司采用"中国技术+本地人"的海外扩张策略,例如收购土耳其最大电子商务平台并保留本地团队运营 [6] 人工智能与机器人技术 - 人工智能与机器人技术结合使机器人能够思考和推理 [6] - 机器人技术应用场景包括煮咖啡和清洁地板等 [7] - 大多数智能机器人不需要人形外观,例如清洁机器人更适合采用吸尘器形态 [8] - 空间智能是机器人行业发展的关键挑战 [9] 电子商务业务 - 电子商务是公司核心业务之一 [5] - 公司通过收购本地平台拓展国际市场,如土耳其电商平台 [6] 云计算业务 - 云计算是公司核心业务之一 [5] 人工智能战略 - 公司将人工智能渗透到业务各个方面,包括客户和内部应用 [5] - 人工智能在机器人领域的应用取得进展,具备理解和推理能力 [9]
腾讯混元TurboS技术报告首次全公开:560B参数混合Mamba架构,自适应长短链融合
AI前线· 2025-05-22 19:57
腾讯混元TurboS模型技术亮点 - 采用创新的Hybrid Transformer-Mamba架构MoE设计,结合Mamba长序列处理效率与Transformer上下文理解优势,实现性能与效率平衡 [2] - 模型激活参数56B(总参数560B),为业界首个大规模部署的Transformer-Mamba专家混合模型 [2] - 引入自适应长短思维链机制,动态切换快速响应与深度思考模式,优化计算资源分配 [7] 模型性能表现 - 在LMSYS Chatbot Arena评测中获1356分,全球排名第7,国内仅次于Deepseek [1][2] - 多语种能力突出,中文/法语/西班牙语并列全球第一,韩文排名全球第二 [4] - 四大关键任务(困难提示/创意写作/多轮对话/长问题)均进入全球前五 [5] 架构与训练创新 - 采用128层交错式"AMF"(Attention→Mamba2→FFN)和"MF"模块设计,FFN层占比50%,Mamba2层占44.5% [14][15] - 预训练使用16万亿Token语料,上下文窗口扩展至256K Tokens [10][18] - 后训练包含监督微调/自适应CoT融合/多轮推敲学习/两阶段强化学习四模块 [22] 基准测试对比 - 数学推理表现仅次于DeepSeek-v3-0324,GSM8K达94.4分,MATH达90分 [41] - 逻辑推理在BBH/DROP/Zebra-Logic基准与DeepSeek-V3共同树立新标杆 [42] - 中文任务表现强劲,C-Eval得分88.7,CMMLU达89.4 [20][42] 基础设施优化 - 自研Angel-RL训练框架集成5种并行技术,ZeroCache技术降低GPU显存压力 [45][46] - 推理部署优化实现1.8倍加速,数学/编程任务Token消耗减少35%-45% [47] - Mamba Kernel优化增强计算并行性,MoE专家并行缓解解码显存瓶颈 [47]
何恺明等新作大道至简,瞬时速度改为平均速度,一步生成表现提升70%
量子位· 2025-05-21 06:31
研究团队与背景 - 研究团队由CMU博士生耿正阳作为第一作者,何恺明的学生邓明扬、白行健参与[2] - 团队来自MIT和CMU,耿正阳导师是Zico Kolter,曾在Meta Reality Labs实习[21][22] - 邓明扬本科就读MIT数学和计算机科学,研究方向为生成式基础模型[23] - 白行健拥有牛津大学数学与计算机科学学位,研究方向为物理启发式生成模型[23] 技术创新与模型框架 - 提出MeanFlow单步生成框架,引入平均速度概念替代传统瞬时速度[5][7] - 平均速度定义为位移与时间间隔的比率,与瞬时速度存在明确数学联系[7][9] - 模型完全从头训练,无需预训练、蒸馏或课程学习[3][10] - 通过jvp计算实现单次后向传递,训练开销低于总时间20%[11] 性能表现与实验结果 - 在256×256 ImageNet上实现3.43的FID值,相对优势达50%-70%[3][13] - 1-NFE生成时FID显著优于流匹配方法(328.91→61.06)[15] - 模型规模扩展性良好,XL版本参数676M时FID达3.43[16][19] - 2-NFE生成时FID进一步降至2.20,缩小与多步模型的差距[19] 行业对比与定位 - 1-NFE性能超越BigGAN(6.95)、接近GigaGAN(3.45)[19] - 优于多数扩散模型如ADM(10.94)、LDM-4-G(3.60)[19] - 与当前SOTA模型DiT-XL/2(2.27)、SiT-XL/2(2.06)仍存差距[19] - 在自回归模型对比中优于MaskGIT(6.18)[19] 理论意义与应用前景 - 研究涉及物理领域多尺度模拟问题,可应用于空间/时间尺度建模[20] - 方法为生成建模、动力系统研究搭建桥梁[20] - 技术路线可能启发计算机图形学、科学计算等领域[20]