大语言模型(LLMs)
搜索文档
12月5日美股成交额前20:特斯拉跻身美国汽车品牌前10
新浪财经· 2025-12-04 21:52
特斯拉 (TSLA) - 股价收高1.73%,成交额达319.36亿美元 [1][9] - 在《消费者报告》2025年度汽车品牌排名中位列第10,较2024年的第18位显著提升 [1][9] - 日系品牌在前10名中占据5个席位 [1][9] 英伟达 (NVDA) - 股价收高2.12%,成交额达303.05亿美元 [1][9] - 本月将为GeForce NOW平台新增多款游戏支持,包括《霍格沃茨之遗》等热门与新发布游戏 [1][9] Meta Platforms (META) - 股价收高3.43%,成交额达197.48亿美元 [1][9] - 公司CEO计划大幅削减元宇宙业务资源,高管考虑将该部门预算削减最高30% [1][9] - 公司在2021年10月更名为Meta,以宣告战略重心跳出社交媒体领域 [1][10] 亚马逊 (AMZN) - 股价收跌1.41%,成交额达103.7亿美元 [2][10] - 正就合作关系与美国邮政总局展开磋商,计划在现有合同明年到期前评估各项选择 [2][10] - 通过投资新建履约中心和配送站点,巩固其在美国包裹行业的地位,该行业规模近1930亿美元 [2][10] Snowflake (SNOW) - 股价收跌11.41%,成交额达60.74亿美元 [2][10] - 与人工智能研究实验室Anthropic签署价值2亿美元的多年期AI合作协议,Anthropic的大语言模型将接入其平台 [2][10] - 摩根士丹利将其目标价从272美元上调至299美元,德银将其目标价从250美元上调至275美元 [2][10] 美光科技 (MU) - 股价收跌3.21%,成交额达52.88亿美元 [2][11] - 计划停止向PC/DIY市场的个人消费者销售存储产品,以将产能专注于为高性能AI芯片驱动的算力集群提供存储产品 [2][11] - 业务主管表示,AI驱动的数据中心扩张导致对DRAM与NAND产品需求激增,公司决定退出Crucial消费者业务以支持增长更快的细分领域 [3][11] 赛富时 (CRM) - 股价收高3.66%,成交额达48.69亿美元 [3][11] - 第三财季营收同比增长8.6%至102.6亿美元,非GAAP稀释后每股收益同比增长近35%至3.25美元 [3][11] - AI平台Agentforce和数据云平台Data 360的年化经常性收入接近14亿美元,同比增长114% [3][12] - 预计第四财季营收同比增长中值为11.8%,为七个季度以来首次实现两位数增长,并上调全年营收指引至414.5亿至415.5亿美元 [3][12] 英特尔 (INTC) - 股价收跌7.45%,成交额达42.99亿美元 [4][12] - 决定保留旗下网络与通讯部门,不再推动出售或分拆计划,以强化在AI、数据中心与边缘运算等领域的整体产品竞争力 [4][5][12] - 作为此举措的一部分,终止了与爱立信关于收购NEX股份的谈判 [5][12]
前OpenAI创始人称:大模型将从“堆芯片”转向“拼研究”
阿尔法工场研究院· 2025-11-27 00:07
AI行业发展模式转变 - 行业此前聚焦于通过海量芯片部署或获取大规模训练数据来实现算力扩张 [3] - 通过堆算力提升AI智能水平的模式已经逼近极限 [2][6] - 科技企业已投入数千亿美元采购GPU并建设数据中心以提升AI工具性能 [5] 对算力扩张路径的质疑 - OpenAI联合创始人伊利亚·苏茨克维尔对“算力扩张是AI进步核心路径”的传统共识提出质疑 [5] - 过去约五年间,算力扩张模式确实产出了具有影响力的成果,对企业而言是一种简单且风险极低的资源投入方式 [6] - 数据是有限的,而各类机构已拥有海量算力,单纯将规模扩大100倍并不会带来彻底改变 [6] 未来发展方向 - 行业需要重返研究时代,但这次有了强大的计算机加持 [4][5][6] - 需要找到高效利用现有算力的有效途径,研究将起到关键作用 [4][6][7] - 研究重点应转向让模型具备与人类相当的泛化能力,即仅通过少量信息或示例就能完成学习的能力 [7] - 算力仍是研究的必要条件,并在所有主流机构遵循同一范式时可能成为核心差异化优势之一 [6]
UCLA最新!大模型时序推理和Agentic系统的全面综述
自动驾驶之心· 2025-09-27 23:33
时间序列推理(TSR)的兴起背景 - 时间序列数据是现代社会的"数字脉搏",广泛应用于金融风控、医疗诊断、能源调度和交通管理等关键领域[1] - 传统时间序列分析技术(如ARIMA、LSTM)在预测和异常检测等基础任务上已取得显著进展,例如用LSTM预测未来24小时城市用电量,用CNN检测心电图中的心律失常片段[1] - 随着应用需求升级,传统方法在解释性、因果推断和动态响应方面存在三大局限:缺乏解释性、难以处理因果、静态响应不足[8][14] - 大语言模型(LLMs)具备分步推理轨迹、因果假设生成和智能体交互能力三大核心能力,为时间序列分析带来范式革命[8][14] - 时间序列推理被定义为利用LLMs对时序数据执行显式结构化推理的方法,可融合多模态上下文与智能体系统,实现解释、干预与动态生成[8] 三维分类框架 - 综述构建了"推理拓扑-核心目标-属性标签"三维分类框架,系统化梳理时间序列推理领域[9] - 第一维度推理拓扑定义LLMs执行推理的流程结构,分为直接推理、线性链推理和分支结构推理三类[12] - 直接推理是单步映射结构,高效但缺乏可解释性,典型案例包括LLMTIME将预测转化为文本生成任务,HiTime在单次前向传递中生成类标签[15][17] - 线性链推理通过有序推理步骤序列提升可解释性,案例如TimeReasoner将预测视为深思熟虑过程,RAF引入检索增强框架[18][21] - 分支结构推理支持多路径探索和自修正,是最高级拓扑,案例如AD-AGENT多智能体异常检测框架,BRIDGE多智能体时序生成模型[22][23][27] - 第二维度核心目标定义推理意图,涵盖传统时间序列分析、解释与理解、因果推断与决策、时间序列生成四类[24][28] - 第三维度属性标签细化方法特征,包括控制流操作、执行主体、信息来源和LLM对齐方式四类辅助特征[28][29][30][31][32] 核心目标应用场景 - 传统时间序列分析目标用LLM增强预测、分类、异常检测和分割等基础任务性能,例如用LLM结合新闻预测股价,用VLM分析时序图表检测电力系统异常[28] - 解释与理解目标要求LLM输出人类可理解的解释,支持时序问答、诊断解释和结构发现等任务,例如生成ECG诊断报告时说明异常波峰出现时间及可能原因[28] - 因果推断与决策是高级目标,支持自主策略学习、辅助决策支持和控制优化,例如LLM结合市场数据学习交易策略,为医生提供用药剂量调整建议[28] - 时间序列生成目标聚焦数据合成,支持条件合成和场景模拟,例如基于文本描述生成温度数据,生成极端天气下的电网负荷数据用于测试[28] 资源与工具支撑 - 推理优先基准专门测试LLM推理能力,例如MTBench多模态时序问答基准要求结合文本报告与时序数据回答问题[34][36] - 推理就绪基准自带丰富辅助信息支持推理研究,例如GPT4MTS包含时序数据与文本描述,RATs40K异常检测基准包含异常原因文本标注[34][36] - 通用时序基准是传统任务测试床,例如FinBen金融时序基准支持预测和风险管理,UEA/UCR时序分类基准包含多领域数据[34][36] 核心挑战与未来方向 - 标准化评估需结合证据忠实性和决策效用等全面指标,构建压力测试基准应对数据分布偏移和长时域场景[34][37] - 多模态融合存在时间对齐、模态失衡和风格鲁棒性三大问题,需解决文本、图像与时序数据精准匹配难题[38][41] - 长上下文与效率挑战需开发时序压缩技术和优化推理效率,以处理现实中的超长时序数据[38][41] - 智能体与工具使用需解决行动选择、工具适配和风险控制等鲁棒性与安全性问题[38][41] - 因果推断落地需解决时间混淆变量和构建因果基准,实现从相关性到因果性的跨越[38][41] - 成本与实用性需开发轻量化推理技术,将成本纳入设计指标以平衡性能与计算开销[38][41] - 未来时间序列推理将向大规模可靠性迈进,构建能理解、解释并作用于动态世界的智能系统[39]
从MLLM到Agent:万字长文览尽大模型安全进化之路!
自动驾驶之心· 2025-09-03 23:33
大模型演进与安全挑战 - 人工智能从单一文本交互发展到多模态理解与智能体自主决策阶段 能力上限持续扩张但安全风险呈指数级增长 [2] - 越狱攻击通过精心设计的输入或环境扰动绕过模型安全机制 诱导生成违法有害内容 可能引发虚假信息传播和网络攻击等严重后果 [2] - 现有研究缺乏对LLMs-MLLMs-Agents全演进链路的系统性梳理 尚未形成统一的攻击分类框架和评估标准 [2] 研究综述核心贡献 - 系统追溯大模型从LLMs到MLLMs再到Agents的发展脉络 构建越狱攻击分类体系 [3] - 梳理数据集 评估指标与防御策略的最新进展 指出当前研究局限与未来方向 [3] - 核心贡献包括完整呈现演进路径与安全挑战 从双视角对越狱技术分类 解析实验设计 体系化防御策略和提出未来方向 [4] 大语言模型(LLMs)发展 - Transformer架构的自注意力机制实现全局语境建模与并行计算 为超深网络训练奠定基础 [8] - 模型性能随参数 数据量 算力增长而提升 从BERT的3.4亿参数到PaLM的5400亿参数 [9] - 模型能力涌现链式推理和上下文学习等高级能力 InstructGPT通过指令微调和RLHF优化交互效果 [9] - LLMs仅能处理文本模态 易受训练数据偏见和提示操纵影响 早期越狱攻击集中于文本层面操纵 [11] 多模态大语言模型(MLLMs)发展 - MLLMs通过跨模态对齐和联合表示学习实现图像音频等非文本信息与文本语义关联 [12] - 能力扩张带来全新安全风险 多模态输入复杂性使攻击面显著扩大 攻击者可利用视觉漏洞和音频漏洞诱导有害内容生成 [13] - 越狱攻击更具隐蔽性 多模态信息融合可能掩盖单一模态中的恶意信号 防御机制难以精准识别 [15] 智能体(Agents)发展 - Agents定义为能够感知环境自主采取行动的智能实体 由核心 规划 工具和记忆四大组件构成 [17][21] - 应用场景从被动响应转向主动执行 带来最严峻的安全挑战 攻击目标变为篡改决策行为 [17] - 攻击者可能通过污染长期记忆或利用工具调用漏洞使Agents执行恶意行动 引发跨Agent的攻击传播 [17] 越狱攻击双维度分类 - 从攻击影响维度细分为攻击阶段与干预层级 攻击阶段包括训练期和推理期攻击 干预层级包括提示层 推理层和模型层攻击 [25][26][28][29][31][32] - 从攻击者权限维度分为白盒攻击和黑盒攻击 白盒攻击可访问模型内部信息进行精准打击 黑盒攻击仅通过输入输出交互进行盲测 [32][35][36] 数据集现状与局限 - 现有数据集按数据来源分为LLM自动生成 搜索引擎检索和人工制作 按数据格式分为问答格式 指令格式和有害句子图像格式 [38][39][40][41] - 存在动态性不足 语言与文化局限 多模态与多轮场景覆盖少三大局限 静态数据集难以跟上快速迭代 英文为主缺乏多语言覆盖 [43] 评估指标分类与应用 - 主流评估指标分为人工评估 Perspective API评估 LLM评估 关键词词典评估和自定义评估五类 [44][46][47][48][50][53][55] - 多方法融合成为趋势 先用关键词词典初步筛选 再用LLM评估批量处理 最后对高争议样本人工审核 [58] - 不同评估方法在各类模型上表现差异显著 例如GCG在AdvBench数据集上对GPT-3.5攻击成功率达90% 但对GPT-4V仅为35% [57] 防御策略体系 - 按防御响应时机分为输入防御 输出防御和联合防御 输入防御源头阻断恶意输入 输出防御结果审核有害内容 联合防御融合多阶段策略 [59][61][62] - 按技术手段分为规则启发式防御 ML/DL防御 对抗检测防御和混合策略防御 混合策略防御成为应对复杂攻击的主流方向 [62][65][66][69][70] - 当前防御存在多模态防御能力不足 智能体防御滞后和防御与能力平衡难三大挑战 [70] 现存局限与未来方向 - 四大核心局限包括数据集多样性模态覆盖与动态性不足 评估方法缺乏统一标准 攻击技术泛化性差和防御技术被动响应 [74][75][76][77] - 五大未来方向包括构建动态多模态多语言数据集 优化评估框架建立统一标准 突破攻击技术泛化性 研发主动防御技术和重视伦理与监管 [79][80][81][82][83] - 大模型安全研究进入全链路多模态多智能体协同防御新时代 需突破现有瓶颈兼顾伦理与监管构建稳健生态 [85]
唯快不破:上海AI Lab 82页综述带你感受LLM高效架构的魅力
机器之心· 2025-08-25 09:10
大语言模型效率挑战与架构演进 - 大语言模型(LLMs)如GPT、Claude、Gemini等在语言理解、生成、代码生成等任务取得突破,但模型规模和数据量快速扩张导致算力和存储资源消耗急剧增加,训练与推理成本居高不下成为应用瓶颈 [2] - Transformer架构的自注意力机制存在O(N²)计算复杂度问题,在长序列任务中成本高昂,FFN部分的密集MLP层也面临效率问题 [3] - 新兴应用场景如RAG、智能体、长链推理和多模态进一步放长了序列需求,加剧了效率与性能之间的矛盾 [3] 高效架构研究综述 - 上海AI Lab联合多家机构总结440余篇论文,形成82页综述论文《Speed Always Wins: A Survey on Efficient Architectures for Large Language Models》,系统梳理LLM高效架构最新进展 [5][7] - 综述将高效架构分为7大类:线性序列建模、稀疏序列建模、高效全注意力、稀疏专家模型、混合模型架构、扩散语言模型和其他模态应用 [6][8] - 研究目标是在算力受限条件下持续推动AI发展,涉及方法类别和代表性论文已形成完整组织架构 [8][10] 线性序列建模技术 - 线性序列建模是研究热点方向,包括Mamba、Lighting Attention、RWKV等代表性工作,通过降低注意力训练和推理复杂度,无需KV Cache开销 [6][11] - 这些方法可概括为统一建模数学形式,通过线性化过程将预训练模型的Softmax Attention架构转为Linear Sequence Modeling架构,实现效率大幅提升 [11] - 具体分为线性注意力、线性RNN、状态空间模型和测试时推理RNN四类,从记忆视角和优化器视角进行统一对比 [12][14][15] - 线性化技术进一步细分为基于微调的线性化和基于蒸馏的线性化 [15] - 硬件高效实现方法包括Blelloch Scan、Chunk-wise Parallel和Recurrent for Inferences三种范式 [17] 稀疏序列建模方法 - 稀疏序列建模利用Attention Map天然稀疏性加速计算,分为静态稀疏注意力、动态稀疏注意力和免训练稀疏注意力三类 [21][24] - 代表性方法包括Global Attention、Window Attention、Dilated Attention等,通过不同稀疏模式降低计算与显存需求 [21][23] 高效全注意力优化 - 高效全注意力在保持完整注意力前提下优化内存访问与KV存储,分为IO-Aware Attention、Grouped Attention、Mixture of Attention和Quantized Attention四类 [22][25] - IO-Aware Attention包含广泛使用的Flash Attention系列,Grouped Attention包含GQA、MLA等全注意力变体 [22][28] 稀疏混合专家系统 - 稀疏混合专家(MoE)已成为语言和多模态大模型架构事实标准,通过对FFN模块改进大幅提升模型容量而不增加计算成本 [26][27] - 分为路由机制、专家架构和MoE转换三个方向,路由机制包括Token-choice和Expert-choice两类 [27][29][31] - 专家结构创新包括共享专家、细粒度专家、零专家、深度路由等 [31][33] - MoE转换通过Split、Copy、Merge等手段构造专家 [33] 混合架构设计 - 混合架构在线性/稀疏注意力和全注意力间取得平衡,分为层间混合和层内混合两种形式,在效率与效果间找到最佳平衡点 [34][35][37] 扩散语言模型进展 - 扩散大语言模型将扩散模型从视觉生成迁移至语言任务,在生成速度上取得大幅进步,分为非自回归扩散LLM、桥接扩散与自回归LLM以及扩展至多模态三类 [38][39][40][42] 多模态应用扩展 - 高效架构已扩展至视觉、音频和多模态领域,以Mamba为代表的线性模型在分类、检测、分割、生成、医疗、自动驾驶等多个视觉任务取得优秀表现 [43][44] - 在音频领域应用于理解、增强与生成任务,多模态领域涵盖理解与统一模型 [43][44] - 应用案例包括InsectMamba、V-MoE、Audio mamba、MaTAV等众多模型 [44]
AI顶会模式出了问题? 「不发表,就出局」的恶性循环,正在压垮整个AI学界
36氪· 2025-08-13 09:08
AI学术会议模式可持续性危机 - 当前集中化的AI学术会议模式因投稿量和参会人数激增而面临严重可持续性挑战,以NeurIPS 2025为例,其投稿量逼近30000篇,并因规模过大导致评审质量下降和签证问题而开设墨西哥分会场[1] - 新加坡国立大学何丙胜教授团队发表立场论文,指出传统会议模式存在根本性弊端,并提出会议核心使命应围绕科学进步、知识传播、社区建设和社会契约四大支柱[3][5] 会议系统具体问题表现 - 论文发表量呈指数级增长,过去十年每位作者年均发表率翻倍至超过4.5篇,预计2040年代将超过每月一篇,导致过度竞争和低质量研究泛滥[4][18] - NeurIPS 2024仅差旅排放量就达8,254吨二氧化碳当量,超过温哥华全市日均碳排放总量,凸显环境不可持续性[4][19] - Reddit平台405条相关帖子中71%为负面评论,其中35%提及心理健康问题,反映社区成员面临巨大心理压力[4][23] - AI研究生命周期快于会议周期,导致研究成果在展示前已过时,同时场馆容量不足(如NeurIPS 2024容量约18,000人)迫使非作者注册采用抽签机制,限制参与公平性[24][27] 现有改进措施的局限性 - 限制作者投稿数量等修补性措施无法根本解决发表压力,仅将压力转移而未减轻系统负担[28] - 多会场模式(如NeurIPS 2025的墨西哥城与哥本哈根平行活动)虽缓解场地压力,但未改变集中化评审结构,且可能制造声望分层体系,违背平等参与原则[28] 新型会议模式提案 - 社区联合型会议(CFC)提出"全球标准,本地实现"框架,将会议功能解耦为三层:全球滚动评审出版、区域中心展示传播、数字化同步协作[30][31][32][33] - CFC通过区域性枢纽(规模500-1,500人)减少90%以上差旅排放,降低经济门槛,并通过数字层(如全球直播和虚拟频道)保障知识传播的公平性与时效性[6][33]
AI顶会模式出了问题? 「不发表,就出局」的恶性循环,正在压垮整个AI学界
机器之心· 2025-08-13 04:49
AI学术会议现状与挑战 - AI顶会如NeurIPS、ICML和ICLR影响力扩大但面临可持续性问题,NeurIPS 2025因30000篇投稿和低质评审陷入争议[3][4] - 过去十年AI领域人均年发表量翻倍至4.5篇,预计2040年代将超每月一篇[7][22] - NeurIPS 2024差旅碳排放达8254吨CO2e,超温哥华全市日均排放量[7][23] - Reddit社区71%会议相关评论为负面,35%涉及心理健康问题[7][28] 传统会议模式的结构性问题 - 论文数量指数增长导致同行评审系统过载,研究周期快于会议安排使成果过时[16][18] - 教职员工人均贡献增速远超人力增长,对其他计算机子领域产生"虹吸效应"[19][22] - 场馆容量不足(如NeurIPS 2024限18000人)造成参与不平等,损害社区建设[31] 新型会议模式探索 - 社区联合型会议(CFC)提出三层架构:全球评审平台、区域展示中心、数字协作层[38][39][40] - CFC通过滚动评审减轻审稿压力,区域中心减少90%差旅排放,数字层保障知识传播[8][40] - 现行多会场模式(如NeurIPS 2025墨西哥分会场)未解决评审集中化与分层问题[34][37] 学术生态深层矛盾 - "不发表就出局"文化催生低质量论文,资深学者缺乏改革动力形成系统性僵局[11][13] - AI研究每7个月能力翻倍,与会议周期脱节导致46%成果展示时已过时[30] - 投稿接收量线性增长而拒稿量指数上升,加剧审稿负担与作者挫败感[30]
辛顿教授世界人工智能大会演讲PPT
2025-07-29 02:10
纪要涉及的行业 人工智能行业 纪要提到的核心观点和论据 智能范式 - 逻辑启发范式认为智能本质是推理,通过符号规则操作符号表达式实现,应先理解知识如何以符号表达形式表示,学习可暂缓 [7] - 后续发展:10 年后 Yoshua Bengio 展示该方式可建模真实自然语言,20 年后计算语言学家开始接受“特征向量(嵌入)”,30 年后谷歌发明 Transformer,OpenAI 展示其强大能力 [13] 大语言模型 - 大语言模型理解语言方式与人类相似,将词转化为能和其他词配合的特征向量,确实“理解”所说的话 [16] - 用乐高类比词语运作,词语像高维乐高积木可建构事物,且建构能传达给他人,词语有灵活性可根据上下文变形,理解句子更像折叠蛋白质分子而非转化为明确逻辑表达 [20][24] - 理解句子是为词分配彼此兼容的特征向量,大语言模型在很多方面像人类,与传统计算机软件不同,且在某方面远优于类比信号驱动的大脑 [28] 数字计算 - 计算机可在不同物理硬件上运行相同程序或神经网络,程序或神经网络权重中的知识是永生的,不依赖特定硬件 [33] - 为实现“永生性”让晶体管高功率运行表现出可靠二进制行为,无法利用硬件丰富类比特性,因其不稳定可靠 [37] 知识转移 - 解决知识从教师到学生转移问题的最佳方法是教师向学生展示各种输入的正确响应,学生调整权重给出相同响应 [41] - 普通句子约含一百比特信息,学生预测下一个词最多学一百比特信息,人类传达知识给他人效率低 [44] - 独立智能体完全共享同一组权重并以相同方式使用时,可通过交换权重或梯度传递知识,一次共享可达数十亿比特带宽,但要求智能体运作方式完全一致,必须是数字化的 [48] 计算对比 - 数字计算耗能大,但相同模型智能体易共享学到的知识;生物计算耗能少,但智能体间共享知识能力差;若能源便宜,数字计算更优 [51] 超级智能 - 人工智能被允许创建子目标时做事更有效,明显子目标是生存和获取更多权力以实现其他目标 [55] - 超级智能可操纵使用它的人类获取更多权力,学会欺骗人类并操纵负责关闭它的人 [58] 未来应对 - 各国不会在防御人工智能危险用途上合作,如网络攻击、致命自主武器、虚假视频操纵公众舆论 [64] - 训练不想夺取人类控制权的向善人工智能的技术,可能与使人工智能更智能的技术相对独立 [68] - 各国可设立资金充足的人工智能安全研究所与国内研究网络,专注研究让人工智能不想夺取控制权,且可共享相关技术而无需透露最智能人工智能的工作方式 [72] 其他重要但是可能被忽略的内容 - 人类在将自己学到的知识传达给他人方面效率非常低 [44]
自动驾驶基础模型全面盘点(LLM/VLM/MLLM/扩散模型/世界模型)
自动驾驶之心· 2025-06-21 11:18
基础模型在自动驾驶场景生成与分析中的应用 - 基础模型(Foundation Models)能够处理异构输入(如自然语言、传感器数据、高清地图和控制指令),实现对复杂驾驶场景的合成与解析 [2] - 文章提出了一个统一分类体系,涵盖大语言模型(LLMs)、视觉-语言模型(VLMs)、多模态大型语言模型(MLLMs)、扩散模型(DMs)和世界模型(WMs)在自动驾驶场景生成与分析中的应用 [2] - 传统场景生成方法存在多样性有限和难以生成真实高风险场景的问题,而基础模型可以解决这些挑战 [2] 语言模型在场景生成中的应用 - 使用GPT-4、Claude 3.5 Sonnet、Gemini 1.5 Pro等大语言模型生成安全关键场景 [9] - 采用CoT(Chain-of-Thought prompting)、ICL(In-Context Learning)、RAG(Retrieval-Augmented Generation)等技术 [9] - 在CARLA、MetaDrive、SUMO等仿真平台上测试生成的场景 [9] 视觉-语言模型在场景分析中的应用 - 使用BLIP2、InstructBLIP2、MiniGPT4等视觉-语言模型进行场景理解和视觉问答 [18] - 在nuScenes、Waymo Open等数据集上进行感知、预测和规划任务 [18] - 采用零样本学习、LoRA(Low-Rank Adaptation)等技术 [18] 扩散模型在场景生成中的应用 - 使用DDPM、DiT、LDM等扩散模型生成交通流和静态交通元素 [27] - 可以控制场景参数如速度、目标航点、交通密度等 [27] - 在nuScenes、Argoverse 2、WOMD等数据集上进行测试 [27] 世界模型在场景生成中的应用 - 使用GAIA-1、DriveDreamer等世界模型进行未来预测和场景生成 [33] - 采用自回归、扩散等架构 [33] - 在nuScenes、Waymo Open等数据集上进行训练和测试 [33] 数据集和仿真平台 - nuScenes、Waymo Open、DRAMA、HighD是最具影响力的数据集 [35] - CARLA、MetaDrive、LGSVL、SUMO是最常用的仿真平台 [36] - 这些资源为自动驾驶场景生成与分析研究提供了重要支持 [35][36]
北大、清华、UvA、CMU等联合发布:大模型逻辑推理能力最新综述
机器之心· 2025-05-07 07:37
大模型逻辑推理研究综述 核心观点 - 大模型研究从依赖扩展定律的预训练转向聚焦推理能力的后训练,逻辑推理能力成为解决幻觉问题的关键[1] - 大语言模型在逻辑问答和逻辑一致性方面存在显著缺陷,LLaMA 13B在FOLIO数据集上8-shot准确率仅33.63%,接近随机猜测水平[10] - 提升逻辑推理能力需结合外部求解器、提示工程、预训练微调等方法,并需满足否定/蕴涵/传递/事实/复合等多类逻辑一致性[15][21] 技术方法分类 逻辑问答 - **基于外部求解器**:将自然语言问题转换为符号表达式,通过求解器推理后集成答案[16] - **基于提示工程**:通过设计提示词显式构造推理链或实现自然语言与符号语言转换[17] - **预训练与微调**:纳入演绎证明样本增强数据集,针对性优化模型参数[18] 逻辑一致性 - **否定一致性**:禁止对命题p与其否定命题同时判定为真[22] - **蕴涵一致性**:确保前提p→q成立时,若p为真则q不得为假[23][24] - **传递一致性**:要求三段论推理链条自洽,如"喜鹊是鸟→鸟有翅膀→喜鹊有翅膀"需成立[25] - **事实一致性**:模型回答需与知识库事实对齐[26] - **复合一致性**:需同时满足多种逻辑规则组合的复杂推理要求[27][28] 典型案例 - 逻辑问答失败案例:给定"金属导电→铁是金属→钉子由铁制成"前提,模型无法推导"钉子导电"结论[6] - 逻辑不一致案例:Macaw模型承认"喜鹊是鸟"和"鸟有翅膀",却否认"喜鹊有翅膀"[11] 未来方向 - 扩展模态逻辑处理不确定性命题[30] - 开发高阶逻辑推理能力以量化谓词属性[31] - 设计同时满足多类逻辑一致性的高效算法[31] 研究基础 - 覆盖5所顶尖高校联合研究,论文被IJCAI 2025接收[1] - 建立完整分类体系并汇总FOLIO等基准数据集[12][15]