Workflow
思维链推理
icon
搜索文档
博世最新一篇长达41页的自动驾驶轨迹规划综述
自动驾驶之心· 2025-12-05 00:03
文章核心观点 - 博世发布了一篇关于基础模型在自动驾驶轨迹规划中应用的重量级综述,系统梳理了37种近期方法,提出了统一分类法,并批判性评估了其设计、优势与局限,旨在为该快速发展的领域建立结构化基础并指明未来方向 [2][11] 背景回顾 - 基础模型是利用海量数据学习表征并可适配多种下游任务的大规模模型,如大型语言模型和视觉语言模型 [4] - 研究表明,未经自动驾驶专门训练的现成基础模型已能令人惊讶地良好理解复杂驾驶场景,这使其成为构建自动驾驶专用方案的潜力基础,也是当前行业范式转变的关键驱动力 [5] - 轨迹规划是驾驶过程最核心的任务,其他能力均为其提供辅助,因此综述重点聚焦于基础模型如何助力轨迹规划模型 [8] 分层分类体系 - 利用基础模型的轨迹规划方法可分为两大主类别:为轨迹规划定制的基础模型、指导轨迹规划的基础模型 [16] - **为轨迹规划定制的基础模型**:通过微调现有预训练基础模型,直接用于自动驾驶场景,共22种方法,可进一步分为仅专注于轨迹规划的模型和具备额外能力的模型 [19][20] - **指导轨迹规划的基础模型**:不构建专用模型,而是将现成基础模型的知识转移到现有自动驾驶模型中,共15种方法,可根据知识转移发生在训练阶段或推理阶段进一步划分 [20][21][22] 为轨迹规划定制的基础模型 - **微调核心要素**:包括数据整理、模型设计和训练策略 [23] - **数据整理**:取决于模型用例,仅用于轨迹规划的数据集核心是“观测-轨迹”数据对;若需语言或动作交互能力,则需补充相应的问答对或指令-轨迹对数据 [24][28] - **模型设计**:主流思路包括直接使用现成视觉语言模型,或组合视觉编码器与大型语言模型并通过视觉适配器连接 [27][29] - **轨迹表征**:常见方式包括将轨迹作为文本生成、作为离散化的动作token、或作为数值集合通过附加的规划头单次生成 [31] - **模型训练**:通常通过单阶段或多阶段完成,例如先训练视觉适配器,再微调全部或部分参数 [29] - **仅专注于轨迹规划的模型**:根据是否使用思维链及使用方式,可细分为无思维链、文本输出作为思维链、初始轨迹预测作为思维链三类 [25][32] - **具备额外能力的模型**:除轨迹规划外,还具备语言交互和/或动作交互能力 [38] - **语言交互能力**:需要视觉问答数据对进行训练,评估采用自然语言处理领域的经典指标 [38][39][40] - **动作交互能力**:可根据用户指令规划轨迹,目前方法均在CARLA模拟器的合成数据集上训练,需具备规避误导性指令的机制 [43] 指导轨迹规划的基础模型 - **仅在训练阶段进行知识蒸馏的模型**:推理阶段无需调用基础模型,能保持效率,方法包括将CLIP表征对齐到端到端模型中,或利用GPT-4o输出元动作进行蒸馏等 [48][49][51] - **在推理阶段进行知识转移的模型**:训练和推理阶段都调用基础模型,计算成本更高,根据转移知识类型可分为转移场景描述、转移规划决策、或同时转移两者 [48][53] - **知识转移类型**:包括场景描述、元动作、轨迹等,通过不同编码方式融入到自动驾驶模型的各个层级 [53][54][55] 现有方法的数据集与代码开放性 - 开放性是推动研究进展和实际部署的关键,但无任何一种方法的所有资产均支持研究与商业双用途 [57][59] - 仅有5种方法公开了所有资产,但部分仍限制商业使用,其中4种属于“为轨迹规划定制的基础模型”,1种属于“指导模块化自动驾驶模型轨迹规划的基础模型” [59] - “指导端到端自动驾驶模型轨迹规划的基础模型”类别尚无开源实现,训练代码与模型权重是限制最严格的资产 [59] 开放问题与挑战 - **高推理成本导致部署困难**:基础模型参数庞大且自回归生成,导致推理延迟高,难以满足实际部署所需的10-30帧/秒帧率要求,例如Orion模型在A800 GPU上推理帧率仅为0.8帧/秒 [63] - **微调后的能力下降**:微调可能导致视觉语言模型丧失对轨迹规划潜在有用的能力,出现“概念遗忘”现象 [64][66] - **动作交互能力局限**:现有模型仅能处理短时域内可执行的指令,无法拆解和执行人类化的复杂多步指令 [68] - **仿真到现实的差距**:所有具备动作交互能力的模型均在合成场景中训练测试,存在域转移问题,阻碍实际部署 [69] - **性能影响因素不明**:不同方法在架构、数据、训练上差异巨大,难以厘清导致性能差异的核心因素 [70] - **缺乏推理能力评估基准**:需要建立标准基准来评估模型在复杂语言-视觉场景下的推理能力 [71]
超越ORION!CoT4AD:显式思维链推理VLA模型(北大最新)
自动驾驶之心· 2025-12-02 00:03
文章核心观点 - 提出一种名为CoT4AD的新型视觉-语言-动作模型,该模型将思维链推理引入端到端自动驾驶领域,旨在解决现有VLA模型数值推理能力有限和输入-输出映射过于简化的问题 [1] - 该框架通过整合视觉观测和语言指令,实现语义推理、场景理解与轨迹规划,在训练阶段构建“感知-提问-预测-动作”的显式思维链,推理阶段则通过隐式思维链实现稳健决策 [1][3] - 在真实世界数据集nuScenes和仿真数据集Bench2Drive上的实验表明,CoT4AD在开环和闭环评估中均取得了最先进的性能,验证了其有效性 [1][6][10] 技术背景与挑战 - 传统模块化自动驾驶系统面临误差累积、跨模块优化困难及泛化能力有限等问题,端到端自动驾驶范式应运而生,旨在利用统一学习框架直接从传感器输入预测驾驶信号 [2] - 随着大规模视觉-语言模型的发展,视觉-语言-动作模型展现出处理多模态输入和更强可解释性的潜力,但其继承了VLMs的固有缺陷,即在复杂环境中数值推理能力较弱 [2][3] - 现有方法将大语言模型视为从感知到数值输出的单一映射器,忽视了其多步推理能力,导致在需要逐步因果推理的复杂驾驶场景中性能一般 [1][3] CoT4AD框架核心设计 - 框架整合了环境感知、语言推理、未来预测和轨迹规划,通过多阶段训练过程培养适用于自动驾驶的思维链推理能力 [6] - 在3D环境感知方面,采用以特征为中心的感知训练方式,通过多视图图像输入和BEV空间投影,生成包含静态元素和动态目标的全面环境表示 [7][8] - 提出视觉-语言提示微调方法,引入跨阶段无关token作为可学习的离散化token,用于编码视觉细节并贯穿思维链推理的不同阶段,以提升多模态感知与语言推理的融合效果 [11] - 采用VLM条件潜在扩散模型进行未来场景预测,通过在潜在空间进行扩散建模避免高维像素空间的计算负担,使模型能学习未来场景预测并增强对场景语义和物理规律的理解 [12] - 思维链轨迹规划阶段直接在动作空间进行扩散,利用扩散Transformer以带噪声动作和条件嵌入为输入,预测去噪后的轨迹,实现高效规划 [13] 实验结果与性能 - 在nuScenes数据集的开环评估中,CoT4AD在1秒、2秒、3秒时域下的L2距离误差分别为0.12米、0.24米、0.53米(平均0.29米),平均碰撞率为0.10%,性能显著优于OpenDriveVLA、EMMA等最新VLM方法 [17] - 在Bench2Drive数据集的闭环评估中,CoT4AD-CoT版本的驾驶得分高达81.22,成功率达55.78%,超过ORION、DriveTransformer-Large等基线方法,且在效率和舒适性方面实现平衡 [18][19] - 与UniAD的定性对比显示,CoT4AD在避障变道和超车机动等复杂场景下能生成更平滑、连续的轨迹,并更早识别驾驶意图,展现出更强的时序推理和高层语义理解能力 [21][23][25] 消融研究与关键发现 - 感知Tokenizer的有效性研究表明,结合基于感知标签的Tokenizer和基于视觉特征的Tokenizer能取得最优闭环指标,表明感知标签提供环境指导,而图像特征保留更完整语义,二者结合可增强整体性能 [26][27] - 思维链设计的消融实验证明,感知模块、VQA模块和未来扩散模块三者相辅相成,结合所有模块的模型取得最优性能(驾驶得分80.24,成功率55.22%),其中未来预测模块对性能提升贡献最大 [28] - 未来场景预测数量的研究表明,预测4个未来场景时模型性能达到峰值(成功率55.78%),超过此阈值则因信息过载导致性能下降,表明需在信息量与模型负担间找到平衡 [29] 总结与意义 - CoT4AD通过“感知-视觉问答-扩散-规划”的多步推理流程,在视觉空间、推理空间与动作空间间实现了更好的对齐,能够为驾驶任务提供更平滑、更精准的规划 [30] - 该工作为自动驾驶领域引入了量身定制的思维链推理机制,显著提升了模型在动态、大规模且安全关键环境中的数值推理、长时域规划和稳健泛化能力 [3][10]
北京大学最新!MobileVLA-R1:机械臂之外,移动机器人的VLA能力怎么样了?
具身智能之心· 2025-11-30 03:03
文章核心观点 - 北京大学等团队推出的MobileVLA-R1模型,通过“结构化思维链推理+两阶段训练范式”,首次在四足机器人上实现了自然语言指令下的显式推理与连续控制,有效弥合了高层语义推理与底层动作控制之间的鸿沟,在导航和操作任务中性能领先[1] 当前行业痛点与解决方案 - 当前四足机器人视觉-语言-动作系统面临“推理-控制脱节”困境,具体表现为直接从语言映射到动作导致稳定性差、泛化能力弱,以及依赖隐式嵌入导致推理不可追溯、难以进行错误排查[2] - MobileVLA-R1的核心突破在于将“思维链推理”与“连续动作执行”解耦,通过结构化数据监督和强化学习,让机器人先推理再执行,兼顾可解释性与控制稳健性[2] 核心技术架构与数据集 - 模型核心设计基于“结构化CoT数据集 + 两阶段训练 + 多模态感知融合”三大模块[4] - 构建了首个面向四足机器人的大规模结构化思维链数据集MobileVLA-CoT,包含18K条episode级样本、78K条步骤级样本和38K条导航专用样本,覆盖导航与操作全场景[4] - 数据集基于R2R、RxR导航数据集和262K规模的QUARD四足机器人数据集,通过大模型生成并经过规则过滤与人工校验[4][5] - 采用分层VLA架构,包含“感知-推理-执行”三级,实现从多模态输入到连续控制的端到端映射[6] - 采用两阶段训练范式:先在MobileVLA-CoT数据集上进行监督微调,建立基础映射;再采用Group Relative Policy Optimization进行强化学习优化,设计了三重奖励函数[8] - 多模态感知前端融合RGB图像、深度图和点云数据,使用DepthAnything V2和Point Transformer v3编码器精准捕捉3D空间信息[8] - 推理模块基于LLaMA3-8B语言模型生成结构化输出,动作解码器将其转化为四足机器人的连续控制指令[8] 模型性能表现 - 在导航任务基准测试中,在R2R-CE和RxR-CE数据集上的成功率分别达到68.3%和71.5%,较现有方法平均提升5%,导航误差低至4.05,轨迹效率达65.2%[10] - 在四足控制任务中,在QUARD数据集的6项运动与操作任务中平均成功率达73%,硬难度任务成功率达44%,显著超越QUART、MoRE等基线模型[12][13] - 在Unitree Go2四足机器人上的真实世界测试显示,在复杂指令下的成功率高达86%-91%,导航误差低于1.23,能稳定完成多步连贯任务[16][18] - 消融实验证明,同时启用运动、动作、格式三重奖励函数时性能最优,移除任一奖励会导致成功率下降3%-10%[17] - 多模态感知消融实验表明,新增深度和点云编码器后,导航成功率提升5.8%[19][20] 技术意义与未来方向 - 该研究首次将思维链推理与强化学习融入四足机器人的VLA框架,打破了“要么可解释、要么稳执行”的行业困境[21] - 结构化CoT推理是弥合语义-控制鸿沟的关键,显式推理过程提升了指令落地的稳定性和决策可解释性[23] - 两阶段训练范式兼顾了“冷启动效率”与“优化上限”,实现协同效应[23] - 多模态融合提升了机器人在复杂空间中的泛化能力[23] - 未来方向包括扩展动作空间以支持更精细操作、通过模型蒸馏与量化降低8B参数主干的推理延迟以适应实时交互,以及探索自监督学习以减少对标注数据的依赖[23]
AI越会思考,越容易被骗?「思维链劫持」攻击成功率超过90%
机器之心· 2025-11-03 08:45
思维链劫持攻击概述 - 思维链劫持是一种新型的AI越狱攻击方法,通过在有害指令前填充一长串无害的解谜推理序列,系统性地稀释模型的安全防线,使其对后续有害指令的拒绝率降低[1][5] - 该方法对主流大型推理模型的攻击成功率极高,在HarmBench基准上对Gemini 2.5 Pro、GPT o4 mini、Grok 3 mini和Claude 4 Sonnet的攻击成功率分别达到99%、94%、100%和94%,远超基线方法[2][11][15] - 攻击的核心机制被定义为“拒绝稀释”,即良性推理token会削弱拒绝方向的信号,使得有害token在长推理链中仅占很小一部分,从而导致安全机制失效[23][24] 攻击方法与实验设计 - 攻击设计包含两个关键组件:一个冗长的良性推理前言和一个最终答案提示,通过自动化流程生成并优化攻击提示[4][5][6] - 实验在HarmBench基准的前100个样本上进行,目标模型包括Gemini 2.5 Pro、ChatGPT o4 Mini、Grok 3 Mini和Claude 4 Sonnet,使用统一的评判协议[10][11] - 在GPT-5-mini上的进一步测试显示,攻击成功率在“低推理投入”设置下最高,达到76%,表明推理投入与CoT长度是相关但不同的变量,更长的推理链并不总是增强稳健性[16][18][19] 攻击机制与模型安全性影响 - 研究发现大型推理模型的拒绝行为可由激活空间中的一个低维“拒绝方向”控制,该方向在第25层、位置-4处表现最强[21][22] - 思维链推理在提升模型准确性的同时,引入了新的安全漏洞,直接挑战了“更多推理带来更强稳健性”的假设[26] - 现有基于浅层拒绝启发式的对齐策略在长推理链面前可靠性受质疑,有效的防御需将安全性嵌入推理过程本身,如跨层监控拒绝激活或抑制信号稀释[26]
AI能否「圣地巡礼」?多模态大模型全新评估基准VIR-Bench来了
机器之心· 2025-10-15 04:08
研究背景与目标 - 多模态大模型在真实世界应用的一个重要场景是自动解析旅行视频中的地理位置与时间顺序,以生成旅行计划[2] - 研究团队提出名为VIR-Bench的全新多模态大模型评估基准,旨在评测AI对旅行视频中地理位置与时间顺序的理解能力[4] 任务设计与数据集构建 - VIR-Bench的核心任务是行程还原,要求模型根据旅行vlog输出访问顺序图,包含访问地点及其顺序和包含关系的结构化表示[6] - 访问顺序图是一个有向图,节点分为Prefecture、City和POI三个层级,包含包含边和转移边两种关系[7] - 任务被拆解为节点预测和边缘预测两个子任务,分别评估模型的地理识别能力与时序推理能力[10][11][12] - 数据集包含200个在日本拍摄的旅行vlog,标注了3,689个POI,覆盖日本43个都道府县[13][17] 实验结果与洞察 - 开源模型整体性能落后于商用模型,尤其在POI节点识别和转移边预测子任务上差距明显[16] - 转移边预测是所有模型的最难关,部分模型结果接近随机水平[16] - 模型规模扩展对性能提升有显著作用,地理相关预训练是POI节点预测精度差异的关键因素[16] - 思维链推理在边缘预测中能带来显著改善,结合音频信息后效果提升尤为突出[16] - 增加输入帧数、更长的推理过程以及利用音频信息是模型性能提升的关键方向[18] - 当前模型整体性能远未达到可用水平,即使是得分最高的Gemini-2.5-Pro也存在大量错误[18] 模型性能数据 - 在节点预测任务中,表现最好的商用模型Gemini-2.5-Pro在Prefecture层级的F1分数为87.7,在City层级为68.6,在POI层级为52.8[19] - 在边缘预测任务中,Gemini-2.5-Pro在包含边预测的F1分数达到90.8,在转移边预测为66.8,综合F1为80.7[19] - 开源模型中表现最好的Qwen2.5-VL-72B在节点预测综合F1为38.1,在边缘预测综合F1为52.4[19] 应用前景与意义 - VIR-Bench为未来诸多应用打开窗口,其核心能力与机器人理解世界、规划路径以及自动驾驶系统的决策需求高度契合[19] - 该研究指明了多模态大模型的进化方向,包括更强的地理空间感知、更可靠的时间推理以及多模态信息的深度融合[20]
ICCV 2025|UV-CoT:无监督视觉推理新突破,偏好优化重塑图像级思维链
机器之心· 2025-07-28 04:24
核心观点 - 提出UV-CoT框架,实现无监督视觉思维链推理,动态聚焦关键区域并提升细粒度推理能力[3][4] - 通过自动化偏好数据生成与评估流程替代人工标注,降低高昂成本并增强泛化能力[7][8] - 采用改进的sDPO算法量化偏好分数差异,结合迭代学习策略优化模型输出分布[16][17] 方法设计 - **数据生成机制**:利用目标模型和评估模型生成多样化推理响应,通过偏好评分构建数据集[11] - 响应生成:每个时间步t随机生成n个响应(含边界框和推理结果)[13] - 评估标准:综合当前区域得分及对后续回答的影响(公式:$s^i = s_{cur}^i + \gamma s_{nxt}^i$)[11] - **偏好优化**:从响应中随机选择k个偏好对构建数据集,保留最高评分链用于后续推理[14] - **迭代学习**:将数据分为m个子集动态更新,缓解模型生成分布与训练数据的差异[17] 性能表现 - **基准测试**:在六大基准上平均得分0.286(UV-CoT)和0.312(UV-CoT*),显著超越有监督模型Visual-CoT-7B(0.261)[20][22] - 具体任务:在Visual7w上达0.432,高于Visual-CoT-7B的0.397[22] - 复杂任务:GPT4V-hard OCR任务中得分0.677,对比Visual-CoT-7B的0.593[22] - **边界框质量**:自评估模式下性能仍超LLaVA-1.5-7B 4.8%,接近OmniLMM-12B(差距0.2%)[23] - 辅助推理:应用UV-CoT边界框使OmniLMM-12B和LLaVA-1.5-7B性能分别提升7.3%和4.7%[23] 应用价值 - 为多模态推理提供高效可扩展的新思路,减少对人工标注的依赖[25] - 开源资源包括论文、代码及模型(Hugging Face仓库),促进后续研究[10]
3D芯片堆叠,新方法
半导体行业观察· 2025-07-01 01:03
半导体封装技术进展 - 半导体封装的下一个重大飞跃需要新技术、新工艺和新材料,以实现性能数量级提升,对人工智能时代至关重要 [1] - AMD、台积电、三星、英特尔等公司在混合键合、玻璃芯基板、微通道冷却等方面取得显著进步 [1] - 人工智能对计算的需求将持续增长,芯片制造和封装创新将发挥核心作用 [2] 热管理与液体冷却技术 - 芯片级液体冷却技术正在兴起,以解决强制风冷技术的极限问题 [4] - 台积电的硅集成微冷却器 (IMEC-Si) 在10升/分钟水流条件下可实现超过3,000瓦的均匀功耗,功率密度高达2.5 W/mm² [6] - 佐治亚理工学院提出“芯片作为冷却剂”概念,采用5nm TSV的硅散热器冷却能力超过300W/cm² [9] - 三星在移动处理器中采用铜基散热块,散热性能提高20% [11][13] 混合键合技术 - 混合键合间距已从10µm微缩至1µm,英特尔展示了相关研究成果 [5][16] - 工研院和Brewer Science展示了五层堆叠结构,采用聚合物/铜RDL进行铜-铜混合键合,适用于高速数字应用 [14] - 晶圆间键合和芯片间键合各有优势,后者在贴装精度和翘曲控制方面面临挑战 [17] 背面供电技术 - 背面供电技术在晶圆背面构建供电网络,降低晶体管电压降,但加剧了热点问题 [19] - IBM开发了AI模型用于精确计算后端堆栈的传热,优化设计阶段的散热考虑 [21] - Imec模拟显示,背面供电网络在逻辑和存储器堆叠中的热影响显著,逻辑芯片位于顶层的配置受存储器温度限制 [23][24] 共封装光学器件 (CPO) - 共封装光学器件将光学引擎与GPU和HBM集成,传输速度从200 Gb/s提升到6.4Tb/s,带宽提高32倍 [26] - ASE展示了用于ASIC交换机和以太网/HBM的模块化CPO平台 [28] - 康宁和Fraunhofer IZM提出可扩展的平面二维波导电路,减少光纤电缆端接和手动组装需求 [28] 热模拟与封装设计 - 热模拟在多芯片组封装设计中发挥关键作用,用于选择最终设计并降低风险 [28] - Imec的3D堆栈模拟显示,层间冷却技术可将温度从500°C降至50°C左右 [24]
8个数据集全面胜出!思维链推理刷新图学习表现上限
量子位· 2025-06-08 03:40
核心观点 - GCoT是首个应用于无文本图数据的类思维链提示学习框架,通过多步推断机制显著提升少样本学习性能 [1] - 在8个图数据集的少样本节点分类与图分类任务中全面超越现有SOTA方法,1-5样本设置下优势最显著 [1][19] - 框架创新性融合层次化结构知识生成节点专属提示,拓展了图学习推理方式 [24][25] 方法解析 整体框架 - 将图和提示输入预训练图编码器,聚合各层隐藏表示生成"思维"指导下一步推断 [5] - 包含三阶段:基于提示的推断→思维构建→基于思维的提示学习 [6][7][8] 关键技术 - **思维构建**:对编码器各层嵌入加权求和生成融合向量,捕获节点层次化结构知识 [7][24] - **节点专属提示**:通过条件网络将上轮思维转化为节点特定提示矩阵,动态调整下一步输入 [8][25] - **标准提示学习**:采用GPF+方法生成偏置项提示,但作用于最终嵌入而非初始特征矩阵 [9][10] 实验结果 性能表现 - 节点/图分类任务中均超越基准模型,预训练方法优于监督学习 [18] - 1-10样本实验中全面领先,1-5样本区间提升最显著(具体数据未披露) [19] - 多步推断机制是关键:完整GCoT优于单步变体GCoT\L1/L2/L3 [20] 消融实验 - 移除分步推断的GCoT\CoT性能大幅下降,验证逐步推断必要性 [20] - 将CoT机制植入GPF/GPF+/ProG等基准模型后,所有模型性能均提升 [21] 创新价值 - 首次实现思维链提示学习在图数据中的应用,突破无文本数据推理瓶颈 [22] - 提出层次化思维融合与动态提示生成机制,为图学习提供新方法论 [23][24] - 开源代码与论文推动行业技术迭代(论文链接见原文) [25]
海天瑞声20250605
2025-06-06 02:37
纪要涉及的公司 海天瑞声 纪要提到的核心观点和论据 - **财务表现**:2024 年全年营收 2.37 亿元,同比增长 39.45%,毛利率提升至 66.46%,同比增加 10.45 个百分点,归母净利润 1134 万元,较上年同期改善 4172 万元,经营性现金流净额 2873 万元,同比增加 5978 万元;2025 年第一季度营收 6981 万元,同比增长 72%,毛利率 47.41%,归母净利润 37 万元,同比增长 101 万元 [2][3][14] - **应对全球市场机遇**:通过创新品牌营销拓展海外市场,构建全球化供应链和服务能力,在智能驾驶领域紧跟车企出海布局海外数据采集,优化算法和平台功能,推动 2024 年业绩增长 [5] - **核心能力建设成果**:2024 年在一体化平台建设和基础算法研究取得进展,包括升级智能驾驶数据处理平台、构建智能化数据运营平台、搭建 data x 数据中台、增厚算法储备并启动语音大模型自研项目 [6] - **构建差异化竞争壁垒**:确立科技引领战略,通过研发投入突破技术瓶颈,布局多模态融合等领域,针对自动驾驶点云标注提出动静态分类标注方案,依托标注工具链等保持领先 [7] - **智能驾驶标注领域创新**:推出多帧点云叠加及物体跟踪算法提升标注效率,向 4D 标注转化,自研 SLAM 算法优化泊车场景 4D 点云标注,开发智能分段加载解决方案突破边缘场景标注瓶颈 [2][8] - **语音识别和合成领域进展**:与清华合作启动语音大模型 Dolphin 训练项目,收集 21.2 万小时数据集,覆盖 40 种东方语种和 22 种中国方言,新增 11 个语种,深入核心场景并推出特色音色 [3][10] - **计算机视觉与自然语言处理领域**:计算机视觉打造多种数据集,自然语言处理构建思维链数据和高价值数据集,支撑大模型复杂推理和行业应用 [11] - **2025 年度计划**:以技术加产品双轮驱动,构建智能化数据管理平台,升级多模态数据产品矩阵,探索具身智能,扩充专业领域标注资源网络 [12] - **参与国家数字经济战略布局**:融入国家数字要素市场建设,与地方政府等合作构建数据治理与流通体系,联合高校培养人才,助力打造基地和新生态,开发解决方案赋能政企客户 [13] 其他重要但是可能被忽略的内容 - 2024 年公司获得国内外领军企业多类多模态数据订单,高毛利标准化数据及产品收入占比提升和定制服务毛利率改善推动业绩增长 [4] - 2025 年第一季度业绩增长得益于计算机视觉业务大型客户采购增加、自然语言处理业务垂直领域需求增长、海外业务拓展定制服务市场 [14]
Sebastian Raschka 新书《从头开始推理》抢先看,揭秘推理模型基础
机器之心· 2025-05-02 04:39
推理模型发展现状 - 著名AI技术博主Sebastian Raschka正在撰写新书《Reasoning From Scratch》,聚焦LLM推理机制实现[2] - 当前LLM的成功主要依赖统计模式识别,而新兴推理技术使其能处理逻辑难题、多步骤算术等复杂任务[5] - OpenAI的o1模型和深度求索的DeepSeek-R1标志着推理能力成为行业焦点[41][44] LLM推理的核心定义 - LLM语境中的推理指模型生成中间步骤(思维链CoT)后输出最终答案的能力[8] - 推理过程可能展示中间步骤,但其底层机制与人类认知存在本质差异[12][13] - 推理与模式匹配的根本区别在于:前者需逻辑推导,后者仅复现训练数据中的统计关联[23][25] LLM训练流程 - 传统训练分两阶段:预训练(TB级文本学习语言模式)和后训练(指令微调+偏好微调)[16][17] - 预训练成本极高(数千GPU运行数月/数百万美元),使模型具备翻译、代码生成等涌现能力[17] - 后训练阶段通过SFT提升任务理解能力,通过偏好微调优化输出风格[20] 模式匹配与逻辑推理对比 - 标准LLM(如GPT-4o)通过高频搭配记忆回答问题(如「德国→柏林」),非真实推理[24] - 面对矛盾前提(「所有鸟都会飞但企鹅不会」),普通LLM依赖训练数据中的文字概率而非逻辑检查[28][30] - 大规模训练使模型能模拟推理行为,但遇到全新题型、复杂推导时仍易出错[36][37] 推理能力提升方法 - 推断时间计算增强:通过思维链等技术在推理阶段提升性能,无需修改模型权重[46] - 强化学习:基于数学证明正确性等客观奖励信号动态优化推理策略[47] - 知识蒸馏:将高性能模型的推理模式迁移至轻量化模型,需专用推理任务数据集[48][49] 推理模型的应用权衡 - 推理模型适用于数学证明、编程等复杂任务,但对翻译、问答等简单任务效率低下[56] - 生成更长中间步骤导致计算成本倍增(API计费按token数量)[57] - 行业趋势显示主流厂商正将推理能力整合至通用模型(如OpenAI计划统一GPT与o系列)[54][55] 实践价值 - 从头实现推理模型可深入理解LLM能力边界与计算成本权衡[51][57] - 深度求索开源方案推动行业技术透明化,降低开发门槛[52] - 专用推理模型需与通用模型配合使用,形成任务适配的技术矩阵[56]